Le accuse di OpenAI verso DeepSeek per uso illecito di questa tecnica evidenziano le complesse sfide legali ed etiche per garantire che l’implementazione dei sistemi di AI avvenga nel rispetto dei diritti della proprietà intellettuale.
DeepSeek è emersa nel panorama dell’intelligenza artificiale con il rilascio di R1, il 20 gennaio 2025. L’azienda cinese, con sede a Hangzhou, è finanziata dal fondo d’investimento High-Flyer ed ha come fondatore ed amministratore delegato Liang Wenfeng capace di sviluppare un modello competitivo con un budget di soli 5,6 milioni di dollari, una cifra significativamente inferiore rispetto agli oltre 100 milioni di dollari di cui ha parlato Sam Altman per GPT-4.
R1 ha ottenuto valutazioni elevate, comparabili a quelle di OpenAI e Google.
Il 10 gennaio 2025, DeepSeek ha rilasciato la sua prima app gratuita per iOS e Android che in soli 17 giorni ha superato ChatGPT come download sull’App Store iOS negli Stati Uniti, provocando un vero e proprio sconvolgimento del settore.
Il modello DeepSeek-R1 fornisce risposte comparabili a quelle di altri LLM, ma censura alcune risposte relative ad argomenti politicamente sensibili in Cina.
In un articolo pubblicato sul Financial Times risulta che OpenAI affermi di aver trovato prove che la start up DeepSeek abbia usato i modelli proprietari della società statunitense per addestrare l’AI open-source, con possibile violazione della proprietà intellettuale.
Al momento in cui scriviamo non sono state rese note maggiori informazioni, ma cerchiamo di capire in cosa consiste questa tecnica di per sé legale ed applicata in vari ambiti, con le diverse implicazioni che possono nascere da un uso illecito.
LA TECNICA DELLA DISTILLAZIONE
La distillazione dei modelli è un processo in cui un modello di grandi dimensioni e ad alte prestazioni (noto come “insegnante“) viene utilizzato per addestrare un modello più piccolo e leggero (noto come “studente“). Il secondo cerca di imitare le predizioni del primo apprendendo le stesse rappresentazioni con una complessità computazionale ridotta. Questo approccio consente modelli efficienti in termini di risorse, mantenendo al contempo un elevato livello di accuratezza.
Il processo ha diversi passaggi chiave:
- Modello Insegnante: un modello di grandi dimensioni già addestrato su un vasto dataset.
- Generazione di Output: il modello insegnante è usato per generare output (come probabilità o previsioni) su un insieme di dati.
- Addestramento del Modello Studente: sia sui dati originali che sugli output generati dall’insegnante, apprendendo a imitare il comportamento dell’insegnante.
- Ottimizzazione: si applicano tecniche di ottimizzazione per affinare le prestazioni del modello studente, assicurando che raggiunga un livello di accuratezza comparabile a quello dell’insegnante.
La distillazione è utile per molte applicazioni reali soprattutto su dispositivi mobili o per contenere i costi computazionali nei data center, migliorando la resa in ambienti con risorse limitate.
In linguaggi di programmazione come Python, la distillazione può essere implementata con TensorFlow, PyTorch, Google JAX o librerie specifiche per il deep learning.
COME FUNZIONA
La distillazione opera dopo la fase di tokenizzazione e embedding. Il modello Studente non apprende direttamente i token, ma le distribuzioni di probabilità che il modello Insegnante assegna alle parole o ai concetti. A livello tecnico, la distillazione si basa su tre componenti fondamentali:
- Soft Target: invece d’impiegare solo le etichette corrette (come nei normali modelli di machine learning), il modello studente impara dalle probabilità di output del modello insegnante che forniscono informazioni più ricche sulla struttura dei dati.
- Temperature Scaling: una funzione di softmax con una temperatura maggiore per “ammorbidire” le probabilità di output dell’insegnante. Questo aiuta il modello studente a cogliere relazioni più sfumate tra le classi.
- Funzione di perdita combinata: il modello studente viene addestrato con una funzione di perdita che combina l’errore rispetto ai dati etichettati reali e quello rispetto alle predizioni “ammorbidite” del modello insegnante.
Principali differenze fra “insegnante” e “studente”
L’addestramento normale avviene con hard label (es. “gatto” = 1, “cane” = 0).
La distillazione utilizza output probabilistici morbidi che contengono più informazioni (es. “gatto” = 0,75, “cane” = 0,20, “coniglio” = 0,05).
WORKFLOW OPERATIVO
Il programmatore che esegue la distillazione non si limita a copiare pesi tra due modelli, ma deve estrarre conoscenza utile dal modello insegnante e adattarla con l’obiettivo di ottenere un compromesso tra accuratezza e riduzione della complessità computazionale, con particolare attenzione alle specifiche esigenze di deployment (cloud, mobile, edge computing).
La seguente pipeline può variare in base all’applicazione (NLP, computer vision, reinforcement learning), ma le logiche fondamentali restano le stesse.
- Scelta del Modello Insegnante e Definizione del Dataset
– Il programmatore seleziona un modello insegnante già addestrato (ad esempio, un LLM come GPT, un modello vision transformer o una rete CNN per immagini).
– Si definisce un dataset di input che può essere il dataset originale dell’insegnante o un dataset selezionato in base all’applicazione finale.
– Il dataset viene preprocessato (tokenizzazione, normalizzazione, augmentation) per garantire compatibilità con il modello studente. Se necessario si può applicare feature extraction.
- Generazione degli Output dell’Insegnante
– Si usa il modello insegnante per elaborare il dataset e generare soft label, ossia distribuzioni di probabilità sulle classi invece di sole etichette binarie.
– Questo step può essere computazionalmente oneroso, specialmente se il modello insegnante è molto grande (es. GPT-4).
– Il programmatore può memorizzare gli output in un file per accelerare il training successivo del modello studente.
– Alcuni approcci avanzati usano teacher ensemble (più insegnanti) per migliorare la qualità del trasferimento.
- Definizione del Modello Studente
– Si crea un’architettura più piccola del modello insegnante, riducendo il numero di parametri e la complessità della rete neurale.
– Il programmatore deve bilanciare efficienza e accuratezza: modelli più piccoli potrebbero perdere informazioni critiche se compressi eccessivamente.
– Esistono diverse strategie di compressione, tra cui pruning e low-rank factorization, oltre alla distillazione.
- Implementazione della Funzione di Perdita (Loss Function)
– Si definisce una loss combinata che tiene conto di due elementi:
- Cross-entropy loss rispetto alle etichette reali (se disponibili).
- Kullback-Leibler divergence loss (KL-divergence) per misurare quanto le probabilità del modello studente si avvicinano a quelle dell’insegnante.
– S’introduce temperature scaling nel softmax per controllare la “morbidezza” delle probabilità trasferite dal modello insegnante.
- Training del Modello Studente
– Si avvia il training con il dataset originale, ma il modello studente apprende principalmente dalla supervisione dell’insegnante piuttosto che dalle sole hard label.
– Il programmatore deve ottimizzare l’addestramento usando:
– Gradient Descent con ottimizzatori avanzati (Adam, LAMB, RMSprop).
– Batch size e learning rate adattivi per bilanciare stabilità e velocità.
– Data augmentation (se applicabile) per evitare overfitting.
- Valutazione e Fine-Tuning
– Dopo il training iniziale, il modello studente viene testato su un dataset di validazione.
– Si confrontano le performance con il modello insegnante per valutare la perdita di accuratezza e il guadagno in efficienza computazionale.
– Se necessario, si applicano tecniche di fine-tuning, ad esempio:
- Knowledge distillation iterativa, ripetendo il processo con diverse temperature.
- Quantizzazione per ridurre ulteriormente il peso del modello.
- Deployment e Ottimizzazione Hardware
– Il modello distillato viene convertito in un formato ottimizzato per il deployment su dispositivi target:
– ONNX per inferenza cross-framework.
– TensorRT per GPU Nvidia.
– TFLite per dispositivi mobili.
– JAX/XLA per accelerare il runtime su TPU (Tensor Processing Unit).
– Se il modello è destinato a sistemi embedded o cloud, s’integrano API di inferenza ottimizzate per ridurre latenza e costi computazionali.
ESEMPI COMUNI DI DISTILLAZIONE
Questa pratica finita alla ribalta grazie allo scontro fra OpenAI e DeepSeek è comune e perfettamente legale in molti contesti accademici e industriali. Ecco alcuni esempi:
Traduzione automatica: si potrebbe voler creare un piccolo modello di traduzione per una lingua rara, sfruttando un grande modello, già addestrato su lingue più diffuse, purché open-source o ottenuto con un regolare accordo di licenza.
Diagnostica medica: un team di ricerca potrebbe voler creare un modello di AI che aiuti a identificare malattie da immagini mediche, distillando una rete neurale di maggiori proporzioni per adeguarla a dispositivi portatili in ospedali con risorse limitate.
Assistenza vocale offline: alcune big-tech si servono della distillazione per creare assistenti vocali che funzionano direttamente sui telefoni, senza bisogno di connettersi a un server.
LE POTENZIALI VIOLAZIONI
Lo sviluppo di un’intelligenza artificiale richiede l’accesso a grandi quantità di dati e l’utilizzo di modelli preesistenti, ma se l’uso non è autorizzato o esistono dati protetti da copyright si configurano infrazioni che possono portare ad azioni legali per:
– Violazione del copyright.
– Violazione dei termini di servizio: molte aziende stabiliscono termini specifici che vietano l’utilizzoo dei loro servizi o output per creare prodotti concorrenti.
– Spionaggio industriale.
IMPLICAZIONI SUL MERCATO DEI CHIP
L’adozione della distillazione dei modelli ha ripercussioni sul mercato dei semiconduttori. Modelli AI più efficienti riducono la domanda di hardware ad alte prestazioni, influenzando le vendite di aziende leader nei chip.
L’affermazione di DeepSeek è coincisa con la contemporanea perdita, intorno al 17%, del valore delle azioni di Nvidia, con cali significativi anche per Microsoft e TSMC. Discorso a parte per AMD che ha chiuso il 2024 con un calo del 17%, con lieve recupero negli ultimi giorni.
La distillazione dei modelli è una tecnica potente e utile, ma può diventare un problema se usata senza autorizzazione.
Questo scenario ha un impatto enorme sull’industria dell’AI perché implica che aziende concorrenti potrebbero adoperare modelli proprietari senza aver investito risorse nella loro creazione, semplicemente distillandone la conoscenza.
La sfida per il futuro sarà bilanciare innovazione e rispetto della proprietà intellettuale, mentre il settore dei semiconduttori dovrà adattarsi a un mercato in evoluzione, magari concentrandosi su hardware per modelli AI più piccoli ed efficienti.
La nota amara è il ruolo marginale dei paesi dell’Unione Europea che si distinguono solo a livello normativo.
RIPRODUZIONE RISERVATA – © 2025 SHOWTECHIES – Quando la Tecnologia è spettacolo™ – E’ vietata la riproduzione e redistribuzione, anche parziale, dell’articolo senza autorizzazione scritta. Se desideri riprodurre i contenuti pubblicati, contattaci.
Copertina: immagine creata con AI, prompt engineering S. Braga
Commenta per primo