Febbre DeepSeek: “momento Sputnik” dell’AI per gli Usa ma non tutto è chiaro sui “segreti” della startup cinese

Fonte immagine: Getty
“DeepSeek R1 è il momento Sputnik dell’AI”, ha scritto su X domenica scorsa Marc Andreessen, uno dei personaggi più influenti nella Silicon Valley, alludendo a quando il lancio nel 1957 del primo satellite artificiale intorno alla terra da parte dell’Unione Sovietica scosse gli Stati Uniti dando il via alla corsa allo spazio che li avrebbe portati sulla Luna nel 1969.
Sarà la storia a dire chi vincerà la gara dell’AI, ma è certo che la settimana scorsa dalla Cina è arrivato un messaggio forte e chiaro alle big della Silicon Valley. La rivelazione del nuovo modello R1 da parte della startup cinese DeepSeek, fino a pochi giorni fa sconosciuta ai più, ha avuto l’impatto di un fulmine a ciel sereno sui mercati e sui titoli tecnologici, facendo dubitare del sentiero utilizzato fin qui dalle big americane nella corsa alla supremazia nell’intelligenza artificiale. DeepSeek dimostrerebbe che non è necessario investire centinaia di miliardi di dollari in sofisticati microchip e che risultati analoghi sono raggiungibili ad una frazione del costo del leader di mercato, la OpenAI di Sam Altman.
Dalla finanza all’AI: chi è Liang Wenfeng, ceo di DeepSeek
A differenza del ceo di OpenAI, Sam Altman, prodotto tipico della Silicon Valley, l’amministratore delegato di DeepSeek proviene dal mondo della finanza. Cresciuto a Guangdong e figlio di un insegnante di scuola elementare, Liang Wenfeng si è poi laureato all’università Zhejiang di Hangzhou, una delle più antiche e prestigiose in Cina. Nel 2015 insieme a due compagni di studi ha fondato nella stessa città High-Flyer, un hedge-fund basato esplicitamente sull’uso di modelli matematici e di AI.
Nel 2019 il fondo aveva in gestione asset per 10 miliardi di dollari, secondo il suo sito. Il Financial Times riporta che a partire dal 2021 Wenfeng avrebbe iniziato ad acquistare migliaia di chip GPU prodotti da Nvidia, con lo scopo di addestrare modelli di AI. DeepSeek è stata lanciata nel 2023, come spin-off di High-Flyer.
Il primo successo che ha destato attenzione globale è stato il modello V3, rivelato alla fine dell’anno scorso. Nella documentazione diffusa allora dai ricercatori di DeepSeek si leggeva che quel modello era stato costruito e addestrato utilizzando 2000 chip Nvidia H800 per un costo inferiore ai 6 milioni di dollari, molto meno dei grandi competitor americani. Secondo il New York Times, i giganti del tech della Silicon Valley utilizzano 16.000 chip e anche oltre per chatbot come ChatGPT o Claude.
Con il suo modello open-source, DeepSeek è la “vera” open AI
DeepSeek è stata pubblicata come open-source, il che significa che il suo codice sorgente può essere scaricato e utilizzato commercialmente senza restrizioni, e che è anche aperta a contributi dall’esterno. Ironicamente è quello che avrebbe dovuto essere inizialmente anche OpenAI (come suggerirebbe anche il nome), fondata nel 2015 come non profit che condivideva apertamente le sue metodologie di ricerca. OpenAI oggi è “la più chiusa in ogni modo possibile”, ha detto a Fortune il consulente a sviluppatore AI Reuven Cohen.
Il modello R1 reso disponibile la scorsa settimana è un cosiddetto “reasoning model”, dove l’AI in qualche modo “ragiona” e ripensa le sue risposte, facendo una sorta di auto fact-checking. È un approccio che rende le risposte ai prompt più accurate rispetto agli altri modelli, ma anche più lente. La differenza in accuratezza è evidente soprattutto in ambito di discipline come fisica e matematica.
Come riporta TechCrunch, secondo DeepSeek, il modello R1 è in grado di battere o1, il più avanzato modello di OpenAI, sui benchmark AIME, MATH-500 e SWE-bench Verified. AIME valuta la performance di un modello utilizzando altri modelli, MATH-500 impegna i modelli nella soluzione di problemi matematici formulati testualmente, mentre SWE-bench Verified è focalizzato sulla programmazione.
R1 contiene incoltre 671 miliardi di parametri, secondo un report tecnico della società cinese. Tendenzialmente un parametro corrisponde alle capacità di risoluzione di problemi di un modello AI. DeepSeek ha anche introdotto versioni “distillate” di R1, che contengono da 1,5 miliardi a 70 miliardi di parametri. Il modello più piccolo è addirittura installabile su un computer portatile, mentre il modello completo di R1 è scaricabile attraverso l’API di DeepSeek ad un costo che sfiora il 95% in meno rispetto a quello di 01 di OpenAI.
Non tutti sono convinti dei “superpoteri” di DeepSeek
Non tutti sono convinti dei numeri forniti da DeepSeek. Il giovanissimo ceo di Scale AI, l’americano Alexandr Wang, che nel 2021, a soli 24 anni divenne il più giovane miliardario self-made nella storia, ha espresso un certo scetticismo ai microfoni di CNBC da Davos la settimana scorsa. Secondo Wang, DeepSeek farebbe uso di circa 50.000 chip Nvidia H100, cosa che la società non dichiara perché sarebbe in violazione dei limiti all’export di microchip verso società cinesi decisi da Washington.
Secondo analisti di Bernstein Research citati da Reuters, i costi complessivi di addestramento del modello V3 di DeepSeek non sono chiari ma sarebbero molto più alti di quanto dichiarato dalla società. Anche i costi di addestramento del modello R1 non sono stati resi noti.
Lo scacchiere politico: per Trump “segnale d’allarme”, Liang già a stretto contatto con i leader cinesi
È sempre più chiaro come l’AI sia la tecnologia al centro dello scacchiere geopolitico mondiale. Ieri il presidente americano Donald Trump ha detto che la distribuzione di DeepSeek “dovrebbe essere un segnale d’allarme per le nostre industrie e che dobbiamo focalizzarci al massimo sulla competizione per vincere”.
La precedente amministrazione Biden ha introdotto da parte sua già diversi limiti all’esportazione di GPU verso la Cina, nel tentativo di rallentare la competizione di Pechino.
Ma il successo di DeepSeek è già stato notato dalle autorità cinesi. Lo scorso 20 gennaio, giorno della pubblicazione di R1, Liang ha partecipato ad un incontro a porte chiuse con il premier Li Qiang, un segnale che DeepSeek sia già considerata strategica nella gara con Washington.