I binari prima del treno

Trascrizione

I binari prima del treno

L'industria costruisce in fretta l'infrastruttura per un mondo di agenti autonomi, mentre tre veterani — LeCun, Sutskever, Chollet — sostengono che l'architettura su cui poggia tutto è sbagliata.

È il tre giugno duemilaventisei, e c'è qualcosa di strano in questa estate tech. Da settimane, in conferenze diverse, su palchi diversi, persone diverse parlano della stessa cosa con parole diverse. Stiamo costruendo i binari per un mondo che non sappiamo ancora governare. Karpathy a Sequoia, Collison a Stripe Sessions, Friedman col suo nuovo stack per sviluppatori, Dorsey nel podcast di Sequoia. Quattro voci, quattro angoli, una sola idea sotto. Signal Brief, partiamo da lì.

Karpathy sale sul palco di Sequoia AI Ascent con la calma di chi non ha più niente da dimostrare. Ha lasciato OpenAI, ha lasciato Tesla, e adesso lavora da solo, o meglio, lavora con i suoi agenti. Quello che racconta in quel palco è semplice, quasi al limite del banale. L'infrastruttura per il software che usiamo oggi è stata pensata per persone che leggono pagine e cliccano bottoni. Ma fra poco gran parte di quel software sarà usata da programmi che leggono altre cose e cliccano in modi diversi. Quindi va rifatta. Va rifatta tutta.

La cosa interessante non è la frase in sé, è chi la sta dicendo nello stesso momento da altri palchi. Patrick Collison, il fondatore di Stripe, in quelle stesse settimane presenta i nuovi tubi per i pagamenti fatti da agenti. Non più carte di credito digitate da umani, ma scambi automatici tra programmi. Nat Friedman, l'ex capo di GitHub, rilancia un'idea di stack per sviluppatori dove il git non è più soltanto per umani ma diventa una superficie su cui gli agenti scrivono e leggono in continuazione. E Jack Dorsey, lo stesso Dorsey di Twitter, in un podcast spiega tranquillamente che la sua azienda ha licenziato il quaranta per cento del personale e li ha sostituiti con agenti.

Quattro persone, quattro mondi diversi, e la stessa intuizione. Il prossimo anno non si costruirà più software per noi, si costruirà software per loro. È una di quelle convergenze che fa pensare. Mi ricorda quando, alla fine dell'Ottocento, le città cominciarono a essere ripensate per le automobili anche se di automobili in giro ce n'erano ancora pochissime. I marciapiedi rialzati, i semafori, le strisce pedonali, tutto questo è stato pensato prima che il fenomeno fosse davvero diffuso. Adesso sta succedendo la stessa cosa con gli agenti. Si stanno asfaltando le strade prima ancora di sapere quante macchine ci passeranno.

Sotto questa corsa, però, c'è una cosa che quasi nessuno dice ad alta voce. Nessuno sa ancora che forma avranno davvero questi agenti. Yann LeCun, uno dei padri delle reti neurali moderne, ha appena messo un miliardo di dollari su un'idea radicalmente diversa da quella che fa girare ChatGPT. François Chollet, un altro pezzo grosso del settore, ha lanciato un test nuovo dove i modelli migliori del mondo prendono zero virgola tre per cento e gli umani prendono cento. E Ilya Sutskever, il cervello dietro OpenAI dei primi tempi, ha dichiarato in un'intervista lunga che l'era dello scaling — quella in cui bastava fare modelli sempre più grandi per migliorarli — è finita.

Stanno tutti costruendo l'infrastruttura per una cosa di cui non conoscono ancora l'architettura. È come se nel milleottocentottanta avessero iniziato a costruire stazioni e gallerie senza essersi messi d'accordo se i treni andassero a vapore, a elettricità, o se sarebbero stati sostituiti subito da qualcos'altro. Si costruisce e basta, perché fermarsi a pensare significa restare indietro.

E nel frattempo, dato che la velocità di questa costruzione è quello che è, comincia anche una specie di gestione narrativa di quello che succederà quando gli agenti effettivamente arriveranno. Sam Altman descrive scenari da apocalisse occupazionale. Demis Hassabis chiama un coordinamento a livello di specie. Dorsey, come dicevamo, licenzia e sostituisce. Tre approcci diversi alla stessa intuizione: questa cosa non si fermerà, e bisogna preparare le persone, o almeno il racconto pubblico, al fatto che non si fermerà.

Vediamoli più da vicino, uno per uno.

Andrej Karpathy è uno di quei personaggi che in pochi anni hanno occupato posizioni dove la maggior parte di noi ne occuperebbe una sola. Ricercatore a Stanford con Fei-Fei Li, poi direttore dell'intelligenza artificiale in Tesla quando Tesla doveva ancora dimostrare che le sue macchine funzionavano, poi tra i fondatori di OpenAI. Da qualche tempo non ha più una scrivania da nessuna parte. Lavora da solo, scrive, costruisce piccoli strumenti, gira per conferenze.

In questo periodo sta facendo due cose che si parlano tra loro. La prima è nanochat, un piccolo software libero che permette a un singolo ricercatore di addestrare un modello tipo GPT-2 in due ore su otto schede grafiche di quelle buone. La seconda è una cosa che lui chiama LLM-Wiki: un modo di usare Claude e simili per costruirsi una propria enciclopedia personale dentro Obsidian, con articoli collegati tra loro, riferimenti incrociati, controlli di coerenza. È diventato virale, perché tante persone hanno capito che è un modo per non lasciare la propria memoria dentro le scatole nere di un assistente commerciale.

Sono due gesti che a prima vista sembrano molto diversi. Uno è un sistema per addestrare modelli, l'altro è un sistema di note. Ma raccontano la stessa cosa. Il prossimo decennio non sarà fatto di poche aziende enormi che servono modelli giganti a tutti, sarà fatto di tanti ricercatori e tanti professionisti che usano agenti per amplificare quello che già sanno fare. La frase che Karpathy ripete è meno codice, più amplificazione. E sotto sta proprio questa idea. Il valore si sposta dal modello al modo in cui lo usi.

Sul palco di Sequoia, quando parla di infrastruttura pensata per gli agenti, sta dicendo esattamente questo. La fabbrica del software del prossimo decennio non sarà fatta di applicazioni con cui parlare, sarà fatta di superfici su cui i nostri agenti potranno scrivere e leggere per conto nostro. E chi possiede quelle superfici avrà un vantaggio enorme, esattamente come, vent'anni fa, chi ha capito che il commercio si sarebbe spostato sui browser ha costruito Amazon mentre gli altri stampavano cataloghi.

C'è qualcosa di rasserenante nel fatto che una persona così, uno che potrebbe stare in qualunque azienda con uno stipendio enorme, passi le serate a scrivere repository di seicento righe e a spiegare come usare un editor di note. È come se ci stesse dicendo, senza dirlo, che il futuro non sarà soltanto in mano a chi ha le fabbriche di calcolo grandi come città, ma anche in mano a chi sa lavorare bene da solo con strumenti piccoli. Ed è una delle poche notizie davvero confortanti di questa stagione.

Yann LeCun è il direttore scientifico dell'intelligenza artificiale di Meta, ma soprattutto è uno dei tre uomini che hanno preso il premio Turing per aver costruito le basi delle reti neurali profonde. Insieme a Bengio e Hinton, è uno dei nonni di tutta questa storia. La cosa interessante è che adesso, a quasi sessantacinque anni, è diventato il critico più rumoroso del paradigma che lui stesso ha contribuito a far nascere.

La sua tesi, ripetuta in dieci interviste diverse negli ultimi mesi, è semplice e fastidiosa. I modelli linguistici come ChatGPT sono un vicolo cieco. Non saranno mai davvero intelligenti perché non hanno un modello del mondo, non capiscono la fisica delle cose, non sanno cosa succede se mollano una tazza. Sono pappagalli statistici molto bravi, ma pappagalli restano. Per arrivare a qualcosa di più serio, dice LeCun, serve un'architettura diversa, che lui chiama JEPA. Il nome tecnico importa poco. L'idea è che il modello impari a prevedere come si comporta il mondo a partire da rappresentazioni più astratte di quelle che si imparano leggendo testo.

Fin qui sarebbe una posizione filosofica come tante. Quello che è cambiato adesso è che LeCun ha messo i soldi dove ha messo la bocca. Ha lasciato il suo ruolo operativo a Meta e ha lanciato un laboratorio nuovo, AMI Labs, con un miliardo di dollari di finanziamento. Costruirà esattamente l'alternativa di cui parla da anni. Non è più un commentatore, è un concorrente diretto.

Ed è qui che la storia diventa interessante per noi. Per tre anni il dibattito è stato tutto dentro lo stesso paradigma. Facciamo modelli più grandi, su più dati, con più calcolo. LeCun, insieme a Chollet e a un paio di altri, sta dicendo da tempo che quel paradigma sbatterà contro un muro. Adesso lo dimostrerà, o fallirà cercando di dimostrarlo. In entrambi i casi è la cosa più sana che potesse succedere a questo settore. Perché un settore con una sola idea dominante diventa pericolosamente cieco.

Mi viene in mente la transizione dal vapore all'elettricità nelle fabbriche, all'inizio del Novecento. Per vent'anni gli ingegneri hanno continuato a costruire fabbriche con un grande motore centrale a vapore, perché era quello che sapevano fare, anche quando l'elettricità era già lì. La svolta è arrivata quando qualcuno ha smesso di pensare al motore e ha ripensato l'intera fabbrica. Forse stiamo per vivere qualcosa di simile.

Ricapitoliamo un attimo dove siamo, prima di tirare in ballo l'altra figura che oggi conta. Da una parte un gruppo di persone — Karpathy, Collison, Friedman, Dorsey — sta costruendo i binari per un mondo di agenti, dando per scontato che gli agenti arriveranno e funzioneranno. Dall'altra un altro gruppo — LeCun, Chollet, e adesso anche Sutskever — sta dicendo che gli agenti come li immaginiamo oggi non funzioneranno, perché l'architettura su cui sono basati è insufficiente. E nessuno dei due gruppi si ferma. Tutti accelerano, anche chi pensa che gli altri stiano sbagliando strada.

In questo quadro, Ilya Sutskever è il personaggio più strano. Per anni è stato il cervello scientifico di OpenAI, quello che spingeva sui modelli sempre più grandi quando ancora nessuno ci credeva. Era il principale teorico dello scaling, l'idea che basti fare modelli più grandi per farli diventare più intelligenti. Poi, due anni fa, è uscito da OpenAI dopo lo scontro su Altman, e ha fondato un'azienda nuova che si chiama SSI, Safe Superintelligence. Non vende prodotti. Non fa pubblicità. Non parla quasi con nessuno.

Adesso però è uscito allo scoperto con un'intervista lunga in cui dice una cosa che pesa. L'era dello scaling è finita. I modelli non migliorano più semplicemente facendoli più grandi. Servono idee nuove. È esattamente la stessa cosa che LeCun e Chollet dicono da tempo, ma detta dall'uomo che più di chiunque altro era stato l'ideologo del paradigma opposto, suona diversa. È come se l'allenatore della squadra che vinceva tutto da dieci anni dicesse che il modulo di gioco è esaurito.

La cosa che mi colpisce di più, però, non è la tesi tecnica. È il contrasto tra Sutskever e gli altri. Sam Altman, suo ex socio in OpenAI, sta preparando una quotazione in Borsa e parla di accelerazione. Sutskever ha costruito un'azienda che fa esattamente l'opposto. Zero prodotti, ricerca pura, sicurezza al primo posto. Non c'è simmetria di rischio tra le due posizioni. Se hanno ragione gli accelerazionisti, Sutskever avrà perso solo qualche miliardo. Se ha ragione Sutskever, gli altri avranno costruito un sacco di binari per niente. A volte, in queste transizioni, vince chi ha continuato testardamente a esplorare l'alternativa anche quando tutti dicevano che era inutile.

Jack Dorsey è una di quelle figure su cui non si riesce mai bene a capire se è geniale o se è soltanto sempre un passo più avanti del fastidio collettivo. Ha fondato Twitter, l'ha lasciato, ha fondato Square, ha fatto Block. Adesso porta avanti una serie di progetti che ruotano attorno alla decentralizzazione e ai pagamenti, più Bitcoin, meno banche.

La notizia di questa settimana è in un podcast lungo che ha registrato con Sequoia, in cui spiega con calma cosa ha fatto in una delle sue aziende negli ultimi mesi. Ha licenziato circa il quaranta per cento del personale e ha sostituito le funzioni con agenti. Non con un agente, con tanti agenti, piccoli sistemi che fanno cose specifiche e si parlano tra loro. La parola che usa è mini-AGI organizzativa. Invece di un'unica intelligenza enorme, tante intelligenze piccole, ognuna che fa una funzione di un'azienda.

Quando lo racconta, lo fa col tono di chi descrive una cosa banale. Non c'è dramma, non c'è esitazione. È come quando, anni fa, si raccontava di aver smesso di stampare i biglietti aerei perché ormai bastava il telefono. Ed è proprio questo tono, il tono dell'ovvietà, che spiega bene cosa sta succedendo. Non è più una previsione, non è più un dibattito. È un'operazione amministrativa.

Qui entriamo in quel terreno che dicevo all'inizio, quello che mi sembra il sottotema più importante di tutta questa stagione. La gestione narrativa della disoccupazione. Sam Altman ne parla in chiave drammatica. Preparatevi, il mondo cambierà, dovremo ripensare tutto. Demis Hassabis ne parla in chiave istituzionale. Serve un coordinamento globale, come abbiamo fatto col nucleare. Dorsey la pratica e basta. Licenzia, sostituisce, va avanti. Tre stili diversi per raccontare la stessa cosa, che è poi una sola. Il lavoro sta per essere ridisegnato, e nessuno dei tre sta davvero discutendo se sia giusto o no.

Mi torna in mente la storia delle centraliniste, all'inizio del Novecento. Per qualche anno furono il simbolo del lavoro femminile moderno. Decine di migliaia di donne con le cuffie che mettevano in comunicazione il mondo. Poi gli scambi telefonici automatici le hanno fatte sparire in vent'anni, e a nessuno è venuto in mente di rallentare. È successo, e basta. La differenza è che adesso lo stiamo guardando in diretta, e in alcuni casi, come quello che racconta Dorsey, sappiamo i numeri precisi delle persone che escono dall'ufficio quel venerdì pomeriggio.

Cinque progetti da tenere d'occhio in questa stagione, raccontati in fretta.

Il primo è nanochat, il piccolo software libero di Karpathy che permette di addestrare un modello linguistico in poche ore su una macchina ben equipaggiata. Il punto non è il modello che ne esce, è il messaggio. Addestrare un modello non è più una cosa solo da grandi aziende.

Il secondo è LLM-Wiki, sempre di Karpathy. Un metodo che, dato in pasto a Claude o a un altro assistente, ti costruisce dentro Obsidian una specie di enciclopedia personale, con voci collegate, riferimenti incrociati, e la possibilità di controllarne la coerenza. È diventato virale perché tante persone hanno capito che è un modo per tenersi la propria memoria fuori dalle scatole nere dei prodotti commerciali.

Il terzo si chiama llama.cpp, ed è il piccolo motore in linguaggio C che permette di far girare modelli grandi su computer normali, anche un portatile. È diventato il cuore di una proposta che Vitalik Buterin sta facendo da qualche tempo. Un computer su cui hai davvero il controllo, con un sistema operativo aperto e i modelli in casa, non in qualche server lontano.

Il quarto è Omarchy, una distribuzione di Linux che David Heinemeier Hansson, il creatore di Ruby on Rails, ha curato personalmente. È pensata per attrarre chi è stanco di Mac e di Windows e vuole un desktop che si possa modificare davvero. A New York, qualche settimana fa, ha riempito una sala con centotrenta persone per parlarne.

Il quinto è ARC-AGI, il test di François Chollet. La nuova versione è un ambiente interattivo dove gli umani prendono cento e i modelli migliori prendono zero virgola tre. È, di fatto, la prova empirica che qualcosa non torna nel paradigma attuale.

Resta in mente l'immagine della stazione costruita prima ancora che si decida che treno la attraverserà. Tutti scavano gallerie, posano binari, fissano scambi, e nessuno sa ancora bene cosa ci passerà sopra. Forse è il momento più interessante di sempre per stare a guardare con calma, senza farsi travolgere dal rumore. È stato Signal Brief. Alla prossima.

I binari prima del treno

Sintesi

Temi del giorno

Progetti da osservare

Trascrizione

I binari prima del treno