La Corsa all’AGI: Quando le Macchine Superano l’Uomo
Dopo aver esplorato l'evoluzione dell'IA dall'approccio simbolico a quello basato sui dati e aver visto come i moderni Modelli di Linguaggio (LLM) stiano sviluppando capacità emergenti quasi sorprendenti, oggi ci addentriamo in un territorio che un tempo apparteneva solo alla fantascienza: quello delle macchine che eguagliano e persino superano le prestazioni umane in compiti cognitivi complessi. La domanda non è più "possono le macchine essere intelligenti?", ma piuttosto "possono esserlo come e più di noi?".
L'Era dell'Intelligenza Artificiale Ristretta (ANI)
L'Intelligenza Artificiale Ristretta (ANI), o specializzata, si riferisce a sistemi di IA progettati per svolgere un singolo compito specifico. Molto prima che si parlasse di intelligenza generale, l'IA ha iniziato a dimostrare capacità sovrumane in ambiti ben definiti, portando a una serie di sorpassi che hanno ridefinito i limiti di ciò che le macchine possono fare.
Il Paradosso di Moravec e la Rivoluzione della Visione Artificiale
Per decenni, il paradosso di Moravec ha descritto una situazione curiosa: era relativamente facile per le macchine raggiungere prestazioni da adulto nei test di intelligenza o nei giochi da tavolo, ma difficile o impossibile emulare le abilità percettive di un bambino di un anno. Questa anomalia fu superata grazie alla visione di Fei-Fei Li, che decise di creare ImageNet, una vasta collezione di 14 milioni di immagini divise in 20 mila categorie, per insegnare alle macchine a riconoscere ogni tipo di oggetto.
Nel 2012, una competizione chiamata ILSVRC (ImageNet Large Scale Visual Recognition Challenge) vide un progresso straordinario: il team vincitore, con l'algoritmo AlexNet, superò di quasi dieci punti percentuali il record precedente, classificando correttamente l'83,6% delle immagini. AlexNet utilizzava una rete neurale "vecchia di decenni" (LeNet), ma implementata su scala enorme, con 60 milioni di connessioni. Sebbene AlexNet fosse un buon algoritmo, non era ancora "sovrumano", dato che un noto ricercatore, Andrej Karpathy, riuscì dimostrare che un umano classifica correttamente il 94,9% delle immagini.
Il vero sorpasso avvenne l'anno successivo con ResNet, un algoritmo con un'architettura più profonda (152 strati) che raggiunse un'accuratezza del 96,4%, superando le prestazioni umane. Questo segnò l'inizio di un'accelerazione, con varianti successive che migliorarono ulteriormente le prestazioni, rendendo il riconoscimento visivo un compito dove le macchine superano l'uomo non solo in accuratezza, ma anche nella quantità di categorie che possono imparare e nella velocità di classificazione.
La Maestria dei Giochi e della Scienza
Il 2016 ha segnato un altro momento storico con la vittoria di AlphaGo di DeepMind sul campione mondiale di Go, Lee Sedol. La vera sorpresa fu la mossa 37 della seconda partita, una decisione che apparve un errore a tutti gli esperti e all'avversario stesso, ma che in realtà pose le basi per la vittoria finale della macchina. AlphaGo non solo poteva fare cose che nessuno dei suoi programmatori era in grado di fare, ma faceva anche cose che nessuno poteva nemmeno comprendere. Le versioni successive di AlphaGo, come AlphaZero e MuZero, hanno imparato a giocare interamente da zero, superando le versioni precedenti e raggiungendo prestazioni a livello sovrumano in una serie di giochi diversi, non essendo "più vincolate dai limiti della conoscenza umana".
Anche in campo scientifico, l'IA ha dimostrato capacità eccezionali. Nel 2018, AlphaFold, anch'esso sviluppato da DeepMind, ha rivoluzionato la previsione della forma delle proteine, un problema "tanto difficile matematicamente quanto importante per la ricerca farmaceutica". AlphaFold ha superato i migliori esperti mondiali nella competizione CASP, raggiungendo punteggi che erano ben oltre le capacità umane, un risultato che ha portato al Premio Nobel per la Chimica nel 2024 per Demis Hassabis, CEO di DeepMind.
Dalla Specializzazione alla Generalità: La Ricerca dell'AGI
Questi successi nell'ANI hanno spinto l'industria a porsi una sfida ancora più ambiziosa: sviluppare un'Intelligenza Artificiale Generale (AGI). L'AGI, in parole povere, si riferisce a sistemi di IA capaci di un "ragionevole grado di autocomprensione e autocontrollo autonomo", con l'abilità di "risolvere una varietà di problemi complessi in una varietà di contesti, e di imparare a risolvere nuovi problemi". A differenza dell'ANI, che risponde a nuove istanze dello stesso problema, l'AGI dovrebbe essere in grado di risolvere problemi interamente nuovi.
Per valutare il progresso verso l'AGI, gli studiosi hanno attinto al modello di intelligenza umana "a tre strati" di John Carroll, chiamato CHC (Cattell-Horn-Carroll). Questo modello distingue tra abilità:
• Ristrette (narrow abilities): capacità specifiche misurabili con test (per esempio la velocità di lettura);
• Ampie (broad abilities): astrazioni come intelligenza cristallizzata (uso di conoscenze acquisite) o intelligenza fluida (per esempio risoluzione di nuovi problemi o il ragionamento);
• Generali (general intelligence): un fattore che influenza tutte le altre funzioni cognitive.
Questa tassonomia aiuta a creare una "pagella" per le macchine, con voti distinti per materie come "capacità di lettura" o "capacità numeriche", anche se un giorno potrebbero essere necessari costrutti completamente diversi, non basati sull'intelligenza umana.
La Misurazione del Progresso: I Benchmark di Valutazione
La valutazione delle capacità delle macchine è diventata una vera e propria competizione tra "addestratori" e "valutatori" di IA. Sono state create intere batterie di test, o benchmark, per misurare l'intelligenza delle macchine:
• GLUE (General Language Understanding Evaluation): Una raccolta iniziale di nove test di comprensione del linguaggio, con oltre 400.000 item. Mirava a misurare intelligenza cristallizzata, capacità di lettura e scrittura, e ragionamento logico. Le prestazioni umane erano stimate all'87,1%, ma i modelli di IA superarono rapidamente questa soglia, portando alla "saturazione del benchmark";
• SuperGLUE: Creata in risposta alla saturazione di GLUE, questa nuova batteria di otto test era stata attentamente progettata per essere più difficile, eliminando le domande troppo semplici. Inizialmente, le macchine raggiunsero il 71,5% contro l'89,8% degli umani, ma in un solo anno modelli come T5 di Google "quasi raggiunsero la prestazione umana";
• MMLU (Massive Multitask Language Understanding): Nel 2020, un gruppo di ricercatori creò un'enorme batteria di 57 test, con quasi 16.000 domande a scelta multipla, tratte da esami universitari, professionali e scolastici. Questi test andavano oltre la semplice comprensione del linguaggio, richiedendo anche conoscenze specialistiche e capacità di ragionamento in aree come scienze umane, sociali, scienza e tecnologia. Nel 2024, Gemini Ultra (con 1.760 miliardi di parametri) raggiunse il 90% di risposte corrette, superando gli esperti umani su MMLU.
Questi progressi dimostrano che l'IA non solo sta eguagliando, ma in molti casi superando, le capacità umane in una vasta gamma di compiti cognitivi.
L'Ipotesi della Scala e la Sfida del Ragionamento
Uno dei principali motori di questo progresso è la Scaling Hypothesis (Ipotesi della Scala), che suggerisce che "alcune proprietà cognitive dei modelli di IA emergono solo quando le loro dimensioni superano un certo ordine di grandezza". Questa congettura, sostenuta anche dalla "Legge di Moore" e dalla "Bitter Lesson" di Richard Sutton, implica che l'aumento delle risorse computazionali e dei dati può sbloccare abilità completamente nuove e migliorare esponenzialmente le prestazioni. Le dimensioni dei modelli sono cresciute in modo esponenziale, passando dai 60 mila parametri di LeNet ai circa 1.000 miliardi di GPT-4.
Tuttavia, il progresso non è uniforme. Gli psicologi su suggerimento del premio Nobel Daniel Kahneman, oramai distinguono due modi di pensare:
• Sistema 1 (intuizione): processi involontari, impliciti e veloci;
• Sistema 2 (ragionamento): processi volontari, espliciti e lenti.
Mentre l'aumento della scala sembra risolvere molti problemi del Sistema 1, i problemi del Sistema 2, che richiedono ragionamento esplicito, oppongono maggiore resistenza. Ad esempio, i modelli come GPT 3.5 eccellevano in storia e psicologia, ma faticavano in fisica, statistica e chimica.
La ricerca si è quindi concentrata su come indurre i modelli a "ragionare un passo alla volta". Il metodo della "Chain of Thought" (catena di pensieri), definito nel 2022, ha dimostrato che chiedere a GPT di descrivere i passaggi intermedi riduce gli errori nei compiti di ragionamento. Il culmine di questa ricerca è stato il progetto segreto di OpenAI, "o1" (soprannominato "strawberry"), che, grazie a un "monologo interiore" controllato, ha superato GPT-4o su 54 delle 57 categorie di MMLU, raggiungendo il 92,3%, e ha ottenuto risultati a livello di medaglia d'oro in programmazione competitiva e eccellenti performance in matematica e scienza avanzata.
Verso l'Intelligenza Artificiale Sovrumana (ASI) e le Nuove Domande
Questi sviluppi ci portano a considerare l'Intelligenza Artificiale Sovrumana (ASI), una forma ipotetica di IA che "supererebbe l'intelligenza umana in ogni aspetto cognitivo, tra cui creatività, risoluzione dei problemi e conoscenza generale". Figure come Geoff Hinton e Ilya Sutskever hanno apertamente avvertito che la super intelligenza è a portata di mano e rappresenta "il problema tecnico più importante del nostro tempo". Già nel 1965, I.J. Good, collaboratore di Turing, aveva speculato su una "macchina ultraintelligente" capace di auto-migliorarsi, innescando una "esplosione di intelligenza".
La domanda cruciale non è solo se le macchine ci eguaglieranno, ma se si fermeranno una volta raggiunto quel traguardo, e se saremo in grado di comprenderle e controllarle. La "mente umana non è universale e non è insuperabile", e l'IA è già in grado di svolgere compiti o comprendere cose che a noi sono inaccessibili, come la visione iperspettrale o la capacità di "annusare" le reti Wi-Fi.
La frontiera attuale è rappresentata da iniziative come "L'Ultimo Esame dell'Umanità (Humanity's Last Exam)", un progetto per creare il benchmark di IA più difficile al mondo, con domande proposte da esperti qualificati, mirato a "misurare quanto siamo vicini al raggiungimento di sistemi di Intelligenza Artificiale di livello esperto" e a tracciare i confini ultimi delle capacità umane. Se l'IA dovesse superare anche questo test, sancirebbe un sorpasso definitivo.
Tuttavia, è fondamentale ricordare che, sebbene le macchine possano diventare sovrumane in intelligenza, questa è solo intelligenza: "non coscienza, emozione, libero arbitrio, volontà". Queste qualità, insieme alla capacità di empatia e all'esperienza di una realtà condivisa, appartengono all'umanità e "non appartiene ad alcuna macchina". La sfida che ci attende è imparare a coesistere con queste "intelligenze aliene" e comprendere il loro impatto sul nostro futuro.