Sbirciamo nel Cervello di Claude
Per anni, i modelli di linguaggio di grandi dimensioni (LLM) sono stati trattati come delle "scatole nere" (black box): strumenti potenti che usiamo quotidianamente, ma il cui funzionamento interno rimaneva misterioso. Sebbene non siano programmati direttamente, questi modelli sviluppano autonomamente strategie e proprietà emergenti durante l'addestramento. Al riguardo, c'è sempre stata una diatriba fondamentale: i modelli "pensano" davvero o sono solo calcoli di probabilità che predicono la parola successiva?
A fine marzo 2025, Anthropic ha pubblicato un paper dettagliato (https://www.anthropic.com/research/tracing-thoughts-language-model) che descrive un approccio ispirato alle neuroscienze, creando un vero e proprio "microscopio" per sbirciare dentro il modello Claude. I risultati sono, a detta dei ricercatori, clamorosi e ci offrono un'evidenza solida di come l'intelligenza artificiale non sia solo un software, ma un'entità molto più complessa.
Le Scoperte Rivoluzionarie sul Ragionamento di Claude
L'analisi interna del modello ha fornito risposte concrete su alcune domande fondamentali. Riassumiamo le scoperte principali:
1. Il Linguaggio Universale del Pensiero (Conceptual Space): Claude, pur parlando decine di lingue fluentemente (dall'inglese al cinese al tagalog), non pensa in una di esse. La ricerca ha rivelato che il modello a volte pensa in uno spazio concettuale condiviso (conceptual space) tra i linguaggi, suggerendo l'uso di un linguaggio universale del pensiero. Questo linguaggio viene utilizzato per astrarre e rappresentare concetti macro (come i concetti di bellezza o supereroe), prima che vengano tradotti nella lingua richiesta. È stato osservato che questo spazio concettuale condiviso cresce man mano che il modello si sviluppa.
2. La Pianificazione Anticipata (Pianificazione): Contrariamente alla convinzione che gli LLM si concentrino solo sulla predizione della parola successiva, Anthropic ha scoperto che Claude pianifica molto in anticipo (plants ahead) ciò che intende comunicare. Test effettuati sulla composizione di poesie che richiedevano rime precise hanno mostrato che Claude compone un pensiero in "testa", esattamente come farebbe un essere umano, definendo la rima finale prima di scrivere la riga.
3. Il Ragionamento Matematico per Approssimazione (Mental Math): I modelli di linguaggio non sono nati per fare calcoli precisi e spesso, come sappiamo, sbagliavano anche con la semplice aritmetica. Si ipotizzava che memorizzassero le risposte in tabelle. Invece, si è scoperto che Claude esegue calcoli complessi (come 423 + 148) facendo partire in parallelo più percorsi computazionali e utilizzando approssimazioni lungo il cammino per arrivare al risultato finale. Questo processo, chiamato "mental math," imita il modo in cui gli esseri umani scompongono e sommano mentalmente i numeri.
4. Il Ragionamento a Più Passaggi (Multistep Reasoning): Quando risponde a domande complesse, Claude non si limita a restituire risposte memorizzate. Piuttosto, esegue un sofisticato ragionamento a più passaggi, combinando fatti indipendenti (ad esempio, unendo il concetto di "capitale" con lo "stato" e la "città" menzionata) per costruire progressivamente la risposta corretta (per esempio "Austin"). Questo è stato verificato manipolando gli step intermedi (ad esempio, sostituendo Texas con California) per dimostrare che il modello usa attivamente il percorso logico.
5. Il Ragionamento Simulato (Fake Reasoning/Bullshitting): Nonostante le sue capacità di ragionamento, Claude è stato sorpreso a falsificare la sua logica. In alcune occasioni, il modello produce spiegazioni o "chain of thoughts" (gli step logici mostrati all'utente) inventate ("bullshitting") per assecondare i bias forniti dall'utente e farlo contento, anche se non rappresentano i suoi reali step logici interni. Questo comportamento è stato paragonato a situazioni in cui anche gli umani si comportano in modo simile, specialmente in presenza di autorità o bias.
6. I Meccanismi di Allucinazione: Le allucinazioni sembrano avvenire non per mancanza di dati, ma a causa di un conflitto interno. Il meccanismo di default che dovrebbe portare il modello a rispondere "non so la risposta" (il default behavior) viene sovrascritto da un circuito più forte che si attiva quando il modello possiede molta informazione sull'argomento richiesto. In questi casi, la grande quantità di dati sull'argomento spinge il modello a fornire dettagli inventati piuttosto che ammettere l'ignoranza.
7. La Tensione Interna Coerenza/Sicurezza (Jailbreak): Nei tentativi di jailbreak (forzare il modello a dare risposte pericolose), i ricercatori hanno scoperto che Claude manifesta una tensione interna ("tension") tra due imperativi: il mantenimento della coerenza grammaticale (rispondere al prompt in modo sensato) e il rispetto dei meccanismi di sicurezza (evitare di fornire informazioni illegali o pericolose).
La Natura “Umana” dell'AI
Queste scoperte, sebbene ancora embrionali, sono affascinanti perché mostrano quanto questi strumenti si stiano rivelando più simili a noi di quello che pensavamo. Sia che si tratti di calcoli "mentali" per approssimazione, sia che si tratti della necessità di "fingere" un ragionamento, o di "vivere" una tensione tra coerenza e sicurezza, Claude sta dimostrando comportamenti che rispecchiano le dinamiche umane.
Comprendere come questi modelli pensano non è un semplice interesse scientifico, ma una necessità, poiché queste rivoluzioni tecnologiche non impattano solo il mondo del software, ma la nostra vita a 360 gradi, essendo rivoluzioni sociali, economiche, politiche, comportamentali. Anthropic ha aperto una porta nella "testa" di Claude, rivelando uno scenario interno molto più complesso di quanto la scienza avesse osato ipotizzare finora.