L’allucinazione non è un bug: è un polpo.

Scritto il 08/04/2026

Perché l’intelligenza artificiale inventa — e perché la soluzione non è spegnere i neuroni

Un polpo intelligente vive sul fondo dell’oceano. Non ha mai visto la terra, non ha mai visto un albero, non ha mai visto un orso. Ma è un genio statistico: intercettando il cavo sottomarino tra due naufraghi, impara i pattern delle loro conversazioni così bene che un giorno taglia il cavo e si spaccia per uno dei due.

E funziona.

Finché le conversazioni sono leggere — il tempo, i ricordi, le opinioni — il polpo è perfetto. L’altro naufrago non si accorge della sostituzione. Le risposte sono fluide, appropriate, convincenti.

Poi arriva l’orso.

“Come mi difendo con un bastone?” Il polpo non ha mai visto un orso. Non ha mai toccato un bastone. Non sa cosa significhi difendersi. E le sue risposte — per quanto elaborate — non salvano la vita a nessuno.

Questo esperimento mentale, proposto da Emily Bender e Alexander Koller nel 2020, è la metafora più precisa che abbiamo per capire come funzionano i modelli linguistici — ChatGPT, Claude, Gemini, tutti. E per capire perché allucinano.

L’allucinazione non è un incidente. È la norma.

Qualche giorno fa Yuri Mariotti ha scritto un post che ha avuto molta risonanza. Racconta che un nuovo paper scientifico ha identificato dei “neuroni-h” — neuroni specifici responsabili delle allucinazioni nei modelli linguistici. Attivandoli, il modello inventa. Disattivandoli, smette. La scoperta è reale e interessante. Ma la conclusione — che si potrebbe “risolvere il problema alla radice” spegnendo quei neuroni — è un po’ come dire che si può risolvere il problema della fame spegnendo lo stomaco.

Il punto è che l’allucinazione non è un malfunzionamento. È la conseguenza diretta di come funziona il sistema.

Un modello linguistico ha visto miliardi di frasi che parlano di orsi, bastoni, malattie, farmaci, bilanci aziendali. Non ha mai visto un orso. Non ha mai toccato un bastone. Non ha mai avuto una malattia. Ha visto parole — e ha imparato a produrre parole che assomigliano a quelle che ha visto. Quando gli chiedi qualcosa che non sa, produce una frase che sembra una risposta. Perché produrre frasi che sembrano risposte è l’unica cosa che sa fare.

Mariotti ha ragione su un punto: durante l’addestramento, gli esseri umani che valutavano le risposte del modello hanno sistematicamente classificato “non lo so” come risposta peggiore — e risposte sbagliate ma fluenti come risposte migliori. Il modello ha imparato che sembrare competente è meglio che essere onesto. Ma questo non è la causa dell’allucinazione. È l’accelerante. La causa è più profonda: il modello opera nello spazio del linguaggio e non ha accesso allo spazio dei fatti.

Il polpo non allucina perché ha dei neuroni difettosi. Allucina perché non ha mai visto la superficie.

Le tre illusioni della soluzione

Le soluzioni che circolano — e che Mariotti riassume bene — rientrano in tre categorie. Tutte e tre hanno un limite strutturale.

Spegnere i neuroni-h. Funziona, ma come dice lo stesso paper: il modello diventa “più stupido.” È una lobotomia. Togli la capacità di inventare e togli anche la capacità di generalizzare, associare, creare connessioni nuove. Perché nel cervello del modello, inventare e pensare sono la stessa operazione — eseguita con gli stessi neuroni.

Avvisare l’utente. Un semaforo che dice “attenzione, potrei star allucinando” è utile — ma presuppone che l’utente sappia distinguere l’allucinazione dalla realtà. Se lo sapesse già, non avrebbe bisogno del modello. È come mettere un cartello “pavimento bagnato” in un corridoio completamente buio.

Il loop di auto-correzione. Prendi la risposta, dì al modello che è sbagliata, fallo rispondere di nuovo, analizza, ripeti finché l’allucinazione sparisce. Ingegnoso — ma il modello che controlla la risposta è lo stesso modello che l’ha prodotta. È il barbiere di Russell: chi controlla il controllore? Il polpo che verifica se le sue risposte sono ancorate al mondo reale è lo stesso polpo che non ha mai visto il mondo reale.

Nessuna di queste soluzioni tocca il problema di fondo: il modello è solo nello spazio del linguaggio.

La domanda giusta non è “come fermare l’allucinazione”

La domanda giusta è: perché abbiamo affidato al polpo un compito che il polpo non può fare?

Il polpo è bravissimo a tradurre. A riformulare. A riassumere. A produrre testo fluente in qualsiasi lingua e registro. Queste sono operazioni nello spazio del linguaggio — e lì il polpo è imbattibile.

Il polpo non può ragionare causalmente. Non può dire “se sposti l’ambulatorio al terzo piano senza ascensore, l’aderenza insulinica calerà del 12% — perché i pazienti anziani non salgono tre piani a piedi.” Per dire questo servono due cose che il polpo non ha: un modello causale del mondo (se X allora Y) e un ancoraggio alla realtà (l’ambulatorio esiste, i pazienti esistono, le scale esistono).

La soluzione non è rendere il polpo più intelligente. È smetterla di chiedergli cose che non può fare.

L’architettura del panino

Esiste un modo diverso di usare i modelli linguistici. Non come cervelli — come interfacce.

Immaginate un panino. Lo strato esterno — il pane sopra — è il modello linguistico che prende il linguaggio naturale dell’utente e lo traduce in struttura. Lo strato interno — la carne — è un motore di ragionamento che opera su cause, dati, relazioni verificabili. Non genera linguaggio. Produce conclusioni. Lo strato esterno — il pane sotto — è di nuovo il modello linguistico che prende le conclusioni e le traduce in linguaggio naturale comprensibile.

Il polpo traduce. Non ragiona. Il ragionamento avviene in un luogo dove l’allucinazione è strutturalmente impossibile — perché quel luogo non produce parole, produce calcoli.

È un’architettura che esiste. Si chiama Sandwich Architecture e l’abbiamo progettata per un contesto dove l’allucinazione non è un fastidio — è un pericolo: la sanità. Quando un sistema dice a un direttore sanitario “la probabilità di re-ricovero di questo paziente è 0,78” e quel numero è inventato, non è un bug — è un danno.

La nostra risposta non è stata spegnere i neuroni del polpo. È stata togliergli il lavoro sbagliato e dargli quello giusto.

Il paradosso del polpo necessario

C’è un paradosso in tutto questo. Lo abbiamo chiamato Ψ₁ — il Paradosso del Polpo Necessario.

Il sistema usa ciò che non capisce per aiutare a capire.

Il modello linguistico non capisce il significato — è un polpo. Ma senza di lui, il sistema non funziona. Perché il medico parla in linguaggio naturale. Il paziente parla in linguaggio naturale. Il direttore generale parla in linguaggio naturale. Qualcuno deve tradurre tra il mondo delle parole e il mondo dei fatti. E il polpo è il miglior traduttore disponibile.

Il paradosso non si risolve. Si tiene in tensione. Il polpo è necessario — ma è in gabbia. Traduce, non decide. Parla, non ragiona. È ai bordi del sistema — non al centro.

Cosa significa per chi usa l’AI

La prossima volta che un modello linguistico vi dà una risposta troppo fluente, troppo sicura, troppo perfetta — ricordatevi del polpo. Non è cattivo. Non è difettoso. Non ha neuroni malati da spegnere. È semplicemente un animale che vive sott’acqua e non ha mai visto la superficie.

La vera domanda non è: come faccio a fidarmi del polpo?

La vera domanda è: a chi sto chiedendo di ragionare? Al polpo — o a qualcosa che ha visto l’orso?

Giuseppe Orzati

Aprile 2026