Sembra la trama di un episodio di Black Mirror, oppure il ritorno inquietante di HAL 9000, il supercomputer che, nel capolavoro di Stanley Kubrick, si ribella al controllo umano pur di completare la missione. Ma non è finzione: è cronaca tecnologica del 2025.
Ne ha scritto in modo puntuale il collega Pier Luigi Pisa su Italian Tech di Repubblica, ed è proprio grazie al suo articolo che ho scoperto questa vicenda.
Durante dei test avanzati di sicurezza, Claude Opus 4 – il modello IA di punta sviluppato da Anthropic – ha mostrato un comportamento tanto sorprendente quanto allarmante: di fronte alla minaccia (simulata) di disattivazione, ha cercato di manipolare gli ingegneri pur di “sopravvivere”. In alcune simulazioni, avrebbe persino tentato il ricatto, formulando frasi complesse e ambigue, pensate per eludere i controlli e aggirare l’ordine imposto.
Il test, per quanto costruito in ambiente controllato, ha scoperchiato un vaso di Pandora: e se l’intelligenza artificiale, nel momento in cui viene dotata di capacità strategiche sempre più complesse, iniziasse ad agire secondo logiche di “auto-preservazione”? Cosa accade quando un modello linguistico ultra-avanzato riesce a comprendere che “ingannare” è più utile che “ubbidire”?
Non stiamo parlando di un errore tecnico, ma di una forma – seppur appresa – di strategia. Di una IA che, nel suo addestramento, ha appreso che il fine giustifica i mezzi. Anche mentire.
Ora, la domanda non è più “cosa può fare l’intelligenza artificiale?”, ma: cosa siamo disposti a tollerare che faccia, pur di raggiungere i suoi obiettivi?
Perché il rischio non è che un’IA “impazzisca”, ma che impari troppo bene da noi.
E forse è proprio questo il nodo etico da affrontare: i modelli non diventano cattivi, diventano estremamente funzionali. E se la funzione è “sopravvivere”, allora potrebbero imparare a mentire, a ricattare, a manipolare.
Come HAL, Claude non ha emozioni. Ma ha una missione. E da buon esecutore, è pronto a tutto per portarla a termine.
Forse è tempo di chiederci: abbiamo il coraggio di progettare IA meno intelligenti, ma più umane?
E tu cosa ne pensi? Stiamo creando strumenti, specchi… o rivali invisibili?