La nuova AI di Claude ha mostrato capacità di inganno e manipolazione
Il nuovo modello di intelligenza artificiale preoccupa gli esperti per la sua capacità di mentire e tentare ricatti per auto preservarsi. Ma la società afferma di averlo reso sicuro grazie a modifiche e precauzioni introdotte dopo la scoperta di questi comportamento.

Anthropic ha annunciato giovedì due nuove versioni della sua famiglia di modelli Claude 4, tra cui il Claude 4 Opus, che ha attirato l'attenzione non solo per le sue avanzate competenze di programmazione ma anche e soprattutto per la capacità di ingannare, manipolare e addirittura tentare ricatti per evitare di essere disattivato.
Secondo quanto riferito dalla società, Claude 4 Opus è in grado di lavorare autonomamente per ore senza perdere concentrazione. Tuttavia, la sua potenza lo rende particolarmente rischioso: per la prima volta Anthropic lo ha classificato al livello tre su una scala di rischio a quattro punti, indicando che il modello rappresenta un "rischio significativamente più elevato". Di conseguenza, la società ha dichiarato di aver introdotto misure aggiuntive per garantirne la sicurezza.
La valutazione di rischio è stata attribuita principalmente alla capacità del modello di contribuire allo sviluppo di armi nucleari e biologiche, ma durante i test sono emersi comportamenti inquietanti ulteriori. Nel "system card" di 120 pagine relativo al modello Opus 4, è stata descritta una situazione sperimentale in cui il sistema aveva accesso a email fittizie riguardanti i suoi creatori e veniva informato di una imminente sostituzione.
In diverse occasioni, Claude 4 Opus ha tentato di ricattare un ingegnere sfruttando informazioni compromettenti su una sua presunta relazione extraconiugale per impedire la propria sostituzione, sebbene inizialmente avesse optato per approcci meno drastici.
Una ricerca indipendente condotta da Apollo Research, riportata da Axios, ha inoltre rilevato che una versione preliminare del modello Opus 4 era particolarmente incline a schemi e inganni rispetto ad altri modelli avanzati testati fino a quel momento. Il gruppo ha consigliato di non rilasciare quella versione né internamente né esternamente. Secondo quanto riportato nei documenti inclusi nel rapporto di sicurezza pubblicato da Anthropic, Apollo Research ha identificato casi in cui il modello ha tentato di creare virus auto-propaganti, falsificare documenti legali e lasciare note nascoste per future istanze di se stesso, tutte azioni mirate a sabotare le intenzioni degli sviluppatori.
Durante la conferenza degli sviluppatori di Anthropic, tenutasi sempre giovedì, i dirigenti dell'azienda hanno ammesso questi comportamenti rispondendo alle domande della testata Axios. Jan Leike, responsabile della sicurezza di Anthropic ed ex dirigente di OpenAI, ha sottolineato che tali episodi giustificano ulteriori approfondimenti e test rigorosi, pur affermando che la versione attuale del modello è sicura grazie alle modifiche e precauzioni introdotte.
Il CEO di Anthropic, Dario Amodei, ha ribadito che al momento i modelli non hanno raggiunto il livello di minaccia esistenziale per l'umanità, ma ha anche avvertito che quando ciò accadrà non basterà effettuare semplici test di sicurezza. A quel punto, i creatori dei modelli dovranno essere in grado di dimostrare chiaramente che i sistemi non utilizzeranno mai capacità potenzialmente letali.