I sondaggi fatti con l'intelligenza artificiale non sono veri sondaggi

Aziende come Aaru, valutata un miliardo di dollari, usano chatbot al posto di persone reali per simulare l'opinione pubblica. Per i sondaggisti è un approccio inaffidabile.

I sondaggi fatti con l'intelligenza artificiale non sono veri sondaggi
Photo by Miryam León / Unsplash

I sondaggi fatti con l'intelligenza artificiale non sono veri sondaggi: usano chatbot al posto di persone reali per simulare l'opinione pubblica, ma non producono dati nuovi e non possono sostituire le indagini tradizionali. È la tesi di Eli McKown-Dawson, analista del Silver Bulletin, la newsletter di Nate Silver dedicata a elezioni, sondaggi e previsioni, in un'analisi approfondita su una tendenza che sta prendendo piede nel mondo delle ricerche di mercato e dei sondaggi politici: l'uso di modelli linguistici di grandi dimensioni, gli stessi che alimentano ChatGPT e Claude, per simulare le risposte di cittadini reali ai sondaggi d'opinione.

Il meccanismo, chiamato synthetic sampling o silicon sampling, funziona così: si prende un modello di intelligenza artificiale, gli si assegna un profilo demografico (per esempio una donna bianca laureata che vive nello Utah e guadagna 70 mila dollari l'anno) e gli si chiede di rispondere a una domanda di sondaggio. Si ripete il processo migliaia di volte con profili diversi e si ottiene un campione di risposte sintetiche. Le aziende specializzate, come Aaru e Electric Twin, usano versioni più sofisticate di questo sistema, arricchendo i profili con informazioni sulle abitudini di consumo mediatico o con dati proprietari sui clienti.

McKown-Dawson riconosce che la tecnica può replicare i risultati principali dei sondaggi reali in modo rapido ed economico, ma sostiene che questo non basta a farne un sostituto dei sondaggi tradizionali. Il motivo è concettuale prima che tecnico: un sondaggio raccoglie dati nuovi su ciò che le persone pensano, mentre il sampling sintetico è un modello predittivo che elabora informazioni già esistenti per stimare cosa direbbe un sondaggio. "Amiamo i modelli", scrive McKown-Dawson, "ma i modelli non sono sondaggi".

La distinzione non è solo accademica. La sondaggista Natalie Jackson, vicepresidente di GQR Insights, ha dichiarato a McKown-Dawson che "la politica dovrebbe tenersi alla larga" da questa tecnica perché l'obiettivo dei sondaggi è "rappresentare la voce delle persone". Il sondaggista democratico John Hagner si è detto "incredibilmente scettico" e ha aggiunto: "non credo sia ricerca. A quel punto stai chiedendo alla macchina di dirti quello che già credi".

Il problema dell'affidabilità emerge con chiarezza quando si guardano i risultati concreti. Il modello di Aaru, per le elezioni presidenziali del 2024, dava Kamala Harris in vantaggio in Michigan, Nevada, Pennsylvania e Wisconsin alla vigilia del voto, e le attribuiva il 50,5 per cento di probabilità di vittoria. Dopo la sconfitta di Harris, il cofondatore Cameron Fink ha detto a Semafor di essere soddisfatto perché i risultati rientravano nel "margine di errore", un concetto che McKown-Dawson definisce privo di significato quando applicato a un campione di agenti artificiali. Per confronto, il modello del Silver Bulletin assegnava a Harris il 48,2 per cento nello stesso periodo.

La ricerca accademica conferma i limiti della tecnica. Secondo McKown-Dawson, la maggior parte degli studi mostra che i modelli linguistici producono troppo poche risposte "non so", sovrastimano la popolarità di politici come Trump e Harris e non riescono a riprodurre le differenze di opinione tra gruppi demografici: il divario tra democratici e repubblicani, per esempio, risulta troppo piccolo. Hagner ha segnalato un problema simile: "gli esperimenti iniziali non riescono a far sì che i rispondenti sintetici siano altrettanto razzisti, sessisti o negativi quanto quelli umani".

Ben Warner, cofondatore di Electric Twin, ha offerto a McKown-Dawson una prospettiva più sfumata. Ha paragonato sondaggi e campioni sintetici a strumenti diversi nella stessa cassetta degli attrezzi e ha ammesso che il sampling sintetico "non è una sfera di cristallo". Alla domanda se il suo sistema sia più accurato di un sondaggio tradizionale nel prevedere il voto, Warner ha risposto "probabilmente no", ma ha sostenuto che può essere utile per la modellazione dell'affluenza alle urne.

Nonostante lo scetticismo degli esperti, il settore cresce. Aaru ha raggiunto una valutazione di un miliardo di dollari e lavora con clienti come EY e McDonald's. Anche grandi società di sondaggi come Qualtrics e Ipsos stanno sviluppando pannelli di dati sintetici. Axios ha già pubblicato a marzo risultati di Aaru senza specificare che i "cittadini" intervistati erano in realtà modelli di intelligenza artificiale. McKown-Dawson segnala anche un rischio parallelo: gli agenti artificiali potrebbero infiltrarsi nei sondaggi online reali, compromettendone l'integrità. La maggior parte dei sondaggi usa filtri per prevenirlo, ma le prove sulla loro efficacia sono contrastanti.

Nate Silver, che nel 2024 aveva definito il sampling sintetico "forse il peggior caso d'uso dell'intelligenza artificiale che abbia mai sentito", ha aggiunto una nota all'articolo del suo collaboratore. La sua tesi è che, paradossalmente, più l'intelligenza artificiale rende economica l'inferenza statistica, più aumenta il valore della raccolta di dati originali. Se gestisse una campagna elettorale, ha scritto Silver, investirebbe di più nel raggiungere campioni rappresentativi di elettori reali difficili da contattare, e poi userebbe analisti quantitativi, magari aiutati dall'intelligenza artificiale, per interpretare quei dati.

Focus America non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n° 62 del 7.03.2001.