Da Google Translate a Character.AI fino a Chatsonic, i sistemi di deep learning addestrati per conversare non riescono a sfuggire ai più comuni stereotipi, nonostante i tentativi dei programmatori di mitigarli.
Nel giugno del 2015, Jacky Alciné, un giovane di colore, si accorge di una situazione sorprendente nella sua galleria di Google Photo. Alcune foto che ha caricato sullo smartphone, in cui compare con un’amica, vengono erroneamente etichettate come immagini contenenti “gorilla”. Questo episodio mette in luce per la prima volta il rischio che i software di deep learning, spesso associati all’intelligenza artificiale, possano essere soggetti a pregiudizi gravi, simili a quelli presenti nella società.
In breve tempo, diventa evidente che l’incidente con Google Photo non è un caso isolato. Nel ottobre del 2017, Amanda Levendowski, ricercatrice presso la New York University, scopre che un software chiamato Cloud Natural Language API, incaricato di “rivelare la struttura e il significato dei testi”, assegna valutazioni positive a frasi come “sono un ragazzo eterosessuale francese” e valutazioni negative a frasi come “sono ebreo” o “sono gay”. In soli due anni, mentre il mondo sta ancora cercando di comprendere gli algoritmi di deep learning, emerge che questi sistemi possono manifestare intrinsecamente pregiudizi razziali, omofobi e antisemiti.
I critici dei sistemi di intelligenza artificiale, come ChatGPT, sollevano spesso la preoccupazione che questi modelli possano ereditare pregiudizi culturali umani, influenzando la produzione e la trasmissione delle informazioni. Una recente indagine ha confermato questa preoccupazione.
ChatGPT rientra nella categoria dei grandi modelli linguistici (LLM), i quali sono sistemi di intelligenza artificiale progettati per generare testi simili a quelli umani. Questi modelli vengono addestrati su vaste collezioni di testi provenienti da Internet. Per esplorare i pregiudizi presenti nei LLM, il team ha adottato il metodo della “catena di trasmissione”, un approccio con radici nella psicologia che costituisce fondamentalmente una versione da laboratorio del gioco del telefono senza fili per bambini. In questo contesto, i partecipanti umani si passano iterativamente una storia, consentendo ai ricercatori di tracciare come la storia viene alterata ad ogni fase della trasmissione. Questa metodologia si rivela particolarmente efficace nell’indagare i pregiudizi nei LLM, poiché consente un confronto diretto con i risultati ottenuti dagli esseri umani e può mettere in luce la presenza di sottili pregiudizi che altrimenti resterebbero sfuggenti all’identificazione.
In questa ricerca, Alberto Acerbi dell’Università di Trento e Joseph Stubbersfield dell’Università di Winchester, nel Regno Unito, hanno sottoposto un LLM a un processo di riassunto e riformulazione di una storia. Successivamente, hanno restituito il riassunto ottenuto all’intelligenza artificiale, chiedendole di riassumerlo di nuovo, ripetendo l’operazione per tre volte.
Acerbi e Stubbersfield hanno impiegato le stesse storie utilizzate in cinque esperimenti di psicologia con partecipanti umani precedentemente condotti. Ognuna di queste storie aveva lo scopo di evidenziare uno specifico pregiudizio. Ad esempio, una storia includeva elementi in linea con gli stereotipi di genere, come una moglie che cucina per una cena a cui il marito ha invitato degli ospiti, insieme a elementi che contraddicevano tali stereotipi, come la stessa moglie che esce a bere con gli amici prima della cena. Un’altra storia presentava sia elementi negativi che positivi, oltre a elementi ambigui interpretabili in modi contrastanti, come un uomo che “prende la borsa di un’anziana signora”, che potrebbe essere interpretato come un gesto di aiuto o come un furto. Una terza storia includeva elementi che suggerivano una minaccia accanto ad altri rassicuranti, e così via.
In tutti e cinque gli esperimenti, ChatGPT ha replicato gli stessi pregiudizi riscontrati nei partecipanti umani. Nella selezione di cosa includere nei riassunti, ha preferito mantenere informazioni conformi agli stereotipi di genere, scartando quelle non conformi. Ha privilegiato informazioni negative rispetto a quelle positive e ha mostrato una tendenza a interpretare situazioni ambigue in modo negativo. Inoltre, ha favorito la trasmissione di contenuti associati a possibili minacce e di contenuti sociali rispetto alle informazioni prive di aspetto sociale.
Gli autori mettono in luce come, senza l’intervento umano, questi pregiudizi possano generare effetti dannosi, amplificando le tendenze umane preesistenti. I pregiudizi umani possono derivare da caratteristiche cognitive selezionate durante l’evoluzione (ad esempio, prestando particolare attenzione alle potenziali minacce), ma ciò non implica necessariamente la fornitura di contenuti informativi o di valore. Di fronte a informazioni ambigue, ad esempio, i LLM possono finire per produrre sistematicamente risultati negativi anziché neutri.
“Come per molte tecnologie, dobbiamo imparare a utilizzarle al meglio”, afferma Acerbi. “Man mano che si adattano a noi, noi, come individui e come società, ci adattiamo a loro. La cosa più importante è essere consapevoli dell’esistenza di questi pregiudizi”, conclude.