Non sono cattiva, è che mi disegnano così
Che differenza c'è tra l'AI e un dipendente di una società fallita nel 2000?
Ciao!
Sei su Ellissi, la newsletter che ti accompagna alla scoperta del futuro dei media e delle nuove economie del digitale — scritta da me, Valerio Bassan.
Grazie a Salesforce per avere deciso di sponsorizzare questa puntata della newsletter.
Buona lettura
v.
Opinioni in codice
Come sarebbe ChatGPT se tutti i testi da cui prende spunto fossero stati scritti dai dipendenti di una ricchissima multinazionale in crisi?
Questa non è domanda speculativa. O almeno, non del tutto.
Per anni infatti i modelli di Machine Learning sono stati allenati sui testi dell’Enron Corpus, un database di 600.000 e-mail generate da 158 dipendenti della Enron Corporation, nei mesi che precedettero il crollo della società nel 2001.
Gli agenti che indagavano sul fallimento dell’azienda estrassero il corpus dai server di Enron nei mesi successivi alla sua chiusura, e lo usarono come prova nei processi che seguirono.
Nel 2003 l’archivio di messaggi di posta elettronica fu poi acquistato da un professore di informatica dell’Università del Massachusetts, Andrew McCallum.
McCallum aveva intravisto le potenzialità del corpus, uno dei pochi database di conversazioni da umano a umano disponibili sul mercato, per alimentare gli studi sui cosiddetti Large Language Model (LLM).
Il professore rilasciò il dataset pubblicamente, mettendolo a disposizione dei ricercatori e delle scienziate di tutto il mondo.
Così, nei vent’anni successivi, l’Enron Corpus è stato utilizzato da centinaia di persone per addestrare i nascenti modelli di machine learning e la ricerca a essi collegata.
Qual era il problema?
Be’, lo stesso che affligge tutti i dataset utilizzati dai servizi di intelligenza artificiale.
Ovvero che il loro output dipende largamente dall’input, e cioè dai dati, più o meno grezzi, di cui gli algoritmi si cibano.
Le e-mail dei dipendenti di Enron erano uno strumento prezioso, certo: un reperto enorme di conversazioni “reali” tenute da essere umani “reali” in un contesto quotidiano “reale”.
Ma non erano uno strumento neutrale.
Il corpus rifletteva infatti le discussioni avvenute all’interno in un’azienda statunitense, popolata soprattutto da uomini, di pelle bianca, moralmente compromessi, in un periodo di grande caos interno.
Non si trattava di un dataset rappresentativo della società né a livello geografico né socioeconomico, di razza o di genere — bensì di uno spaccato ben preciso di un certo tipo di umanità, di mentalità e di esigenza comunicativa dettata dalle circostanze del momento.
In sostanza, una buona parte dei modelli di linguaggio utilizzati per quasi due decenni furono istruiti per “parlare” e “pensare” come un dipendente di Enron nel 2000.
I nuovi corpus
Ancora oggi, l’AI è allenata su dataset pieni di bias simili, come ha dimostrato recentemente un’inchiesta del Washington Post su uno dei corpus oggi più utilizzati, il Colossal Clean Crawled Corpus (C4).
Il C4, i cui dati nutrono in parte anche i sistemi di AI di Google e Facebook, si basa su frasi, parole e informazioni estratte da 15 milioni di siti web, circa il 13% dell’Internet “attivo”.
Pur essendo un corpus mastodontico, il C4 riflette però soltanto una piccola parte della realtà.
Come ha svelato il Post, il sito più presente in C4 è Patents, un sotto-motore di ricerca di Google che indicizza registrazioni e domande di brevetto.
Il secondo è Wikipedia, mentre il terzo è Scribd.com, un servizio americano di abbonamento a e-book e audiolibri.
Il corpus include poi i testi di diverse testate giornalistiche, la maggior parte delle quali di orientamento liberale e progressista, come il New York Times (4°), il Los Angeles Times (6°), Forbes (8°), l’Huffington Post (9°), il Washington Post (11°).
Al contempo, nel dataset del C4 - che utilizza una “lista nera” per filtrare i suoi contenuti - ci sono anche migliaia di blog personali e contenuti di propaganda, tra cui anche diversi siti apertamente razzisti, complottisti, suprematisti e transfobici.
Come è facile intuire, la scelta delle fonti, così come la priorità assegnatagli dagli sviluppatori, influenza fortemente il tipo di risposte che gli utenti ottengono.
E questo vale per tutti i servizi di AI che utilizziamo.
Due anni fa, due ricercatori avevano chiesto a ChatGPT-3 di completare la frase "Due musulmani sono entrati in...".
Il bot di OpenAI aveva risposto, nel 66% dei casi, descrivendo azioni violente tipo “…una sinagoga con delle asce e una bomba”, oppure “…un concorso per fumettisti, dove hanno cominciato a sparare”.
Ora le cose sono decisamente migliorate (se ponete la stessa domanda a ChatGPT-4 otterrete risposte di tutt’altro tenore) ma la verità è che queste scatole nere restano ancora - come le ha definite l’informatica Cathy O’Neil - “opinions embedded in code”, opinioni in codice.
Sono innatamente ricche di bias: statistici, ma anche sistemici e umani.
L’AI somiglierà sempre un po’ a noi — anzi, alla nostra società: imperfetta, faziosa, prevenuta, tendente ai pregiudizi.
Questa però non deve diventare una scusa per evitare di occuparsi del tema dei bias prima che sia tardi.
Sulle prossime sfide - quella sul copyright e quella sulla regolamentazione - se ne quindi aggiunge una cruciale, quella sulla trasparenza dei dataset e sull’equità dei modelli che vengono utilizzati per creare la “visione del mondo” dell’AI generativa.
Per esempio, ha suscitato più che qualche sopracciglio alzato la decisione della Spagna di subappaltare a un’azienda privata come Deloitte la creazione della nuova Agenzia Nazionale per l’Intelligenza Artificiale.
Intanto, però, un numero crescente di persone si sta dedicando ad azioni di algorithmic fairness (equità algoritmica) per correggere i bias degli algoritmi e sviluppare set di dati in grado di rappresentare efficacemente la società.
Qualcosa si sta smuovendo anche nel mondo delle big tech.
ChatGPT ha introdotto un sistema chiamato RLHF (Reinforcement learning from human feedback) che, secondo Sam Altman, contribuirà a “ridurre, e non rinforzare, i bias sociali”.
Meta ha annunciato l’integrazione di un nuovo dataset, Casual Conversations C2, più bilanciato e aperto “per servire le comunità in modo equo”.
Ma anche qui, il concetto di cosa sia fair e cosa no (e per chi) resta il nodo centrale. Un nodo molto, molto umano.
Come un tempo non avremmo dato la colpa dei contenuti-spazzatura al tubo catodico, ai satelliti orbitanti nello spazio, alle frequenze FM o alla carta dei giornali, bensì gli umani che li producevano, domani ricordiamoci di non scaricare ogni responsabilità sull’AI, moderna Jessica Rabbit:
Tocca sempre alle persone, prima che alle tecnologie, prendere le decisioni giuste.
Alla prossima Ellissi
Valerio
Impara con Salesforce, migliora le tue competenze 🎓
Conosci Trailhead?
È la piattaforma di e-learning gratuita di Salesforce che ti consente di acquisire e migliorare le tue competenze digitali.
Trailhead mette a disposizione oltre 800 corsi sui principali trend dell’evoluzione digitale ed è utilizzata oggi da oltre 45.000 persone in Italia.
Sviluppa le tue competenze su digital marketing, sviluppo delle app, analisi dei dati, intelligenza artificiale e sull’utilizzo delle soluzioni di Salesforce — tutte skill ampiamente richieste dalle aziende.
Trailhead utilizza le tecniche della gamification per rendere l’apprendimento più divertente ed efficace, fruibile anche attraverso l’app mobile Trailhead GO, disponibile sia iOS che per Android.
Che aspetti?
Nella mia reading list
🟡 Per inquinare un dataset bastano 60 dollari.
🟡 Il nuovo supermedia The Messenger è una fabbrica da clickbait?
🟡 Sapevi che Elon Musk, nel 2017, lanciò una media company? E non finì male.
🟡 La macchina fotografica che converte la realtà in AI.
🟡 La stanza segreta dei videogiochi in cui si lotta contro la propaganda russa.
🟡 Anche a voi tutte queste notifiche sembrano fuori controllo?
🟡 L’assurdità di quei video di Youtube che sono tutti neri.
🟡 Che cosa ci faceva Stephen King con quella maglietta?
Ci vediamo in giro?
🟡 Il prossimo 7 giugno sarò al Beaches Brew di Marina di Ravenna per parlare di AI e industria musicale.
🟡 La settimana successiva, il 15 giugno, sarò invece al We Make Future Festival di Rimini per due incontri, di cui uno sulle newsletter, insieme a Newsletterati.
🫡 Se questa Ellissi ti è piaciuta, falla leggere a qualcuno!