Linguistica computazionale e algoritmi: una nuova frontiera contro le bufale intelligenti
Intervista di Marco Cappadonia Mastrolorenzi a Enrico Santus
Le notizie che ci arrivano continuamente attraverso il web e che circolano sui social possono contenere – lo sappiamo – anche la cosiddetta “bufala” (in tutte le salse e condimenti) e non di rado possiamo imbatterci in news taroccate, ritoccate o addirittura inventate di sana pianta. Mala tempora currunt, così come corrono veloci le notizie e vengono poi fatte girare nuovamente sui social attraverso un semplice click, molte volte non soltanto senza aver effettuato un controllo della fonte di provenienza (fatica eccessiva, in effetti) ma addirittura fermandosi alla lettura del solo titolo (non di rado fuorviante) e quindi senza andare oltre per leggere il testo dell’articolo.
Ma se corrono brutti tempi, peiora parantur (se ne preparano di peggiori) visto che da alcuni anni si aggirano in rete dei testi visivi non reali, per così dire, che riproducono, mediante algoritmi intelligenti, le fattezze e la voce di persone spesso note in campo politico o economico. Fermo restando l’importanza di eseguire sempre un attento controllo della fonte e di verificare la provenienza di quanto stiamo ascoltando o vedendo, nel caso di una creazione artificiale che riproduce un discorso di un importante uomo politico, per esempio, la difficoltà per comprendere se il parlante è reale oppure ricostruito al computer aumenta notevolmente.
Il fenomeno delle fake news è diventato una star nel campo della cronaca mondiale soprattutto nel 2016 in seguito alle votazioni per le presidenziali americane e del referendum sulla Brexit. Stando ad alcuni studi effettuati da due economisti della Stanford e della New York University, durante la campagna presidenziale le notizie false in favore di Trump hanno avuto condivisioni fino a trenta milioni di volte in più rispetto a quelle che circolavano in favore della Clinton. Più complessa è la questione dell’effetto di queste fake news sull’elettorato. Uno studio effettuato da due ricercatori della Ohio University, afferma che le fake news hanno avuto un importante ruolo per portare Donald Trump al soglio presidenziale, agendo, quindi, sulla percezione alterata degli elettori. Altri studi, condotti sia negli USA che in Europa, rilevano invece che queste storie hanno complessivamente un impatto limitato sull’opinione pubblica. La questione è quindi ancora aperta e certamente meritevole di essere ulteriormente approfondita per arrivare a una conclusione più chiara.
Per combattere la piaga delle fake news si sono mosse anche alcune università e taluni governi nazionali e comunitari: in tutto il mondo sono nate diverse associazioni che si occupano di verifica delle notizie. Anche i grandi colossi tecnologici come Google, Twitter e Facebook hanno indossato l’ascia di guerra sottoscrivendo dei codici di comportamento per arginare questo fenomeno (per un maggiore approfondimento su questi argomenti e quanto qui accennato si veda senz’altro su Query 36 la rubrica “Numeri razionali”).
Un campo di ricerca promettente per il futuro unisce la linguistica computazionale all’intelligenza artificiale di particolari algoritmi: questi nuovi studi sono portati avanti da un ricercatore italiano del Massachusetts Institute of Technology (MIT), con la collaborazione dell’Università di Pisa e di Udine. Per parlare di questi interessanti temi, ho intervistato lo studioso Enrico Santus.
Dottor Santus, Lei si occupa di “intelligenza artificiale”, ha lavorato in Asia prima di andare negli Stati Uniti e pubblicato decine di studi su questo argomento molto ampio, ma ancora poco conosciuto. Il suo campo di applicazione riguarda l’analisi testuale attraverso l’utilizzo di particolari algoritmi impiegati per”smascherare” notizie false, per così dire. Vogliamo spiegare, intanto, ai nostri lettori come funziona il suo lavoro e quali sono le tipologie testuali sulle quali concentra la sua attenzione?
I miei interessi nel campo dell’Intelligenza Artificiale (AI) sono diversi. Ho iniziato da linguista computazionale (dopo una laurea in Lettere), con un particolare interesse per la modellazione del linguaggio umano. Nel primo periodo, mi focalizzavo soprattutto su argomenti teorici e di modellazione cognitiva anziché pratici, ma l’estero ha certamente influenzato il mio percorso, rendendolo sempre più pragmatico e applicato.
Nel laboratorio in cui lavoro, al MIT (con Regina Barzilay), attualmente ci focalizziamo su sanità, farmaceutica e fake news. Questi campi, apparentemente molto distanti, sono accomunati da una cosa: il linguaggio. Le aziende ospedaliere, così come quelle farmaceutiche, possiedono enormi quantità di documenti contenenti informazioni preziose su eventi, soggetti, sintomi, diagnosi, farmaci, trattamenti, etc. Queste informazioni, però, non vengono sfruttate perché sono attualmente organizzate in formato testuale (spesso scritto a mano), il quale non è facilmente processabile dai computer.
Strutturare queste informazioni in tabelle o database richiederebbe schiere di essere umani, con i relativi costi. L’AI permette di identificare, estrarre e strutturare queste informazioni a costi bassissimi, cosicché sia possibile analizzarle in maniera sistematica, con algoritmi o con semplici file Excel. Nel nostro laboratorio sviluppiamo algoritmi con questi scopi.
E le fake news? Beh, anche quelle sono testi e pertanto è possibile applicare algoritmi simili, capaci di identificare relazioni tra persone, entità ed eventi. Esattamente come per i testi clinici o farmaceutici, si possono strutturare anche le notizie e una volta strutturate le si può confrontare a notizie precedenti o altre risorse per verificarne l’attendibilità. In questo senso stiamo lavorando all’identificazione delle fake news tramite fact-checking automatico.
Una “verifica dei fatti” eseguita attraverso l’utilizzo dell’intelligenza artificiale, quindi: a questo punto diventa importante sapere quali sono le tecniche informatiche usate per creare testi falsi, tanto da indurre in errore non pochi utenti della rete (e non sempre sprovveduti). Quali sono, per così dire, i passaggi del particolare montaggio per arrivare ad un falso generato da questa rete di cellule cerebrali artificiali?
Beh, esistono numerosissimi potenziali algoritmi per identificare le bufale, ed essi variano in base al focus e all’approccio. Dal punto di vista del focus, c’è chi si occupa di audio, immagini e video. Visto il mio background in Linguistica Computazionale, io mi concentro sulle fake news testuali. Per quanto riguarda gli approcci, mentre io analizzo il linguaggio, altri studiano l’attendibilità della fonte o la velocità e modalità di propagazione della notizia nei social network, etc. Dal punto di vista del linguaggio, si può guardare ai tratti stilistici che le fake news contengono. Iperboli come: “incredibile” oppure “non crederete a quello che leggerete o state per vedere” sono spesso indicatori della poca attendibilità di una notizia.
La varietà del lessico e delle forme sintattiche nelle bufale, poi, tende ad essere molto più limitata rispetto alle notizie normali. Questi segnali, sebbene indicativi, non sono però sufficienti a stabilire con sicurezza se una news è attendibile o meno. Infatti, se è vero che esiste una correlazione, non vi è certamente un rapporto di causa-effetto. Con il passare del tempo, inoltre, anche i creatori di fake news hanno iniziato a migliorare lo stile dei loro “prodotti”, spesso raggiungendo livelli molto simili a quelli di fonti attendibili. Per questo motivo, è necessario passare al fact-checking, ovvero alla verifica dei fatti descritti nella notizia. Ovviamente questo processo non è semplice: richiede algoritmi intelligenti, capaci di comprendere il significato delle parole nella notizia e confrontarlo con il significato identificabile in fonti attendibili o in una memoria esperienziale.
E qui entriamo all’interno del meccanismo delle reti neurali. Addentriamoci maggiormente nel dettaglio per far capire meglio ai nostri lettori come funzionano queste reti e quali sono gli algoritmi maggiormente utilizzati in questo campo.
Tra gli algoritmi più utilizzati oggi per eseguire task intelligenti vi sono le neural networks, ovvero le reti neurali. Si tratta di algoritmi di apprendimento che rientrano nella famiglia del machine learning (ovvero “apprendimento automatico”) e che recentemente hanno raggiunto delle performance anche superiori a quelle umane in numerosi compiti, come la traduzione tra lingue o il riconoscimento di immagini. Queste reti si ispirano ai sistemi neurali umani, tanto da ricalcarne spesso le architetture. Mi spiego meglio: si stima che nel nostro cervello esistano circa 86 miliardi di neuroni connessi tra loro tramite sinapsi. Ciascun neurone può essere stimolato dai neuroni a cui è collegato e, se si attiva, stimola i neuroni che sono collegati a lui. L’attivazione di un neurone avviene quando la stimolazione raggiunge una certa soglia, che è differente per ogni neurone.
Buona parte della nostra intelligenza emerge dal lavoro coordinato di questi miliardi di neuroni. In modo molto simile, le neural networks sono delle reti di migliaia o milioni di neuroni che si passano segnali numerici, i quali vengono trasformati ad ogni passaggio, mettendo in connessione un input (per esempio un testo) e un output (per esempio il fatto che tale testo sia attendibile o meno). Nel caso del fact checking, noi alleniamo le reti neurali a capire il significato delle parole, a comprenderne la composizione in frasi e a verificare che ogni frase della news in esame abbia una corrispettiva evidenza su fonti attendibili, quali Wikipedia o altre risorse.
Anche il cervello umano (che è il modello di partenza, ovviamente), che è frutto di milioni di anni di evoluzione, apprende continuamente nuove informazioni e arricchisce i collegamenti tra cellule cerebrali: e come esistono delle tecniche, anche molto sofisticate, per scoprire dei falsi d’autore o per verificare se una gemma è preziosa o meno (per esempio), sono state messe a punto (e qui arriviamo al cuore delle sue ricerche) delle tecnologie informatiche per verificare se una notizia che gira in internet (alla velocità di un click, potremmo dire) sia autentica oppure sia da considerare una bufala. Così come ci sono dei passaggi per creare delle fake news, esistono dei passaggi per smontarle. Come si fa, in sostanza, per smascherare questo scomodo e pericoloso intruso?
Una cosa molto interessante, introdotta appena qualche anno fa nel campo dell’Intelligenza Artificiale, sono le Generative Adversarial Neural Networks, ovvero due reti neurali che sono allenate in contemporanea, l’una per generare qualcosa di realistico (ma non reale) e l’altra per scoprire se ciò che è stato generato sia o meno autentico.
Quando le due reti raggiungono un punto di stallo, significa che entrambe hanno ottimizzato le loro capacità. Questo tipo di reti ha ottenuto dei risultati incredibili nel campo della generazione di immagini, creando volti di persone che non sono mai esistite, e che pure sembrano tanto reali da suscitare emozioni. Nel caso delle fake news, si può ben immaginare una rete-contraffattrice che genera bufale e una rete agente che cerca di identificarle. I ricercatori stanno elaborando algoritmi in questo campo.
Nella generazione testuale esistono, però, delle difficoltà che non sono presenti nel campo della generazione di immagini, per cui siamo ancora lontani dalla perfezione, ma già si vedono i primi risultati interessanti. Quel che è comunque interessante è che non vi è alcuna garanzia su quale tra le due reti sarà più efficace in futuro, per cui la ricerca di nuovi metodi non si può fermare.
Un promettente campo di indagine che inizia però a dare risultati concreti, anche se i modelli di applicazione sono sempre migliorabili. Mi capita spesso di occuparmi di fake news e di controllo delle fonti, di verifica delle notizie e di metodo scientifico con l’intento di fornire agli interessati alcuni strumenti di indagine per evitare di cadere in tranelli pericolosi, come possono essere, per esempio, delle bufale in campo scientifico o più in generale nell’informazione mediatica.
Facendo, quindi, dei controlli sulle notizie circolanti in rete e cercando di risalire alla fonte, oppure analizzando da quale sito è partita la notizia, si può tentare di determinare l’autenticità o meno di quanto leggiamo o vediamo. Fermo restando che sviluppare una capacità critica e un approccio scettico nei confronti dell’enorme mole di notizie che circolano in ogni dove, è fondamentale per ritrovare il bandolo della matassa (spesso davvero difficile da riordinare) e per avere un corretto sistema di interazione alla rete.
Gli internauti possono utilizzare la stessa intelligenza artificiale che lei studia e applica nelle sue ricerche per capire se si ha a che fare con una notizia taroccata e costruita in laboratorio? Esiste, in sostanza, un programma specifico da acquistare o scaricare?
Per ora abbiamo scritto diversi classificatori che possono essere allenati allo scopo di identificare una news vera o falsa sulla base dello stile, ma per quanto riguarda il fact checking, non abbiamo rilasciato ancora niente al pubblico: stiamo lavorando all’algoritmo e contiamo di avere qualcosa di pronto entro fine anno. Ci saranno delle pubblicazioni e il codice – molto probabilmente in Python – sarà reso disponibile online, nella speranza che altri possano continuare a lavorarci e migliorarlo (ndr. il Python è un linguaggio di programmazione ad alto livello).
Si tratta di un progetto giovanissimo, partito a gennaio 2019 tra il laboratorio in cui lavoro, al Computer Science and Artificial Intelligence Lab (CSAIL) del MIT, l’Università di Pisa e l’Università di Udine, e ci vorrà un po’ di tempo prima che produca i suoi frutti. Consiglio comunque di rimanere aggiornati sul sito del nostro laboratorio (http://nlp.csail.mit.edu), sul mio (www.esantus.com) o su quello dei miei collaboratori, Alessandro Lenci, Francesco Marcelloni e Giuseppe Serra.
Queste ricerche e gli algoritmi utilizzati per risolvere tali problemi sembrano davvero promettenti e attualmente stanno fornendo buone risposte, nonostante sia, appunto, un progetto ancora molto giovane (e invitiamo tutti gli interessati a seguire il suo sito per aggiornamenti in materia) e l’allenamento da fare è ancora lungo per arrivare a vincere le olimpiadi. Ci sembra interessante sapere, ora, se esistono dei punti di criticità, per così dire, dei punti deboli sui cui bisogna ancora lavorare per continuare a migliorare il sistema di funzionamento di questi algoritmi intelligenti che imparano strada facendo e vengono allenati per tagliare certi specifici traguardi.
Sì, certo. A differenza delle macchine, che sono solo abili ad apprendere dei compiti strutturati ma hanno pochissima capacità di adattamento, gli esseri umani hanno un’intelligenza elastica. Nel bene e nel male, la nostra specie trova sempre soluzioni brillanti, anche nei modi per imbrogliare sistemi di controllo come quelli di cui abbiamo parlato.
La sfida per i ricercatori è quella di generare dei sistemi sempre più forti, capaci di ottenere performance sempre più alte su dataset (ovvero una collezione di dati) aggiornati e bilanciati. In un nostro articolo, attualmente in fase di revisione, abbiamo scoperto che uno dei principali dataset per l’identificazione delle fake news conteneva degli artefatti che avrebbero reso qualsiasi sistema allenato su di esso totalmente inutile nella realtà.
Nell’articolo abbiamo suggerito alcune procedure per evitare questo genere di errori, i quali sono molto comuni e seri: se si allena una rete neurale a risolvere un compito in un modo sbagliato, non ci si deve sorprendere se non sarà in grado di generalizzare quando viene applicata nella vita reale. Poi, come spiegavo prima, le fake news stanno cambiando forma (per esempio, lo stile diventa sempre più simile a quello di notizie reali), per cui allenare un sistema su un dataset di fake news vecchie avrebbe poco senso, in quanto non garantirebbe la sua capacità di identificare bufale nel mondo reale.
Una nuova generazione di notizie false si sta sviluppando per sembrare quanto più possibile reale e difficile da smascherare. Un’ultima domanda: questa nuova tecnologia informatica, ancora in fase di sperimentazione (possiamo dire), in quali altri campi potrebbe essere impiegata in un futuro non lontano? Potrebbero, per esempio, esserci problemi in merito al controllo e alla eventuale censura preventiva e inadeguata? Come si potrebbe risolvere questa problematica?
Purtroppo sì. Prima che ricercatore, sono un cittadino (e, in particolare, un cittadino attivo ed informato – sono stato giornalista per tanto tempo) e come tale ho il dovere di capire anche i problemi sociali e politici legati all’utilizzo di questi sistemi. Per questo motivo nella mia pagina web ho dichiarato fin da subito di essere contrario alla censura. Nessuno dovrebbe accaparrarsi il diritto di tappare la bocca di qualcuno, tantomeno la ricerca. Penso che l’unica cosa che noi ricercatori dobbiamo fare sia fornire ai lettori degli score di affidabilità supportati da evidenze, cosicché il lettore possa fare una lettura informata e decidere di conseguenza.
Un nuovissimo settore della ricerca nel campo dell’intelligenza artificiale che ci sembra interessante seguire soprattutto negli sviluppi futuri in questa continua caccia alle giovani generazioni di fake news che tendono a cambiare continuamente forma e stile mettendo sempre di più in difficoltà gli internauti e i lettori. Questa nuova sfida della ricerca apre nuovi sentieri e induce a migliorare sempre di più i modelli applicativi e le indagini sul campo. E da parte nostra aumenta l’attenzione verso le nuove tecnologie artificiali applicate alle false identità per tentare di stanare scomodi e, talvolta, pericolosi intrusi, per così dire.