Metti l’Intelligenza Artificiale al servizio dei Tribunali e addestra una rete neurale a riconoscere se la voce dell’indagato è la stessa voce fra quelle intercettate durante le indagini. Poi applica un modello scientifico che compara le caratteristiche delle due voci, lo stesso metodo biometrico utilizzato per comparare le tracce di DNA presenti sulla scena di un crimine: e avrai Intrepido, un sistema di nuova generazione sviluppato presso il Centro di Ricerca Interdisciplinare sul Linguaggio (CRIL), dell’Università del Salento (Dipartimento di Studi Umanistici), diretto dal professor Mirko Grimaldi.
La ricerca è stata appena pubblicata sulla rivista internazionale Speech Communication (https://doi.org/10.1016/j.specom.2024.103045).
Francesco Sigona (Ricercatore del CRIL) e Mirko Grimaldi, Professore di Linguistica Generale, hanno lavorato per anni alla elaborazione di un software in grado di offrire uno strumento all’avanguardia nel campo delicato della comparazione forense della voce, dove gli errori giudiziari sono sempre in agguato. “Nel sistema attuale”, commenta il professor Grimaldi, “la figura del Perito Fonico non è prevista dal legislatore e la Riforma Cartabia non ha colmato la lacuna. L’identificazione del parlante in ambito forense è spesso lasciata al fai da te, assegnata cioè a figure che non hanno nessuna formazione specifica. Per questo, ogni perito si sente libero di usare il metodo che preferisce (raramente basato su presupposti scientifici), e la sorte dell’indagato può finire nelle mani del caso. Ciò non dovrebbe mai avvenire nelle aule dei Tribunali, dove invece sono richieste evidenze oggettive, al di là di ogni ragionevole dubbio. I risultati ottenuti dal sistema che abbiamo sviluppato sono migliori di tutti gli altri attualmente in uso; pertanto, Intrepido si propone come il sistema più affidabile di identificazione del parlante in campo forense e, grazie a questo strumento, magistrati, avvocati e periti hanno ora uno strumento in più per applicare i principi del giusto processo”.
Al contrario del DNA, la voce ha una elevata variabilità: chi parla può alzare o abbassare la voce, parlare in modo veloce o lento (variabilità intra-parlatore); inoltre, l’anatomia del tratto vocale è diversa da individuo a individuo, si parlano italiani regionali e dialetti diversi, i parlanti sono di età e sesso differenti (variabilità inter-parlatore). A complicare il processo di identificazione ci sono poi altri fattori che caratterizzano le intercettazioni telefoniche e ambientali: rumori di fondo o del canale di trasmissione della voce, voci di altri parlanti in lontananza, riverberi, la radio accesa di un’auto su cui è collocato il sistema di captazione, e così via. I passi avanti compiuti dall’Intelligenza Artificiale posso essere di grande aiuto a risolvere questi problemi, di cui non sempre le parti in causa in un processo sono consapevoli.
L’idea dei ricercatori salentini è stata quella di utilizzare una rete neurale, già scientificamente testata per altri scopi e a disposizione della comunità scientifica internazionale: SpeechBrain. La rete è stata “addestrata” a identificare le voci, estratte da YouTube, di oltre 7000 parlanti diversi (uomini e donne di età differente), i quali hanno prodotto oltre 1 milione di frasi, per circa 2.000 ore di registrazioni audio-video. Le lingue utilizzate sono state prevalentemente l’inglese (britannico e americano), il tedesco, il francese e l’indiano. I segnali audio utilizzati per addestrare la rete neurale sono stati degradati introducendo disturbi (rumore) caratteristico del mondo reale, come voci di sottofondo, risa, parlato sovrapposto, e altre tipologie di rumore: in questo modo le performance del sistema sono state migliorate. A queste gli studiosi del CRIL hanno aggiunto una banca dati di voci rappresentative dell’italiano, ma anche di alcune varietà dell’arabo.
Francesco Sigona e Mirko Grimaldi hanno testato il loro sistema seguendo un modello di validazione internazionale sviluppato da Geoffrey Morrison (Aston University, Birmingham) e da Ewald Enzinger (Stanford Research Institute, Silicon Valley). Sulla base di questo modello, la rivista Speech Communication ha pubblicato nel 2016 un numero speciale dedicato alla validazione di tutti i software attualmente disponibili a livello internazionale (https://www.sciencedirect.com/journal/speech-communication/special-issue/10KTJHC7HNM).