Tesi/TesiZIP/cap2.tex
2025-02-02 23:34:34 +01:00

44 lines
14 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\chapter{I dati di addestramento dei modelli di Intelligenza Artificiale Generativa}
Come osservato nel capitolo precedente, lefficacia degli LLM nel contesto educativo dipende in modo significativo dalle loro caratteristiche tecniche e architetturali. Tuttavia, un aspetto cruciale, spesso trascurato, è la qualità e la provenienza dei dati impiegati per il loro addestramento. Laddestramento di un modello di IA richiede enormi quantità di dati e questi, come già menzionato, devono essere di elevata qualità per evitare di produrre errori e introdurre distorsioni. La presenza di pregiudizi nei dati di addestramento può portare a risultati non equi o addirittura errati, compromettendo laffidabilità e lutilità di questi strumenti nel contesto educativo. Per questo motivo, è fondamentale comprendere le problematiche legate alla raccolta e allutilizzo dei dati.
\section{Natura dei dati di addestramento e questioni etiche e legali}
La raccolta di dati per l'addestramento degli LLM pone importanti questioni etiche e legali. Questi insiemi di dati includono spesso informazioni di varia provenienza: contenuti web pubblici, libri non più protetti da copyright, articoli scientifici e, talvolta, archivi di dati aziendali. Inoltre, le big-tech non esplicitano i loro dati di addestramento.
L'impiego di testi protetti da copyright per addestrare i modelli linguistici è una delle questioni più rilevanti nel campo dellintelligenza artificiale \parencite{shi_detecting_2023}. Le fonti di dati aperti sembrano esaurirsi e la maggior parte dei nuovi testi di alta qualità proviene dall'editoria tradizionale. L'utilizzo di questi testi permetterebbe un notevole miglioramento delle prestazioni degli LLM, riducendo i bias e anche le allucinazioni. Tuttavia, si presentano due problemi critici: la possibile violazione del diritto d'autore durante la fase di addestramento e la conseguente difficoltà nel determinare con precisione quali documenti siano stati effettivamente impiegati per l'addestramento in modo da trovare forme per tutelare la proprietà intellettuale.
Per affrontare queste problematiche, la comunità scientifica sta sviluppando diverse strategie di mitigazione, tra cui metodi sofisticati per individuare l'utilizzo di documenti protetti, come l'algoritmo \enquote{Min-K \%Prob}, che permette di stabilire se un documento specifico è stato impiegato nell'addestramento del modello \parencite{shi_detecting_2023}. Queste tecniche, per quanto complesse, non sono ancora completamente accurate. In assenza di un quadro normativo chiaro, gli sforzi rischiano di essere vani. Alcuni studi, analizzando la situazione legale negli Stati Uniti, dove hanno sede le maggiori aziende di IA, hanno osservato che la legge sul copyright, con il suo principio del \enquote{fair use}, consentirebbe in teoria di utilizzare qualsiasi documento per l'addestramento, anche senza autorizzazione \parencite{murray_generative_2023}. Se ad oggi vengono impiegati materiali protetti da copyright è soprattutto perché non esiste una normativa chiara. Il problema legale è evidente, e i creativi si stanno attivando spinti anche dalla paura che questi programmi addestrati sulle loro creazioni possano sostituire il lavoro degli artisti in molti ambiti. Lindustria creativa italiana ha espresso forti preoccupazioni sullimpatto degli LLM sul loro lavoro. Ad esempio, il 20 giugno 2023 è stato presentato a Roma, presso il Palazzo delle Esposizioni, un importante documento programmatico promosso dalla federazione AUT-Autori, che rappresenta un punto di riferimento nella discussione sulla regolamentazione dellIA nel settore creativo italiano. Il manifesto evidenzia come la mancanza di una regolamentazione adeguata possa causare non solo problemi legali ed economici, ma anche conseguenze culturali significative, come la standardizzazione dei contenuti e lomogeneizzazione delle espressioni creative. Questi rischi richiedono unattenta valutazione e misure preventive. Listituzione di un osservatorio permanente, proposta nel manifesto, è uno strumento per monitorare costantemente levoluzione tecnologica e le sue implicazioni nel settore creativo.
Le applicazioni di IA Generativa hanno dimostrato nellultimo biennio di saper generare risultati accettabili anche in musica e video. Non è certo se lIA generativa segnerà la fine dellarte come la conosciamo, ma le preoccupazioni sono concrete. A questo proposito, può essere interessante riportare due esempi. Nel 2023, Boris Eldagsen ha vinto un premio nella categoria “Creative Open” con lopera \textit{Pseudomnesia: The Electrician}, un ritratto in bianco e nero di due donne generato con DALL-E 2 (Figura\ref{fig:The Electrician}). Successivamente, Eldagsen ha rifiutato il premio, rivelando la natura artificiale dellimmagine per stimolare un dibattito sul ruolo dellIA nella fotografia. In una situazione opposta, il fotografo Miles Astray ha partecipato al concorso 1839 Awards presentando una foto reale nella categoria dedicata alle immagini generate dallIA. La sua foto \textit{Flamingone}, che ritrae un fenicottero che si gratta la pancia, ha vinto il terzo premio e il premio del pubblico nella categoria IA (Figura \ref{fig:flamingo}). Dopo la vittoria, Astray ha rivelato che limmagine era una vera fotografia, scattata ad Aruba nel 2022 con una Nikon D750, e per questo è stato squalificato.
\begin{figure}[H]
\centering
\includegraphics[width=0.7\textwidth]{immagini/the_eletician.png}
\caption{\textit{The Electrician,} dalla serie \textit{PSEUDOMNESIA, }2022.
Boris Eldagsen/Co-creata con DALLE2}
\label{fig:The Electrician}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.7\textwidth]{immagini/f_l_a_m_i_n_g_o_n_e_by_miles_astray.png}
\caption{Flamingo, a cura di Miles Astray.}
\label{fig:flamingo}
\end{figure}
\empty
\section{LAI Act}
Al momento, solo lUnione Europea ha intrapreso un percorso normativo avanzato per affrontare le questioni etiche e legali legate alluso dei dati nelladdestramento dei modelli di IA. LAI Act è la prima legge che stabilisce principi fondamentali sulla trasparenza e sulla provenienza dei dati di addestramento. Si tratta di una svolta nella regolamentazione dei dati di addestramento della IA. La normativa impone ai fornitori di sistemi di IA, inclusi gli LLM, una serie di obblighi in base al livello di rischio del sistema. A tutela del copyright, per i produttori che vendono i loro sistemi sarà necessario fornire un riassunto dettagliato dei contenuti usati per addestrare i modelli, seguendo linee guida specifiche elaborate dallUfficio Europeo per lIntelligenza Artificiale.
LAI Act mira dunque a bilanciare linnovazione con la tutela del diritto dautore, rafforzando laccezione di Text and Data Mining (TDM) introdotta dalla Direttiva Copyright \parencite{buick_copyright_2024}. Il TDM è una tecnica di analisi automatizzata che permette di analizzare grandi quantità di testi e dati digitali per ottenere informazioni. Questa eccezione consente alle compagnie di accedere a grandi quantità di dati. La Direttiva Copyright permette ai titolari dei diritti di opporsi alluso dei loro contenuti per laddestramento dellIA e di richiedere un compenso in alcuni casi. Tuttavia, lapplicazione pratica di queste disposizioni presenta diverse criticità. Restano aperte questioni come la definizione precisa delleccezione di TDM e lequilibrio tra trasparenza e tutela dei segreti commerciali. Lobbligo di comunicare informazioni sugli insiemi di dati di addestramento potrebbe creare tensioni con le pratiche di molte aziende tecnologiche, che considerano questi dati risorse strategiche da proteggere \parencite{fernandes_ai_2024}.
Nonostante queste sfide, lAI Act rappresenta un importante passo avanti verso una maggiore trasparenza e responsabilità nello sviluppo e nelluso dellIA. La normativa europea può diventare un modello di riferimento globale, influenzando gli standard internazionali in questo settore in rapida evoluzione. La sua efficacia dipenderà dalla capacità di bilanciare gli interessi di innovazione tecnologica, tutela dei diritti e trasparenza, mantenendo la competitività del mercato europeo nel contesto globale dellintelligenza artificiale. Un approccio promettente per le compagnie alla ricerca di dati è quello di stipulare accordi con i detentori dei diritti per luso dei dati, prevedendo un giusto compenso. La recente collaborazione tra il sistema bibliotecario di Harvard e OpenAI, ne è un esempio: lInstitutional Data Initiative (IDI) di Harvard mira a rendere disponibili dati di pubblico dominio provenienti da istituzioni come la Harvard Law School Library per laddestramento di modelli di IA. Non si conoscono i dettagli economici dellaccordo \parencite{young_harvards_nodate}.
Un altro problema legale da considerare con gli LLM è la definizione di licenza \enquote{Open Source}. Il dibattito sullintelligenza artificiale si sta complicando ulteriormente a causa dellapplicazione controversa del termine \enquote{open source} ai modelli linguistici di grandi dimensioni. La tendenza di aziende come Meta a definire \enquote{open source} modelli come LLaMA, pur imponendo limitazioni significative al loro utilizzo, ha generato perplessità e critiche. La Open Source Initiative (OSI) ha infatti negato esplicitamente la qualifica di \enquote{open source} a LLaMA \parencite{noauthor_llama_nodate}, sottolineando come le restrizioni della sua licenza, tra cui il divieto di utilizzo per servizi con oltre 700 milioni di utenti, le limitazioni allo sviluppo di sistemi AI concorrenti e i divieti specifici nella sezione \enquote{Prohibited Uses} (che includono, tra laltro, la violazione della legge, la pianificazione di attività rischiose, linganno e la mancata comunicazione dei pericoli del sistema agli utenti) \parencite{noauthor_llama_nodate} siano incompatibili con i principi fondamentali dellopen source \parencite{noauthor_meta_nodate}. Per chiarire la situazione, lOSI ha proposto una nuova definizione di \enquote{Open Source AI}, che prevede la disponibilità del codice sorgente completo, dei dati di addestramento (con eccezioni per i dati sensibili), dei parametri del modello e di una documentazione completa. Modelli come Pythia, OLMo, Amber, CrystalCoder e T5 rispettano questa definizione, a differenza di LLaMA, Grok, Phi-2 e Mixtral. La posizione di Zuckerberg, che sostiene la necessità di una definizione specifica per i suoi LLM, riflette il dibattito tra luso libero di una tecnologia e il controllo dei suoi potenziali usi dannosi. LLAMa una posizione comprensibile, evitare usi malevoli della sua IA, ma in contrasto con i principi di non discriminazione e di non restrizioni tipici dellopen source.
Per concludere, al di là del dibattito sullAI Act e sulle licenze open source, è fondamentale definire regole interne chiare e condivise nelle scuole e negli ambienti educativi, in linea con le direttive dellUnione Europea. A mio parere ogni istituto dovrebbe promuovere la creazione di gruppi di lavoro per stabilire insieme le modalità di utilizzo dellintelligenza artificiale, in unottica di trasparenza e responsabilità condivisa. Questo permetterebbe di definire con precisione gli usi consentiti e i relativi costi, di scegliere le piattaforme più adatte e di stabilire chi può usare questi strumenti e quando. Unattenzione particolare andrebbe dedicata alla creazione di prompt di valutazione standardizzati per le valutazioni preliminari e alla scelta dei modelli di IA più adatti al contesto educativo. Sarebbe inoltre utile regolamentare nelle stesse scuole luso dellIA da parte degli studenti, considerando letà e le modalità di accesso. Ma la scuola non è solo studenti, occorre disciplinare limpiego di queste tecnologie anche nelle attività amministrative, come la redazione di comunicazioni o le risposte automatiche.
Come detto, non è possibile sapere con certezza con quali materiali sia stato addestrato ogni LLM, ma in futuro, con lapplicazione dellAI Act, potremo orientarci verso applicazioni educative di cui sarà possibile conoscere meglio i dati di addestramento. Per ora, nella scelta di unapplicazione, unistituzione o un docente dovrà verificare che i prompt di contesto o i vettori per il sistema di Retrieval-Augmented Generation (RAG) non siano stati creati a partire da testi protetti da copyright. In caso contrario, è probabile che in futuro quel sistema possa essere bloccato a seguito di azioni legali da parte dei detentori dei diritti, con la conseguente interruzione del servizio per i clienti. Credo quindi che unapplicazione di questo tipo, in ambito educativo, debba essere il più trasparente possibile, mostrando i propri prompt di sistema e, in caso di RAG, indicando quali documenti contribuiscono alla risposta. Questo principio è stato fondamentale per lo sviluppo dellapplicazione Interviste storiche.tech, un esempio di come si possa unire linnovazione tecnologica al rispetto della proprietà intellettuale. Solo con un approccio organico e strutturato, che coinvolga tutti i membri della comunità scolastica in modo responsabile e consapevole e che consideri le implicazioni etiche e legali legate alluso di materiali protetti da copyright, sarà possibile gestire lintroduzione dellintelligenza artificiale, trasformandola da potenziale rischio in una risorsa preziosa per migliorare la didattica e lorganizzazione scolastica. La trasparenza sui dati utilizzati, la verifica della provenienza delle informazioni e il rispetto del diritto dautore sono essenziali per garantire laffidabilità e loriginalità dei contenuti generati dallIA e per costruire un rapporto di fiducia tra sviluppatori, utenti e istituzioni.