MODIFICATI CON SCRIPT
This commit is contained in:
parent
9eec379464
commit
d0b222488b
11 changed files with 30 additions and 37 deletions
|
|
@ -8,7 +8,7 @@ La raccolta di dati per l'addestramento degli LLM pone importanti questioni etic
|
|||
|
||||
L'impiego di testi protetti da copyright per addestrare i modelli linguistici è una delle questioni più rilevanti nel campo dell’intelligenza artificiale \parencite{shi_detecting_2023}. Le fonti di dati aperti sembrano esaurirsi e la maggior parte dei nuovi testi di alta qualità proviene dall'editoria tradizionale. L'utilizzo di questi testi permetterebbe un notevole miglioramento delle prestazioni degli LLM, riducendo i bias e anche le allucinazioni. Tuttavia, si presentano due problemi critici: la possibile violazione del diritto d'autore durante la fase di addestramento e la conseguente difficoltà nel determinare con precisione quali documenti siano stati effettivamente impiegati per l'addestramento in modo da trovare forme per tutelare la proprietà intellettuale.
|
||||
|
||||
Per affrontare queste problematiche, la comunità scientifica sta sviluppando diverse strategie di mitigazione, tra cui metodi sofisticati per individuare l'utilizzo di documenti protetti, come l'algoritmo "Min-K \%Prob", che permette di stabilire se un documento specifico è stato impiegato nell'addestramento del modello \parencite{shi_detecting_2023}. Queste tecniche, per quanto complesse, non sono ancora completamente accurate. In assenza di un quadro normativo chiaro, gli sforzi rischiano di essere vani. Alcuni studi, analizzando la situazione legale negli Stati Uniti, dove hanno sede le maggiori aziende di IA, hanno osservato che la legge sul copyright, con il suo principio del "fair use", consentirebbe in teoria di utilizzare qualsiasi documento per l'addestramento, anche senza autorizzazione \parencite{murray_generative_2023}. Se ad oggi vengono impiegati materiali protetti da copyright è soprattutto perché non esiste una normativa chiara. Il problema legale è evidente, e i creativi si stanno attivando spinti anche dalla paura che questi programmi addestrati sulle loro creazioni possano sostituire il lavoro degli artisti in molti ambiti. L’industria creativa italiana ha espresso forti preoccupazioni sull’impatto degli LLM sul loro lavoro. Ad esempio, il 20 giugno 2023 è stato presentato a Roma, presso il Palazzo delle Esposizioni, un importante documento programmatico promosso dalla federazione AUT-Autori, che rappresenta un punto di riferimento nella discussione sulla regolamentazione dell’IA nel settore creativo italiano. Il manifesto evidenzia come la mancanza di una regolamentazione adeguata possa causare non solo problemi legali ed economici, ma anche conseguenze culturali significative, come la standardizzazione dei contenuti e l’omogeneizzazione delle espressioni creative. Questi rischi richiedono un’attenta valutazione e misure preventive. L’istituzione di un osservatorio permanente, proposta nel manifesto, è uno strumento per monitorare costantemente l’evoluzione tecnologica e le sue implicazioni nel settore creativo.
|
||||
Per affrontare queste problematiche, la comunità scientifica sta sviluppando diverse strategie di mitigazione, tra cui metodi sofisticati per individuare l'utilizzo di documenti protetti, come l'algoritmo \enquote{Min-K \%Prob}, che permette di stabilire se un documento specifico è stato impiegato nell'addestramento del modello \parencite{shi_detecting_2023}. Queste tecniche, per quanto complesse, non sono ancora completamente accurate. In assenza di un quadro normativo chiaro, gli sforzi rischiano di essere vani. Alcuni studi, analizzando la situazione legale negli Stati Uniti, dove hanno sede le maggiori aziende di IA, hanno osservato che la legge sul copyright, con il suo principio del \enquote{fair use}, consentirebbe in teoria di utilizzare qualsiasi documento per l'addestramento, anche senza autorizzazione \parencite{murray_generative_2023}. Se ad oggi vengono impiegati materiali protetti da copyright è soprattutto perché non esiste una normativa chiara. Il problema legale è evidente, e i creativi si stanno attivando spinti anche dalla paura che questi programmi addestrati sulle loro creazioni possano sostituire il lavoro degli artisti in molti ambiti. L’industria creativa italiana ha espresso forti preoccupazioni sull’impatto degli LLM sul loro lavoro. Ad esempio, il 20 giugno 2023 è stato presentato a Roma, presso il Palazzo delle Esposizioni, un importante documento programmatico promosso dalla federazione AUT-Autori, che rappresenta un punto di riferimento nella discussione sulla regolamentazione dell’IA nel settore creativo italiano. Il manifesto evidenzia come la mancanza di una regolamentazione adeguata possa causare non solo problemi legali ed economici, ma anche conseguenze culturali significative, come la standardizzazione dei contenuti e l’omogeneizzazione delle espressioni creative. Questi rischi richiedono un’attenta valutazione e misure preventive. L’istituzione di un osservatorio permanente, proposta nel manifesto, è uno strumento per monitorare costantemente l’evoluzione tecnologica e le sue implicazioni nel settore creativo.
|
||||
|
||||
Le applicazioni di IA Generativa hanno dimostrato nell’ultimo biennio di saper generare risultati accettabili anche in musica e video. Non è certo se l’IA generativa segnerà la fine dell’arte come la conosciamo, ma le preoccupazioni sono concrete. A questo proposito, può essere interessante riportare due esempi. Nel 2023, Boris Eldagsen ha vinto un premio nella categoria “Creative Open” con l’opera \textit{Pseudomnesia: The Electrician}, un ritratto in bianco e nero di due donne generato con DALL-E 2 (Figura\ref{fig:The Electrician}). Successivamente, Eldagsen ha rifiutato il premio, rivelando la natura artificiale dell’immagine per stimolare un dibattito sul ruolo dell’IA nella fotografia. In una situazione opposta, il fotografo Miles Astray ha partecipato al concorso 1839 Awards presentando una foto reale nella categoria dedicata alle immagini generate dall’IA. La sua foto \textit{Flamingone}, che ritrae un fenicottero che si gratta la pancia, ha vinto il terzo premio e il premio del pubblico nella categoria IA (Figura \ref{fig:flamingo}). Dopo la vittoria, Astray ha rivelato che l’immagine era una vera fotografia, scattata ad Aruba nel 2022 con una Nikon D750, e per questo è stato squalificato.
|
||||
|
||||
|
|
@ -36,7 +36,7 @@ L’AI Act mira dunque a bilanciare l’innovazione con la tutela del diritto d
|
|||
|
||||
Nonostante queste sfide, l’AI Act rappresenta un importante passo avanti verso una maggiore trasparenza e responsabilità nello sviluppo e nell’uso dell’IA. La normativa europea può diventare un modello di riferimento globale, influenzando gli standard internazionali in questo settore in rapida evoluzione. La sua efficacia dipenderà dalla capacità di bilanciare gli interessi di innovazione tecnologica, tutela dei diritti e trasparenza, mantenendo la competitività del mercato europeo nel contesto globale dell’intelligenza artificiale. Un approccio promettente per le compagnie alla ricerca di dati è quello di stipulare accordi con i detentori dei diritti per l’uso dei dati, prevedendo un giusto compenso. La recente collaborazione tra il sistema bibliotecario di Harvard e OpenAI, ne è un esempio: l’Institutional Data Initiative (IDI) di Harvard mira a rendere disponibili dati di pubblico dominio provenienti da istituzioni come la Harvard Law School Library per l’addestramento di modelli di IA. Non si conoscono i dettagli economici dell’accordo \parencite{young_harvards_nodate}.
|
||||
|
||||
Un altro problema legale da considerare con gli LLM è la definizione di licenza "Open Source". Il dibattito sull’intelligenza artificiale si sta complicando ulteriormente a causa dell’applicazione controversa del termine "open source" ai modelli linguistici di grandi dimensioni. La tendenza di aziende come Meta a definire "open source" modelli come LLaMA, pur imponendo limitazioni significative al loro utilizzo, ha generato perplessità e critiche. La Open Source Initiative (OSI) ha infatti negato esplicitamente la qualifica di "open source" a LLaMA \parencite{noauthor_llama_nodate}, sottolineando come le restrizioni della sua licenza, tra cui il divieto di utilizzo per servizi con oltre 700 milioni di utenti, le limitazioni allo sviluppo di sistemi AI concorrenti e i divieti specifici nella sezione "Prohibited Uses" (che includono, tra l’altro, la violazione della legge, la pianificazione di attività rischiose, l’inganno e la mancata comunicazione dei pericoli del sistema agli utenti) \parencite{noauthor_llama_nodate} siano incompatibili con i principi fondamentali dell’open source \parencite{noauthor_meta_nodate}. Per chiarire la situazione, l’OSI ha proposto una nuova definizione di "Open Source AI", che prevede la disponibilità del codice sorgente completo, dei dati di addestramento (con eccezioni per i dati sensibili), dei parametri del modello e di una documentazione completa. Modelli come Pythia, OLMo, Amber, CrystalCoder e T5 rispettano questa definizione, a differenza di LLaMA, Grok, Phi-2 e Mixtral. La posizione di Zuckerberg, che sostiene la necessità di una definizione specifica per i suoi LLM, riflette il dibattito tra l’uso libero di una tecnologia e il controllo dei suoi potenziali usi dannosi. LLAMa una posizione comprensibile, evitare usi malevoli della sua IA, ma in contrasto con i principi di non discriminazione e di non restrizioni tipici dell’open source.
|
||||
Un altro problema legale da considerare con gli LLM è la definizione di licenza \enquote{Open Source}. Il dibattito sull’intelligenza artificiale si sta complicando ulteriormente a causa dell’applicazione controversa del termine \enquote{open source} ai modelli linguistici di grandi dimensioni. La tendenza di aziende come Meta a definire \enquote{open source} modelli come LLaMA, pur imponendo limitazioni significative al loro utilizzo, ha generato perplessità e critiche. La Open Source Initiative (OSI) ha infatti negato esplicitamente la qualifica di \enquote{open source} a LLaMA \parencite{noauthor_llama_nodate}, sottolineando come le restrizioni della sua licenza, tra cui il divieto di utilizzo per servizi con oltre 700 milioni di utenti, le limitazioni allo sviluppo di sistemi AI concorrenti e i divieti specifici nella sezione \enquote{Prohibited Uses} (che includono, tra l’altro, la violazione della legge, la pianificazione di attività rischiose, l’inganno e la mancata comunicazione dei pericoli del sistema agli utenti) \parencite{noauthor_llama_nodate} siano incompatibili con i principi fondamentali dell’open source \parencite{noauthor_meta_nodate}. Per chiarire la situazione, l’OSI ha proposto una nuova definizione di \enquote{Open Source AI}, che prevede la disponibilità del codice sorgente completo, dei dati di addestramento (con eccezioni per i dati sensibili), dei parametri del modello e di una documentazione completa. Modelli come Pythia, OLMo, Amber, CrystalCoder e T5 rispettano questa definizione, a differenza di LLaMA, Grok, Phi-2 e Mixtral. La posizione di Zuckerberg, che sostiene la necessità di una definizione specifica per i suoi LLM, riflette il dibattito tra l’uso libero di una tecnologia e il controllo dei suoi potenziali usi dannosi. LLAMa una posizione comprensibile, evitare usi malevoli della sua IA, ma in contrasto con i principi di non discriminazione e di non restrizioni tipici dell’open source.
|
||||
|
||||
Per concludere, al di là del dibattito sull’AI Act e sulle licenze open source, è fondamentale definire regole interne chiare e condivise nelle scuole e negli ambienti educativi, in linea con le direttive dell’Unione Europea. A mio parere ogni istituto dovrebbe promuovere la creazione di gruppi di lavoro per stabilire insieme le modalità di utilizzo dell’intelligenza artificiale, in un’ottica di trasparenza e responsabilità condivisa. Questo permetterebbe di definire con precisione gli usi consentiti e i relativi costi, di scegliere le piattaforme più adatte e di stabilire chi può usare questi strumenti e quando. Un’attenzione particolare andrebbe dedicata alla creazione di prompt di valutazione standardizzati per le valutazioni preliminari e alla scelta dei modelli di IA più adatti al contesto educativo. Sarebbe inoltre utile regolamentare nelle stesse scuole l’uso dell’IA da parte degli studenti, considerando l’età e le modalità di accesso. Ma la scuola non è solo studenti, occorre disciplinare l’impiego di queste tecnologie anche nelle attività amministrative, come la redazione di comunicazioni o le risposte automatiche.
|
||||
|
||||
|
|
|
|||
Loading…
Add table
Add a link
Reference in a new issue