I dati usati per addestrare le Intelligenze Artificiali stanno scomparendo rapidamente

A quanto pare i dati di molte delle più importanti risorse web utilizzate per addestrare le Intelligenze Artificiali stanno via via scomparendo, o per dirla in maniera molto più corretta è in corso una crescente limitazione della condivisione di alcune tipologie di informazioni presenti online.

Secondo uno studio pubblicato questa settimana dalla Data Provenance Initiative, un gruppo di ricerca del M.I.T., si è registrata una drastica diminuzione dei contenuti presenti nelle raccolte di dati utilizzate per sviluppare i vari modelli delle varie IA.

Lo studio, che ha esaminato circa 14.000 domini web dei tre macro gruppi principali di set di dati per la formazione delle IA, ha rilevato una sorta di “crisi nel consenso”, con editori e piattaforme online che stanno adottando misure sempre più restrittive per impedire la raccolta dei loro dati.

“Stiamo assistendo a un rapido calo del consenso all’utilizzo dei dati sul web che avrà conseguenze non solo per l’addestramento dell’Intelligenza Artificiale, ma anche per le aziende, i ricercatori, gli accademici e gli enti non commerciali” ha affermato Shayne Longpre, l’autore principale dello studio.

Il “carburante” delle Intelligenze Artificiali Generative è in diminuzione?

I dati sono il “carburante” che permette il funzionamento e l’evoluzione dell’attuale IA generativa, sistemi e modelli che vengono alimentati con miliardi di testi scritti, immagini e video. Molti di questi dati vengono prelevati da siti web pubblici dai ricercatori e compilati in grandi set di dati, raccolte che possono essere scaricate e utilizzate liberamente, oppure integrati con dati provenienti da altre fonti.

Imparare da questi dati è ciò che consente alle IA generative (ChatGPT di OpenAI, Gemini di Google e Claude di Anthropic) per scrivere testi oppure codificare e generare immagini e video. Quanti più dati di alta qualità sono disponibili per questi modelli e per il loro addestramento, tanto migliori sono i risultati generati dalle IA in ogni campo.

I ricercatori della Data Provenance Initiative stimano che nei tre set di dati principali esaminati, (C4, RefinedWeb e Dolma) il 5% di tutti i dati e il 25% dei contenuti provenienti da fonti di altissima qualità sono stati limitati.

Tali limitazioni vengono realizzate tramite il Robots Exclusion Protocol, un metodo vecchio di decenni utilizzato dai proprietari di siti Web per impedire ai bot automatizzati di eseguire la scansione delle loro pagine web utilizzando un file chiamato robots.txt.

Limitare o controllare l’IA? Questo è il dilemma

È difficile valutare quale possa essere l’impatto di tali restrizioni, e di altre che sicuramente arriveranno nel prossimo futuro, sulle capacità delle Intelligenze Artificiali generative che, a dire il vero, hanno avuto parecchia libertà di accesso ai dati presenti online senza un’adeguata e razionale regolamentazione, un vantaggio in termini di anni che ha reso i vari modelli di IA molto potenti e competitivi e i cui risultati sono sotto gli occhi di tutti.

Solo i prossimi mesi potranno dirci se tali “contromisure” potrebbero risultare utili a un controllo dell’accesso ai dati da parte delle IA, piuttosto che pensare a una vera e propria limitazione che, oltre che improbabile, sembrerebbe solo il viatico verso un vero e proprio commercio dei contenuti e delle informazioni di qualità presenti online.

fonte

Menù

Cinema

Giochi da Tavolo

Nerd Stories

Serie TV

Videogiochi

Tech & Science

Animazione

Libri e Fumetti

Nerd Stuff

Justnerd.it