A quanto pare i dati di molte delle piรน importanti risorse web utilizzate per addestrare le Intelligenze Artificiali stanno via via scomparendo, o per dirla in maniera molto piรน corretta รจ in corso una crescente limitazione della condivisione di alcune tipologie di informazioni presenti online.
Secondo uno studio pubblicato questa settimana dalla Data Provenance Initiative, un gruppo di ricerca del M.I.T., si รจ registrata una drastica diminuzione dei contenuti presenti nelle raccolte di dati utilizzate per sviluppare i vari modelli delle varie IA.
Lo studio, che ha esaminato circa 14.000 domini web dei tre macro gruppi principali di set di dati per la formazione delle IA, ha rilevato una sorta di โcrisi nel consensoโ, con editori e piattaforme online che stanno adottando misure sempre piรน restrittive per impedire la raccolta dei loro dati.
โStiamo assistendo a un rapido calo del consenso allโutilizzo dei dati sul web che avrร conseguenze non solo per lโaddestramento dell’Intelligenza Artificiale, ma anche per le aziende, i ricercatori, gli accademici e gli enti non commercialiโ ha affermato Shayne Longpre, l’autore principale dello studio.
Il “carburante” delle Intelligenze Artificiali Generative รจ in diminuzione?
I dati sono il “carburante” che permette il funzionamento e l’evoluzione dellโattuale IA generativa, sistemi e modelli che vengono alimentati con miliardi di testi scritti, immagini e video. Molti di questi dati vengono prelevati da siti web pubblici dai ricercatori e compilati in grandi set di dati, raccolte che possono essere scaricate e utilizzate liberamente, oppure integrati con dati provenienti da altre fonti.
Imparare da questi dati รจ ciรฒ che consente alle IA generative (ChatGPT di OpenAI, Gemini di Google e Claude di Anthropic) per scrivere testi oppure codificare e generare immagini e video. Quanti piรน dati di alta qualitร sono disponibili per questi modelli e per il loro addestramento, tanto migliori sono i risultati generati dalle IA in ogni campo.
I ricercatori della Data Provenance Initiative stimano che nei tre set di dati principali esaminati, (C4, RefinedWeb e Dolma) il 5% di tutti i dati e il 25% dei contenuti provenienti da fonti di altissima qualitร sono stati limitati.
Tali limitazioni vengono realizzate tramite il Robots Exclusion Protocol, un metodo vecchio di decenni utilizzato dai proprietari di siti Web per impedire ai bot automatizzati di eseguire la scansione delle loro pagine web utilizzando un file chiamato robots.txt.
Limitare o controllare l’IA? Questo รจ il dilemma
ร difficile valutare quale possa essere l’impatto di tali restrizioni, e di altre che sicuramente arriveranno nel prossimo futuro, sulle capacitร delle Intelligenze Artificiali generative che, a dire il vero, hanno avuto parecchia libertร di accesso ai dati presenti online senza un’adeguata e razionale regolamentazione, un vantaggio in termini di anni che ha reso i vari modelli di IA molto potenti e competitivi e i cui risultati sono sotto gli occhi di tutti.
Solo i prossimi mesi potranno dirci se tali “contromisure” potrebbero risultare utili a un controllo dell’accesso ai dati da parte delle IA, piuttosto che pensare a una vera e propria limitazione che, oltre che improbabile, sembrerebbe solo il viatico verso un vero e proprio commercio dei contenuti e delle informazioni di qualitร presenti online.