16 gennaio, 2025

L'intelligenza artificiale presto finirà i dati?

Sebbene abbiano già sfruttato quasi tutti i dati disponibili su Internet per addestrare i loro grandi modelli linguistici, come quelli alla base di ChatGPT, gli sviluppatori potrebbero trovarsi ad affrontare un limite al progresso dell’intelligenza artificiale. Si stanno comunque studiando soluzioni per aggirare il problema. 
Se quando chatti con un chatbot come ChatGPT hai la sensazione di avere una conversazione elaborata come con un essere umano, è perché l’intelligenza artificiale (AI) ha fatto enormi progressi. 

Ciò è stato reso possibile grazie allo sviluppo di grandi modelli linguistici (LLM), queste reti neurali addestrate su giganteschi set di dati. 

Tuttavia, “gli sviluppatori LLM inizieranno a non avere dati convenzionali per addestrare i loro modelli”, suggerisce Nature in un lungo articolo. 
Hanno già sfruttato quasi tutte le informazioni gratuite disponibili su Internet e i LLM in continua crescita stanno diventando sempre più voraci. 

Secondo i ricercatori di Epoch AI, un istituto di ricerca che si concentra sulle tendenze e sulle grandi domande dell’intelligenza artificiale, entro il 2028 la dimensione di un set di dati necessario per addestrare un modello sarà equivalente a quella dello stock totale stimato di testi pubblici online. In altre parole, tra circa quattro anni non saranno più disponibili dati testuali sufficienti. Niente più progressi nell’intelligenza artificiale? 

Non necessariamente. Secondo la rivista britannica le aziende specializzate nel settore non sembrano farsi prendere dal panico di fronte a questo limite annunciato. 

OpenAI e Anthropic hanno già riconosciuto pubblicamente il problema, suggerendo di voler aggirare il problema, inclusa la creazione di dati sintetici utilizzando l'intelligenza artificiale o la collaborazione per raccogliere dati non pubblici. 

Ciò potrebbe avvenire, ad esempio, attraverso l'uso di messaggi WhatsApp o trascrizioni di video di YouTube. 

Al di là della questione di legalità sollevata da questa soluzione, molte aziende affermano di non voler condividere i propri dati per utilizzarli per addestrare internamente i propri modelli di intelligenza artificiale. 

Altri immaginano che i LLM esistenti potrebbero imparare cose nuove “rileggendo” i dati su cui sono già stati formati. 

Un’altra strada sarebbe quella di sfruttare altri tipi di dati, non solo testo. 'Alcuni modelli sono già in grado di allenarsi, in una certa misura, da video o immagini senza etichetta', afferma Nature. 
Tuttavia, sono ancora necessari miglioramenti. 

Nel frattempo, insiste la rivista scientifica, “questa crisi di dati potrebbe portare a uno sconvolgimento nei tipi di modelli di intelligenza artificiale generativa che le persone costruiscono. 

Ciò potrebbe spostare il panorama da LLM sempre più grandi e versatili a modelli più piccoli e più specializzati. 
Con specializzazioni per tipologia di compito (rispondere a email o richieste specifiche, scrivere file, fare ricerche su Internet, ecc.) o per settore (medicina, astronomia, genetica, ecc.). 

Ma è anche possibile che gli LLM, avendo letto gran parte di Internet, non abbiano bisogno di ulteriori dati aggiuntivi per diventare più “intelligenti”. 

Nessun commento: