Vještačka inteligencija napreduje nevjerovatnom brzinom, ali Elon Musk tvrdi da smo možda već dostigli „vrhunac podataka“ – trenutak kada ljudski generisani podaci više nisu dovoljni za obuku naprednih AI modela.
Teorija o vrhuncu podataka sugeriše da je internet već pružio sve korisne ljudske informacije koje su potrebne za razvoj vještačkih sistema, ostavljajući istraživače u potrazi za alternativama. Musk smatra da je ključni preokret već nastupio 2024. godine, što znači da modeli poput ChatGPT-a, Geminija i Claude-a već osjećaju posljedice ovog problema.
Ova tvrdnja se poklapa sa prethodnim upozorenjima Ilje Sutskevera, bivšeg glavnog naučnika OpenAI-a, koji je 2022. godine predvidio da će kvalitetni podaci za obuku brzo biti iscrpljeni. Prema istraživanju Epoch Research Institute-a, tekstualni podaci mogli bi se potpuno iscrpiti do 2027. godine, dok bi vizuelni sadržaji mogli trajati do 2060. godine. Ipak, zbog rasta potrošnje podataka od strane AI modela, stvarna situacija mogla bi postati kritična čak i ranije.
Kriza podataka mogla bi dovesti do stagnacije, povećane pristrasnosti i čak nazadovanja u sposobnostima AI sistema, što bi rezultiralo netačnim i manje inovativnim modelima.
Sintetički podaci: Spas ili uništenje za AI?
Kako ponestaje realnih podataka, tehnološka industrija se okreće sintetičkim podacima – sadržajima koje generiše sama AI, umjesto da potiču iz ljudskih aktivnosti. Kompanije poput Microsofta, Mete, OpenAI-a i Anthropica već integriraju sintetičke podatke u svoje sisteme, a procjenjuje se da je čak 60% podataka za obuku AI modela u 2024. godini veštački generisano.
Iako sintetički podaci mogu riješiti probleme sa privatnošću i autorskim pravima, postoji ozbiljan rizik: kolaps modela. Prema studiji objavljenoj u časopisu Nature, prekomjerna upotreba sintetičkih podataka može dovesti do samo-referencijalnih petlji, gdje AI gubi raznovrsnost, pojačava pristrasnost i degradira u kvalitetu. To bi moglo dovesti do toga da veštačka inteligencija počne da „jede samu sebe“, pretvarajući se u zatvoreni sistem dezinformacija.
Budućnost AI zavisi od ravnoteže podataka
Iako sintetički podaci predstavljaju rješenje u kratkom roku, pitanje ostaje: koliko sintetičkih podataka je previše? Kompanije poput Google-a, Microsofta i OpenAI-a nastavljaju sa integracijom veštački generisanih podataka, a modeli poput Phi-4, Claude 3.5 Sonnet i Gemma već uveliko koriste sintetičke podatke.
Balansiranje između stvarnih i sintetičkih podataka moglo bi postaviti pravac razvoja vještačke inteligencije u narednoj deceniji. Prekomjerno oslanjanje na sintetički sadržaj može dovesti do stagnacije i gubitka kreativnosti, dok bi njegovo potpuno izostavljanje moglo usporiti napredak AI tehnologije.
Ova rasprava nije samo tehničke prirode, već postaje etičko i društveno pitanje. Kako AI postaje sve prisutniji u svakodnevnom životu, način na koji ga obučavamo uticaće na njegovu tačnost, pravičnost i pouzdanost.
ETOportal