Većina onih koji prate razvoj generativne umjetne inteligencije zna da su veliki jezični modeli (LLM), poput ChatGPT-a, Claudea ili Googleovog Geminija, trenirani na ogromnim količinama podataka — od milijardi riječi s interneta, knjiga, baza koda, pa sve više i iz fotografija, zvuka i videa. No, ključno pitanje i dalje ostaje: da li ovi podaci oblikuju opštu sliku svijeta u modelu, ili se zapravo doslovno pamte?

LLM-ovi razvijaju statističko, apstraktno razumijevanje jezika i njegovih obrazaca, pa čak i određenih aspekata stvarnosti. Ovo „znanje” pohranjuje se u milijardama takozvanih parametara — matematičkih funkcija koje ulazne podatke pretvaraju u izlazne odgovore.

Na primjer, model zna da je riječ „jabuka” povezana s pojmovima hrane, voća ili čak tehnologije. Tako „razumije” da jabuka može biti crvena, zelena ili žuta, da se na engleskom piše „apple” i da je jestiva.

Ali, koliko zapravo ovi modeli pamte doslovno? Da li samo rekonstruišu informacije na osnovu obrazaca ili doslovno ponavljaju konkretne podatke iz kojih su učili?

Ovo pitanje ima i značajne pravne posljedice — ako modeli doslovno reproduciraju dijelove originalnih podataka, to bi se moglo tumačiti kao nezakonito kopiranje zaštićenih sadržaja. S druge strane, ako se radi o generalizaciji znanja, developeri se mogu pozvati na princip „fer upotrebe”.

Zanimljivo istraživanje koje su proveli naučnici iz Mete, Google DeepMinda, NVIDIE i Univerziteta Cornell pokazuje da GPT-slični modeli imaju vrlo ograničen kapacitet memorije: prosječno oko 3,6 bita po parametru. To je manje od jednog ASCII znaka (koji prosječno zahtijeva 8 bita). Drugim riječima, manje od pola znaka po parametru.

Studija je pokazala da ovaj kapacitet nije zavistan od arhitekture modela — bez obzira na to koliko je model velik ili složen, gornja granica ostaje ista.

Povećanje količine podataka za treniranje zapravo smanjuje šanse za memorisanje konkretnih podataka. Veći dataseti podstiču generalizaciju, dok manji dataseti povećavaju vjerovatnoću memoriranja specifičnih informacija.

Da bi tačno izmjerili memorijski kapacitet, istraživači su trenirali modele na potpuno nasumičnim nizovima bitova — bez ikakvih obrazaca koje bi model mogao uopštiti. Ako bi model bio u stanju da prepozna te nizove, značilo bi da ih je doslovno zapamtio.

Rezultati su pokazali konzistentno ograničenje: modeli s veličinom od 500.000 do 1,5 milijardi parametara uvijek su imali isti memorijski kapacitet od 3,6 bita po parametru.

Kada su isti modeli trenirani na stvarnim tekstovima, ustanovljen je balans: manji dataseti potiču doslovno pamćenje, dok veći dataseti omogućavaju bolje uopštavanje i smanjuju rizik od direktnog kopiranja sadržaja.

Dodatno, istraživači su razvili matematičku formulu koja povezuje memorijski kapacitet, veličinu dataseta i efikasnost takozvanih „membership inference” napada — metoda koje pokušavaju otkriti da li je određeni podatak korišten u treniranju modela. Zaključak je jasan: što je dataset veći, to su ovi napadi manje uspješni.

Ovo istraživanje pruža čvrstu naučnu osnovu za razumijevanje memoriranja u velikim jezičnim modelima i doprinosi većoj transparentnosti, zakonitosti i etičnosti u razvoju AI tehnologija.

EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW EWRW