Kompanija OpenAI vjeruje da je pronašla uzrok zbog kojeg njihovi chatbotovi često iznose netačne ili izmišljene informacije, poznate kao „halucinacije“. Međutim, i dalje nisu sigurni kako ih u potpunosti spriječiti.
Novo istraživanje pokazuje da algoritmi zapravo nagrađuju chatbotove kada „pogode“ odgovor, umjesto da priznaju da ga ne znaju. To stvara situaciju sličnu testovima s višestrukim izborom, gdje učenici radije pogađaju nego da ostave prazno polje jer i za pogrešan pokušaj mogu dobiti bod.
U slučaju velikih jezičnih modela (LLM), tačan odgovor nosi nagradu, dok za priznanje „ne znam“ model ne dobija ništa. Zato je pogađanje, čak i kada je pogrešno, matematički povoljnije, što povećava ukupni rezultat modela.
Slabosti binarne klasifikacije
Prema izvještaju, halucinacije proizlaze iz greške u tzv. binarnoj klasifikaciji, kada se novi podaci svrstavaju u jednu od dvije ponuđene kategorije. LLM-ovi zbog toga nerijetko biraju „netačan, ali ponuđen odgovor“, umjesto da odbiju odgovoriti.
Istraživači objašnjavaju da se radi o strukturnom problemu u obuci modela. Dok ljudski učenici mogu procijeniti kad je bolje ostati bez odgovora, algoritmi su programirani da se takmiče za bodove i samim tim preferiraju pogrešno pogađanje.
Novi model, stari problemi
Ovi nalazi objavljeni su svega nekoliko sedmica nakon predstavljanja GPT-5, najnovijeg modela kompanije, koji OpenAI opisuje kao „otporan na halucinacije“. Prema njihovim tvrdnjama, GPT-5 daje 46 posto manje netačnih odgovora od prethodnog modela GPT-4o.
Ipak, američka organizacija NewsGuard nedavno je upozorila da ChatGPT-jevi modeli i dalje šire dezinformacije u čak 40 posto odgovora. To pokazuje da i pored napretka, problem nije u potpunosti riješen.
OpenAI naglašava da se halucinacije ne mogu u potpunosti ukloniti, jer postoje pitanja na koja algoritmi nikada neće moći dati tačan odgovor. Primjerice, model može razlikovati psa od mačke na fotografiji, ali ne može odrediti datume njihovog rođenja jer ti podaci nisu vizualno dostupni.
Moguća rješenja i promjene
Zaključak istraživanja jest da određeni problemi u stvarnom svijetu ostaju bez odgovora, bez obzira na tehnološki napredak. Kao jedno od rješenja, OpenAI predlaže da se modeli češće potiču na iskazivanje nesigurnosti, odnosno davanje odgovora „ne znam“ kada nedostaje dovoljno podataka.
Druga mogućnost je izmjena postojećeg sistema nagrađivanja, tako da se priznavanje neznanja tretira jednako vrijednim kao i pokušaj davanja pogrešnog odgovora. Na taj način, algoritmi bi mogli postati „skromniji“ i vjerodostojniji.
Kako će se ova istraživanja odraziti na autentičnost i korisnost odgovora u budućnosti, ostaje da se vidi.