Rezultate su ocjenjivali ljudi sa stvarnim iskustvom u tim profesijama. Cilj je bio utvrditi koliko često AI može proizvesti rezultat koji bi nadređeni prihvatio bez ikakvih ljudskih intervencija, piše Bug.
Odgovor: u otprilike 65% slučajeva, ako se za prolaz traži "minimalno dovoljno", što bi u hrvatskom školstvu bila nekakva mršava dvojka. Na ljestvici od 1 do 9, ocjena 7 definirana je kao rad koji je upotrebljiv kakav jest, bez potrebe za ispravkama. Dvije trećine vremena, dakle, AI prelazi taj prag, što zvuči solidno, barem dok ne pogledamo što se događa kad se letvica podigne. Kad se od modela traži "superiorna" kvaliteta – ocjena 9 – vjerojatnost uspjeha nikada ne prelazi 50%, neovisno o tome koliko vremena model ima na raspolaganju. Drugim riječima, kad posao zahtijeva više koraka, kreativnost ili preciznost, AI češće ne uspijeva nego što uspijeva.
Istraživači su rezultat opisali formulacijom koja zaslužuje da bude uokvirena i obješena na zid svakog CEO-a koji razmišlja o smanjivanju radne snage: performanse trenutno dostupnih modela usporedive su s onima "razočaranog pripravnika" – ispunjava minimum, ali se muči proizvesti kvalitetan rad, koji bi bio upotrebljiv bez dodatnih intervencija.
Napredak postoji, ali je nedovoljan
Ako vam se čini da to proturječi onome što već godinama slušamo - niste jedini. Priča koju nam prodaju ne samo proizvođači AI modela, nego i konzultantske kuće, poslovni mediji i Silicon Valley u širem smislu, priča je o eksponencijalnom napretku, o modelima koji će "sljedeće godine" biti dovoljno dobri da zamijene čitave odjele. MIT-ovi podaci sugeriraju nešto bitno drukčije: napredak postoji, ali je inkrementalan i, što je ključno, ima plafon, koji još ne znamo probiti.
Uzmimo konkretne primjere iz stvarnog svijeta, jer ih ne nedostaje. Deloitte je prošle godine proizveo dva izvještaja za državne klijente u Australiji i Kanadi koji su bili preplavljeni izmišljotinama. CNET i Sports Illustrated uhvaćeni su kako objavljuju AI-generirane članke pune faktografskih pogrešaka pod izmišljenim imenima autora. Jedan američki odvjetnički ured javno se ispričao nakon što se ustanovilo da su u podnesku za stečajni postupak korištene AI-generirane pravne reference koje ne postoje. U svim tim slučajevima, netko je odlučio da je AI "dovoljno dobar" – i zasrao.
Osobito je zanimljivo proučiti gdje AI modeli prolaze bolje, a gdje lošije. MIT-ovi podaci pokazuju da su prosječne stope uspješnosti niže za kvalificirane uloge u pravnim i IT poslovima, dok se modeli lakše nose s tekstualnim zadacima u građevinarstvu i održavanju. Bez velikih iznenađenja, što je posao složeniji i što su posljedice potencijalne pogreške ozbiljnije, to je AI manje pouzdan.
Složeniji poslovi van dosega
Tvrtke, logično, najprije automatiziraju ono što AI može – jednostavne zadatke i ulazne pozicije – dok složeni poslovi, oni u kojima bi ušteda bila najveća, zasad ostaju izvan dosega. Rezultat je tržište rada u kojemu nestaju dva bitna faktora: prva stepenica karijere i rutina koja je ljude učila zanatu. Istodobno, skupi stručnjaci i dalje nemaju zamjenu. Kad za pet godina uzmanjka novih stručnjaka, jer nitko nije prošao kroz ono što su nekoć bile juniorske pozicije, krug će se zatvoriti na najgori mogući način.
MIT-ovi istraživači procjenjuju da će do 2029. većina modela moći obaviti 80% do 95% tekstualnih zadataka na razini "minimalno dovoljno". Na otprilike dvije sekunde zvuči impresivno, dok se ne zamislimo nad samim pojmom "minimalnog dovoljnog", što je standard kojeg većina nas neće prihvatiti, kad je u pitanju vlastiti posao. Vlastiti, ali i tuđi. Biste li "legli na stol" liječniku koji radi minimalno dovoljno? Dali tako ustrojenom odvjetniku da vam vodi parnicu? "Minimalno dovoljno" jest, po definiciji, najniža prihvatljiva razina; za sve iznad toga, prema MIT-ovim podacima, AI trenutačno nema odgovor.