Nauja „Microsoft Research“ ir „Salesforce“ studija atskleidžia netikėtą dirbtinio intelekto pokalbių robotų ypatybę: kuo ilgiau su jais bendraujama, tuo labiau didėja klaidų ir vadinamųjų „haliucinacijų“ tikimybė. Tai svarbi žinia visiems, kurie kasdien remiasi dirbtiniu intelektu darbui, mokymuisi ar sprendimų priėmimui.
Populiarūs dirbtinio intelekto pokalbių robotai po ilgesnio bendravimo su žmonėmis pradeda daryti daugiau klaidų – tarsi „kvailėja“ virtualaus pokalbio eigoje.
Analizuojant daugiau nei 200 tūkstančių pokalbių su didžiųjų kalbinių modelių pagrindu veikiančiais chatbotais nustatyta, kad bendras klaidų lygis gali išaugti daugiau nei 100 procentų. Vartotojai nuolat skundžiasi „haliucinacijomis“ ir neteisingais atsakymais.
Naujas mokslinis darbas patvirtina: net ir pažangiausi neuroniniai tinklai neretai „pasimeta“ pokalbio metu, kai užduotis išskaidoma į natūralų daugiapakopį dialogą.
Eksperimento metu specialistai išnagrinėjo vartotojų dialogus su pirmaujančiais pokalbių robotais, tarp jų – GPT‑4.1, „Gemini 2.5 Pro“, „Claude 3.7 Sonnet“ ir „DeepSeek R1“.
Nustatyta, kad esant pavieniams užklausoms šie modeliai pateikia beveik 90 % sėkmingų atsakymų. Tačiau ilgesniuose pokalbiuose, kai atsiranda patikslinimų ir papildomų klausimų, sėkmės rodiklis nukrenta iki maždaug 65 %. Kitaip tariant, daugėjant ir sudėtingėjant kontekstui, efektyvumas ima ryškiai mažėti.
Mokslininkai taip pat pastebėjo dar vieną reiškinį – „atsakymų išpūtimą“. Daugiapakopiuose dialoguose modelių atsakymai ilgėjo 20–300 procentų.
Kartu didėjant atsakymų apimčiai, daugėjo ir spėlionių bei „haliucinacijų“. Šios netikslios ar išgalvotos detalės įsitvirtindavo pokalbio kontekste ir vėliau būdavo naudojamos kaip pagrindas tolimesnėms modelio žinutėms.
Net ir modeliai su išplėstomis „mąstymo“ (t. y. vidinio samprotavimo) galimybėmis, tokie kaip „OpenAI o3“ ir „DeepSeek R1“, nesugebėjo visiškai išvengti šio efekto.
Autoriai pabrėžia, kad staigus kokybės kritimas ilguose pokalbiuose nereiškia, jog modeliai „kvailėja“ pažodine prasme. Greičiau tai atskleidžia jų ribotumą išlaikant ir teisingai interpretuojant didelius informacijos kiekius dialogo metu.
Tokios ypatybės yra ypač svarbios kuriant produktus, kuriuose chatbotai naudojami ilgalaikei vartotojų sąveikai. Galimos klaidos ir „haliucinacijos“ gali klaidinti žmones, ypač jei vartotojas remiasi dirbtiniu intelektu kaip tikslios ir kritiškai svarbios informacijos šaltiniu.
Šiuo metu „ChatGPT“ užima daugiau nei 80 % pasaulinės pokalbių robotų rinkos. Artimiausi konkurentai – „Perplexity“ ir „Google Gemini“, kuriems tenka apie 15 % visų vartotojų.
Ankstesni JAV mokslininkų atlikti internetiniai tyrimai parodė, kad dažnas bendravimas su dirbtinio intelekto pokalbių robotais gali kelti rimtą grėsmę psichikos sveikatai. Žmonėms, kurie kasdien naudojasi tokiomis technologijomis, nustatoma gerokai didesnė depresijos, nerimo ir dirglumo simptomų rizika.
