AI šiukšlina mokslą: arXiv skęsta chatbotų „straipsniuose“, leidėjai smogia naujomis taisyklėmis

Generatyvinė dirbtinio intelekto technologija atveria naujų galimybių mokslininkams, tačiau kartu kelia rimtą grėsmę mokslo kokybei. Milžiniški kiekiai prastų, „popieriuje mokslinių“, bet faktiškai beverčių tekstų užtvindo preprintų archyvus ir verčia leidėjus ieškoti naujų apsaugos priemonių. Vienas svarbiausių tokių žingsnių – naujos taisyklės didžiausiame pasaulyje preprintų serveryje arXiv.

Dirbtinis intelektas gali būti naudingas moksle, darbe ir kasdieniame gyvenime, tačiau jo ribotumai neleidžia laikyti jo patikimu įrankiu. Tyrimai rodo, kad pokalbių modeliai, tokie kaip ChatGPT, Gemini ar Copilot, dažnai klaidingai interpretuoja net paprastas žinutes ir iškraipo didelę dalį informacijos.

Nepaisant to, daug žmonių, pradedančių akademinę karjerą, masiškai naudojasi generatyvine DI. Būta atvejų, kai dėl neteisingos šaltinių interpretacijos DI „sukūrė“ neegzistuojančius terminus, o tyrėjai juos toliau nekritiškai kartojo savo publikacijose. Pasitaiko ir taip, kad praktiškai visas tekstas parašomas mašinos.

Mokslo požiūriu tokios publikacijos yra bevertė „košė“, vadinamoji AI slop – atsitiktinis, tik mokslišką kalbą imituojantis turinys. Tokios „šiukšlės“ sudaro vis didesnę dalį naujų tekstų, o jas saugantys serveriai ima tiesiog fiziškai „lūžti“ nuo kiekio.

Ryškiausias pavyzdys – arXiv, preprintų (dar nerecenzuotų straipsnių) talpykla. Joje saugoma beveik 3 milijonai publikacijų, daugiausia iš tiksliųjų mokslų, fizikos ir matematikos. Kai išpopuliarėjo nemokami DI įrankiai, arXiv serveriai atsidūrė ant ribos: tekstų srautas smarkiai išaugo, o tarp jų ėmė gausėti žemos kokybės, mokslo tik apsimetančių darbų.

ArXiv kūrėjai suprato, kad rizikuoja virsti internetine sąvartyno aikštele, kurioje „moksliškos“ kalbos forma slepia nieko nevertą turinį. Todėl nuspręsta sugriežtinti pateikimo taisykles.

Nebepakanka universiteto el. pašto. Autoriams reikia rekomendacijų

Ilgą laiką norint publikuoti arXiv pakako gana paprastos sąlygos: pirmą kartą teikiant straipsnį reikėjo patvirtinti el. pašto adresą, susietą su pripažinta akademine ar tyrimų institucija, pavyzdžiui, universitetu. Toks adresas nėra sunkiai gaunamas, todėl praktiškai kiekvienas „iš gatvės“ galėjo įdėti savo tekstą į arXiv.

Dabar reikalavimai sugriežtinti. Nuo sausio 21 d. autoriai, pirmą kartą publikuojantys arXiv, turi gauti rekomendaciją iš pripažinto arXiv autoriaus atitinkamoje srityje. Vėlesnėms publikacijoms toje pačioje kategorijoje tokios paramos jau nereikės, tačiau institucinis el. paštas ir toliau lieka būtinas.

Kaip aiškina pats portalas, „ši taisyklių atnaujinimo priemonė įvesta siekiant apsaugoti arXiv bendruomenę (autorius, skaitytojus, savanorius moderatorius ir personalą) nuo žemos kokybės, nemokslinių pateikimų antplūdžio“.

ArXiv redakcinės tarybos pirmininkas Ralphas Wijersas, cituojamas žurnalo „Science“, pabrėžia, kad pokytis skirtas pirmiausia sustabdyti augančią nesąžiningų publikacijų bangą, iš kurių didelę dalį sudaro DI generatorių rašyti tekstai. Naujoji taisyklė, anot jo, turi „visų pirma atgrasyti pradedančius, nekompetentingus žmones nuo bandymo pradėti savo veiklą siunčiant šiukšles į arXiv“.

„AI slop“ grasina mokslui. Leidėjai imasi veiksmų

ArXiv veikia nuo 1991 m. ir per tą laiką išaugo į vieną svarbiausių pasaulio mokslo infrastruktūros elementų. Šiuo metu jis kas mėnesį gauna beveik 20 tūkst. naujų tekstų. Nors šie straipsniai nėra formaliai recenzuojami, juos prižiūri apie 300 savanorių ekspertų, besirūpinančių, kad publikacijos būtų „tinkamos ir atitiktų tematiką“.

Didžioji dalis atmetamų darbų – akivaizdžios šiukšlės. Ankstesniais metais arXiv atmesdavo apie 4 proc. pateiktų straipsnių. Tačiau išpopuliarėjus tokioms programoms kaip ChatGPT ir kitiems dideliems kalbos modeliais (LLM) pagrįstiems įrankiams, atmetamų darbų dalis išaugo iki 10–12 procentų.

Su panašiomis problemomis susiduria ir kitos preprintų platformos. Kai kurios imasi dar radikalesnių žingsnių. OSF Preprints 2025 m. rugpjūtį visiškai sustabdė naujų tekstų priėmimą, nes „dauguma pateikiamų darbų buvo labai prastos kokybės“. Tuo tarpu PsyArXiv, daugiausia orientuotas į psichologijos sritį, perėjo nuo publikacijų moderavimo po paskelbimo prie moderavimo prieš paskelbimą.

Dideli kalbos modeliai nuolat tobulėja, todėl ir jų generuojami „moksliniai“ straipsniai taps vis įtikinamesni ir vis sunkiau atskiriami nuo žmonių parašytų tekstų. Tai kelia rimtų iššūkių visoms platformoms ir žurnalams, kuriuose jie publikuojami, o ypač – mokslo patikimumui ir skaidrumui.

Ateityje leidėjams teks dar labiau stiprinti filtrus, tikrinimo procedūras ir etikos taisykles, kad dirbtinis intelektas būtų mokslo pagalbininkas, o ne jo šiukšlintojas.

AI šiukšlina mokslą: arXiv skęsta chatbotų „straipsniuose“, leidėjai smogia naujomis taisyklėmis

Welcome Back!

Retrieve your password