ChatGPT mälu: AI ei õpi sinu vestlusest!

By Priit Kallas

Tundub, et kõigil ei ole päris selge, kuidas suurte keelemudelite (LLMid) nagu ChatGPT mälu toimib, kui nendega vestelda.

ChatGPT ei õpi sinuga vestlemisest midagi!

Sisuliselt on treenitud keelemudel staatiline.

Ta ei omanda uut teadmist enne, kui seda eraldi juurde ei treenita või fine-tuninguga uusi andmeid ei sisestata. Need tegevused on aga küllaltki aja- ja rahamahukad. Näiteks ChatGPT uusima versiooni (GPT-4) puhul maksis treening kümneid või isegi sadu miljoneid dollareid, vajas spetsiaalset riistvara ja kuude pikkust töötlusaega.

Kordan üle, keelemudelid on staatilised.

Nad ei õpi sellest, mida sa nendega räägid, kui neid sinu lisatud andmetega eraldi uuesti ei treenita. OpenAI võib kasutada erinevat sisendit mudelite täiustamiseks, kuid see toimub eraldi protsessina, mitte reaalajas iga vestluse käigus.

Aga kuidas ta siis ikkagi mäletab?

See kuidas üksiku vestluse detailide “mäletamine” toimub on väga lihtne.

Tunne, et masin saab sinu vestlusest aru ja mõtleb kaasa, tuleb sellest, et ChatGPT jutuakna ja “aju” vahel on eraldi liides, mis iga sinu vestluse ajalugu kaasas veab. Vestluse järjepidevuse säilitamiseks saadetakse igal uuel päringul kogu eelnev kontekst uuesti mudelile, et masin saaks eelmiste sõnumitega arvestada.

Iga kord, kui sa ChatGPTle midagi ütled, siis see salvestatakse vestluse ajalukku. Iga kord, kui sa midagi uut ütled, siis saadetakse KOGU sinu vestluse ajalugu uuesti ChatGPTsse. Masina jaoks on iga sinu poolt saadetud küsimus uus interaktsioon ja tal puudub mälu, et ta on varem sellel teemal vastanud.

AI mälu on piiratud

Kui vestlus muutub liiga pikaks ja ületab mudeli kontekstiakna, siis vanemad sõnumid jäävad automaatselt välja ning masin ei arvesta neid enam vastamisel.

Siit tuleb ka see piirang, mida nimetatakse context window. Olenevalt mudelist on see enamasti 10 kuni 100 tuhat sõna pikk. Kui su vestlus läheb sellest pikemaks, siis esimene osa ei ole masinal enam “meeles.”

Konteksti suuruse osas on kõige rajum Gemini Pro, mille mõnede versioonide kontekstiaken on kuni 1,5 miljonit sõna (2M tokenit). Võrdluseks, ChatGPT-4 kontekstiaken ulatub 128 000 tokenini (ligikaudu 100k sõna ehk keskmine raamat), samas kui Claude Pro suudab töödelda kuni 200 000 tokenit.

Siis podcastist võid uurida, mida Gemini hiiglaslik kontekstiaken võimaldab.

Näiteks, kui ütled ChatGPTle, “Jalgratas on punane ja sellel on valged rehvid” ja siis vestled temaga mõnesaja lehekülje jagu, siis ta enam ei mäleta, mis värvi on jalgratas ja selle rehvid.

Kontekstiakna mahtu täidab nii sinu küsimus kui masina vastus.

Enamus vestlused on lühemad kui sadu lehekülgi. Samas, ka 20-leheküljeline vestlus on masina jaoks keerukam vastata kui esimesed ekraanitäied.

Sulle jääb mulje, et masinal on mälu, lihtsalt selle pärast, et kogu sinu vestlus saadetakse iga kord, iga sinu uue käsuga kaasa. Nendele andmetele võib lisanduda veel infot muudest allikatest, näiteks kui ChatGPT teeb otsingu ja lisab vestluse ajalukku ka otsingutulemuse. Aga edaspidi käib antud vestluse raames ka see info ajalooga kaasas. Samuti kui mudel kasutab otsingutulemusi, et täiendada vastuseid reaalajas, siis neid andmeid ei salvestata püsivalt.

Mälu säilib ainult ühe vestluse sees

Mudel ise ei muutu kuidagi sellest, et sa temaga vestlesid.

Ta ei õpi ja tal ei ole mälu.

Kuigi vestluse ajal tundub, et mudel “mäletab” varem öeldut, kaob see info, kui vestlus suletakse või kui kontekstiaken saab täis.

Funktsioon, mis võimaldab oma varasema chati juurde tagasi tulla, tuleneb lihtsalt sellest, et kui ajaloost vana vestlust jätkad, siis saadetakse kogu eelnev info jälle LLM-i ja ta jätkab vestlust vastates sellele hiiglaslikule päringule, mis on antud vestluse kogu ajalugu.

Kontekst töötab sarnaselt sellele, kuidas brauseri küpsised hoiavad meeles, millisel lehel sa eelmine kord käisid ja mis seadeid näppisid. Kui küpsised kustutad, siis süsteem ei mäleta sind.

ChatGPT mälu funktsioon

Lisaks võib OpenAI sinu kontole salvestada muud andmed ehk “memory” funktsiooni. Need on lihtsalt infokillud, mis on salvestatud eraldi kasutajate andmebaasi ja käivad päringutega kaasas. Näiteks, kui kasutad OpenAI kontol personaliseeritud mälu, võib süsteem meeles pidada sinu eelistusi ja varasemaid vestlusteemasid, kuid see on piiratud ja ei muuda tegelikku mudelit.

Tehniliselt võttes võid sa kopeerida kogu oma ChatGPT vestluse ajaloo ja panna selle Claude’i või Geminisse ning seal täieliku kontekstiga vestlust jätkata.

Peamised punktid, mida ise meeles pidada

LLM ei õpi ja ei mäleta sinu vestluste kohta mitte midagi väljaspool seda konkreetset vestlust. Sa võid ühe vestluses öelda, et su lemmik värv on sinine. Kui sa teises vestluses küsid, mis on su lemmik värv, siis masin ei tea sellele vastust. Igal vestlusel on mahupiirang, see võib olla väga suur, aga piirang on siiski olemas. Kui sa tahad, et ChatGPT sinu kohta miskit “mäletaks”, siis saab selleks kasutada järgmisi funktsioone:

Custom instructions
Memory
GPTs
Projects

Samuti, kui kasutada API ühendusi, siis “mälu” säilimiseks on vaja iga päringuga eelnev vestlus kaasa panna.

PS Kuidas 100+kihilised hiiglaslikud maatriksid oskavad su küsimustele vastata ei tea mitte keegi. Mõned ütlevad, et LLM-id ennustavad tõenäosuslikult, milline sõna peaks järgnema, mitte ei mõtle või mõista teksti. Kui sa lähed pimedas trepist alla, siis sa ka ennustad, et mingi aeg peaks järgmine aste tulema. Enamus on ilmselt kogenud, mis tunne on, kui järgmine aste ei ole ennustatud kohas. Tegelikult keegi ei tea, kuidas need masinad töötavad. ChatGPT kasutab tehisnärvivõrke, mille parameetrite arv ulatub sadadesse miljarditesse ja mis võimaldavad keeruliste keelemustrite tabamist. Aga miks see nii toimib? Keegi ei tea.