Basico Generativ Ai Hvorfor Dyb Forstaaelse Slaar Bred Anvendelse

Generativ AI: Hvorfor dyb forståelse slår bred anvendelse

Læsetid: 10 minutter

FÅ INSPIRATION!
Tilmeld dig vores nyhedsmail, og få et fagligt indspark med substans direkte i indbakken.
TILMELD
Lasse Rindom

Lasse Rindom

Senior Manager - AI Lead

17. september 2024

De mest avancerede AI-modeller besidder skjulte evner, der rækker langt ud over det umiddelbart synlige. I denne artikel ser vi nærmere på, hvordan du kan afdække og udnytte disse indre funktioner til at løse komplekse opgaver, der tidligere virkede umulige.

Generative AI-modeller – og særligt de store sprogmodeller ChatGPT, Gemini og Claude – har nu igennem et par år imponeret folk med deres evne til at gå på tværs af etablerede domæner og skabe noget nyt. Det føles som rigtig, kreativ intelligens, når vi får beskrevet komplekse regnskabsbegreber i et Andeby-sprog, eller når billedgenereringsmodeller laver nye møbler inspireret af store bløde tegnefilmsbamser. 

Denne manglende begrænsning, når de går til kanten af ét domæne, og modellerne i stedet infererer på tværs til andre domæner, er forståeligt nok utroligt fascinerende. Det er det, der gør, at modellerne altid kan svare, også selvom de egentlig er på kanten af deres viden. De kan gætte sig til det usagte, de kan springe til andre vidensområder og skabe inferens og rent sprog-statistisk logiske sammenhænge. 

Det er bare ikke det, der skaber den helt store produktive gennemslagskraft, når teknologien skal sættes til at arbejde for os.

Bredde og dybde

Helt grundlæggende kan du anskue de (meget) store modeller ud fra to parametre: bredde og dybde. Hvor bredden i modellernes træningsdata og træning har været det, der har været afgørende i langt de fleste første forsøg og implementeringer, og også er det, der har skabt ovennævnte fascination, er det ganske overset – eller anses som trivielt – hvor dybt modellerne også er trænet inden for enkelte områder. 

Udfordringen har her været, at vi netop har været nødsaget til at anse dybden som triviel, fordi vi ikke har kunnet verificere den – vi kender ikke træningsdataene, så vi ved ikke, hvad og hvor meget af dette eller hint modellerne er trænet på. På den måde har vores tilgang til dem været mere i retning af at spørge en uudgrundelighed, hvor netop bredden og de skæve sammenhænge blev spændende. 

Ikke desto mindre har modellerne først opnået enorm betydning bl.a. på grund af deres dybdetræning: kodning. Udviklere har taget de store sprogmodeller til sig i et omfang, så vi ikke kan forestille os at gå tilbage. Modellerne er nemlig trænet på enorme mængder kodedata, så de forstår sig helt enormt godt på kode.

Hvad forstår en sprogmodel?

Spørgsmålet bliver derfor: ”Hvad forstår modellerne ellers?”

Tech-virksomheden Anthropic, som er støttet af Amazon, og som laver sprogmodellen Claude, der af flere lige nu anses for at være måske endda bedre end ChatGPT, udgav i forsommeren et større studie, hvor de havde undersøgt, hvilke funktioner (features, grupperinger, sammenhænge) der fandtes i en sprogmodels hjerne.

Ved at køre modellen på en særlig måde over millioner af gange kunne de identificere funktioner, der fx omhandlede Golden Gate Bridge. Der var en masse viden tilknyttet broen – rød, San Francisco, beton o.lign. – og dette betød, at modellen havde et sprogligt koncept om, hvad Golden Gate Bridge var. En feature, som de kalder det.

Ved at forstærke denne feature – altså ved hjælp af kode øge sandsynligheden for, at modellen brugte Golden Gate Bridge i sine svar – oplevede de også, at modellen begyndte at opføre sig anderledes end før. Fx begyndte den at tro, at den var en stor rød bro og ikke en sprogmodel. Og der var utallige af disse funktioner gemt i modellen. Disse funktioners eksistens betyder, at der ligger skjult ekspertise i modellerne. Og det er denne ekspertise, vi skal afdække og bygge med. 

Fx har modellerne også en funktion, der omhandler fakturaer. De har set så mange forskellige fakturaer, at de ved, hvordan de ser ud, og også hvordan en outlier-faktura kan fortolkes som en ordinær – der er logikker i modellerne, der på en særlig måde kan rationalisere, at det her er kundenummer, dette er kontaktperson osv. Ligesom de også kan se, hvad der er en autosignatur i en mail om fx adresseændring, så to adresser i samme mail ikke forveksles. Fordi de også har en funktion, der omhandler mailstrukturer og formater. 

Ved at afdække disse funktioner opnås der også forudsigelighed. Prøv fx at bede ChatGPT afslutte denne sætning ”To be or not to be; that is …”, og du vil altid få ”the question”. Men hvis du i stedet beder den afslutte denne sætning, får du kaotiske svar hver gang: ”CFO’en tog til Mars, fordi …”. Simpelthen fordi den dér bruger sin bredde til at gætte på noget, den egentlig ikke har dybde nok til. Der er i en sprogmodel en Hamlet-funktion gemt, men ikke en astronaut-CFO. 

Indkredsning af funktioner er en gamechanger

Når vi prompt engineerer – altså designer spørgsmål og opgaver til en AI-model – forsøger vi altid at ramme opgaven og konteksten ind. Det er hele humlen. Og det gør vi, fordi vi ikke vil have den til at svare i bredden, men ned i en dybere kontekst. Udviklere, der bruger modellerne, forstår dette intuitivt, men det skal også forstås på et analytisk ideniveau. 

De opgaver, vi sætter en sprogmodel til at arbejde på, skal derfor være både definerbare, så en funktion/feature kan identificeres eller afvises, og grundlæggende alment kendte, så vi kan forvente, at modellerne evt. har en funktion/feature, der vil tjene vores formål. 

Det betyder også, at vi kortvarigt skal se bort fra chatbotten, der kan svare på alt, og i stedet søge at afdække skarpe funktioner, der kan løse kendte problemer. I stedet for AI-agenter, som der tales meget om på AI-markedet lige nu, ligger gevinsten for de fleste virksomheder i at definere og udvikle AI-roller. Forskellen er simpelthen, at en agent forventes at kunne gøre alt, hvad du beder den om, og være egenrådig, mens en rolle kun kommer på scenen på rette tid og med præcise replikker. 

Ved at indkredse rollen får vi forudsigelighed tilbage og opgaveløsninger, vi kan måle på. Vi får også mulighed for at bruge modellerne til det, vi aldrig før har kunnet løse så nemt med teknologi: at strukturere det ustrukturerede. Gennem roller, der bygger på identificerede funktioner, og som kan kontekstualisere og logisk fortolke forskelligt input, kan en sprogmodel skabe orden i data, der ellers er vilkårlig. Og dét er den virkelige gamechanger, når det kommer til den nye bølge af AI, for det udvider hele det digitale spillebræt.

Det korte budskab: Ved at fokusere de store AI-modeller får du konkrete gevinster

Efter nu i nogle år at have afprøvet og spredt budskabet om AI rundt i organisationerne står virksomheder over for udfordringen om, hvordan der skabes reel værdi med generativ AI. Sandheden er, at hvor modellerne først imponerede ved at ligne en C3PO, der kunne svare på alt, ligger gevinsten i at finde modellernes indre funktioner og lægge dem i en spændetrøje omkring disse funktioner. Modellerne ved enormt meget, men det interessante er at finde ud af, hvor meget de ved om ét emne og én opgave, og ikke hvor meget de kan brede sig ud over irrelevante områder. 

Behandl dem som en medarbejder, der skal ansættes: Personens viden om de konkrete opgaver er altid vigtigere end viden udenfor. Identifikation af præcise (ofte ustrukturerede) opgaver og test af modellernes skarphed på disse er derfor helt afgørende for at høste værdi af de store sprogmodeller.

Lasse Rindom

Lasse Rindom

Senior Manager - AI Lead

+45 25 30 91 89

lrindom@basico.dk

Vil du forstå mere om både dybden og bredden i generativ AI?

Så giv vores AI Lead Lasse Rindom et kald. Hans levende foredrag skal nok efterlade AI-stof til eftertanke. Og søger du inspiration til, hvordan du kan bruge og implementere generativ AI, så det passer ind i din virksomheds formål, vision og strategi? Så er han også manden, du leder efter.