Så klarar Chat GPT tentor på GU och Chalmers

På universitet och högskolor har det nya AI-verktyget Chat GPT blivit ett problem för lärare som använder hemtentor och inlämningsuppgifter. Men hur bra klarar sig chattroboten egentligen som student? Vi lät den göra tentor i juridik, bioteknologi, historia, företagsekonomi och mikrobiologi för att se om den knäcker de vanliga studenterna.

ANNONS
|

Texten börjar snabbt ticka på dataskärmen. Efter 20 sekunder finns ett färdigt svar på en av de två essäfrågorna som historiestudenterna på Göteborgs universitet har fyra timmar på sig att svara på. Det handlar om utbildningens betydelse för borgerlighetens framväxt. Chattroboten Chat GPT resonerar sig fram till att utbildning var en viktig anledning till att borgarna blev en självständig klass som deltog i samhällslivet och ekonomin på liknande villkor som adeln.

Någon minut senare har den besvarat även den andra essäfrågan, med drygt 400 ord på felfri svenska. Då återstår bara tio korta frågor med fyra svarsalternativ.

Chat GPT lyckas välja mellan alternativen och verkar känna till en del om svenskt stadsliv, men misslyckas på en fråga om Englands framgångar under industrialiseringen.

ANNONS

För vaga och pladdriga svar

När lärarna på historiska institutionen går igenom tentan når svaren inte riktigt upp till godkänd nivå. På kortfrågorna blir det fem av tio rätt, men essäsvaren hade behövt vara lite mer utvecklade.

Lars Nyström, viceprefekt och utbildningsansvarig på Institutionen för historiska studier, är imponerad av vissa delar.

– Ett av essäsvaren hade en väldigt tydlig och klar disposition. Jag uppfattar att det var välskrivet på ett sätt som vi försöker lära våra studenter, säger han.

Däremot är essäsvaren för vaga och pladdriga. De påminner Lars Nyström om en viss typ av studenter, som lyckas glida igenom utbildningen genom att vara duktiga på att skriva och snacka. Lärare kan luras att tro att de har koll.

– Det blir som studenten som inte läst på inför tentan. Egentligen är personen ganska duktig, men lite slapp.

Andra tentor

Nästa utmaning för Chat GPT blir en hemuppgift från juridikstudenternas andra termin. Den handlar om ett populärt gym som blivit vräkt från sin lokal i ett gammalt bergrum och studenterna ska argumentera för deras sak utifrån ett särskilt kapitel i jordabalken.

Jakob Heidbrink på juridiska institutionen är imponerad av Chat GPT:s språkkompetens, men inte analysförmåga. "Den förstår överhuvudtaget inte grunden för frågan" säger han.
Jakob Heidbrink på juridiska institutionen är imponerad av Chat GPT:s språkkompetens, men inte analysförmåga. "Den förstår överhuvudtaget inte grunden för frågan" säger han. Bild: Jonas Lindstedt

Chat GPT lyckas leverera några rimliga svar men också flera rena faktafel och snåriga cirkelresonemang. Jakob Heidbrink, lektor på juridiska institutionen, underkänner svaret. Han märkte dock inte direkt att texten var skriven av en robot.

ANNONS

– Jag trodde inte att en språkmodell kunde bli så bra så snabbt. Det ser ut att vara skrivet av en inte särskilt begåvad förstaårsstudent, så rent språkligt är jag enormt imponerad.

Första gången han testade Chat GPT fick han "skrämselhicka" och trodde att universitetet skulle behöva sluta med hemtentor omgående. Nu när han utforskat den lite mer tror han främst att Chat GPT är ett hot mot enklare hemuppgifter på högstadiet och gymnasiet.

– Men om man begär att den ska använda och analysera kunskapen klarar den inte att hänga med, säger han.

"Läskigt bra"

Chattroboten Chat GPT lanserades i slutet av förra året och blev snabbt en snackis. Många imponerades av dess förmåga att samla in enorma mängder information och presentera den på ett avancerat, nästan mänskligt vis. Twitters vd Elon Musk tyckte den var "läskigt bra" och Microsoft-grundaren Bill Gates menade att upptäckten var lika betydelsefull som internet.

För dålig, än så länge

Chattverktyget blir bättre och smartare varje dag. Men våren 2023 verkar det inte tillräckligt utvecklat för att klara universitetstentor. När GP:s reportrar fortsätter experimentet genom att låta den testa prov på ekonomutbildningen och läkarprogrammet på Göteborgs universitet samt en tekniktenta på ingenjörsutbildningen på Chalmers blir det underkänt även där.

Ekonomitentan handlade om detaljhandel och innehöll fyra frågor om allt från affärsmodeller till digitalisering.

ANNONS

Det krävdes 18 poäng för godkänt och Chat GPT samlade ihop någonstans mellan 9 och 13 poäng. Handelshögskolans lärare Ulrika Holmberg och Ingrid Stigzelius som rättade tyckte att svaren var för övergripande och upprepande. Men de skriver även att "det är ovanligt att våra studenter skriver så här strukturerat, vilket är en varningsklocka".

På läkarprogrammets hemuppgift i mikrobiologi har Chat GPT kanske bäst utgångsläge. Den handlar nämligen om att skriva en populärvetenskaplig sammanfattning av en vetenskaplig text.

Texten den levererar är betydligt lättare att förstå än själva artikeln med sina krångliga tabeller och medicinska termer, men den innehåller vissa upprepningar. Dessutom radas studiens resultat upp utan att värderas, trots att det är en del av uppgiften.

Chat GPT klarar sig alltså inte särskilt långt som läkarstudent. Däremot är lärarna överens om att den är ett strålande verktyg för fusk. Det skulle gå ganska snabbt för en läkarstudent att fixa texten till godkänd nivå. Särskilt med tanke på att studenterna hade en hel dag på sig att lösa uppgiften, medan Chat GPT levererade sitt svar på några minuter.

Den sista utmaningen blir en tekniktenta från Chalmers som passande nog handlar om artificiell intelligens. Den gick ut på att diskutera om mänskligheten bör utveckla generell AI och vilka risker och etiska problem som kan komma framöver. Inte heller här når Chat GPT upp till godkänd nivå, men också läraren Karl de Fine Licht konstaterar att det skulle vara lätt för en student att komplettera svaret.

ANNONS
Karl de Fine Licht, universitetslektor och forskare på Chalmers tekniska högskola.
Karl de Fine Licht, universitetslektor och forskare på Chalmers tekniska högskola. Bild: Privat

– Om de skulle använda de basala färdigheterna och mata in litteraturen, så skulle de säkert kunna skriva en tenta på en halv dag i stället för att sitta i en vecka som tänkt. Problemet med det är att de lär sig väldigt mycket mindre, säger han.

Ett av målen med tentan är nämligen att lära eleverna skriva bra.

Bokat om till salstentor

Karl de Fine Licht saknade djup i svaren och tyckte, precis som ekonomilärarna, att källhänvisningarna var lite konstiga. Trots det har han valt att boka om alla höstens hemtentor till salstentor.

– Man vet inte vad de här nya modellerna kommer att göra. Det är en säkerhetsåtgärd.

Han har testat en rad olika plagiatprogram för att se om de kan plocka upp AI-genererad text, men inget av dem har varit särskilt tillförlitligt. Så fort han gått in och mixtrat lite med svaren från Chat GPT har plagiatprogrammen blivit osäkra om de är skriva av en människa eller en chattrobot.

Det gör det väldigt svårt att få en student fälld för fusk, menar han.

– De gånger jag har hört om folk som åkt fast så har de inte kollat sin referenslista, botten har hittat på referenser. Samtidigt så har studenterna sagt ja om läraren har frågat om texten är botgenererad.

ANNONS

"Enormt första steg"

Slutsatsen efter GP:s robottest blir att Chat GPT säkert kan briljera på högstadiet eller gymnasiet, men har svårt med de mer avancerade tentorna på universitetsnivå. Däremot lär den få stora konsekvenser för högre utbildning framöver, inte bara genom att döda den traditionella hemtentan.

Juridiklektorn Jakob Heidbrink ser hur den kan förändra studenternas kommande yrkesliv. Han ser redan att jobb som exempelvis biträdande jurister och handläggare på banker snart kan ersättas av AI, där det snarare handlar om att genomföra saker än att analysera.

– Så Chat GPT är ett första steg men enormt första steg.

Så gjorde vi tentorna

  • Vi fick ut tentor och hemuppgifter från lärare på de respektive programmen på GU och Chalmers.
  • Frågorna ställdes en och en i chatten. Om svaret blev kortfattat bad vi chatten att utveckla svaret. Vi bad den att skriva populärvetenskapligt eller på lätt svenska.
  • Tentafrågan på läkarprogrammet var att skriva om en engelskspråkig vetenskaplig artikel till lättförståelig svenska. I det fallet översatte vi artikeln till svenska med Google translate innan vi lät Chat GPT svara.
  • För fyra av tentorna visste läraren som rättade att svaret var AI-genererat. För en av tentorna fick läraren rätta fem tentor, varav en var AI-genererad.
  • Tentorna gjordes med hjälp av gratisverktyget Chat GPT-3.5. Sedan dess har det kommit en ny betalversion (GPT-4) som är ”smartare” och kan generera mer text än sin föregångare.

LÄS MER:AI - en bra dräng men usel herre

LÄS MER:Första fuskaren fast för Chat GPT

LÄS MER:Chat GPT blir betaltjänst

LÄS MER:Därför hotas även ditt jobb av AI

ANNONS