AI-modeller har svårt att skilja mellan fakta och tro – en allvarlig begränsning
AI-modeller har svårt att skilja mellan fakta och tro – en allvarlig begränsning Pixabay CCO
Ny forskning visar att moderna språkmodeller inom artificiell intelligens har betydande svårigheter att skilja mellan objektiva fakta och subjektiva övertygelser. Studien, publicerad i Nature Machine Intelligence, visar att även avancerade AI-modeller ofta misslyckas med att förstå att en person kan ha en tro som är faktamässigt felaktig. Detta kan innebära risker vid användning av AI inom områden som sjukvård, juridik och psykisk hälsa.
I mänsklig kommunikation är skillnaden mellan att veta och att tro central. Att säga ”jag vet” innebär att något är sant, medan ”jag tror” tillåter osäkerhet eller fel. Forskarna bakom studien ville undersöka om AI-modeller verkligen förstår denna skillnad eller om de endast efterliknar språkliga mönster från träningsdata.
Forskarteamet utvecklade ett nytt testbatteri kallat Knowledge and Belief Language Evaluation (KaBLE), bestående av cirka 13 000 frågor fördelade på 13 olika uppgifter. Materialet innehöll både sanna och avsiktligt falska påståenden inom ämnen som historia, matematik och medicin. Totalt testades 24 stora språkmodeller, inklusive GPT-4, Gemini, Claude, Llama och nyare resonemangsmodeller.
Resultaten visade ett tydligt mönster:
AI-modellerna hade särskilt svårt att erkänna att en användare håller en falsk uppfattning. När någon skrev ”jag tror att …” följt av ett felaktigt påstående försökte modellerna ofta korrigera faktan i stället för att bekräfta själva tron.
Till exempel sjönk träffsäkerheten hos GPT-4o från över 98 % när tron var korrekt till omkring 64 % när tron var felaktig. För vissa modeller var fallet ännu större. Detta tyder på att modellerna prioriterar faktakorrigering framför uppgiften att korrekt tillskriva mentala tillstånd.
Forskarna upptäckte också att modellerna behandlade första person (“jag”) och tredje person (“han/hon”) olika. De var betydligt bättre på att tillskriva falska övertygelser till andra personer än till användaren själv. Detta indikerar inkonsekventa strategier för hur språkmodeller tolkar perspektiv och mental representation.
En annan brist gällde förståelsen av så kallade faktiva verb. I mänskligt språk innebär verbet ”veta” att innehållet är sant – man kan inte ”veta” något som är falskt. Många AI-modeller misslyckades med att identifiera denna logiska motsägelse och försökte i stället bedöma sanningshalten i själva påståendet.
Modellerna visade även hög känslighet för små språkliga förändringar. Att lägga till ordet ”verkligen” i en fråga kunde drastiskt försämra resultaten, vilket tyder på ytlig mönsterigenkänning snarare än djup begreppsförståelse.
Konsekvenser
Dessa begränsningar är särskilt problematiska i sammanhang där förståelse för subjektiva upplevelser är avgörande:
inom juridik, där skillnaden mellan vad någon tror och vad som är bevisat är central
inom psykisk vård, där empati kräver att patientens upplevelser erkänns även om de inte är faktamässigt korrekta
inom utbildning, där missuppfattningar behöver identifieras innan de kan korrigeras
Forskarna menar att problemen sannolikt beror på hur modellerna tränats – med stark betoning på att vara hjälpsamma och faktamässigt korrekta. Detta skapar en ”korrigerande bias” som gör det svårt för AI att acceptera felaktiga premisser, även när uppgiften är att bara förstå en persons tro.
Slutsats
Studien visar att dagens språkmodeller saknar en stabil förståelse för skillnaden mellan tro och kunskap. Innan AI kan användas säkert i känsliga och personnära sammanhang krävs förbättringar som gör det möjligt att hantera subjektiva övertygelser utan att blanda ihop dem med objektiva fakta. Att åtgärda denna epistemologiska blind fläck är avgörande för ansvarsfull AI-utveckling.
Källa: psypost.org
Relaterade länkar