Door Rasmus Arvidsson, Ronny Gunnarsson, Artin Entezarjou, David Sundemo en Carl Wikberg, allen werkzaam als huisarts bij de Universiteit van Gotenburg te Zweden.
Samenvatting van het artikel van:
Arvidsson R, Gunnarsson R, Entezarjou A, et al. ChatGPT (GPT-4) versus doctors on complex cases of the Swedish family medicine specialist examination: an observational comparative study. BMJ Open 2024;14:e086148. doi:10.1136/.
Op verzoek van de redactie vatten de auteurs hieronder hun artikel samen zonder in te gaan op de voorafgaande literatuurstudie met 25 referenties te bespreken en zonder de onderzoeksmethoden en statistische analyses te verantwoorden. Hiervoor verwijzen zij naar het oorspronkelijke artikel.
Achtergrond en doel van het onderzoek
Kunstmatige intelligentie (AI) in de geneeskunde is een groeiend onderzoeksonderwerp, hoewel toepassingen in de echte wereld relatief beperkt blijven. ChatGPT van OpenAI is een van de meest bekende AI-modellen. Op het moment van het onderzoek waren de twee meest recente AI-modellen GPT-3.5 en GPT-4. De prestaties op verschillende professionele benchmarks en matige tot uitstekende resultaten in verschillende medische onderzoeken waren veelbelovend. ChatGPT zakte echter voor de algemene licentie-examens in Taiwan en het VK, die meerkeuzevragen met zich meebrachten, anders dan diagnostische taken in de echte wereld waarvoor medische geschiedenissen nodig zijn.
Bovendien testten de meeste onderzoeken GPT-3.5, dat aanzienlijk slechter presteert dan GPT-4. Op het moment van schrijven was er nog geen onderzoek gedaan naar het vermogen van ChatGPT om gevallen in vrije tekst te beoordelen en medische behandelingsaanbevelingen te geven. Deze studie was bedoeld om GPT-4 te vergelijken met echte artsen met betrekking tot hun vermogen om uitgebreide beoordelingen te geven van complexe gevallen van eerstelijnszorg.
Studieopzet
In Zweden leggen huisartsen-in-opleiding (HIO’s) een examen af voordat ze worden gecertificeerd. Eén onderdeel omvat een (vrijwillige) schriftelijke test met acht complexe gevallen met symptomen die verweven zijn met sociale of gedragsfactoren, die gedetailleerde veelzijdige antwoorden vereisen. Een database met scores (variërend van 0 tot 10) van de prestaties van anonieme HIO’s op deze gevallen is openbaar beschikbaar via de Zweedse Vereniging voor Huisartsgeneeskunde (SFAM).
De casussen vragen om uitgebreide antwoorden, meestal meerdere alinea’s vrije tekst. Deze zijn vaak complex en omvatten symptomen die wijzen op meerdere aandoeningen en factoren zoals sociale problemen, verslaving, slechte therapietrouw, juridische aspecten en zorg aan het levenseinde.
Drie groepen werden vergeleken:
- (A) Willekeurig geselecteerde antwoorden van HIO’s
- (B) Hoogst scorende antwoorden van HIO’s
- (C) Door GPT-4 gegenereerde antwoorden
De primaire uitkomst meet het gemiddelde scoreverschil tussen GPT-4 en willekeurig geselecteerde HIO’s , evenals de best scorende HIO’s. De secundaire uitkomst analyseerde verschillen in responslengte.
In totaal werden 48 gevallen uit 2017-2022 willekeurig getrokken en beoordeeld door GPT-4. De scores van HIO’s op dezelfde gevallen werden vergeleken met de scores van GPT-4 met behulp van identieke evaluatiemethoden.
Tijdens het beoordelingsproces heeft OpenAI GPT-4O uitgebracht, het nieuwste vlaggenschipmodel. Het experiment werd herhaald om GPT-4O-antwoorden op te nemen. Vanwege de beperkte beschikbaarheid kon het oorspronkelijke panel van beoordelaars niet opnieuw worden bijeengeroepen en evalueerde een enkele beoordelaar alle groepen, inclusief GPT-4O.
Resultaten
GPT-4 scoorde lager dan welke groep artsen dan ook, met statistisch significante verschillen tussen groepen. De intraclass correlatiecoëfficiënt (ICC) voor scores van de drie beoordelaars was 0,92 (95% BI: 0,90 tot 0,94), wat wijst op het vrijwel ontbreken van een bias tussen individuele beoordelaars.
- De gemiddelde artsenscore op de acht gevallen was 6,0, terwijl ChatGPT 4,5 scoorde.
- De best scorende artsen behaalden 7,2, vergeleken met de 4,5 van ChatGPT, bijna 3 punten lager.
De resultaten van het herhaalde experiment met GPT-4O bevestigden deze bevindingen, hoewel GPT-4O hoger scoorde dan GPT-4 (5,2 vs. 4,5).
Discussie
De belangrijkste bevinding was dat GPT-4 significant slechter presteerde dan alle artsengroepen, waarbij topartsen bijna drie punten hoger scoorden. Deze statistisch significante kloof benadrukt dat artsen beter presteren dan GPT-4 bij het schrijven van gedetailleerde beoordelingen van complexe gevallen van eerstelijnszorg.
De praktische betekenis van dit verschil verschilt van geval tot geval. GPT-4 scoorde bijvoorbeeld in één geval 2.75 punten lager dan artsen door één diagnose en twee behandelingsaspecten te missen. Dit is zorgwekkend, aangezien dergelijke weglatingen vaak betrekking hebben op gebieden waar patiënten of het publiek advies kunnen inwinnen.
Bovendien was de informatiedichtheid (gemeten aan de hand van het aantal woorden) hoger voor artsen dan GPT-4, wat aangeeft dat artsen beter waren in het beknopt overbrengen van relevante informatie.
Ondanks deze beperkingen zijn de prestaties van GPT-4 indrukwekkend, aangezien het geen gecertificeerd medisch hulpmiddel is en ook niet specifiek is opgeleid voor medisch gebruik. Het herhaalde experiment met GPT-4O toonde een betekenisvolle verbetering aan, wat suggereert dat chatbots voor algemeen gebruik de prestaties van afstuderende Zweedse artsen benaderen.
Desalniettemin blijft er een aanzienlijke kloof bestaan tussen de best presterende artsen en GPT-4, wat vragen oproept over de normen voor medische chatbots: moeten ze ernaar streven de prestaties van de gemiddelde arts te overtreffen of de beste antwoorden van artsen te evenaren?
Implicaties voor de huidige praktijk en toekomstig onderzoek
GPT-4 schiet tekort in medische nauwkeurigheid bij het opstellen van gedetailleerde beoordelingen van complexe huisartspraktijkcases. Bijgevolg zijn GPT-4 casusevaluaties nog niet geschikt voor direct gebruik door huisartsen. GPT-4 kan ook geen artsen of verpleegkundigen vervangen voor patiëntenzorg. Nieuwere versies zoals GPT-4O laten echter veelbelovende verbeteringen zien.
Toekomstig onderzoek naar medische chatbots moet zich richten op het evalueren van opkomende modellen voor representatieve vragen van huisartsen en patiënten in de dagelijkse praktijk. Gespecialiseerde medische chatbots zoals Google’s Amie, getraind op betrouwbare medische informatie, zijn mogelijk geschikter dan bots voor algemeen gebruik zoals ChatGPT.
Dergelijke bots kunnen baat hebben bij geoptimaliseerde prompt engineering, meerstapsalgoritmen voor het verwerken van vragen of toegang tot externe informatiebronnen zoals kennishubs (bedoeld worden ( not redactie: bv NHG-richtlijnen en thuisarts.nl) in de huisartsenpraktijk.
Deze studie benadrukt de noodzaak van substantiële verbeteringen in de prestaties van GPT-4, met name bij het suggereren van relevante diagnoses, laboratoriumtests, fysieke onderzoeken, verwijzingen en het aanpakken van juridische kwesties. Betrouwbare medische chatbots kunnen een grote impact hebben op de eerste-contactzorg, triage en het beantwoorden van eenvoudige vragen.
Zoektermen op internet:
Rasmus Arvidsson, Ronny Gunnarsson, Artin Entezarjou, David Sundemo, Carl Wikberg, ChatGPT, digitalisering, huisartsen, patiëntenzorg, onderzoek
