KI-apper til oversettelse – er de gode nok til arbeid med pasienter?
KI-tjenester for oversettelse – både muntlig og skriftlig – har blitt stadig mer kraftfulle verktøy som kan hjelpe helsepersonell med å formidle informasjon til pasienter med begrensede norskkunnskaper. Men hvor gode er disse tjenestene i praksis, og hvor trygge er de?

Kunstig intelligens (KI) har de siste fem årene revolusjonert feltet maskinoversettelse. Tidligere var digitale oversettere ofte upresise og lite nyanserte, men med framveksten av maskinlæring og store, flerspråklige språkmodeller, har både kvalitet og brukervennlighet gjort store framskritt. Moderne KI-oversettere kan både gjengi tekstlig informasjon til et stort antall språk, og oversette muntlig dialog i sanntid.
Personvern
Det er én veldig viktig innvending mot bruk av maskinoversettelse i helsevesenet: Personvern. Google Translate som, teknisk sett, er en av de bedre appene, lagrer dataene som brukerne laster inn, og de forbeholder seg også retten til å publisere dem. Om andre oversettelsesverktøy tar mer hensyn til personvernet bør en undersøke grundig før en tar de i bruk. Personopplysninger og sensitive data bør man altså holde langt unna maskinoversettelse. Dette kan gjøre det vanskelig å bruke maskinoversettelse til dialog med pasienter, men er ikke i veien for å oversette pasientbrosjyrer og generell informasjon. Til dialog med pasienter kan ofte den norske appen Care To Translate benyttes. Den har ferdiginnspilte setninger og dekker 47 språk.
Stort behov for informasjon på pasientens språk
Norskspråklige pasienter har tilgang til et bredt tilbud av kvalitetssikret informasjon om sykdom og behandling i norsk helsevesen. Engelskspråklig informasjon av høy kvalitet er også lett tilgjengelig på nettsider som BMJ Best Practice, Medline Plus og Mayo Clinic. Men for pasienter med utenlandsk bakgrunn der verken norsk eller engelsk er morsmål, kan tilgangen på relevant informasjon være mer begrenset.
Stadig bedre maskinoversettelser åpner nå større muligheter for at norskspråklig innhold i større grad kan oversettes til brukernes morsmål, selv om innholdet som tidligere bør kvalitetssikres av et menneske. Det gjelder både offentlige og kommersielle aktører.
Hva kjennetegner i dag noen av de beste eller mest brukte oversettelsesappene?
Google Translate
-
Nøyaktighet: Google Translate har blitt bedre over tid, men nøyaktigheten varierer mye alt etter språk og type tekst. For medisinske utskrivnings-instruksjoner er det vist over 80 prosent nøyaktighet, men for enkelte språk som armensk og farsi falt den til henholdsvis 55 og 67 prosent. For spansk og kinesisk var den over 90 prosent, men selv små feil kan ha store kliniske konsekvenser.
-
Begrensninger: Tjenesten vurderes som utilstrekkelig for kritiske medisinske oversettelser. Den fanger ofte ikke opp konteksten og kan feiltolke spesifikke medisinske termer, noe som kan resultere i alvorlige misforståelser.
-
Bruksområde: Anbefales kun som et verktøy for generell informasjon, når profesjonell oversettelse ikke er tilgjengelig, og aldri for livsviktige meldinger.
DeepL
-
Nøyaktighet: DeepL regnes for å ha høyere kvalitet enn Google Translate, spesielt innen teknisk og medisinsk terminologi. Studier viser at DeepL ofte scorer høyest for tekniske oversettelser, og den har også vist best resultater i sammenlikningstester mellom eksempelvis engelsk-japansk og japansk-engelsk for medisinske dokumenter.
-
Begrensninger: Selv om DeepL gir gode resultater, kreves det fortsatt menneskelig etterkontroll da feil og utelatelser kan forekomme, også i medisinske tekster. I gratisversjonen lagres oversettelser midlertidig, mens dette ikke er tilfelle for DeepL Pro.
ChatGPT
-
Nøyaktighet: Studier fra 2024-2025 viser at ChatGPT har lik eller bedre treffsikkerhet sammenlignet med Google Translate, spesielt for språk som spansk og kinesisk, hvor begge verktøy presterte ≥90 prosent nøyaktighet på setningsnivå. Også for russisk er GPT vist å være mer nøyaktig enn Google Translate.
-
Klinisk risiko: For begge verktøy var det lav risiko (≤1prosent) for feil med potensielt alvorlig klinisk konsekvens dersom man vurderte én setning isolert. Risikoen økte derimot når hele instruksjonssett vurderes.
-
Styrker: Tjenesten er god på større sammenhenger, og kan tilpasses med instruksjoner «prompt engineering» for å styre stil og presisjon. Den gir ofte bedre flyt og mening enn tradisjonelle maskinoversettere for komplekse tekster.
Perplexity.ai
-
Nøyaktighet og bruksområde: Perplexity gir tilgang til oppdatert medisinsk forskning og har sin styrke i å gjøre presise oppsummeringer med kildehenvisninger. Den hjelper ikke bare med direkte oversettelse, men også med å finne og tolke de nyeste retningslinjene og dokumentene innen medisin. Den er samtidig mer rettet mot informasjonsinnhenting og RAG «retrieval-augmented generation» enn ren språkoversettelse, men har bredt dekning av språk og kan sammenlignes med ChatGPT i fleksibilitet.
-
Begrensninger: Tjenesten er avhengig av nettforbindelse for å få tilgang til kildematerialet og den er ikke alltid like sterk på kontekstsensitiv og spesialisert terminologi-oversettelse som DeepL eller ChatGPT når disse får gode instruksjoner.
Skriftlig oversettelse – en enkel test av Perplexity
Helsebiblioteket gjorde en enkel test av Perplexity på oversettelse av denne pasientbrosjyren til tysk: Diabetes type 2 – behandling, og ba deretter Perplexity om å tilbakeoversette den til norsk. Den tyske teksten manglet oversettelse av to ord, der det norske ordet ble oppgitt. Ellers virket oversettelsen feilfri. Tilbakeoversettelsen var svært lik den norske originalen, men ikke identisk lik. Den var også uten feil. Syntaks og ordstilling var korrekt i begge tilfellene.
Ved oversettelse av medisinske tekster må imidlertid resultatet alltid kontrolleres av fagfolk.
Muntlig oversettelse – enkle tester av Google Translate og DeepL
Helsebiblioteket har gjort en enkel test av Google Translate og DeepL.
Google Translate
Google Translate er den mest brukte gratisløsningen og støtter nå over 100 språk. Den har et samtalemodus der to personer med forskjellige språk kan snakke med hverandre via appen, og få sanntidsoversettelser lest opp. I USA har rundt en tredjedel av alt helsepersonell brukt tjenesten ved innkomstsamtaler, der rask overføring av grunnleggende informasjon om smerter, symptomer og behov er essensielt. Oversettelse av medisinske termer i samtalemodus er imidlertid belemret med feil.
I norsk-tysk samtalemodus spurte vi for eksempel: «Har du hørt om basalcellekarsinom?» uten at appen klarte å oppfatte spørsmålet riktig. Men ved annen gangs forsøk ble oversettelsen riktig. Det er viktig å snakke langsomt og tydelig for at appen skal forstå hva som sies.
Ved inntasting av tekst klarte appen seg bedre. Oversettelsen av inntastet tekst var feilfri.
Appen kan ta bilde av tekst og utføre oversettelse av den ved hjelp av OCR-teknologi. På trykt tekst kan dette fungere godt.
DeepL
DeepL har også samtalemodus, og der gjelder det samme som for Google Translate: man må snakke langsomt og tydelig for å bli forstått. Vi prøvde å lese høyt en tekst fra Tidsskrift for Den norske legeforening og for å få den oversatt til tysk. Det fungerte delvis bra. Når DeepL fikk med seg den norske teksten, ble den oversatt til forståelig, men ikke god tysk. Som hjelpemiddel ved oversettelse vil dette verktøyet kunne spare mye tid, men etterkontroll er viktig.
Samtalemodus er ikke tilgjengelig for alle språk, og DeepL dekker heller ikke like mange språk som Google Translate.
DeepL har utmerket seg som den KI-baserte oversettelsestjenesten med best presisjon og mest naturlig språk, spesielt mellom europeiske språk. Tjenesten brukes mye blant profesjonelle oversettere og akademikere. DeepL støtter nå også opplasting av dokumenter, slik at brosjyrer, samtykkeskjema og pasientbrev på norsk kan oversettes hele veien til pasientens morsmål. DeepL kan ta bilde av tekst og oversette den til ønsket språk, men tyding av fotografert norsk tekst er per august ikke implementert. Også for DeepL gjelder: Ikke legg personopplysninger og konfidensiell informasjon inn i appen!
Andre KI-baserte oversettelsestjenester
I tillegg til verktøyene beskrevet over, er videre Microsoft Bing Translator, ChatGPT og Localise.AI blant de høyest vurderte oversettelsestjenestene.
Validering av oversettelser
Tre nyttige tips for validering av oversettelser er:
- Tilbakeoversettelse: Oversett teksten tilbake til originalspråket for å identifisere feil
- Faglig gjennomgang: La medisinske eksperter med språkkompetanse kontrollere oversettelser
- Pilot-testing: Test oversatt materiale på målgruppen før full implementering
Implementering i helsetjenester
Før man implementerer KI-tjenester i helsetjenesten, bør man:
- Utvikle klare retningslinjer for når og hvordan AI-oversettelse kan brukes
- Etabler kvalitetskontrollprosedyrer for oversatt materiale
- Sørg for opplæring av helsepersonell i riktig bruk av oversettelsesverktøy
- Opprettholde backup-løsninger som profesjonelle tolk- og oversettelsestjenester
Bruk av kunstig intelligens til oversettelse er et ganske nytt felt, men det begynner å komme noe forskning om det, også innenfor medisin.
Forslag til videre lesning:
- Older Migrant Patients and Health Care Professionals’ Experiences With Digital Translation Tools in Care Interactions: A Qualitative Literature Review
- Performance of machine translators in translating French medical research abstracts to English: A comparative study of DeepL, Google Translate, and CUBBITT
- Assessing GPT and DeepL for terminology translation in the medical domain: A comparative study on the human phenotype ontology
- Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals
Deler av denne artikkelen ble utarbeidet som utkast av KI-tjenesten Perplexity og deretter kvalitetssikret av redaksjonen.