4.8.2 Analysere tall

Publisert 07. juni 2016 | Sist oppdatert 24. august 2022

For å kunne stole på resultatene må vi være rimelig sikre på at det verken er systematiske eller tilfeldige feil i studien. En kritisk vurdering av hvordan forskerne gikk fram gir oss svar på om det kan foreligge systematiske feil, mens faget statistikk hjelper oss å vurdere om resultatene kan skyldes tilfeldige feil. Det kan vi bedømme ved å utnytte hjelpemidler som konfidensintervall eller statistiske tester. Statistikken hjelper oss å reflektere om hva som ville ha skjedd dersom den aktuelle studien var blitt gjentatt mange ganger. Dermed kan vi få en formening om det er rimelig å anta at resultatene ikke bare gjelder for dem som ble undersøkt i akkurat denne studien, men også for alle andre liknende personer.

Analyse av forskjeller i frekvenser

Når utfallene er todelte (dikotome), f.eks. frisk eller syk, kan en beregne sammenheng mellom tiltaket og utfallet. Det er ulike måter å presentere resultatet, men utgangspunktet for analysene er alltid en 2x2 tabell. Tabell 1 er en 2x2 tabell som oppsummerer resultater fra en studie som undersøkte effekten av massasje for pasienter med kroniske nakkesmerter og viser at 18 av 31 (58 %) pasienter som fikk massasje ble bedre, mens 2 av 29 (7 %) pasienter i kontrollgruppen rapporterte bedring.

Tabell 1: Antall pasienter som rapporterte bedring ved 4 uker

 Bedring (Ja)Ikke bedring (Nei)Totalt
Massasje (Tiltak)181331
Informasjon (Kontroll)22729
Totalt204060

I de første kolonnene i tabell 2 er tallene fra tabell 1 presentert som prosent. En vanlig måte å analysere tallene er å se på forskjell i ”risikoen” for å bli bedre hvis du får massasje, sammenlignet med om du får en informasjonsbrosjyre. Risikoforskjellen mellom de to gruppene kan tallfestes, og er et punktestimat. Rundt effektestimat beregner vi et konfidensintervall (KI) som viser i hvilket intervall vi med sikkerhet kan si at effektestimatet ligger hvis vi skal anvende den i utgangspopulasjonen. Det er vanlig å oppgi KI med 95 % sikkerhet (95 % KI).

I denne videoen laget for KBP på tvers ved Høgskulen på Vestlandet får du en forklaring på konfidensintervall (2:30 min)

I denne videoen laget for KBP på tvers ved Høgskulen på Vestlandet får du en forklaring på risiko (1:52 min)

P-verdien viser sannsynligheten for at resultatet skyldes tilfeldige feil. Vi sier som regel at en p-verdi under 0,05 er statistisk signifikant, som betyr at sannsynligheten for at det skyldes tilfeldige feil er lav nok. Statistisk signifikans betyr ikke at resultatet er klinisk signifikant, det vil si om forskjellen betyr noe for pasienten.

I denne videoen laget for KBP på tvers ved Høgskulen på Vestlandet får du en forklaring på p-verdi (3:12 min)


 

Tabell 2: Analysere tall relativ risiko (RR) og 95 % KI (analyse av forskjell i frekvenser) 

Generell bedringMassasjeInformasjonRelativ risiko95 % KIp-verdi
4 uker5878,52,0 til 35,40,003
26 uker43251,80,8 til 3,80,14

I tabell 2 er risikoforskjellen mellom massasjegruppen og informasjonsgruppen presentert som relativ risiko (RR). For å finne RR må en regne ut risikoen i hver gruppe først. Risikoen i hver gruppe regnes ut ved å ta antallet som ble bedre, delt på alle i gruppen. I tiltaksgruppen ble 18 av 31 bedre, dvs. risikoen er 18/31 (58 %). I kontrollgruppen ble 2 av 29 bedre, dvs. risikoen er 2/29 (7 %). Tallene ble hentet fra Tabell 1. Den relative risikoen (RR) finner en ved å ta risikoen i tiltaksgruppen og dele på risikoen i kontrollgruppen, dvs. 58 delt på 7 som er 8,5. Det betyr at sjansen for å bli bedre var 8,5 ganger større for de som fikk massasje. I tabell 2 er RR presentert for alle måletidspunktene. Det er stor variasjon i 95 % KI for 4 uker (2,0 til 35,4), og p-verdien er 0,003. Ved 26 uker krysser konfidensintervallet 1 og p-verdien over 0,05, og den varige effekten er derfor usikker.

Resultatene kan også presenteres som absolutt risikoreduksjon (ARR) som angir andelen pasienter som ikke får et ugunstig utfall. Hvis vi tar utgangspunkt i 2×2 tabellen igjen (tabell 1) finner du ARR ved å ta risikoen for de som ikke fikk behandling (2/29) minus risikoen for de som fikk behandlingen (18/31). ARR blir da 7 % – 58 % = -51 % som betyr at sjansen (”risikoen”) for å bli bedre er 51 % større i tiltaksgruppen enn i kontrollgruppen etter fire uker.

En mer konkret måte å presentere resultatene på, er å si hvor mange som må få behandling for at én pasient skal bli bedre, evt. forhindre et ugunstig utfall. Denne måten kalles number-needed-to-treat (NNT). Dette regnes ut ved å ta 100 delt på absolutt risikoreduksjon (ARR) i prosent. I vårt eksempel er ARR 51 % slik at det blir 100/51. Det betyr, kort sagt, at hvis to pasienter får massasje vil én oppgi bedring etter fire uker.

Analyse av forskjeller i gjennomsnitt

Når utfallene er kontinuerlige, f.eks. målt på en visuell analog skala (VAS), kan du beregne gjennomsnitt og standardavvik. Det er en beskrivelse av sentraltendens og spredning for utfallet blant personene som deltok i den aktuelle studien. I tabell 3 viser vi resultatene fra en studie som har sett på effekten av p-piller (tiltaksgruppe) , sammenlignet med placebopiller (kontrollgruppe) mot menstruasjonssmerter. Gjennomsnitt (M) og standardavvik (SD) for alle målepunktene både før og etter behandlingsstart (pre- og posttest) for henholdsvis tiltaks- og kontrollgruppen, er presentert.

Tabell 3: Gjennomsnitt, standardavvik, 95 % KI og p-verdi for smerteskår

 P-piller
tiltaksgruppe
Placebo
kontrollgruppe
95 %
KI
p-verdi
MenstruasjonssmerterMSDMSD  
Pretest11,1511,85-0,53
Posttest (3 måneder)3,13,25,84,50,88 til 4530,004

I tabell 3 er det gjennomsnittene på posttestene som sammenlignes (her 3,1 og 5,8 for variabelen menstruasjonssmerter). I massasjestudien presenteres gjennomsnittsforskjellen sammen med konfidensintervall og p-verdi (tabell 4). For å kunne vurdere om endring er klinisk relevant, er det viktig å vite bredden på måleskalaen og ha et forhold til hva som er en viktig endring for pasienten. Hvis konfidensintervallet krysser 0 (gjelder kontinuerlige variabler) betyr det at det ikke er sikkert at det er forskjell i utgangspopulasjonen.

Tabell 4: Forskjell i gjennomsnitt og 95 % KI

SymptombelastningGjennomsnittsforskjell95 % KIp-verdi
4 uker-2,1-4,0 til -0,030,0006
26 uker -4,4 til 0,630,14

I denne studien er gjennomsnittsforskjellen for symptombelastning ved fire uker mellom de som fikk massasje og de som fikk informasjon 2,1 poeng i favør av massasjegruppen. Utfallet er målt på en 0 til 10 poengs skala, og jo lavere skår desto bedre. 95 % KI i fire uker går fra minus 4 til minus 0,03 poeng. Det betyr at denne forskjellen kan overføres til utgangspopulasjonen. Ved oppfølging etter både 10 og 26 uker krysser konfidensintervallet 0. Da kan vi ikke si at forskjellen gjelder i utgangspopulasjonen.

I eksemplene over har vi valgt å vise til studier som sammenligner forskjeller i gjennomsnitt mellom en tiltaksgruppe og en kontrollgruppe. Det er viktig å være klar over at statiske analyser basert på gjennomsnittsforskjeller, kan gi feilaktige resultater hvis måleresultatene ikke er normalfordelte. I slike tilfeller kan det være aktuelt å benytte seg av andre statistiske metoder som for eksempel ikke-parametriske analyser og transformasjoner. Det finnes også statistiske metoder for å analysere data fra ikke-kontrollerte studier, for eksempel før-etter-studier, men det er viktig å være klar over at resultater fra ukontrollerte studier er utsatt for påvirkning fra systematisk feilkilder.

Eva Denison, Kunnskapssenteret, gir en  innføring i hvordan analysere tall. Eva underviser i statistikk og kunnskapsbasert praksis for helsepersonell. I tillegg skriver hun kunnskapsoppsummeringer m.m. og har skrevet bruksanvisninger for ulike statistikkprogram.

Vær oppmerksom på feil to steder i videoen:

  • Ved 4 min, 30 sek står det «Gjennomsnittsforskjellen mellom gruppene er 30 mmHg», mens det sies at den er 35 mmHg. Det korrekte er 30 mmHg.
  • Ved 6 min, 11 sek står det «Risiko i eksperimentgruppen (Pille A): 18/46 = 0,28 = 28 %», mens det sies at det var 18 av 64 som fikk hjerteinfarkt. Det korrekte er 18/64 = 0,28 = 28 %.