Statistikens atomer och molekyler

Statistikens minsta beståndsdelar är förstås data. Och det allra enklaste vi kan beräkna är medelvärde, median, typvärde och range. Okej, ni vet redan vad det är? Då kan ni skippa den här artikeln, men inte förrän ni tvärsäkert analyserar problemet med min dotters matteprov …

Vad tror de om oss föräldrar?
Min dotter kommer hem med resultatet från sitt första matteprov på gymnasiet. Glatt meddelar hon att hon hade ett resultat över medel; 19 poäng. Jag läser meddelandet från skolan: Max 24 poäng, medel 17 poäng och median 21 poäng. Och min dotter hade alltså 19 poäng, över medel men under median. Jag ser inte riktigt lika ljust på situationen som min dotter. Du som redan blixtsnabbt analyserat situationen (och funderat på lämpliga åtgärder) kan skippa resten av artikeln. Ni andra: Simma på.

Hur ser data ut?
Det absolut första man gör när man analyserar data är att SE PÅ DATA,
ibland är det förstås inte möjligt, när ett dataset innehåller miljontals observationer (registerstudier) men ofta kan man visuellt inspektera data. Ofta gör man enkla grafer och tittar på till exempel fördelning och eventuella avvikande värden (outliers). Nästa steg är att se på medelvärde, median och kanske spridningsmått som varians eller minsta och största värde. Det låter ju väldigt trivialt, men många av de värsta felsteg jag sett handlar just om detta; att man inte tar hänsyn till hur data ser ut innan man påbörjar sina analyser. Så hur kan det bli så galet, bara för att man inte tar hänsyn till hur data ser ut?


Medelvärde versus median
Tänk att vi vill undersöka om en kräm förbättrar hudkvalitén jämfört med en placebokräm. Vi säger att de som får den aktiva behandlingen upplever en förbättring på 0, 0, 1, 3, 16 enheter och de som får placebo upplever en förbättring på 0, 0, 1, 2, 2 enheter. Ser man enbart på medelvärdet så är förbättringen för respektive grupp: 4 enheter (aktiv) och 1 enhet (placebo). Eftersom vi inspekterat data så förstår vi omedelbart att skillnaden i medelvärde beror enbart på en outlier; patienten som upplevde en förbättring på 16 enheter. Det var en stor skillnad i medelvärde: 4 enheter jämfört med 1, median är däremot densamma för bägge grupper, nämligen 1. En snabb titta på data gör att vi förstår att data inte är normalfördelade
och att till exempel medelvärde inte är ett bra mått. Ett annat lägesmått
som används ibland är typvärde, det vill säga det vanligaste värdet i ett dataset. I exemplet ovan är 0 typvärdet för både aktiv och placebo.

Läs hela artikeln