En outlier er observationsdata, der er betydeligt forskellige numerisk fra de andre observationer i en prøve. Udtrykket bruges i statistiske undersøgelser og kan pege på abnormiteter i datasættet eller fejl i den udførte måling. At vide, hvordan man beregner outliers er vigtigt for at sikre en korrekt forståelse af dataene og vil føre til mere præcise konklusioner fra undersøgelsen. Der er en meget enkel proces til at beregne dem for et givet sæt observationer.
trin
Trin 1. Lær at genkende en potentiel outlier
Inden man beregner, om en observationsdata repræsenterer en outlier, er det altid nyttigt at undersøge datasættet og genkende potentielle outliers. Overvej f.eks. Et datasæt, der repræsenterer temperaturen på 12 forskellige objekter i et rum. Hvis 11 genstande har en temperatur på omkring 21 ° C, men den tolvte (måske en ovn) har en temperatur på 150 ° C, kan en hurtig undersøgelse sige, at ovnen er en outlier.
Trin 2. Organiser observationsdata fra den mindste til den største
Fortsæt med ovenstående eksempel, og overvej følgende datasæt, der repræsenterer temperaturerne for forskellige objekter: {22, 21, 24, 21, 21, 20, 21, 23, 22, 150, 22, 20}. Dette sæt skal fordeles som: {20, 20, 21, 21, 21, 21, 22, 22, 22, 23, 24, 150}.
Trin 3. Beregn medianen af datasættet
Medianen er observationsdataene placeret over den nederste halvdel af dataene og under den øverste halvdel. Hvis datasættet indeholder et lige antal observationer, skal de to mellemtermer udregnes. I eksemplet ovenfor er de to mellemtermer 21 og 22, så medianen er ((21 + 22) / 2) eller 21, 5.
Trin 4. Beregn den nederste kvartil
Dette punkt, kaldet Q1, er observationsdata placeret under 25% af observationer. I eksemplet ovenfor skal to termer regnes med igen, denne gang 21 og 21. Gennemsnittet af de to vil være ((21 + 21) / 2) eller 21.
Trin 5. Beregn den øverste kvartil
Dette punkt, kaldet Q3, er observationsdata placeret over 25% af observationerne. Hvis vi fortsætter med vores eksempel, tager gennemsnittet af de to terninger 22 og 23 til Q3, som er 22, 5.
Trin 6. Find de "indre barrierer" i datasættet
Det første trin er at multiplicere forskellen mellem Q1 og Q3 (kaldet interkvartilområdet) med 1,5. I eksemplet ovenfor er interkvartilområdet (22, 5 - 21), det vil sige 1, 5. Multiplicer denne værdi med 1, 5 giver 2, 25. Tilføj dette tal til Q3 og træk fra Q1 for at bygge barrierer. I dette eksempel ville de øverste og nederste interne barrierer være 24, 75 og 18, 75.
Alle observationsdata uden for dette område betragtes som moderate outliers. I datasættet til dette eksempel betragtes kun ovntemperaturen (150 ° C) som en moderat outlier
Trin 7. Find "eksterne barrierer" i datasættet
Dette gøres på samme måde som for de interne barrierer, bortset fra at interkvartilområdet multipliceres med 3 i stedet for 1,5 Ved at multiplicere ovenstående interkvartilområde med 3 får vi (1, 5 * 3) eller 4, 5. Således er de øvre og nedre ydre barrierer 27 og 16, 5.