Datautjevningsdefinisjon og eksempel |
Innholdsfortegnelse:
Hva det er:
Datautjevning er en statistisk teknikk som innebærer å fjerne avvikere fra et datasett for å lage et mønster mer synlig.
Slik fungerer det (Eksempel):
La oss for eksempel si at et universitet analyserer sine kriminalitetsdata de siste 10 årene. Antall voldelige forbrytelser ser slik ut:
Som du kan se, opplever universitetet det meste av færre enn 15 forbrytelser om året. Men i 2006 og 2007 opplevde det 44 på grunn av et eksperimentelt rapporteringsbehov av universitetets sikkerhetsgruppe. Rapporteringseksperimentet endret definisjonen av voldelig kriminalitet for å inkludere tyveri av noe slag i løpet av disse årene, noe som skapte et stort hopp i antall "voldelige" forbrytelser på campus. Hvis vi inkluderer disse årene i gjennomsnittet - det vil si hvis vi utfører datautjevning - opplevde universitetet et gjennomsnitt på rundt 19 voldelige forbrytelser om året. Men hvis vi forlater disse årene, kan vi se at et mer realistisk gjennomsnitt er 13 voldelige forbrytelser om året - en forskjell på 32%.
Hvorfor det betyr:
Det finnes mange måter å glatte data på, blant annet ved å flytte gjennomsnitt og algoritmer. Tanken er at datautjevning gjør mønstre mer synlige og bidrar dermed til å forutse endringer i aksjekurser, kundetrender eller andre forretningsmessige opplysninger. Datautjevning kan imidlertid overse nøkkelinformasjon eller gjøre viktige fakta mindre synlige; Med andre ord kan "avrunde kantene" av data overemphasize visse data og ignorere andre data.