

Kom ons gaan voort om met die voorbeeld hierbo te werk. Hier is ons datastel wat die temperature in grade Fahrenheit van verskeie voorwerpe in `n kamer wys: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. As ons die waardes in die stel van laagste na hoogste sorteer, word dit ons nuwe stel: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}. 
Moenie verwar word deur datastelle met `n ewe aantal punte nie - die gemiddelde van die twee middelpunte is dikwels `n getal wat nie in die datastel self is nie - dit is in orde. As die twee middelpunte egter dieselfde is, sal die gemiddelde natuurlik ook hierdie getal wees - dit is ook Goed. In ons voorbeeld het ons 12 punte. Die middelste twee terme is onderskeidelik kolletjies 6 en 7 – 70 en 71. Die mediaan van ons datastel is dus die gemiddelde van hierdie twee punte: ((70 + 71) / 2)=70,5. 
In ons voorbeeld is ses punte bo die mediaan en ses daaronder. Om dus die eerste kwartiel te vind, moet ons die gemiddelde van die twee middelste punte in die onderste ses punte neem. Punte 3 en 4 van die onderste ses is albei 70, dus hul gemiddelde is ((70 + 70) / 2)=70. Ons waarde vir Q1 is dus 70. 
Deur voort te gaan met die bostaande voorbeeld, sien ons dat die twee middelpunte van die ses punte bo die mediaan 71 en 72 is. Die gemiddelde van hierdie twee punte is ((71 + 72) / 2)=71,5. Ons waarde vir Q3 is dus 71,5. 
In ons voorbeeld is die waardes vir Q1 en Q3 onderskeidelik 70 en 71,5 . Om die interkwartielomvang te vind, bereken ons Q3 - Q1: 71.5 - 70=1,5. Dit werk selfs al is Q1, Q3 of albei getalle negatief. Byvoorbeeld, as ons waarde vir Q1 -70 was, sou die interkwartielreeks 71.5 - (-70)=141.5 wees, wat korrek is. 
In ons voorbeeld is die interkwartielreeks (71.5 - 70), of 1.5. Vermenigvuldig dit met 1,5 en jy kry 2,25. Ons tel hierdie getal by Q3 en trek dit van Q1 af om die binnegrense soos volg te vind: 71,5 + 2,25=73,75 70 - 2,25=67,75 So die binnegrense is 67,75 en 73,75. In ons datastel is slegs die oondtemperatuur - 300 grade Fahrenheit - buite hierdie reeks. Dit kan dus `n ligte uitskieter wees. Ons moet egter ook nog vasstel of hierdie temperatuur `n uiterste uitskieter is, so laat ons nie eers tot gevolgtrekkings spring nie.

In ons voorbeeld vermenigvuldig ons die interkwartielreeks met 3, en ons kom by (1,5 *3) of 4,5. Ons kan nou die buitenste grense vind op dieselfde manier as die binnegrense: 71,5 + 4,5=76 70 - 4,5=65,5 So die buitenste grense is 65,5 en 76. Datapunte wat buite die buitegrense is, word as uiterste uitskieters beskou. In ons voorbeeld is die oondtemperatuur, 300 grade Fahrenheit, ver buite die buitenste grense. Die oondtemperatuur is dus veilig `n uiterste uitskieter.

Nog `n maatstaf om te oorweeg is of die uitskieters die gemiddelde van `n datastel beïnvloed op `n manier wat skeef of misleidend is. Dit is veral belangrik as jy van plan is om gevolgtrekkings te maak uit die gemiddelde van jou datastel. Kom ons hersien ons voorbeeld. Sedert dit hoogs Alhoewel dit onwaarskynlik is dat die oond `n temperatuur van 300°F bereik het as gevolg van een of ander onvoorsiene krag van die natuur, kan ons in ons voorbeeld met byna 100% sekerheid aflei dat die oond per ongeluk aan gelaat is, wat gelei het tot `n abnormale hoë temperatuurlesing. Daarbenewens, as ons nie die uitskieter verwyder nie, is ons datastel gemiddeld na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12=89.67 °F, terwyl die gemiddelde sonder die uitskieter kom uit by (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11=70.55 °F. Aangesien die uitskieter deur menslike foute veroorsaak is, en aangesien dit verkeerd is om te sê dat die gemiddelde kamertemperatuur naby 32°C was, moet ons kies om ons uitskieter te kies verwyder. 
Stel jou byvoorbeeld voor ons ontwerp `n nuwe middel om vis in `n visplaas groter te laat groei. Kom ons gebruik ons ou datastel ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), behalwe dat elke punt nou die massa van `n vis (in gram) na behandeling met `n ander eksperimentele middel vanaf geboorte. Met ander woorde, die eerste dwelm het `n vis `n massa van 71 gram gegee, die tweede het `n ander vis `n massa van 70 gram gegee, ensovoorts. In hierdie situasie 300. is steeds `n groot uitskieter, maar ons moet dit nie nou verwyder nie. Want as ons aanneem dat die uitskieter nie die resultaat van `n fout is nie, verteenwoordig dit `n groot sukses in ons eksperiment. Die dwelm wat `n vis van 300 gram vervaardig het, het beter gewerk as enige ander dwelm, so dit is dit meeste belangrike datapunt in ons stel, eerder as die minste belangrike datapunt.
Bereken uitskieters
Inhoud
A uitskieter of uitskieter in statistiek, `n datapunt wat aansienlik verskil van die ander datapunte in `n steekproef. Dikwels wys uitskieters statistici op anomalieë of foute in die metings, waarna hulle die uitskieter uit die datastel kan verwyder. As hulle eintlik kies om die uitskieters uit die datastel te verwyder, kan dit aansienlike veranderinge bring aan die gevolgtrekkings wat uit die studie gemaak word. Dit is hoekom dit belangrik is om uitskieters te bereken en te bepaal as jy statistiese data korrek wil interpreteer.
Trappe

1. Leer hoe om potensiële uitskieters raak te sien. Voordat ons kan besluit of ons abnormale waardes van `n spesifieke datastel moet verwyder, moet ons natuurlik die moontlike uitskieters in die datastel herken. Oor die algemeen is uitskieters die datapunte wat aansienlik afwyk van die neiging wat die ander waardes in die vasgestelde vorm – met ander woorde, hulle uitskiet van die ander waardes. Dit is gewoonlik maklik om dit in tabelle en (veral) in grafieke te herken. As die datastel visueel geteken word, sal die uitskieters `ver weg` van die ander waardes wees. Byvoorbeeld, as die meeste punte in `n datastel `n reguit lyn vorm, sal uitskieters nie aan hierdie lyn voldoen nie.
- Kom ons kyk na `n datastel wat die temperature van 12 verskillende voorwerpe in `n kamer toon. As die temperatuur van 11 van die voorwerpe rondom 21°C met hoogstens `n paar grade fluktueer, terwyl een voorwerp, `n oond, `n temperatuur van 150°C het, kan jy met `n oogopslag sien dat die oond waarskynlik `n uitskieter is.

2. Sorteer alle datapunte van laag na hoog. Die eerste stap in die berekening van uitskieters is om die mediaanwaarde (of die middelwaarde) van die datastel te vind. Hierdie taak word baie makliker as die waardes in die stel in volgorde is van laagste na hoogste. Dus voordat u voortgaan, sorteer die waardes in u datastel so.

3. Bereken die mediaan van die datastel. Die mediaan van `n datastel is die datapunt waar die helfte van die data bo dit is, en die helfte van die data is onder - dit is basies die "middelpunt" van die datastel. As die datastel `n onewe aantal punte bevat, is die mediaan maklik om te vind – die mediaan is die punt met soveel punte bo dit as onder dit. As daar `n ewe aantal punte is, aangesien daar nie een middelpunt is nie, moet jy die gemiddelde van die twee middelpunte neem om die mediaan te vind. By die berekening van uitskieters word die mediaan gewoonlik deur die veranderlike Q2 aangedui – omdat dit tussen Q1 en Q3 lê, die eerste en derde kwartiele. Ons sal hierdie veranderlikes later bepaal.

4. Bereken die eerste kwartiel. Hierdie punt, waarna ons verwys as die veranderlike Q1, is die datapunt waaronder 25 persent (of `n kwart) van die waarnemings lê. Met ander woorde, dit is die middelpunt van alle punte in jou datastel hieronder die mediaan. As daar `n ewe aantal waardes onder die mediaan is, moet jy weer die twee middelwaardes gemiddeld om Q1 te vind, soos jy dalk reeds gedoen het om die mediaan self te bepaal.

5. Bereken die derde kwartiel. Hierdie punt, wat ons aandui deur die veranderlike Q3, is die datapunt waarbo 25 persent van die data lê. Om V3 te vind is feitlik dieselfde as om V1 te vind, behalwe in hierdie geval kyk ons na die punte hierbo die mediaan.

6. Vind die interkwartielreeks. Noudat ons Q1 en Q3 bepaal het, moet ons die afstand tussen hierdie twee veranderlikes bereken. Die afstand tussen Q1 en Q3 kan gevind word deur Q1 van Q3 af te trek. Die waarde wat jy vir die interkwartielreeks kry, is deurslaggewend vir die bepaling van die grense vir nie-afwykende punte in jou datastel.

7. Vind die `binnegrense` van die datastel. Jy kan uitskieters identifiseer deur te bepaal of hulle binne `n aantal numeriese perke val; die sogenaamde `binne grenswaardes` en `buitenste grenswaardes`. `n Punt wat buite die binnegrense van die datastel val, word geklassifiseer as `n ligte uitskieter, en `n punt wat buite die buitenste grense val, word geklassifiseer as `n uiterste uitskieter. Om die binnegrense van jou datastel te vind, vermenigvuldig eers die interkwartielreeks met 1,5. Voeg die resultaat by Q3 en trek dit af van Q1. Die twee resultate is die binnegrense van jou datastel.


8. Vind die `buitenste grense` van die datastel. Jy doen dit op dieselfde manier as met die binnegrense, met die enigste verskil dat jy die interkwartielreeks met 3 vermenigvuldig in plaas van met 1,5. Jy voeg dan die resultaat by Q3 en trek van Q1 af om die buitenste grense te vind.


9. Gebruik `n kwalitatiewe assessering om te bepaal of jy die uitskieters moet "weggooi". Met bogenoemde metode kan jy bepaal of sekere punte ligte uitskieters, uiterste uitskieters of glad geen uitskieters is nie. Maar moenie `n fout maak nie - om `n punt as `n uitskieter te erken, maak dit net een kandidaat om uit die datastel verwyder te word, en nie onmiddellik `n kolletjie verwyder nie moet verander in. Die gery waarom `n uitskieter verskil van die res van die punte in die stel is van kardinale belang om te bepaal of die uitskieter verwyder moet word. Oor die algemeen word uitskieters wat veroorsaak word deur een of ander fout - `n fout in die metings, in die opnames of in die eksperimentele ontwerp, byvoorbeeld - verwyder. Daarteenoor is uitskieters wat nie deur foute veroorsaak word nie en wat nuwe, onvoorspelbare inligting of neigings openbaar gewoonlik nie geskrap.

10. Verstaan die belangrikheid daarvan om uitskieters (soms) te behou. Terwyl sommige uitskieters uit `n datastel verwyder moet word omdat hulle die gevolg is van foute, of omdat hulle die resultate misleidend skeeftrek, moet ander uitskieters behoue bly. Byvoorbeeld, as `n uitskieter korrek verkry is (d.w.s. nie die gevolg van `n fout nie) en/of as die uitskieter `n nuwe insig gee in die verskynsel wat gemeet moet word, moet dit nie onmiddellik verwyder word nie. Wetenskaplike eksperimente is besonder sensitiewe situasies wanneer dit kom by die hantering van uitskieters - die foutiewe verwydering van `n uitskieter kan beteken dat belangrike inligting oor `n nuwe neiging of ontdekking weggegooi word.
Wenke
- As jy uitskieters vind, probeer om dit te verduidelik voordat jy dit uit die datastel verwyder; hulle kan meetfoute of afwykings in die verspreiding aandui.
Benodigdhede
- Sakrekenaar
Artikels oor die onderwerp "Bereken uitskieters"
Оцените, пожалуйста статью
Gewilde