[ Home | Vorige | Volgende ]

Kwantielen

Een idee van de spreiding (dispersie) van een reeks getallen kun je krijgen door hun minimum en maximum op te vragen:

b = c(78, 45, 89, 12, 40, 33, 22, 0, -4, 7)
min (b)
## [1] -4
max (b)
## [1] 89

Het bereik van de getallen is dus

max (b) - min (b)
## [1] 93

Het minimum, eerste kwartiel, mediaan, derde kwartiel en maximum kun je allemaal als kwantielen opvragen:

quantile (b, c(0, 0.25, 0.50, 0.75, 1))
##    0%   25%   50%   75%  100% 
## -4.00  8.25 27.50 43.75 89.00

Dus bijvoorbeeld: 25% van de getallen ligt onder de 8.25, en 25% van de getallen ligt boven de 69.75. Het interkwartielbereik van deze getallen is:

quantile (b, 0.75) - quantile (b, 0.25)
##  75% 
## 35.5

Dus 50% van de getallen ligt in een bereik met een breedte van 35.5.

Een handige manier om informatie over een rijtje op te vragen is het commando summary:

summary (b)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -4.00    8.25   27.50   32.20   43.75   89.00

Standaardafwijking

Een meer gebruikte maat voor de spreiding van de getallen is de standaardafwijking of standaarddeviatie. De standaardafwijking vertelt ons hoe veel de getallen gemiddeld van het gemiddelde af liggen. Dat gemiddelde is

mean (b)
## [1] 32.2

De afwijkingen van het gemiddelde zijn

b - mean (b)
##  [1]  45.8  12.8  56.8 -20.2   7.8   0.8 -10.2 -32.2 -36.2 -25.2

Als je daar het gemiddelde van neemt, komt er natuurlijk 0 uit (R geeft eventueel een kleine afrondingsfout):

mean (b - mean (b))
## [1] -2.841824e-15

Als we een maat voor de dispersie willen hebben, gaat het om de afstand van het gemiddelde, zodat we van de negatieve getallen positieve moeten maken:

abs (b - mean (b))   # de absolute waarde
##  [1] 45.8 12.8 56.8 20.2  7.8  0.8 10.2 32.2 36.2 25.2

Een ander manier om getallen positief te maken is kwadrateren:

(b - mean (b)) ^ 2    # de kwadraten van de afwijkingen
##  [1] 2097.64  163.84 3226.24  408.04   60.84    0.64  104.04 1036.84
##  [9] 1310.44  635.04

Daar kunnen we de som van nemen:

sum ((b - mean (b)) ^ 2)
## [1] 9043.6

En het gemiddelde:

sum ((b - mean (b)) ^ 2) / (length (b) - 1)
## [1] 1004.844

Omdat we gekwadrateerd hebben, moeten we nu weer de wortel nemen:

sqrt (sum ((b - mean (b)) ^ 2) / (length (b) - 1))
## [1] 31.69928

Dit is nu de standaarddeviatie van de tien getallen uit. Dat had in R ook vlotter gekund:

sd (b)
## [1] 31.69928

Zes van de tien getallen liggen tussen het gemiddelde min de standaardafwijking en het gemiddelde plus de standaardafwijking.

[ Home | Vorige | Volgende ]