Stel je gooit duizend keer met een dobbelsteen, en er vallen 200 enen, 140 tweeën, 180 drieën, 150 vieren, 140 vijven en 190 zessen:
dobbel = c(200, 140, 180, 150, 140, 190)
Is dat een valse dobbelsteen? Welnu, de nulhypothese is dat de dobbelsteen zuiver is, en dan zijn de kansen op elk aantal ogen 1/6:
kansen0 = c(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)
Als deze nulhypothese waar is, dan verwacht je de volgende uitkomsten in 1000 worpen:
verwachting = 1000 * kansen0
verwachting
## [1] 166.6667 166.6667 166.6667 166.6667 166.6667 166.6667
Hoever ligt de geobserveerde data nu af van deze verwachting?
dobbel - verwachting
## [1] 33.33333 -26.66667 13.33333 -16.66667 -26.66667 23.33333
Dat zijn natuurlijk zowel positieve als negatieve waarden. Net als bij het “met de hand” berekenen van de standaarddeviatie, berekenen we nu een totale kwadratische afwijking:
sum((dobbel-verwachting)^2/verwachting)
## [1] 21.2
Dit getal nu is de \(\chi^2\). Met 5 vrijheidsgraden (het aantal mogelijke worpen min 1), verwacht je meestal een \(\chi^2\) in de buurt van 5. De geobserveerde \(\chi^2\) is heel wat groter. Significant groter? Dan moet je dus weten de kans om met een zuivere dobbelsteen een \(\chi^2\) van 21.2 of meer aan te treffen, kleiner is dan 0.05 of niet. Hier is de toets:
chisq.test (dobbel, p = kansen0)
##
## Chi-squared test for given probabilities
##
## data: dobbel
## X-squared = 21.2, df = 5, p-value = 0.0007425
Ja, de p-waarde is veel kleiner dan 0.05, dus de geobserveerde data zijn heel onwaarschijnlijk onder de nulhypothese, die je dus kunt verwerpen. Ofwel: we kunnen concluderen dat de dobbelsteen niet zuiver is.