[ Home | Vorige | Volgende ]

De normale verdeling of Gaussverdeling (Engels: normal distribution of Gaussian [ˈgausiən] distribution) is een verdeling van intervalvariabelen met maar 2 parameters: gemiddelde en standaarddeviatie. Een normale verdeling met gemiddelde 170 cm en standaardafwijking 20 cm ziet er zo uit:

curve (dnorm (x, mean = 170, sd = 20),
       xlim = c(100,230),
           xlab = "hoogte (cm)", ylab= "kansdichtheid")

De oppervlakte onder deze kansdichtheidscurve is 1. Dat is handig, want dat betekent dat bv. de oppervlakte onder de curve links van 190 cm de kans betekent dat een willekeurig uit de verdeling getrokken getal onder de 190 cm ligt. Die kans is:

pnorm (190, mean=170, sd=20)
## [1] 0.8413447

Dus 84% van de oppervlakte onder de curve ligt links van 190 cm (dat is 1 standaardafwijking hoger dan het gemiddelde), en dus zal 16% van de oppervlakte onder de curve rechts van 190 cm liggen. En inderdaad:

pnorm (190, mean=170, sd=20, lower=FALSE)
## [1] 0.1586553

De inverse van pnorm is qnorm. Links van welk punt ligt 90% van de oppervlakte van de curve?

qnorm (0.90, mean=170, sd=20)
## [1] 195.631

Dus 90% van de getallen die je uit deze verdeling trekt, zal lager liggen dan 195.6 cm. Ofwel: 195.6 cm is het 90ste percentiel van deze verdeling.

Om te kijken of die berekeningen een beetje kloppen, kun je 50 getallen trekken:

rnorm (50, mean=170, sd=20)
##  [1] 167.7655 156.6290 160.5608 187.2588 119.6983 167.5213 181.8563
##  [8] 187.4746 174.8852 171.5091 164.0657 162.6571 161.9795 129.2731
## [15] 193.3598 171.9092 134.7269 154.0270 162.9614 171.2880 187.3410
## [22] 206.9639 178.1567 170.6856 157.1465 172.8190 179.9397 221.7169
## [29] 154.8818 160.6624 155.8919 180.1541 171.0051 198.6343 137.6433
## [36] 175.6302 146.4830 163.6074 163.9950 190.1684 203.4685 156.6362
## [43] 154.4023 166.9309 178.2134 162.1770 242.1615 155.2523 174.8919
## [50] 160.4990

Van deze 50 getallen ligt inderdaad ongeveer 90% onder de 195.6 cm, en 84% onder de 190 cm.

Een voorbeeld van een histogram met twee groepen:

mannen = rnorm (100, mean=121, sd=17)   # toonhoogtes in hertz
vrouwen = rnorm (100, mean=185, sd=20)
laagst = round (min (mannen, vrouwen), -1) - 10
hoogst = round (max (mannen, vrouwen), -1) + 10
mannenh = hist (mannen, breaks = seq (laagst, hoogst, by=10), plot=F)
vrouwenh = hist (vrouwen, breaks = seq (laagst, hoogst, by=10), plot=F)
data = rbind (mannenh$counts, vrouwenh$counts)
plekken=barplot(data, beside=FALSE, col=c("purple", "orange"), space=c(0,0),
    main="Histogram: F0 van 100 mannen en 100 vrouwen",
        xlab="F0", ylab="Aantal personen")
axis(1, at=plekken[]-0.5, labels=mannenh$mids-5, las=2)
legend ("topright", legend=c("Mannen", "Vrouwen"),
        col=c("purple", "orange"), pch=15, cex=0.75)

[ Home | Vorige | Volgende ]