# Formule

De standaardafwijking of standaarddeviatie is een maat voor de spreiding van een variabele of van een verdeling of populatie. Dit wordt bepaald met:

$$ s = \sqrt{ \dfrac{ \sum_{i=1}^n  \left( x_i - \bar{x} \right) ^2 }{n-1} }, $$

waarbij $\{ x_1, x_2, \ldots, x_n \}$ de waarnemingen zijn, $\bar{x}$ het rekenkundige gemiddelde van de waarnemingen en $n$ het aantal waarnemingen.

# Berekenen in R, in stappen

Een lijst (of in R termen, een _vector_) wordt op de volgende manier gedeclareerd:

In [88]:
items = c(33,56,12,87,45,123,78,34,3,56)

Ik gebruik de transponeer functie `t(...)` als trucje zodat het fatsoenlijk leesbaar in de document verschijnt. Als ik dit niet doe dan zit alles op elkaar gedrukt... Dit hoef je zelf uiteraard niet te gebruiken.

In [89]:
t( items )

0,1,2,3,4,5,6,7,8,9
33,56,12,87,45,123,78,34,3,56


Om $n$ te berekenen, gebruiken we `length(items)`:

In [90]:
n = length(items)
n

Om $\bar{x}$ te bepalen, kan er gebruik worden gemaakt van `mean(items)`:

In [91]:
avg = mean(items)
avg

Het kan ook berekend worden zonder gebruik te maken van `mean(items)`. Dit doen we dan met `sum(items)` en `length(items)`:

In [92]:
avg = sum(items) / length(items)
avg

Nu $n$ en er $\bar{x}$ bepaald zijn, kunnen we de standaarddeviatie uitrekenen. Eerst halen we het gemiddelde van de waarden af.

In [93]:
t( items - avg )

0,1,2,3,4,5,6,7,8,9
-19.7,3.3,-40.7,34.3,-7.7,70.3,25.3,-18.7,-49.7,3.3


R zorgt er in dit geval zelf voor dat het getal in `avg` van elk item in de lijst `items` wordt gehaald. Het resultaat is dan ook een nieuwe lijst. De volgende stap is dit kwadrateren:

In [94]:
t( ( items - avg )^2 )

0,1,2,3,4,5,6,7,8,9
388.09,10.89,1656.49,1176.49,59.29,4942.09,640.09,349.69,2470.09,10.89


Nu moeten we de som nemen van alle getallen in de lijst, dit kan met `sum(...)`:

In [95]:
sum( (items - avg)^2 )

Dit delen we vervolgens door $n-1$. Let er op dat je de haakjes niet vergeet.

In [96]:
sum( (items - avg)^2 ) / ( n - 1 )

Dit getal is de _variantie_, om de standaarddeviatie te krijgen, nemen we hier de wortel (`sqrt`) van:

In [97]:
sqrt( sum( (items - avg)^2 ) / ( n - 1 ) )

De uitkomst kunnen we controleren met de ingebouwde functie van R, `sd`:

In [98]:
sd(items)

# Omzetten naar een functie

Dit is ook om te zetten naar een functie. De input is in dit geval een lijst met getallen en de output is een getal.

In [99]:
stdev <- function(L) {
    n = length(L)
    avg = sum(L) / n
    var = sum( (L-avg)^2 ) / (n-1)
    std = sqrt( var )
    (std)
}

In [100]:
stdev(items)

De functie kan ook gebruik maken van de `sum` en `mean` functies in R:

In [101]:
stdev2 <- function(L) sqrt( sum( (L-mean(L))^2 ) / (length(L)-1) )

In [102]:
stdev2(items)

Easy as $\pi$.