# Beginnen met Data Science les 1: statistiek

In deze eerste les leer je de basisbeginselen van de statistiek (of fris je deze kennis op ;-) ). Data science is in principe namelijk niet meer dan door een computer laten uitvoeren van statistische berekeningen om voorspellingen te doen - met dien verstande dat het *aantal* van deze berekeningen bij veel data science-toepassingen al gauw duizelingwekkend groot wordt.

De volgende onderwerpen komen in deze les en in dit notebook aan bod:

- Gemiddelde, mediaan en modus
- Standaarddeviatie en variantie
- De normaalverdeling
- Eenvoudige plots maken
- Inlezen gegeven uit CSV- en Excelbestanden
- Confidence intervals en vaststellen of twee steekproeven afkomstig zijn uit dezelfde onderliggende populatie
- P-waarden en significantie

## Uitvoeren op Google Colab

Dit notebook kan worden uitgevoerd op Google Colab. Hiervoor is een Google-account vereist.

Klik op de knop "Open in Google Colab" om het notebook te openen in Google Colab:


<a href="https://colab.research.google.com/github/mcdejonge/beginnen_met_data_science/blob/main/les_1_statistiek.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In het codeblok hieronder worden alle bibliotheken ingeladen die in dit notebook worden gebruikt.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## 1.1 Beschrijvende statistiek

Statistiek is de tak van de wiskunde die uitspraken doet over numerieke gegevens. De technieken uit deze tak van de wiskunde worden gebruikt om een computer naar verzamelingen met data te laten kijken en daar patronen in te leren herkennen. Computers patronen laten herkennen in data science noemen we "Machine Learning" of AI en het is een deelgebied van data science. Ook in de andere deelgebieden van data science spelen statistische technieken echter een grote rol.

Statistiek is grofweg onder te verdelen in twee deelgebieden: *beschrijvende* statistiek, waarmee je verzamelingen numerieke gegevens beschrijft en samenvat, en *inferentiële* statistiek, waarmee je algemene conclusies onderbouwt over verzamelingen getallen. Inferentiële statistiek komt verderop aan bod. We beginnen hier met het beschrijven van data met behulp van statistische technieken.

Voor deze technieken gebruiken we de Python-bibliotheek "numpy". Een bibliotheek is een verzameling functies en methodes in een programmeertaal. "numpy" is een bibliotheek voor de programmeertaal Python waarin allerlei, soms zeer geavanceerde, functies voor het werken met getallen zijn ondergebracht.

### 1.1.1 Gemiddelde, mediaan en modus

Het eerste dat een statisticus of data scientist doet wanneer hij of zij een nieuwe verzameling getallen onder ogen krijgt, is achterhalen wat de *centrale tendens* is van de verzameling.

De *centrale tendens* kun je beschouwen als het *middelpunt* van de verzameling. Uitdaging hierbij is dat het niet altijd duidelijk is *waar* dat middelpunt te vinden is.

Voor deze voorbeelden werken we met de getallenreeks `[1, 2, 3, 4, 5, 6, 7, 8, 9]`

#### 1.1.1.1 Het rekenkundig gemiddelde (mean)

Een veelgebruikte maatstaf voor de centrale tendens van een verzameling getallen is het *rekenkundig gemiddelde* (vaak ook wel gewoon het "gemiddelde" genoemd - oftewel "mean" in het Engels).

Het gemiddelde bereken je door alle getallen in de verzameling bij elkaar op te tellen en het resultaat te delen door het aantal getallen.

In dit voorbeeld is het gemiddelde `5`, wat toevallig ook nog eens het middelste getal is wanneer je de getallen uit de voorbeeldreeks op volgorde zet van klein naar groot.

Laten we Python eens laten uitrekenen of het gemiddelde inderdaad `5` is:

In [28]:
np.mean([1, 2, 3, 4, 5, 6, 7, 8, 9])

np.float64(5.0)

Inderdaad, ook Python stelt vast dat het rekenkundig gemiddelde 5 is. Het geeft dit getal weer als `np.float64(5.0)` wat een manier is om aan te geven dat het een kommagetal is volgens een bepaalde indeling van numpy, maar het is duidelijk herkenbaar als het gewenste resultaat.

Voor dit voorbeeld geeft het rekenkundig gemiddelde netjes het middelste getal aan, maar dat is niet altijd het geval.
Stel we vervangen `8` en `9` in onze getallenreeks door `80` en `90` en rekenen het gemiddelde opnieuw uit:

In [29]:
np.mean([1, 2, 3, 4, 5, 6, 7, 80, 90])

np.float64(22.0)

Het gemiddelde is nu `22`. Rekenkundig klopt dat, maar het is een beetje vreemd om te stellen dat `22` het "midden" is van de getallenreeks `[1, 2, 3, 4, 5, 6, 7, 80, 90]`

We zien dat het rekenkundig gemiddelde erg gevoelig is voor grote verschillen tussen de getallen waaruit een verzameling bestaat.

Een klassiek voorbeeld van dit probleem is het volgende: stel, je vraagt 10 of 20 willekeurig gekozen mensen naar hun inkomen. Als je daar het gemiddelde van berekend, is de kans groot dat dat gemiddelde in de buurt komt van wat een gangbaar salaris is. Voeg je echter één van de beroemde Amerikaanse miljardairs toe aan je verzameling, dan schiet het gemiddelde inkomen ineens omhoog naar een onwaarschijnljk hoog bedrag waarvan de kans groot is dat geen enkele van de leden van je groep het ooit op hun rekening zullen zien staan.

De les is dan ook: *het rekenkundig gemiddelde is vooral geschikt voor gevallen waarin de waarden in de verzameling niet al te veel van elkaar verschillen*.

Daarbij is het ook nog eens zo dat die waarden enigszins regelmatig verdeeld moeten zijn tussen de laagste en de hoogste waarde in de verzameling - zie de paragraaf "De modus (mode)", verderop.



#### 1.1.1.2 De mediaan (median)

In gevallen waarin verschillen tussen waarden in de verzameling erg groot zijn en het rekenkundig gemiddelde dus niet zoveel zegt over waar het "midden" van de verzameling te vinden is, kan het nuttig zijn om de getallen simpelweg op volgorde te zetten en dan het middelste getal aan te wijzen. Dit middelste getal noemen we de *mediaan* (Eng: "median").

In het voorbeeld is de mediaan 5, en dat klopt:

In [30]:
np.median([1, 2, 3, 4, 5, 6, 7, 80, 90])

np.float64(5.0)

In dit voorbeeld zijn de getallen echter netjes verdeeld tussen de hoogste en de laagste waarde. Het wordt anders als die verdeling wat schever is:

In [31]:
np.median([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ])

np.float64(3.0)

Het "middelste" getal is nu `3`, terwijl dat het op `2` na laagste getal is en er `6` getallen zijn die groter zijn! Het is raar om te zeggen dat dit getal "in het midden" ligt van deze reeks getallen!

Overigens is het nog steeds vreemd om het rekenkundig gemiddelde aan te wijzen als middelpunt van deze verzameling:

In [32]:
np.mean([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ])

np.float64(15.846153846153847)

We moeten concluderen dat noch het gemiddelde nog de mediaan veel zeggen over deze verzameling.

Gelukkig is er nog een derde manier om een "middelste waarde" vast te stellen: de *modus* (Eng: "mode").

#### 1.1.1.3 De modus (mode)

De *modus* (Eng: "mode") is simpelweg het getal dat het vaakst voorkomt in een verzameling. In de getallenreeks `[1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]` is dat `2`.

Helaas is het niet mogelijk om met numpy zonder meer de modus uit te rekenen. Waarom dit is, is niet helemaal duidelijk.

Om toch even wat code te laten zien, maken we alvast even gebruik van de bibliotheek "pandas" die we verderop zullen zien. Die heeft namelijk wél een "mode"-functie:

In [33]:
# Helaas moeten we wat extra werk doen om onze getallenreeks in pandas te krijgen.
# De extra code die hiervoor nodig is, kun je negeren. Het gaat hier om het resultaat.
pd.Series([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]).mode()

0    2
dtype: int64

Het is niet helemaal duidelijk waar we precies naar kijken, maar we zien in ieder geval het getal `2`, en dat lijkt correct te zijn.

Het probleem is hier dat er soms meer dan één modus in een verzameling getallen kan zijn, zoals in het volgende voorbeeld:

In [34]:
# Ook hier gaat het om het resultaat en kun je de code zelf negeren.
pd.Series([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 7, 7, 7, 7, 80, 90 ]).mode()

0    2
1    7
dtype: int64

In deze reeks zijn twee modi: `2` en `7` komen alletwee even vaak voor. De `mode`-functie van pandas geeft een soort lijst terug met daarin elk van de twee modi.

Een reeks getallen met twee modi noemen we *bimodaal*. Een reeks kan echter nog meer modi hebben. In dat geval noemen we hem *multimodaal*.

Keren we terug naar het eerdere voorbeeld waarin we 10 tot 20 mensen vroegen naar hun inkomen en vervolgens ook een Amerikaanse multimiljardair aan de verzameling toevoegden. Voor deze reeks getallen is de modus waarschijnlijk de nuttigste waarde om het "midden" te beschrijven. 

Dat is dan ook de reden dat er in de politiek vaak wordt gesproken over het "modale inkomen": dat is het inkomen dat de meeste Nederlanders verdienen.

#### Opgave

Gebruik de code hierboven als voorbeeld om de volgende vragen te beantwoorden.

De vragen betreffen de volgende twee reeksen getallen:
```
S1:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
S2:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 120]
```

1. Bereken voor beide reeksen het gemiddelde en de mediaan in Python. Bereken ook (handmatig) de modus.
2. Verklaar de verschillen.
3. Welke meetwaarde zou je gebruiken om het "midden" van reeks S1 te bepalen en waarom?
3. Welke meetwaarde zou je gebruiken om het "midden" van reeks S2 te bepalen en waarom?

In [None]:
# Plaats hier je Python-code. De reeksen S1 en S2 zijn al gegeven
s1 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
s2 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 120]

### 1.1.2 Standaarddeviatie en variantie

Vaak willen we niet alleen weten wat het "middelste" getal is maar ook hoeveel de getallen in de data *afwijken* van dat middelste getal.

Hoeveel getallen in data van elkaar afwijken noemen we *variantie*. We berekenen het door van elk van de getallen het *kwadraat* te berekenen van het verschil tussen dat getal en het rekenkundig gemiddelde van de gehele reeks getallen. De gevonden waarden tellen we bij elkaar op en delen we door het aantal getallen in de reeks.

In wiskundige notatie ziet dat eruit als volgt:

$$
\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}
$$

Hier staat: gegeven een reeks van $n$ waarden, trek voor elk van die waarden het rekenkundig gemiddelde ($\mu$) af van de waarde ($x_i$ is het $i$-de getal uit de reeks) en kwadrateer dat (vermenigvuldig het met zichzelf). Neem de som ($\sigma$) van de resultaten en deel dat door het aantal waarden ($n$).

**VRAAG** : waarom wordt het verschil tussen de waarden en het getal gekwadrateerd?

Variantie is een nuttige maatstaf, maar er kleeft een nadeel aan: het is het kwadraat van het verschil.

Stel, we hebben een reeks lichaamslengtes. Voor Nederlandse vrouwen is de gemiddelde lengte `170,6` cm. De variantie is `39,63` - dat wil dus zeggen $39,63 cm^2$!

Maar wat is een $cm^2$? Dat is in de context van lichaamslengte natuurlijk een onzinnige eenheid. Wat we eigenlijk willen, is dat de afwijking van het gemiddelde wordt uitgedrukt in dezelfde eenheid als de getallen zelf.

Om dat te doen, moeten we het effect van het kwadrateren ongedaan maken (namelijk door de wortel te nemen van de gevonden variantie).

De wortel van de variantie noemen we de *standaarddeviatie* (ook wel *standaardafwijking* genoemd of, in het Engels, "standard deviation").

De formule ervoor luidt:

$$
\sigma = \sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}}
$$

Deze formule is identiek aan de vorige, behalve dat er aan het einde een wortel wordt getrokken. Het resultaat wordt vaak aangeduid met het Griekse symbool $\sigma$ (sigma).

(De standaarddeviatie voor de lichaamslengte van vrouwen in Nederland is overigens `6,3`).

Numpy maakt het eenvoudig om de standaarddeviatie van een reeks getallen uit te rekenen:

In [35]:
np.std([1, 2, 3, 4, 5, 6, 7, 8, 9])

np.float64(2.581988897471611)

Met deze reeks getallen is de standaarddeviatie tamelijk hoog, namelijk bijna een kwart van het verschil tussen het hoogste en het laagste getal. De reden hiervoor is dat de getallen zeer gelijkmatig zijn verspreid tussen dat hoogste en laagste getal. In veel andere getallenreeksen uit de werkelijkheid is dat veel minder. Er zijn bijvoorbeeld weinig volwassen vrouwen in Nederland die kleiner zijn dan `110` cm. Ook het aantal vrouwen dat groter is dan `220 cm` is zeer, zeer beperkt. Dit blijkt ook uit de standaarddeviatie: die bestrijkt met `6,3` cm slechts een klein deel van de mogelijke waarden.

In de volgende paragraaf zullen we zien dat dat heel gebruikelijk is.

#### Opgave

Gebruik de code hierboven als voorbeeld om de volgende vragen te beantwoorden.

De vragen betreffen opnieuw de volgende twee reeksen getallen:

```
S1:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
S2:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 120]
```

1. Bereken voor beide reeksen de standaarddeviatie en verklaar het verschil.

In [None]:
# Plaats hier je Python-code. De reeksen S1 en S2 zijn al gegeven
s1 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
s2 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 120]



s1 5.885575587824864 vs s2 33.386224704209965


### 1.1.3 De normaalverdeling

## 1.2 Eenvoudige plots maken

## 1.3 Inlezen van gegevens

## 1.4 Inferentiële statistiek

steekproeven

### 1.4.1 Confidence intervals

### 1.4.2 T-tests: Vaststellen of twee steekproeven afkomstig zijn uit dezelfde populatie

### 1.4.3 P-waarden en statistische significantie