# Beginnen met Data Science les 1: statistiek

In deze eerste les leer je de basisbeginselen van de statistiek (of fris je deze kennis op ;-) ). Data science is in principe namelijk niet meer dan door een computer laten uitvoeren van statistische berekeningen om voorspellingen te doen - met dien verstande dat het *aantal* van deze berekeningen bij veel data science-toepassingen al gauw duizelingwekkend groot wordt.

De volgende onderwerpen komen in deze les en in dit notebook aan bod:

- Gemiddelde, mediaan en modus
- Standaarddeviatie en variantie
- De normaalverdeling
- Eenvoudige plots maken
- Inlezen gegeven uit CSV- en Excelbestanden
- Confidence intervals en vaststellen of twee steekproeven afkomstig zijn uit dezelfde onderliggende populatie
- P-waarden en significantie

## Uitvoeren op Google Colab

Dit notebook kan worden uitgevoerd op Google Colab. Hiervoor is een Google-account vereist.

Klik op de knop "Open in Google Colab" om het notebook te openen in Google Colab:


<a href="https://colab.research.google.com/github/mcdejonge/cursus-beginnen-met-data-science/blob/main/les_1_statistiek.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In het codeblok hieronder worden alle bibliotheken ingeladen die in dit notebook worden gebruikt.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats as st
import os

## 1.1 Beschrijvende statistiek

Statistiek is de tak van de wiskunde die uitspraken doet over numerieke gegevens. De technieken uit deze tak van de wiskunde worden gebruikt om een computer naar verzamelingen met data te laten kijken en daar patronen in te leren herkennen. Computers patronen laten herkennen in data science noemen we "Machine Learning" of AI en het is een deelgebied van data science. Ook in de andere deelgebieden van data science spelen statistische technieken echter een grote rol.

Statistiek is grofweg onder te verdelen in twee deelgebieden: *beschrijvende* statistiek, waarmee je verzamelingen numerieke gegevens beschrijft en samenvat, en *inferentiële* statistiek, waarmee je algemene conclusies onderbouwt over verzamelingen getallen. Inferentiële statistiek komt verderop aan bod. We beginnen hier met het beschrijven van data met behulp van statistische technieken.

Voor deze technieken gebruiken we de Python-bibliotheek "numpy". Een bibliotheek is een verzameling functies en methodes in een programmeertaal. "numpy" is een bibliotheek voor de programmeertaal Python waarin allerlei, soms zeer geavanceerde, functies voor het werken met getallen zijn ondergebracht.

### 1.1.1 Gemiddelde, mediaan en modus

Het eerste dat een statisticus of data scientist doet wanneer hij of zij een nieuwe verzameling getallen onder ogen krijgt, is achterhalen wat de *centrale tendens* is van de verzameling.

De *centrale tendens* kun je beschouwen als het *middelpunt* van de verzameling. Uitdaging hierbij is dat het niet altijd duidelijk is *waar* dat middelpunt te vinden is.

Voor deze voorbeelden werken we met de getallenreeks `[1, 2, 3, 4, 5, 6, 7, 8, 9]`

#### 1.1.1.1 Het rekenkundig gemiddelde (mean)

Een veelgebruikte maatstaf voor de centrale tendens van een verzameling getallen is het *rekenkundig gemiddelde* (vaak ook wel gewoon het "gemiddelde" genoemd - oftewel "mean" in het Engels).

Het gemiddelde bereken je door alle getallen in de verzameling bij elkaar op te tellen en het resultaat te delen door het aantal getallen.

In dit voorbeeld is het gemiddelde `5`, wat toevallig ook nog eens het middelste getal is wanneer je de getallen uit de voorbeeldreeks op volgorde zet van klein naar groot.

Laten we Python eens laten uitrekenen of het gemiddelde inderdaad `5` is:

In [None]:
np.mean([1, 2, 3, 4, 5, 6, 7, 8, 9])

Inderdaad, ook Python stelt vast dat het rekenkundig gemiddelde 5 is. Het geeft dit getal weer als `np.float64(5.0)` wat een manier is om aan te geven dat het een kommagetal is volgens een bepaalde indeling van numpy, maar het is duidelijk herkenbaar als het gewenste resultaat.

Voor dit voorbeeld geeft het rekenkundig gemiddelde netjes het middelste getal aan, maar dat is niet altijd het geval.
Stel we vervangen `8` en `9` in onze getallenreeks door `80` en `90` en rekenen het gemiddelde opnieuw uit:

In [None]:
np.mean([1, 2, 3, 4, 5, 6, 7, 80, 90])

Het gemiddelde is nu `22`. Rekenkundig klopt dat, maar het is een beetje vreemd om te stellen dat `22` het "midden" is van de getallenreeks `[1, 2, 3, 4, 5, 6, 7, 80, 90]`

We zien dat het rekenkundig gemiddelde erg gevoelig is voor grote verschillen tussen de getallen waaruit een verzameling bestaat.

Een klassiek voorbeeld van dit probleem is het volgende: stel, je vraagt 10 of 20 willekeurig gekozen mensen naar hun inkomen. Als je daar het gemiddelde van berekend, is de kans groot dat dat gemiddelde in de buurt komt van wat een gangbaar salaris is. Voeg je echter één van de beroemde Amerikaanse miljardairs toe aan je verzameling, dan schiet het gemiddelde inkomen ineens omhoog naar een onwaarschijnljk hoog bedrag waarvan de kans groot is dat geen enkele van de leden van je groep het ooit op hun rekening zullen zien staan.

De les is dan ook: *het rekenkundig gemiddelde is vooral geschikt voor gevallen waarin de waarden in de verzameling niet al te veel van elkaar verschillen*.

Daarbij is het ook nog eens zo dat die waarden enigszins regelmatig verdeeld moeten zijn tussen de laagste en de hoogste waarde in de verzameling - zie de paragraaf "De modus (mode)", verderop.



#### 1.1.1.2 De mediaan (median)

In gevallen waarin verschillen tussen waarden in de verzameling erg groot zijn en het rekenkundig gemiddelde dus niet zoveel zegt over waar het "midden" van de verzameling te vinden is, kan het nuttig zijn om de getallen simpelweg op volgorde te zetten en dan het middelste getal aan te wijzen. Dit middelste getal noemen we de *mediaan* (Eng: "median").

In het voorbeeld is de mediaan 5, en dat klopt:

In [None]:
np.median([1, 2, 3, 4, 5, 6, 7, 80, 90])

In dit voorbeeld zijn de getallen echter netjes verdeeld tussen de hoogste en de laagste waarde. Het wordt anders als die verdeling wat schever is:

In [None]:
np.median([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ])

Het "middelste" getal is nu `3`, terwijl dat het op `2` na laagste getal is en er `6` getallen zijn die groter zijn! Het is raar om te zeggen dat dit getal "in het midden" ligt van deze reeks getallen!

Overigens is het nog steeds vreemd om het rekenkundig gemiddelde aan te wijzen als middelpunt van deze verzameling:

In [None]:
np.mean([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ])

We moeten concluderen dat noch het gemiddelde nog de mediaan veel zeggen over deze verzameling.

Gelukkig is er nog een derde manier om een "middelste waarde" vast te stellen: de *modus* (Eng: "mode").

#### 1.1.1.3 De modus (mode)

De *modus* (Eng: "mode") is simpelweg het getal dat het vaakst voorkomt in een verzameling. In de getallenreeks `[1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]` is dat `2`.

Helaas is het niet mogelijk om met numpy zonder meer de modus uit te rekenen. Waarom dit is, is niet helemaal duidelijk.

Om toch even wat code te laten zien, maken we alvast even gebruik van de bibliotheek "pandas" die we verderop zullen zien. Die heeft namelijk wél een "mode"-functie:

In [None]:
# Helaas moeten we wat extra werk doen om onze getallenreeks in pandas te krijgen.
# De extra code die hiervoor nodig is, kun je negeren. Het gaat hier om het resultaat.
pd.Series([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]).mode()

Het is niet helemaal duidelijk waar we precies naar kijken, maar we zien in ieder geval het getal `2`, en dat lijkt correct te zijn.

Het probleem is hier dat er soms meer dan één modus in een verzameling getallen kan zijn, zoals in het volgende voorbeeld:

In [None]:
# Ook hier gaat het om het resultaat en kun je de code zelf negeren.
pd.Series([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 7, 7, 7, 7, 80, 90 ]).mode()

In deze reeks zijn twee modi: `2` en `7` komen alletwee even vaak voor. De `mode`-functie van pandas geeft een soort lijst terug met daarin elk van de twee modi.

Een reeks getallen met twee modi noemen we *bimodaal*. Een reeks kan echter nog meer modi hebben. In dat geval noemen we hem *multimodaal*.

Keren we terug naar het eerdere voorbeeld waarin we 10 tot 20 mensen vroegen naar hun inkomen en vervolgens ook een Amerikaanse multimiljardair aan de verzameling toevoegden. Voor deze reeks getallen is de modus waarschijnlijk de nuttigste waarde om het "midden" te beschrijven. 

Dat is dan ook de reden dat er in de politiek vaak wordt gesproken over het "modale inkomen": dat is het inkomen dat de meeste Nederlanders verdienen.

#### Opgave

Gebruik de code hierboven als voorbeeld om de volgende vragen te beantwoorden.

De vragen betreffen de volgende twee reeksen getallen:
```
S1:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
S2:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 120]
```

1. Bereken voor beide reeksen het gemiddelde en de mediaan in Python. Bereken ook (handmatig) de modus.
2. Verklaar de verschillen.
3. Welke meetwaarde zou je gebruiken om het "midden" van reeks S1 te bepalen en waarom?
3. Welke meetwaarde zou je gebruiken om het "midden" van reeks S2 te bepalen en waarom?

In [None]:
# Plaats hier je Python-code. De reeksen S1 en S2 zijn al gegeven
s1 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
s2 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 120]

### 1.1.2 Standaarddeviatie en variantie

Vaak willen we niet alleen weten wat het "middelste" getal is maar ook hoeveel de getallen in de data *afwijken* van dat middelste getal.

Hoeveel getallen in data van elkaar afwijken noemen we *variantie*. We berekenen het door van elk van de getallen het *kwadraat* te berekenen van het verschil tussen dat getal en het rekenkundig gemiddelde van de gehele reeks getallen. De gevonden waarden tellen we bij elkaar op en delen we door het aantal getallen in de reeks.

In wiskundige notatie ziet dat eruit als volgt:

$$
\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}
$$

Hier staat: gegeven een reeks van $n$ waarden, trek voor elk van die waarden het rekenkundig gemiddelde ($\mu$) af van de waarde ($x_i$ is het $i$-de getal uit de reeks) en kwadrateer dat (vermenigvuldig het met zichzelf). Neem de som ($\Sigma$) van de resultaten en deel dat door het aantal waarden ($n$).

**VRAAG** : waarom wordt het verschil tussen de waarden en het getal gekwadrateerd?

Variantie is een nuttige maatstaf, maar er kleeft een nadeel aan: het is het kwadraat van het verschil.

Stel, we hebben een reeks lichaamslengtes. Voor Nederlandse vrouwen is de gemiddelde lengte `170,6` cm. De variantie is `39,63` - dat wil dus zeggen $39,63 cm^2$!

Maar wat is een $cm^2$? Dat is in de context van lichaamslengte natuurlijk een onzinnige eenheid. Wat we eigenlijk willen, is dat de afwijking van het gemiddelde wordt uitgedrukt in dezelfde eenheid als de getallen zelf.

Om dat te doen, moeten we het effect van het kwadrateren ongedaan maken (namelijk door de wortel te nemen van de gevonden variantie).

De wortel van de variantie noemen we de *standaarddeviatie* (ook wel *standaardafwijking* genoemd of, in het Engels, "standard deviation").

De formule ervoor luidt:

$$
\sigma = \sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}}
$$

Deze formule is identiek aan de vorige, behalve dat er aan het einde een wortel wordt getrokken. Het resultaat wordt vaak aangeduid met het Griekse symbool $\sigma$ (sigma).

(De standaarddeviatie voor de lichaamslengte van vrouwen in Nederland is overigens `6,3`).

Numpy maakt het eenvoudig om de standaarddeviatie van een reeks getallen uit te rekenen:

In [None]:
np.std([1, 2, 3, 4, 5, 6, 7, 8, 9])

Met deze reeks getallen is de standaarddeviatie tamelijk hoog, namelijk bijna een kwart van het verschil tussen het hoogste en het laagste getal. De reden hiervoor is dat de getallen zeer gelijkmatig zijn verspreid tussen dat hoogste en laagste getal. In veel andere getallenreeksen uit de werkelijkheid is dat veel minder. Er zijn bijvoorbeeld weinig volwassen vrouwen in Nederland die kleiner zijn dan `110` cm. Ook het aantal vrouwen dat groter is dan `220 cm` is zeer, zeer beperkt. Dit blijkt ook uit de standaarddeviatie: die bestrijkt met `6,3` cm slechts een klein deel van de mogelijke waarden.

In de volgende paragraaf zullen we zien dat dat heel gebruikelijk is.

#### Opgave

Gebruik de code hierboven als voorbeeld om de volgende vragen te beantwoorden.

De vragen betreffen opnieuw de volgende twee reeksen getallen:

```
S1:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
S2:	[4, 15, 6, 18, 5, 18, 4, 18, 6, 120]
```

1. Bereken voor beide reeksen de standaarddeviatie en verklaar het verschil.

In [None]:
# Plaats hier je Python-code. De reeksen S1 en S2 zijn al gegeven
s1 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 12]
s2 = [4, 15, 6, 18, 5, 18, 4, 18, 6, 120]



### 1.1.3 De normaalverdeling

In veel getallenreeksen in de echte wereld liggen de waarden tamelijk dicht bij elkaar. In het geval van de lichaamslengte van vrouwen in Nederland hebben bijvoorbeeld 68% van de vrouwen een lichaamslengte die minder dan `6,3`cm (dwz de standaarddeviatie) van het gemiddelde afwijkt. **95%** van de vrouwen heeft een lichaamslengte die minder dan twee keer die standaarddeviatie (`12,6` cm) van het gemiddelde afwijkt.

Een dergelijke verdeling komt heel vaak voor. Zo vaak dat hij een eigen naam heeft gekregen: de *normaalverdeling*.

De normaalverdeling ziet er uit zoals in het plaatje hieronder:

<img src="img/mit_sigma.jpg" alt="Source: https://news.mit.edu/2012/explained-sigma-0209" />

(kun je het plaatje niet zien, klik dan op deze link: [https://news.mit.edu/2012/explained-sigma-0209](https://news.mit.edu/2012/explained-sigma-0209) )

Een *normaalverdeling* (Eng: "normal distribution") is een verdeling van getallen waarbij het rekenkundig gemiddelde precies in het midden staat (en dus ook de mediaan is) én het vaakst voorkomende getal is (het is dus ook de modus). 

Verder is het bij de normaalverdeling zo dat 68% van de getallen binnen één standaarddeviatie (sigma oftewel $\sigma$) van het gemiddelde valt, en 95% binnen twéé standaarddeviaties.

Zoals gezegd, de normaalverdeling komt in de werkelijkheid heel vaak voor. Hoe dat kan is te zien op het filmpje achter de link hieronder:

[https://www.youtube.com/watch?v=EvHiee7gs9Y](https://www.youtube.com/watch?v=EvHiee7gs9Y)

Of een bepaalde reeks getallen een normaalverdeling vormt of niet, kun je uitrekenen. Dat is echter wel wat omslachtig. Vaak volstaan statistici en data scientists ermee om een grafiekje te maken van hun data om te *kijken* of ze met een normaalverdeling te maken hebben.

Dat gaan wij ook doen, maar daarvoor moeten we eerst grafiekjes leren maken.

## 1.2 Eenvoudige plots maken

Tot het belangrijkste gereedschap van de data scientist behoort het maken van grafieken. Getallen zijn de ruwe grondstof waar ze mee werken, maar om echte inzichten op te kunnen doen is het vaak noodzakelijk ze op de één of andere manier grafisch in beeld te brengen.

Voor het in beeld brengen van getallenreeksen in Python gebruiken we de bibliotheek `matplotlib`.

Hier is een voorbeeld van een grafiek van onze inmiddels welbekende getallenreeks `[1, 2, 3, 4, 5, 6, 7, 8, 9]`

In [None]:
plt.hist([1, 2, 3, 4, 5, 6, 7, 8, 9], bins=9, rwidth=0.9)
plt.show()

### 1.2.1 Histogrammen

Een grafiek van dit type noemen we een "histogram". In dit grafiektype geef je weer hoe vaak elke waarde in je data voorkomt.

In dit geval zien we dat elk getal precies even vaak (namelijk één keer) voorkomt.

Dat is anders in de grafiek hieronder, voor de getallenreeks `[1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]` (ook die hebben we eerder gezien):

In [None]:
plt.hist([[1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]], bins=9, rwidth=0.9)
plt.show()

We zien hier dat de lage getallen vaker voorkomen dan de hoge. We zien hier ook gelijk een nadeel aan deze grafiekvorm: als erg veel verschil zit tussen de getallen, worden er erg veel waarden op een grote hoop gegooid.

Hier nog een derde voorbeeld. We gebruiken numpy om een normaalverdeling te genereren en tonen deze in een grafiek.

In [None]:
np.random.seed(14) # Nodig om het resultaat reproduceerbaar te maken

# Maak 10.000 lichaamslengtes aan voor Nederlandse vrouwen
lichaamslengte_f = np.random.normal(170.6, 6.3, 10000)
# Toon deze
plt.hist(lichaamslengte_f, bins=30, rwidth=0.9)
plt.show()

We zien dat de vorm van de grafiek de normaalverdeling aardig benaderd. Hoe meer waarden je toevoegt, hoe vloeiender de "curve" wordt. Probeer maar (of probeer juist het aantal waarden te verminderen door de derde parameter van de functie np.random.normal kleiner te maken).

### 1.2.2 Box plots

Er is nog een andere, veelgebruikte manier om de "vorm" van een reeks getallen weer te geven. Deze vorm noemen we de "box plot".

Hieronder zie je de fictieve reeks lichaamslengtes in de vorm van een box plot.

In [None]:
np.random.seed(14) # Nodig om het resultaat reproduceerbaar te maken

# Maak 10.000 lichaamslengtes aan voor Nederlandse vrouwen
lichaamslengte_f = np.random.normal(170.6, 6.3, 10000)
# Toon deze
plt.boxplot(lichaamslengte_f)
plt.show()

De middelste lijn is het middelste getal van de reeks (de mediaan, die hier samenvalt met het gemiddelde omdat de getallen normaal zijn verdeeld). De bovenste rand van de "box" geeft de waarde aan van het derde kwartiel (75% of drie kwart van de vrouwen heeft een kortere lichaamslengte dan deze) en de onderste de waarde van het eerste kwartiel (25% van de vrouwen heeft een lichaamslengte die kleiner is dan deze waarde). De horizontale lijnen boven en onder de box geven de grenzen aan van wat als "normale" waarden wordt beschouwd terwijl de cirkels waarden weergeven die als "abnormaal" ("outliers") worden beschouwd.

Wat precies "abnormaal" is , is in te stellen, maar als je deze boxplot vergelijkt met het histogram hierboven zul je zien dat het inderdaad om maar een heel, heel klein deel van de waarden gaat.

Een boxplot is erg nuttig om vast te stellen of een verdeling scheef is of niet en hoe groot de spreiding is in de waarden.

Bekijken we bijvoorbeeld de getallenreeks `[1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ]` als boxplot, dan zien we het volgende:

In [None]:
plt.boxplot([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ])
plt.show()

Het is *onmiddellijk* duidelijk dat de getallen 80 en 90 sterk afwijken van de overige getallen. Ook zien we dat de verdeling van de overige getallen scheef is.

Dat kunnen we beter in beeld brengen door de sterk afwijkende getallen (de outliers) uit de grafiek te halen:

In [None]:
plt.boxplot([1, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 80, 90 ], showfliers = False)
plt.show()

### 1.2.3 Scatter plots

Een derde type grafiek dat veel wordt gebruikt, is de zogenoemde scatterplot. Dit grafiektype maakt het mogelijk om twee reeksen getallen met elkaar te vergelijken.

Laten we bij wijze van voorbeeld twee getallenreeksen maken en die tegen elkaar afzetten.

De twee getallenreeksen zijn `[1, 2, 3, 4, 5, 6, 7, 8, 9]` en `[1, 1, 2, 2, 3, 3, 4, 5, 6]` (merk op dat beide reeksen dezelfde lengte moeten hebben).

In [None]:
r1 = [1, 2, 3, 4, 5, 6, 7, 8, 9]
r2 = [1, 1, 2, 2, 3, 3, 4, 5, 6]
plt.scatter(r1, r2)
plt.show()

Er is een duidelijk verband tussen de eerste reeks, `r1` en de tweede, `r2`, maar ze komen niet precies met elkaar overeen.

In dit geval hadden we dat zelf ook wel aan de getallen kunnen zien, maar vaak is het verschil minder duidelijk, bijvoorbeeld omdat we met veel meer data te maken hebben.

Om goed het nut van scatterplots te kunnen zien, hebben we wat echte data nodig. Die gaan we nu inlezen.

## 1.3 Inlezen van gegevens

Om gegevens uit databestanden in te lezen gebruiken we de Python-bibliotheek pandas. Deze bibliotheek bevat een enorm aantal functies en methoden voor het werken met verzamelingen gegevens. Sommige van deze functies en methoden zijn kopieën van (of liever gezegd verwijzingen naar) functies en methoden uit andere bibliotheken. De numpy-functies voor het berekenen van gemiddelden, medianen enzovoort zijn bijvoorbeeld rechtstreeks aan te roepen vanuit pandas, evenals functies voor het maken van eenvoudige grafieken. Daarnaast biedt pandas nog een heleboel andere methoden die niet uit andere bibliotheken afkomstig zijn.

Om te beginnen gaan we bijvoorbeeld een databestand inlezen. In dit geval is dat een CSV-bestand met gegevens over pinguins, maar er zijn ook functies om Excel-bestanden in te lezen of om data rechtstreeks van internet te halen (handig om bijvoorbeeld met gegevens van het CBS aan de slag te gaan).

In [None]:
if 'COLAB_GPU' in os.environ:
    df_pinguins = pd.read_csv("https://raw.githubusercontent.com/mcdejonge/cursus-beginnen-met-data-science/refs/heads/main/data/palmerpenguins/penguins_size_clean.csv")
else:
    df_pinguins = pd.read_csv("data/palmerpenguins/penguins_size_clean.csv")

Als er geen foutmelding verschijnt, is het bestand correct ingelezen.

We kunnen kijken wat er is ingelezen, maar voordat we dat gaan doen even iets over het soort gegevens waar pandas mee werkt:

Pandas werkt met zogenoemde *dataframes*. Een dataframe is te beschouwen als een tabel met rijen (Rows) en kolommen (Series). Verder heeft een dataframe een zogenoemde *index* waarin wordt vastgelegd wat de volgorde van de verschillende rijen moet zijn.

Wanneer we kijken wat pandas zojuist heeft ingelezen, dan zien we dus ook een datataframe verschijnen.

Overigens is het een goede gewoonte om de naam van variabelen die dataframes bevatten te laten beginnen met `df` zodat de lezer meteen weet dat er sprake is van een dataframe.

Een dataframe toon je door de naam van de variabele aan te roepen als laatste opdracht in een codecel:

In [None]:
df_pinguins

Nu we een verzameling echte data hebben, kunnen we opnieuw een scatterplot aanmaken om de relatie tussen twee reeksen getallen ("variabelen") te bekijken.

Laten we "culmen_length_mm" (snavellengte) afzetten tegen "flipper_length_mm" (zwemvlieslengte). Merk op dat we naar specifieke kolommen in een dataframe verwijzen door de kolomnaam in blokhaken aan de naam van de variabele met het dataframe toe te voegen:

In [None]:
plt.scatter(df_pinguins['culmen_length_mm'], df_pinguins['flipper_length_mm'])
plt.show()

Als we door onze oogharen kijken (en dit is een erkende datawetenschappelijke techniek!) dan zien we een duidelijk, maar niet erg scherp afgetekend verband tussen de lengte van de snavel van een penguin en de lengte van diens zwemvliezen. Voorlopig hebben we nog niet genoeg statistische kennis om te kunnen bepalen hoe sterk dat verband precies is (dat komt in een latere les) maar het is een begin.

### Opdracht

Gebruik één van de andere grafiektypen die in paragraaf 1.2 behandeld zijn om meer te weten te komen over één van de andere kolommen in de pinguin-dataset. Is de data normaal verdeeld? Zijn er veel extreme waarden (outliers)? Etc.

In [None]:
# Plaats hier je eigen code.

## 1.4 Inferentiële statistiek

Wat we tot nu toe hebben gedaan heet "beschrijvende statistiek": we hebben statistische technieken gebruikt om onze data te *beschrijven*.

Nu gaan we een stapje verder. We gaan statistische beschrijvingen van data gebruiken om zaken *af te leiden* uit gegevens. De technieken waarmee we dat doen vallen onder de zogenoemde "inferentiële statistiek" (infereren = afleiden).

Om dit te kunnen doen, moeten we om te beginnen iets leren over kansberekening. Dat stelt ons namelijk in staat om uitspraken te doen over de kwaliteit van onze statistische beweringen. En als we eenmaal weten hoe we dat doen, kunnen we op een zinvolle kennis afleiden uit de gegevens die we tot onze beschikking hebben.

### 1.4.1 Kansberekening, steekproeven en confidence intervals

We beginnen met wat eenvoudige kansberekening. Deze kennis gebruiken we vervolgens om uitspraken te doen over de kwaliteit van onze steekproeven. Hoe zeker ("confident") kunnen we zijn dat deze de gegevens bevatten die we nodig hebben?

#### 1.4.1.1 Kansberekingen in het kort

*Kansberekening* is de tak van de wiskunde die uitspraken doet over het toeval. Als je een muntje met zijden `a` en `b` opgooit, hoe groot is dan de kans dat zijde `a` bovenkomt? Meer bepaald: hoe groot is de kans dat zijde `a` bovenkomt *als er niet met het muntje is geknoeid*?

Het antwoord op deze vraag is 50% oftewel 0.5. Beide zijden hebben een even grote kans om bovenop te komen. Er zijn 2 zijden. De kans dat er 1 van deze 2 zijden bovenop ligt is, uiteraard, 100%. De kans dat 1 specifieke zijde bovenop komt te liggen is dan de helft van 100%.

Hoe groot is de kans dat je *twee keer achter elkaar* dezelfde zijde bovenoop krijgt? 

De tabel hieronder geeft alle mogelijke uitkomsten weer van het twee keer achter elkaar opgooien van een muntje.

| 1e keer | 2e keer |
|---|---|
| a | a | 
| a | b |
| b | a |
| b | b |

Maar in één van de 4 gevallen komt de zijde `a` 2 keer boven.

Rekenkundig geef je dit weer door de kansen met elkaar te *vermenigvuldigen*: de kans dat zijde `a` 1x boven komt is 50% en de kans dat dat twee keer achter elkaar gebeurt is dan $50\% \times 50\% = 25\%$


#### 1.4.1.2 Steekproeven

In de statistiek werken we bijna altijd met *steekproeven*. Het is zo goed als altijd onmogelijk om *alle* data te verzamelen. Wil je bijvoorbeeld een onderzoek doen naar Nederlandse kiesgerechtigden, dan is het onmogelijk om *alle* 13 miljoen (ongeveer) kiesgerechtigden te ondervragen. In plaats daarvan neem je een *steekproef*: je selecteert op een hopelijk zo zinvolle manier een aantal representatieve kiezers en doet daar onderzoek naar.

Hetzelfde geldt voor marketing (je kunt immers niet *al* je klanten ondervragen), biologie (het is onmogelijk om alle walvissen ter wereld te zenderen) of de medische wetenschap (het is niet mogelijk of zelfs maar wenselijk om alle patiënten die een bepaalde aandoening hebben een experimenteel medicijn toe te dienen om te kijken wat er gebeurt).

Ook het opgooien van een muntje is te beschouwen als een steekproef. Je kunt immers onmogelijk tot in de eeuwigheid het muntje blijven opgooien om te zien of de kans dat zijde `a` bovenop komt precies 50% is. Hier komen we later op terug (bij "P-waarden en statistische significantie").

#### 1.4.1.3 Confidence intervals

Hierboven is gezegd dat veel zaken in de werkelijkheid normaal zijn verdeeld. Als voorbeeld hebben we de lichaamslengte van vrouwen in Nederland genomen. Het gemiddelde hiervan is `170,6` cm en de standaarddeviatie is `6,3` cm.

Dat ziet er uit als volgt:




In [None]:
np.random.seed(14) # Nodig om het resultaat reproduceerbaar te maken

# Maak 10.000 lichaamslengtes aan voor Nederlandse vrouwen. Dit is nu onze "echte" populatie.
lichaamslengte_f = np.random.normal(170.6, 6.3, 10000)
# Toon deze
plt.hist(lichaamslengte_f, bins=30, rwidth=0.9)
plt.title("Lichaamslengte vrouwen in Nederland (in cm)")
plt.show()

Hoe weten we dat de gemiddelde lichaamslengte `170,6 cm` is? Dat weten we door steekproeven te nemen. Hier is een voorbeeld van een dergelijke steekproef, gedaan onder 500 vrouwen:

In [None]:
np.random.seed(5) # Nodig om het resultaat reproduceerbaar te maken

# Neem een (uiteraard fictieve) steekproef. 
steekproef_lichaamslengte_f = np.random.normal(170.6, 6.3, 500)
# Toon deze
plt.hist(steekproef_lichaamslengte_f, bins=30, rwidth=0.9)
plt.title("Steekproef (n=500) lichaamslengte vrouwen in Nederland")
plt.show()

Deze steekproef lijkt behoorlijk op de "echte" populatie maar wijkt ook duidelijk af.

Wat we willen weten is hoeveel.

Hier komt de zogenoemde *confidence interval* om de hoek kijken. De confidence interval is het bereik ("interval") waarvan je met een bepaalde mate van zekerheid ("confidence") kan zeggen dat je steeproef er binnen valt.

In dit voorbeeld willen we weten hoe "confident" we kunnen zijn dat het gemiddelde van onze steekproef in de buurt (in een bepaalde "interval" ligt van het "echte" gemiddelde).

Eerst berekenen we de gemiddeldes:

In [None]:
print(f'Het gemiddelde van de echte populatie is {np.mean(lichaamslengte_f):.2f} cm en van onze steekproef {np.mean(steekproef_lichaamslengte_f):.2f}')

Vervolgens bereken we de interval waarvoor geldt dat we met 95% zekerheid kunnen zeggen dat het gemiddelde er binnen valt:


In [None]:
# De eerste parameter is de "confidence": 95%
# De tweede (df) is het aantal waarden (klopt niet helemaal maar voor nu is dit een goede omschrijving)
# De derde is het gemiddelde van de waarden.
ci = st.t.interval(0.95, df = len(lichaamslengte_f), loc=np.mean(lichaamslengte_f))
print(f'Met 95% zekerheid kunnen we zeggen dat het gemiddelde van een steekproef moet liggen tussen {ci[0]:.2f}cm en {ci[1]:.2f}cm')

Het gemiddelde dat we daadwerkelijk hebben gevonden, valt binnen de gevonden interval dus we kunnen met 95% zekerheid zeggen dat onze steekproef afkomstig is uit de onderliggende populatie.

We gaan nu kijken naar wat "95% zekerheid" precies betekent.



### 1.4.2 P-waarden en statistische significantie

We keren terug naar ons muntje. We willen weten of er mee is geknoeid. Om dat te doen, gooien we het muntje een aantal keer op en constateren dat iedere keer dat we dat doen zijde `a` boven komt te liggen. 

#### Opgave

Bereken de kans dat zijde `a` 6 keer achter elkaar bovenop komt te liggen als je het muntje 6 keer opgooit.

#### Hypothesen, P-waarden en statistische significantie

Onze hypothese is dat er met het muntje is geknoeid. Het tegenovergestelde van onze hypothese (de *nul-hypothese*) is dan dat er *niet* met het muntje is geknoeid. Als er niet met het muntje is geknoeid, dan zijn de resultaten van een experiment waarbij je het muntje opgooit zuiver te wijten aan het toeval.

Gegeven een verzameling resultaten (`a` of `b`) willen we berekenen hoe groot de kans is dat deze verzameling tot stand is gekomen door het toeval. Dat hebben we gedaan bij de opgave hierboven. We hebben daar de kans berekend dat het toevallig kan zijn dat `a` 6 keer bovenop komt te liggen als je het muntje 6 keer opgooit.

De kans dat een gevonden resultaat toeval is, wordt de P-waarde genoemd (p: "probability" (kans) dat het resultaat toeval is). In de statistiek spreken we af dat we *van te voren* bepalen welke grens we hiervoor nemen. Vaak is dat 5% of 1%. Als de kans op een gevonden resultaat kleiner is dan de van te voren bepaalde P-waarde dan staan we onszelf toe te zeggen dat onze hypothese waar is: er is met het muntje geknoeid. De nul-hypothese (dat er niets aan de hand is en dat de resultaten zuiver toeval zijn) is dan *verworpen*.

Een resultaat waarvan we kunnen zeggen dat de kans dat het toevallig tot stand is gekomen kleiner is dan de P-waarde noemen we *statistisch significant*.

### 1.4.3 T-tests: Vaststellen of twee steekproeven afkomstig zijn uit dezelfde populatie

Normaalverdelingen, P-waarden en confidence intervals kunnen worden gebruikt in statistische tests. Deze statistische tests stellen ons in staat om nieuwe informatie *af te leiden* (infereren) uit de gegevens die we hebben verzameld.

Er zijn allemaal verschillende tests, maar de meest bekende is de zogenoemde *T-test*. Deze test wordt gebruikt om twee steekproeven met elkaar te vergelijken en vast te stellen of ze afkomstig zijn uit dezelfde onderliggende populatie.

De T-test werkt omdat verreweg de meeste verzamelingen in de werkelijkheid normaalverdelingen zijn (de stelling dat dit zo is heet de "centrale limietstelling"). En als iets een normaalverdeling is, kun je er met behulp van het gemiddelde en de standaarddeviatie uitspraken over doen - wat precies is wat de T-test doet.

De T-test is handig om twee soorten vragen te beantwoorden:

- Is er verschil in een bepaalde populatie vóór en na de een of andere interventie of gebeurtenis?
- Is er een verschil tussen twee populaties?

Deze twee vragen verschillen subtiel van elkaar, vandaar dat er twee soorten T-tests zijn: *paired* (de twee populaties zijn hetzelfde) en *unpaired*.

Hieronder zien we van elk type test een voorbeeld.


#### Paired T-tests

Een *paired* T-test wordt gebruikt om het verschil vast te stellen in dezelfde populatie voor en na een interventie of gebeurtenis. Denk bijvoorbeeld aan vaststellen of toedienen van een bepaald medicijn effect heeft op een specifieke groep patienten.

We beginnen met twee synthetische steekproeven van Nederlandse vrouwen.

In [None]:
# Maak twee steekproeven
np.random.seed(15) # Nodig om het resultaat reproduceerbaar te maken
s1 = np.random.normal(170.6, 6.3, 500)
s2 = np.random.normal(170.6, 6.3, 500)


# Voer een *paired* T-test uit
resultaat = st.ttest_rel(s1, s2)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde

De P-waarde die we terug krijgen is de kans dat de twee steekproeven afkomstig zijn uit dezelfde populatie. Als de waarde hoger is dan een van tevoren afgesproken grens, dan gaan we ervan uit dat de twee steekproeven afkomstig zijn uit dezelfde populatie. In dit geval is dat zo, dus de hoge p-waarde is correct.

Nu nemen we twee steekproeven die *niet* uit dezelfde populatie afkomstig zijn. 

In [None]:
# Maak twee steekproeven
np.random.seed(15) # Nodig om het resultaat reproduceerbaar te maken
s1 = np.random.normal(170.6, 6.3, 500)
s2 = np.random.normal(110.6, 6.3, 500) # Ruim buiten het gemiddelde + std van s1


# Voer een *paired* T-test uit
resultaat = st.ttest_rel(s1, s2)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde

De P-waarde is nu zo klein dat hij weergegeven wordt als 0.0. De T-test herkent duidelijk dat onze steekproeven afkomstig zijn uit een andere populatie.

#### Unpaired T-tests

In de voorbeelden hierboven waren de twee steekproeven gelijk, dat wil zeggen dat ze uit hetzelfde aantal getallen bestonden. Vaak is dat echter niet zo, bijvoorbeeld omdat het twee verschillende steekproeven betreft. De methode `scipy.stats.ttest_rel` die we hierboven gebruikten, werkt dan niet. In plaats daarvan hebben we een *unpaired* T-test nodig.

De functie voor een unpaired T-test heet `scipy.stats.ttest_ind` ("rel" : "related", "ind": "independent").

We voeren dezelfde test uit als hierboven:

In [None]:
# Maak twee steekproeven
np.random.seed(15) # Nodig om het resultaat reproduceerbaar te maken
s1 = np.random.normal(170.6, 6.3, 500)
s2 = np.random.normal(110.6, 6.3, 500) # Ruim buiten het gemiddelde + std van s1


# Voer een *unpaired* T-test uit
resultaat = st.ttest_ind(s1, s2)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde

Het resultaat is hetzelde als hierboven. De onderliggende test is dus hetzelfde. Met ttest_ind kun je echter ook steekproeven gebruiken die een verschillende grootte hebben, wat met ttest_rel niet kan:

In [None]:
# Maak twee steekproeven
np.random.seed(15) # Nodig om het resultaat reproduceerbaar te maken
s1 = np.random.normal(170.6, 6.3, 200)
s2 = np.random.normal(110.6, 6.3, 400) # Ruim buiten het gemiddelde + std van s1


# Voer een *unpaired* T-test uit
resultaat = st.ttest_ind(s1, s2)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde

#### Praktische toepassing 1: Is er verschil tussen klanten? 

Tot zover de theorie. Nu de praktische toepassing.

Stel: een webwinkel constateert dat klanten uit Noord-Nederland gemiddeld €73,25 uitgeven en klanten uit Zuid-Nederland gemiddeld €76,81. De webwinkel wil weten of er daadwerkelijk een verschil is tussen deze twee klantgroepen of dat het gevonden verschil toeval is.

De oplossing is een unpaired (want het gaat om twee verschillende groepen klanten) T-test uit te voeren, met de volgende gegevens:

|                | Uitgave gemiddeld | Std    | Aantal klanten |
|----------------|-------------------|--------|----------------|
|Noord-Nederland | €73,25            | €12,33 | 12.108         |
|Zuid-Nederland  | €76.81            | €11.80 | 14.952         |

Voordat we de test uitvoeren, bepalen we dat we het verschil statistisch significant vinden als de P-waarde kleiner is dan 0.05.



In [None]:
# De twee populaties
n_gem = 73.25
n_sd = 12.33
n_n = 12108
n = np.random.normal(n_gem, n_sd, n_n)

z_gem = 76.81
z_sd = 11.80
z_n = 14952
z = np.random.normal(z_gem, z_sd, z_n)

# Voer een *unpaired* T-test uit
resultaat = st.ttest_ind(n, z)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde



Het resultaat is misschien een beetje moeilijk te lezen vanwege de notatie, maar hier staat dat de P-waarde 0 is tot meer dan 100 cijfers achter de komma. Er is een duidelijk verschil tussen Noorderlingen en Zuiderlingen in deze webwinkel!

#### Praktische toepassing 2: Is er verschil tussen pinguins? 

Voor het tweede voorbeeld keren we terug naar de pinguin-dataset. Deze dataset bevat gegevens over drie soorten pinguins: "Adelie", "Chinstrap" en "Gentoo".

We willen weten of je deze soorten pinguins van elkaar kunt onderscheiden door alleen naar de snavellengte ("culmen_length_mm") te kijken.

Hiervoor gaan we het dataframe filteren op soort ("species"). Vervolgens vergelijken we de gefilterde waarde in de kolom "culmen_length_mm" voor twee van de soorten.

Bij een P-waarde van minder dan `0,05` beschouwen we het verschil als significant.

Merk op dat we filteren doen door tussen blokhaken na de naam van het dataframe een zogenoemde *conditie* te plaatsen waarin de rijen moeten voldoen die we willen hebben. `==` betekent "gelijk aan" (er is ook `!=` wat "niet gelijk aan" betekent). Hier zeggen we dat we die rijen uit het dataframe `dfpenguins` willen hebben waarvoor geld dat de kolom `species` de waarde `Adelie` heeft (of `Gentoo`, voor de tweede steekproef).

Aan de gefilterde rijen kunnen we dan weer tussen blokhaken de naam toevoegen van de kolom die we willen hebben (`culmen_length_mm`).




In [None]:
snavels_adelie = df_pinguins[df_pinguins['species'] == 'Adelie']['culmen_length_mm']
snavels_gentoo = df_pinguins[df_pinguins['species'] == 'Gentoo']['culmen_length_mm']
# Voer een *unpaired* T-test uit
resultaat = st.ttest_ind(snavels_adelie, snavels_gentoo)

# Het resultaat is een object met 3 waarden waarvan er maar 1 voor ons relevant is: de P-waarde.
pwaarde = resultaat.pvalue
pwaarde


Als we alleen naar de snavellengte kijken, zien we een duidelijk en significant (P &lt; `0,01`) verschil tussen de beide typen penguins.

Dat dit verschil significant is, kunnen we overigens ook zien wanneer we een grafiek maken met de histogrammen van de snavellengtes voor beide soorten:

In [None]:

# We voegen hier wat extra opties toe aan de hist-functie om te zorgen dat we
# twee histogrammen relatief leesbaar in dezelfde grafiek kunnen tonen:
# - color: de kleur
# - alpha : de transparantie (0 : volledig transparant, 1: volledig dekkend)
plt.hist(snavels_adelie, bins=30, rwidth=0.9, color="orange", alpha=0.3)
plt.hist(snavels_gentoo, bins=30, rwidth=0.9, color="grey", alpha=0.3)
plt.title("Snavellengte Adelie (oranje) en Gentoo (grijs)")
# Totdat je plt.show() aanroept kun je blijven toevoegen aan dezelfde grafiek.
plt.show()


Het is duidelijk dat de snavellengtes van de twee pinguinsoorten elkaar nauwelijks overlappen en dat snavellengte dus een goede manier is om deze twee soorten pinguins van elkaar te onderscheiden.

### Opdracht

Meten van de snavellengte om erachter te komen met welke pinguinsoort je te maken hebt, is mooi, maar echt handig zou het zijn als je alleen maar de lengte van de zwemvliezen hoeft op te meten. Dit maakt het namelijk mogelijk om pootafdrukken op te meten en uit de lengte ervan te kunnen aflezen van welk type pinguin ze afkomstig zijn.

Analyseer de variabele "flipper_length_mm" voor elk van de drie soorten "Adelie", "Chinstrap" en "Gentoo" en bepaal of je deze variabele kunt gebruiken om pinguins te onderscheiden op soort.



In [None]:
# Plaats hier je eigen code


## Portfolio-opdracht

Ga op zoek naar een dataset, bijvoorbeeld van je eigen werk, en bereken voor één of twee relevante variabelen de statistische kengetallen (gemiddelde, mediaan, standaarddeviatie). Maak plots voor deze variabelen die laten zien dat de data normaal verdeeld is (of juist niet).

Lever je werk in als notebook.