<img src="images/bannerugentdwengo.png" alt="Banner" width="400"/>

<div>
    <font color=#690027 markdown="1">
        <h1>DE NORMALE VERDELING</h1> 
    </font>
</div>

### Importeer de nodige modules

In [None]:
from scipy.stats import norm
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<div>
    <font color=#690027 markdown="1">
        <h2>1. De normale verdeling in Python</h2> 
    </font>
</div>

De **normale verdeling** is een kansverdeling die zijn nut heeft in de simulatie van bepaalde soorten datasets, zoals in deze notebook zal worden geïllustreerd. Het functievoorschrift van de kansverdelingsfunctie die overeenkomt met de normale verdeling wordt gegeven door een klokkromme (of Gausskromme):

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\frac{{x-\mu}^2}{\sigma^2}}.$$

Hierbij is $\mu$ het **gemiddelde** en $\sigma $ de **standaardafwijking**. 

De normale verdeling kan in Python opgeroepen worden via de `norm.pdf()`-functie uit de module `scipy.stats`. Onderstaande code tekent een grafiek van een normale verdeling. 

<div class="alert alert-block alert-success"> 
    <b>pdf</b> staat voor <b>probability density function</b>; dat is de Engelse term voor een <b>kansdichtheidsfunctie</b>. Een kansdichtheidsfunctie is een weergave van de kans dat een stochastische variabele X in de buurt van een bepaalde waarde voorkomt. De normale verdeling is een type kansverdelingsfunctie waarbij de kans op voorkomen het hoogste is als een waarde rond het gemiddelde ligt.
    
$P(5<X<10)$ bijvoorbeeld komt overeen met de oppervlakte tussen de grafiek van f en de x-as over het interval [5, 10].  
    
Bij een standaardnormale verdeling is het gemiddelde $\mu = 0$ en de standaardafwijking $\sigma = 1$.    
</div>

<div>
    <font color=#690027 markdown="1">
        <h3>1.1 De grafiek van de normale verdeling in Python</h3> 
    </font>
</div>


### Voorbeeld: De grafiek van de standaardnormale verdeling

In Python kan je de functiewaarden van de normale verdeling laten berekenen via de functie `pdf()` van de submodule norm van de module scipy.stats. Deze functie heeft twee parameters, nl. het gemiddelde en de standaardafwijking. 

In [None]:
# functie en haar parameters, originelen en beelden
gemiddelde = 0
standaardafwijking = 1

x = np.linspace(10,-10,1001)                    # x-waarden genereren om grafiek te tekenen
y = norm.pdf(x, gemiddelde, standaardafwijking) # bepaal functiewaarden van normale verdeling met gegeven gemiddelde en standaardafwijking

# grafiek
plt.figure()

plt.plot(x,y)                                   # teken grafiek van  normale verdeling

plt.show()

<div class="alert alert-block alert-success"> 
De som van de kansen van alle mogelijke uitkomsten van een experiment is steeds gelijk aan 1. Ook bij een kansverdelingsfunctie is de som van alle kansen 1; dit komt er op neer dat de totale oppervlakte tussen de grafiek van de functie en de x-as gelijk is aan 1. 
    
Je kan nu al de link leggen met een relatievefrequentietabel, waarbij de som van alle relatieve frequenties ook 1 is.
</div>

### Opdracht 1.1.1

-  Teken de grafiek van de normale verdeling met gemiddelde 6 en standaardafwijking 3. <br>
Pas daarvoor in de code van hierboven de waarden waarnaar de variabelen `gemiddelde` en `standaardafwijking` verwijzen aan. 

### Opdracht 1.1.2

-  Wat gebeurt er met de grafiek als je het gemiddelde aanpast van 0 naar een positief getal?

Antwoord: 

-  Kan het gemiddelde negatief zijn? Zo ja, welk effect heeft dit op de grafiek?

Antwoord: 

- Hoe kan je het gemiddelde aflezen op de grafiek?

Antwoord:

- Wat gebeurt er als je de standaardafwijking aanpast naar een getal groter dan 1?

Antwoord:

- Wat gebeurt er als je de standaardafwijking aanpast naar een getal kleiner dan 1?

Antwoord:

- Kan de standaardafwijking negatief zijn? Zo ja, welk effect heeft dit op de grafiek?

Antwoord:

<div>
    <font color=#690027 markdown="1">
        <h3>1.2 De cumulatieve dichtheidsfunctie van de normale verdeling</h3> 
    </font>
</div>


Je kan de **cumulatieve dichtheidsfunctie** van de normale verdeling opvragen via de functie `cdf()` van dezelfde module norm. <br>
M.b.v. de volgende code-cel laat je behalve de normale verdeling ook de cumulatieve dichtheidsfunctie tekenen.

<div class="alert alert-block alert-success"> 
    Analoog staat <b>cdf</b> voor <b>cumulative density function</b>. Dat is de Engelse term voor een <b>cumulatieve dichtheidsfunctie</b>. Dat is een andere weergave van de kansverdeling, met als definitie dat de kans dat een toevalsvariabele kleiner is dan een bepaalde waarde kan worden berekend via de cumulatieve dichtheidsfunctie, nl.
    $$cdf(a) = P(X < a),$$  
m.a.w. de oppervlakte tussen de kansverdelingfunctie en de x-as over het interval $]-∞,a]$.
    
 $cdf(10) = P(X < 10)$ bijvoorbeeld komt overeen met de oppervlakte tussen de grafiek van f en de x-as over het interval $]-∞, 10]$.  

</div>

In [None]:
gemiddelde = 0
standaardafwijking = 1

x = np.linspace(10,-10,1001)                         # x-waarden genereren om grafiek te tekenen
y_pdf = norm.pdf(x, gemiddelde, standaardafwijking)  # bepaalfunctiewaarden van normale verdeling
y_cdf = norm.cdf(x, gemiddelde, standaardafwijking)  # bepaal functiewaarden van cumulatieve dichtheidsfunctie 

# grafiek
plt.figure()

plt.plot(x,y_pdf)   # teken grafiek van normale verdeling
plt.plot(x,y_cdf)   # teken grafiek van cumulatieve dichtheidsfunctie

plt.show()

### Opdracht 1.2.1

-  Teken de grafiek van de cumulatieve dichtheidsfunctie van de normale verdeling met gemiddelde 6 en standaardafwijking 3. 

<div>
    <font color=#690027 markdown="1">
        <h2>2. Toepassing: Weerstation</h2> 
    </font>
</div>

De data in een dataset zijn in veel gevallen bij benadering normaal verdeeld. <br>Gebruikmaken van een computer om te werken met grote datasets kan je veel tijd besparen. 

Beschouw de dataset `weather_in_Antwerp.csv` in de map `data` [1]. Deze dataset bevat metingen van het weer in Antwerpen op verschillende tijdstippen.

Doorheen de volgende opdrachten ga je op zoek naar de kans dat de luchtdruk lager is dan 1 bar (1000 mbar of 1000 hPa). <br>

Je doet dit op 2 manieren: eens zonder en eens met de normale verdeling.

### Opdracht 2.1

-  Laad de dataset in en teken een duidelijk histogram van de relatieve frequenties van de luchtdruk (`barometer`).

### Opdracht 2.2

-  Maak een nieuwe kolom die alle waarden uit `barometer` bevat die kleiner zijn dan 1 bar. 

<div class="alert alert-block alert-warning"> 
Herinner je dat je in <i>Statistiek in Python 3: Data analyseren</i> slicing hebt gebruikt om waarden uit een kolom te filteren.
</div>

-  Bereken de lengte van de gefilterde kolom en deel die door het totaal aantal rijen.

-  Je bekomt een goede benadering van de kans dat de luchtdruk in Antwerpen lager is dan 1 bar. Waarom spreek je hier van een benadering?

Antwoord:

-  Hoe kan je ervoor zorgen dat deze benadering nauwkeuriger wordt?

Antwoord: 

-  Maak via het histogram een schatting van de gemiddelde en standaardafwijking van de luchtdruk.

Antwoord: 

### Opdracht 2.3

Je berekent nu dezelfde kans opnieuw door de data te benaderen door een normale verdeling. 

-  Bereken de exacte gemiddelde luchtdruk met Python. 
-  Bereken ook de standaardafwijking van de luchtdruk.Dat is mogelijk met de functie `std()` (van het Engelse standard deviation), analoog aan de `mean()`-functie. 
-  Verwijs naar de resultaten met de variabelen `barometer_gemiddelde` en `barometer_standaardafwijking`.

<div class="alert alert-block alert-warning"> 
Kijk nog eens terug naar het notebook <i>Statistiek in Python 3: Data analyseren</i> als je niet meer weet hoe je het gemiddelde van een kolom moet berekenen.
</div>

Je kan dit gemiddelde en deze standaardafwijking gebruiken als parameters voor een normale verdeling. <br>
De volgende code-cel toont deze normale verdeling samen met het histogram. <br>
Je ziet dat de luchtdruk inderdaad bij benadering normaal verdeeld is.

In [None]:
x = np.linspace(970,1050,40)                                       # x-waarden genereren om grafiek te tekenen
y = norm.pdf(x, barometer_gemiddelde, barometer_standaardafwijking)  # bereken funciewaarden van de normale verdeling

# grafiek

plt.figure()

weather["barometer"].plot(kind="hist", bins=x, density=True)  # teken histogram
plt.plot(x, y, color="red")                                  # teken normale verdeling

plt,show()

Om op een gemakkelijke manier de kans te berekenen dat een normaal verdeelde stochastische variabele kleiner is dan 1000, gebruik je de cumulatieve dichtheidsfunctie. 

- Hoeveel verschillen de resultaten van beide methoden?

Antwoord: 

- Wat zou hier de reden voor kunnen zijn?

Antwoord: 

### Opdracht 2.4

Gebruik de normale verdeling om volgende kansen te berekenen:
* de kans dat de luchtdruk hoger is dan 1040 mbar;
* de kans dat de luchtdruk tussen 1000 en 1010 mbar ligt.

<div>
    <font color=#690027 markdown="1">
        <h2>3. Oefening</h2> 
    </font>
</div>

Je zag eerder dat je de nauwkeurigheid van de schatting van een kans kon verhogen door meer data te verzamelen. Dit leidt echter niet altijd tot een schatting die beter overeenkomt met de realiteit. Dit wordt geillustreerd in de volgende opdrachten.

### Opdracht 3.1

De dataset uit de vorige voorbeelden bevat data van een weerstation dat per half uur een meting registreerde van 2012 tot 2016. Een onderzoeksteam wil de nauwkeurigheid van hun berekeningen verhogen door metingen tot 2019 aan de dataset toe te voegen. Door een fout voegen ze echter enkel de metingen van de maanden mei tot augustus toe. 

-  Kijk wat het effect is van deze fout op de schatting van de temperatuur.
-  Laad eerst de geüpdatete dataset `weather_in_Antwerp_2012to2019.csv` in de map `data` in. 
-  Genereer een histogram van de temperatuur voor de dataset *weather_in_Antwerp_2012to2016* en voor *weather_in_Antwerp_2012to2019*. De temperatuur is gegeven in °C in de kolom `temp`.

<div class="alert alert-block alert-danger"> 
Splits de code voor beide histogrammen op in 2 cellen om te vermijden dat ze overlappen.
</div>

- Welke verschillen tussen de twee datasets kan je aflezen? Let op het gemiddelde en de standaardafwijking.

Antwoord:

### Opdracht 3.2

-  Bereken het gemiddelde en de standaardafwijking van beide datasets.
-  Verwijs ernaar met de variabelen `temperatuur_gemiddelde_2016`, `temperatuur_gemiddelde_2019`, `temperatuur_standaardafwijking_2016` en `temperatuur_standaardafwijking_2019`.

- Schrijf code om een grafiek van twee normale verdelingen te genereren. De blauwe curve benadert de dataset tot 2016 en de rode curve tot 2019.

Bereken de kans dat de temperatuur hoger is dan 30 °C. 
-  Gebruik eerst een normale verdeling op basis van de dataset tot 2016 om de kans te benaderen. 
-  Gebruik nadien de geüpdate dataset tot 2019.

De geschatte kans op een temperatuur hoger dan 30 °C zou echter een pak groter moeten zijn dan bij de foutief geüpdatete dataset. <br>
Dat komt omdat de verdeling die je gebruikte om de kans te berekenen, niet overeenkomt met hoe de temperatuur in de realiteit is verdeeld. Denk bijvoorbeeld aan een extremer geval, mocht je enkel data uit de maand juli verzamelen, en daaruit conclusies maken over de temperatuur in Antwerpen over het hele jaar. 

Er worden verschillende termen gebruikt om dit fenomeen te benoemen, zoals **selectief winkelen**, **selectieve bias** of **cherrypicking**. Soms gebeurt het onbewust, maar al te vaak wordt het gebruikt om resultaten te verdraaien. <br>
Denk maar aan klimaatontkenners die bijvoorbeeld meer metingen uit de wintermaanden aan de dataset kunnen toevoegen en zo concluderen dat de klimaatverandering niet bestaat. Het is dus belangrijk om steeds de bron van de data uit een onderzoek te checken voor je zelf conclusies trekt.

### Referentielijst

[1] Weather dataset in Antwerp, Belgium. https://www.kaggle.com/datasets/ramima/weather-dataset-in-antwerp-belgium<br>
Data gebruikt met toestemming van CustomWeather, eigenaar van de data www.customweather.com gebruikt in deze dataset.

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>

Notebook Python in wiskunde - Statistiek, van D. De Bolster, F. wyffels & N. Gesquière, is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.