<img src="../.images/logosnb.png" alt="Banner" style="width: 800px;"/>

<div style='color: #690027;' markdown="1">
    <h1>STANDAARDISEREN</h1> 
</div>

<div class="alert alert-box alert-success">
In deze notebook leer je bivariate gegevens weergeven in een puntenwolk. Je leert dat je de mate van correlatie niet altijd op het zicht kunt inschatten en waarom het standaardiseren van de gegevens in dat opzicht belangrijk is. 
</div>

Voor deze notebook werden we geïnspireerd door het lesmateriaal 'Statistiek voor het secundair onderwijs' dat je kan vinden op de website https://www.uhasselt.be/lesmateriaal-statistiek van de Universiteit Hasselt [1][2]. Een van de voorbeelden uit [2] werd in deze notebook overgenomen met toestemming van professor Callaert (zie 2. Belang van standaardiseren). 

### De nodige modules importeren

Om een mooie tabel  te tonen, gebruik je de module *pandas*, die speciaal ontworpen is voor het analyseren van gegevens.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

<div style='color: #690027;' markdown="1">
    <h2>1. De Iris dataset</h2> 
</div>

De Iris dataset werd in 1936 door de Brit Ronald Fischer gepubliceerd in 'The use of multiple measurements in taxonomic problems'. [3][4]<br> 
De dataset beteft drie soorten irissen (*Iris setosa*, *Iris virginica* en *Iris versicolor*), waarvan je er nu een zal bekijken: de *Iris virginica*.

<img src="../.images/IntroductieMachineLearning/Iris_virginica.jpg" alt="Drawing" style="width: 203px;"/>
<center>Figuur 1: <em>Iris virginica</em>. <br>No machine-readable author provided. Dlanglois assumed (based on copyright claims). CC BY-SA 3.0, via Wikimedia Commons.</center>

De dataset die je zal bekijken, is als volgt opgebouwd: van elke bloem is de lengte van een kelkblad en de lengte van een bloemblad gegeven in millimeter. <br>Elk datapunt komt dus overeen met twee waarden. Men spreekt van *bivariate* gegevens.<br><br>De data zijn opgeslagen in een *csv-bestand*. Een csv-bestand is een bestand waarin de data gescheiden zijn door komma's. 

<img src="../.images/IntroductieMachineLearning/csv.JPG" alt="Drawing" style="width: 400px;"/>
<center>Figuur 2: Gedaante van een csv-bestand.</center>

<div style='color: #690027;' markdown="1">
    <h3>1.1 Inlezen van de data van de <em>Iris virginica</em></h3> 
</div>

Lees met de module pandas het csv-bestand dat de dataset bevat, in.

In [None]:
virginica = pd.read_csv("../.data/IntroductieMachineLearning/virginica.dat")    # in te lezen tabel heeft hoofding

<div style='color: #690027;' markdown="1">
    <h3>1.2 Tonen van de gegevens van de <em>Iris virginica</em></h3> 
</div>

Voer de volgende instructie uit.

In [None]:
virginica

### Opdracht 1.2.1
Hoeveel bloemen zitten er in de dataset?
<br><br>Antwoord:

Bepaal het kortste en het langste kelkblad door de volgende instructie uit te voeren.

In [None]:
min(virginica["lengte kelkblad"]), max(virginica["lengte kelkblad"])

### Opdracht 1.2.2
Welk type heeft het object dat net werd afgedrukt?<br><br>
Antwoord:

### Opdracht 1.2.3
Bepaal het kortste en het langste bloemblad.

### Opdracht 1.2.4
Voer de instructie uit en beantwoord de volgende vragen:
- hoeveel gegevenskolommen telt de tabel?
- welk type hebben de getallen in de gegevenskolommen? 

Antwoorden:

In [None]:
virginica.info()

<div style='color: #690027;' markdown="1">
    <h3>1.3 De data weergeven in een puntenwolk</h3> 
</div>

Met de functie `scatter()` van de module Matplotlib kan je een grafiek met een puntenwolk genereren.<br>
Voer het script uit.

In [None]:
x1 = virginica["lengte kelkblad"]       # naam kolom als index gebruiken
y1 = virginica["lengte bloemblad"]

plt.scatter(x1, y1, color="purple", marker="o")

plt.title("Iris virginica")
plt.xlabel("lengte kelkblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(4, 8)
plt.ylim(4, 8)

plt.show()

### Opdracht 1.3.1
Pas het bereik op de x-as en de y-as aan en kijk welk effect dat heeft op de puntenwolk. <bR>Gebruik daarvoor het hieronder gekopieerde script. 

In [None]:
x1 = virginica["lengte kelkblad"]       # naam kolom als index gebruiken
y1 = virginica["lengte bloemblad"]

plt.scatter(x1, y1, color="purple", marker="o")

plt.title("Iris virginica")
plt.xlabel("lengte kelkblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(4.9, 8)
plt.ylim(4.5, 6.9)

plt.show()

### Opdracht 1.3.2
Welke bewering is juist? Meerdere juiste beweringen zijn mogelijk.<br>
- A. Het bereik van de x-as en de y-as hebben geen invloed op de puntenwolk. 
- B. Een groot bereik van de x-as en de y-as tonen een grote puntenwolk.
- C. Het bereik van de x-as en de y-as beïnvloeden hoe je de mate van samenhang tussen de lengte van een kelkblad en een bloemblad inschat. 
- D. Een groot bereik van de x-as en de y-as tonen een kleine puntenwolk.


Antwoord:

De puntenwolk ziet er *ellipsvormig* uit.<br> Men spreekt dan van *lineaire samenhang*: je zou dan een rechte kunnen vinden die vrij goed bij de data past. Hoe sterker de samenhang tussen de punten, hoe beter de rechte bij de data zal passen. 

In hoeverre er samenhang is tussen de x- en y- coördinaat van de gegeven punten, kan bekeken worden a.d.h.v. de *correlatiecoëfficiënt R*.

<div style='color: #690027;' markdown="1">
    <h3>1.4 De correlatiecoëfficiënt</h3> 
</div>

De correlatiecoëfficiënt R ligt steeds tussen -1 en 1. Hoe dichter R bij 0 ligt, hoe slechter de samenhang. <br>
Bij een positieve R spreekt men van een positieve samenhang, bij een negatieve R van een negatieve samenhang. <br>

In [None]:
print("Correlatiecoëfficiënt R =", np.corrcoef(x1, y1)[0,1])

Dit wijst op een *positieve sterke lineaire samenhang*. 

### Opdracht 1.4.1
Welke bewering is juist?<br>
- A. Hoe langer het kelkblad, hoe korter het bloemblad.
- B. Hoe langer het kelkblad, hoe langer het bloemblad.

Antwoord:

Rechtstreeks op een figuur schatten hoe sterk de lineaire samenhang is, is niet zo eenvoudig.

<div class="alert alert-box alert-info">
Het is niet vanzelfsprekend om de correlatie tussen gegevens in te schatten louter afgaand op de puntenwolk. Een betere houvast is de correlatiecoëfficiënt. 
</div>

<div style='color: #690027;' markdown="1">
    <h2>2. Belang van standaardiseren</h2> 
</div>

In wat volgt zul je drie puntenwolken met elkaar vergelijken en inschatten welke data de beste correlatie vertonen.<br><br>
Lotte, Robbe en Kato krijgen elk een aantal bloemblaadjes waarvan ze de lengte en de breedte moeten opmeten in millimeter. <br>
Ze lijsten hun meetresultaten op in respectievelijk tabel1, tabel2 en tabel3.<br>
Vervolgens representeren ze de bivariate gegevens met een puntenwolk. 

<div style='color: #690027;' markdown="1">
    <h3>2.1 Inlezen van de data</h3> 
</div>

Lees met de module pandas de datasets in.

In [None]:
tabel1 = pd.read_csv("../.data/IntroductieMachineLearning/datastandaard1.dat", header=None)  # in te lezen tabel heeft geen hoofding
tabel2 = pd.read_csv("../.data/IntroductieMachineLearning/datastandaard2.dat", header=None)  # in te lezen tabel heeft geen hoofding
tabel3 = pd.read_csv("../.data/IntroductieMachineLearning/datastandaard3.dat", header=None)  # in te lezen tabel heeft geen hoofding

<div style='color: #690027;' markdown="1">
    <h3>2.2 Tonen van de ingelezen data</h2> 
</div>

### Opdracht 2.2.1
Kijk de gegevens  van de drie tabellen in. 

### Opdracht 2.2.2
Geef de juiste instructie in om info te verkrijgen over de tweede tabel. <br>
- Wat zijn de namen van de kolommen?
- Hoeveel bloemblaadjes heeft Robbe opgemeten?

Antwoord:

<div style='color: #690027;' markdown="1">
    <h3>2.3 De data weergeven in puntenwolk</h3> 
</div>

In [None]:
# tabel1
x1 = tabel1[0]
y1 = tabel1[1]

plt.scatter(x1, y1, color="red", marker="o")

plt.title("Tabel1 Lotte")
plt.xlabel("breedte bloemblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(0, 45)
plt.ylim(0, 45)

plt.show()

In [None]:
# tabel2
x2 = tabel2[0]
y2 = tabel2[1]

plt.scatter(x2, y2, color="yellow", marker=">")   

plt.title("Tabel2 Robbe")
plt.xlabel("breedte bloemblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(0, 45)
plt.ylim(0, 45)

plt.show()

In [None]:
# tabel3
x3 = tabel3[0]
y3 = tabel3[1]

plt.scatter(x3, y3, color="lightblue", marker="<")    

plt.title("Tabel 3 Kato")
plt.xlabel("breedte bloemblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(0, 45)
plt.ylim(0, 45)

plt.show()

Bij welke tabel is er de beste samenhang?

Op het eerste gezicht bij tabel .......

<div style='color: #690027;' markdown="1">
    <h3>2.4 Correlatie</h3> 
</div>

Vergelijk de correlatiecoëfficiënten van de drie tabellen. Vul eerst de instructies in de code-cel aan.

In [None]:
print("R van de eerste tabel =",                  )
print("R van de tweede
print("R van de derde 

<div style='color: #690027;' markdown="1">
    <h3>2.5 Standaardiseren</h3> 
</div>

De gegevens kunnen maar vergeleken worden als ze gestandaardiseerd zijn. Je berekent daarvoor de *Z-score* van de gegevens: je trekt het gemiddelde af en je deelt vervolgens door de standaardafwijking. 

In [None]:
x1 = (x1-np.mean(x1))/np.std(x1)
y1 = (y1-np.mean(y1))/np.std(y1)
x2 = (x2-np.mean(x2))/np.std(x2)
y2 = (y2-np.mean(y2))/np.std(y2)
x3 = (x3-np.mean(x3))/np.std(x3)
y3 = (y3-np.mean(y3))/np.std(y3)

Je kunt nu de puntenwolken tekenen die corresponderen met deze aangepaste gegevens.

In [None]:
# gestandaardiseerde puntenwolk
plt.scatter(x1, y1, color="red", marker="o")      
plt.scatter(x2, y2, color="yellow", marker=">")
plt.scatter(x3, y3, color="lightblue", marker="<")

plt.title("Gestandaardiseerd")
plt.xlabel("breedte bloemblad (mm)")
plt.ylabel("lengte bloemblad (mm)")
plt.xlim(-2, 2)
plt.ylim(-2, 2)

plt.show()

De correlatie is nagenoeg dezelfde voor alle drie de tabellen. Na standaardisatie vallen de punten quasi samen.<br>

Meer uitleg over deze begrippen kan je vinden in de cursus 'Correlatie: exploratieve methoden: werktekst voor de leerling'. [1] 

<div class="alert alert-box alert-info">
De correlatie van meerdere datasets met elkaar vergelijken, gaat het best als je de gegevens eerst hebt gestandaardiseerd. Het standaardiseren heeft trouwens geen effect op de waarde van de correlatiecoëfficiënt.<br>De correlatie tussen <b>bivariate gegevens</b> bv. kan men visueel inschatten door de overeenkomstige <b>puntenwolk</b> te bekijken. De vorm hiervan is echter maar betrouwbaar als de gegevens gestandaardiseerd zijn. <br>
<b>Standaardiseren</b> van variabelen houdt in dat men de variabelen op zo'n manier herschaalt dat men variabelen van bv. een verschillende grootteorde of in een verschillende eenheid met elkaar kan vergelijken of in verband brengen. 
</div>

<div class="alert alert-box alert-info">
Na standaardisatie liggen de meeste waarden tussen 0 en 1, wat voordelig is voor het rekenen door de computer.<br>
Rekenen met vrij grote getallen leidt al snel tot nog grotere getallen en tot numerieke instabiliteit, dat is een bijkomende reden waarom de data worden gestandaardiseerd. <br>Ook zijn sommige algoritmes uit Machinaal Leren pas bruikbaar als de data gestandaardiseerd zijn, omdat die algoritmes zo opgesteld zijn.
</div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Callaert, H., Bekaert, H., Goethals, C., Provoost, L., & Vancaudenberg, M. (2012). Correlatie: exploratieve methoden: werktekst voor de leerling.<br> &nbsp; &nbsp; &nbsp; &nbsp; *Statistiek voor het secundair onderwijs.* Universiteit Hasselt. Geraadpleegd op 15 april 2019 via <br> &nbsp; &nbsp; &nbsp; &nbsp; https://www.uhasselt.be/documents/uhasselt@school/lesmateriaal/statistiek/Lesmateriaal/LEERLING%20Correlatie_02.pdf.<br>
[2] Callaert, H.,& Bogaerts, S. (2004). Statistische Intelligentie: de samenhang ontdekken: exploratie van bivariaat cijfermateriaal. Universiteit Hasselt. <br> &nbsp; &nbsp; &nbsp; &nbsp; Geraadpleegd op 15 april 2019 via https://docplayer.nl/32671814-Statistische-intelligentie.html.<br>
[3] Dua, D., & Karra Taniskidou, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. <br> &nbsp; &nbsp; &nbsp; &nbsp; Irvine, CA: University of California, School of Information and Computer Science.<br>
[4] Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. *Annals of Eugenics*. 7(2), 179–188. <br> &nbsp; &nbsp; &nbsp; &nbsp; https://doi.org/10.1111/j.1469-1809.1936.tb02137.x.

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">ai op school</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.