<img src="images/kiksmeisedwengougent.png" alt="Banner" width="1100">

<div>
    <font color=#690027 markdown="1">   
        <h1>REGRESSIE MET DATA OVER DE IRIS VIRGINICA</h1>
    </font>
</div>

<div class="alert alert-box alert-success">
In deze notebook bepaal je bij een gegeven verzameling van punten een <b>best passende rechte</b>, de zogenaamde <b>regressielijn</b>. De gegeven verzameling is een veelgebruikte dataset die gegevens bevat van drie soorten irissen.<br>
Om de regressielijn te bepalen gebruik je een functie van de module SciPy; de sterkte van de correlatie bepaal je met een functie van de module scikit-learn.<br>
    Aan de hand van deze regressielijn beschik je dan eigenlijk over een <b>AI-systeem</b> dat in staat is om uit een gegeven lengte van een kelkblad, de lengte van het kroonblad te voorspellen voor een bepaalde soort van iris.
</div>

<div class="alert alert-block alert-warning">
De basiskennis hiervoor vind je in het leerpad 'Lineaire regressie'.
    Omdat een niet-gestandaardiseerde dataset soms voor problemen kan zorgen (zoals je kon zien in de notebook over regressie bij het zeeniveau), zal je hier werken met de <b>gestandaardiseerde dataset</b>. 
</div>

<div class="alert alert-block alert-warning">
Lineaire regressie komt ook aan bod in de notebook 'Zeeniveau' en de notebook 'Hoogte bomen en afmetingen stomata in het Amazonewoud'.
</div>

<div class="alert alert-block alert-warning">
Meer uitleg over het belang van standaardiseren vind je in de notebook 'Standaardiseren'.
</div>

De Iris dataset werd in 1936 door de Brit Ronald Fischer gepubliceerd in 'The Use of Multiple Measurements in Taxonomic Problems' [1][2].<br> 
De dataset betreft drie soorten irissen (*Iris setosa*, *Iris virginica* en *Iris versicolor*), 50 monsters van elke soort.
Fischer kon de soorten van elkaar onderscheiden afgaande op vier kenmerken: de lengte en de breedte van de kelkbladen en de kroonbladen.

<img src="images/kelkbladkroonblad.jpg" alt="Drawing" width="400"/> <br>
<center>Figuur 1: Kelk- en kroonbladen.</center>

In deze notebook gebruik je enkel de gegevens over de lengte van de kelkblaadjes en de kroonblaadjes van de *Iris virginica*.

### Opdracht
Onderzoek de correlatie tussen de lengte van de kelkblaadjes en de kroonblaadjes van de *Iris virginica*. Bepaal een regressielijn en gebruik die om voorspellingen te doen betreffende nieuwe data.

### De nodige modules importeren

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from scipy.optimize import curve_fit    # voor regressie
from sklearn.metrics import r2_score    # correlatiecoëfficiënt
from sklearn.metrics import mean_squared_error  # methode van de kleinste kwadraten

<div>
    <font color=#690027 markdown="1">   
        <h2>1. De data van de <em>Iris virginica</em></h2> 
    </font>
</div>

<center><img src="images/irisvirginica.jpg" alt="Drawing" width="203"/></center><br>
<center>Figuur 2: <em>Iris virginica</em> [3].</center>

Lees met de module `pandas` de dataset in.

In [None]:
# dataset inlezen
virginica = pd.read_csv("data/virginica.csv")

Kijk de gegevens in. Dit kan zeer eenvoudig door de naam van de tabel in te geven. De lengte van enkele kelkblaadjes en van enkele bloemblaadjes worden weergegeven. Het aantal monsters is gemakkelijk af te lezen.

In [None]:
# dataset weergeven in tabel
virginica

Je zal nu de relatie tussen de lengte van het kelkblad en de lengte van het kroonblad bestuderen. <br> Daarvoor zet je de lengte van het kroonblad uit in functie van de lengte van het kelkblad. De lengte van het kroonblad komt dus op de y-as en de lengte van het kelkblad op de x-as.

In [None]:
x = virginica["lengte kelkblad"]       # naam kolom als index gebruiken
y = virginica["lengte kroonblad"]

Je zet de data om naar NumPy arrays.

In [None]:
x = np.array(x)
y = np.array(y)

<div>
    <font color=#690027 markdown="1">   
        <h2>2. De samenhang tussen beide kenmerken</h2>
    </font>
</div>

<div>
    <font color=#690027 markdown="1">   
        <h3>2.1 De data weergeven in puntenwolk</h3> 
    </font>
</div>

In [None]:
# lengte kroonblad t.o.v. lengte kelkblad
# lengte kelkblad komt op x-as, lengte kroonblad komt op y-as
plt.scatter(x, y, color="blue", marker="o")  # puntenwolk

plt.title("Iris virginica")
plt.xlabel("lengte kelkblad")          # xlabel geeft omschrijving op x-as
plt.ylabel("lengte kroonblad")         # ylabel geeft omschrijving op y-as

plt.show()

Welke soort van regressie is hier zinvol?

Antwoord:

<div>
    <font color=#690027 markdown="1">   
        <h3>2.2 Lineaire samenhang tussen x en y?</h3>  
    </font>
</div>

Je berekent de correlatiecoëfficiënt om te bekijken hoe sterk de lineaire samenhang tussen de twee kenmerken is.<br>

In [None]:
# in hoeverre is er een verband tussen de x- en y-coördinaat van deze punten? 
# correlatiecoëfficiënt bepalen (ligt tussen -1 en 1, hoe dichter bij 0, hoe slechter de lineaire samenhang)
r = np.corrcoef(x, y)[0,1]
print("R = ", r)

Wat besluit je over de samenhang?

Antwoord:

Je standaardiseert de gegevens, en geeft ze ook weer in een puntenwolk. Je past het bereik van de grafiek aan, zodat gedane voorspellingen erop getoond kunnen worden. <br>
Vervolgens wordt de regressielijn gezocht en erbij getekend.<br>
Met deze regressielijn wordt de lengte van een bloemblad voorspeld voor een gekende lengte van een kelkblad.

<div>
    <font color=#690027 markdown="1">   
        <h2>3. Data standaardiseren</h2>
    </font>
</div>

<div>
    <font color=#690027 markdown="1">   
        <h3>3.1 De data standaardiseren</h3> 
    </font>
</div>

Om te standaardiseren wordt er overgegaan op de Z-scores van de kenmerken.

In [None]:
x = (x - np.mean(x)) / np.std(x)
y = (y - np.mean(y)) / np.std(y)

<div>
    <font color=#690027 markdown="1">   
        <h3>3.2 Bereik grafiek aanpassen naar voorspellingen toe</h3> 
    </font>
</div>

In [None]:
plt.figure(figsize=(10,8))    # om een grotere grafiek te krijgen, zodat punten meer verspreid liggen
# bereik zo kiezen opdat geschikt voor grotere en kleinere blaadjes
plt.xlim(x.min()-2, x.max()+3)       # bereik x-as wordt automatisch aangepast aan kleinste en grootste x-waarde
plt.ylim(y.min()-2, y.max()+3)       # bereik y-as wordt automatisch aangepast aan kleinste en grootste y-waarde
plt.scatter(x, y, color="blue", marker="o")

plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          
plt.ylabel("lengte kroonblad")         

plt.show()

Let op het bereik van de x-as en de y-as.

<div>
    <font color=#690027 markdown="1">   
        <h2>4. Regressielijn</h2> 
    </font>
</div>

Bepaal de regressielijn zoals je leerde in het leerpad 'Lineaire regressie'. 

In [None]:
# regressielijn is rechte

# ingeven hoe vergelijking rechte is opgebouwd 
def rechte(x, a, b):
    """Voorschrift (schuine) rechte met variabele x en coëfficiënten a en b."""
    return a * x + b

# rechte zoeken die beste past bij bepaalde data, vergelijking tonen en coëfficiënten teruggeven
def linreg(x, y):
    """Rechte best passend bij data x en y."""
    popt, pcov = curve_fit(rechte, x, y)            # curve_fit() kijkt in def rechte() hoe functievoorschrift eruitziet
    # curve_fit() geeft twee zaken terug, waaraan gerefereerd wordt met popt en pcov
    # enkel eerste nodig, popt, die a en b van gezochte rechte geeft
    a, b = popt                                     # coëfficiënten
    print("y = ", a, "x +", b)                      # toon vergelijking regressielijn
    return a, b                                     # geeft coëfficiënten terug van vergelijking regressielijn

In [None]:
# coëfficiënten regressielijn bij gegeven punten
a, b = linreg(x, y)
print(a, b)

Hieruit lees je rechtstreeks de richtingscoëfficiënt van de regressielijn af, nl. de waarde van a,  en waar ze de y-as snijdt, nl. de waarde van b.

Je kan deze rechte tekenen met Python door een aantal punten van deze rechte met elkaar te laten verbinden.  

In [None]:
y_regressielijn = rechte(x, a, b)                   
# y_regressielijn verwijst naar lijst y-waarden van punten gelegen op regressielijn 
# om die y-waarden te berekenen wordt er vertrokken van gekende x-waarden
# die x-waarden worden ingevuld in uitdrukking a x + b
print(y_regressielijn)

Grafiek van puntenwolk en regressielijn laten zien:

In [None]:
# grafiek van puntenwolk en regressielijn
plt.figure(figsize=(10,8))

plt.xlim(x.min()-2, x.max()+3)
plt.ylim(y.min()-2, y.max()+3)
plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          # xlabel geeft omschrijving op x-as
plt.ylabel("lengte kroonblad")         # ylabel geeft omschrijving op y-as

plt.scatter(x, y, color="blue", marker="o")     # puntenwolk
plt.plot(x, y_regressielijn, color='green')   # gevonden regressielijn; x-waarden invullen in vergelijking ervan

plt.show()

R² en de gemiddelde kwadratische afwijking berekenen:

In [None]:
# belangrijke getallen
print("R² voor de regressielijn m.b.t. de data: %.3f" % r2_score(y, y_regressielijn))
print("Gemiddelde kwadratische afwijking voor de regressielijn m.b.t. de data: %.2f"% mean_squared_error(y, y_regressielijn))

Vergelijk deze $R^{2}$ met de correlatiecoëfficiënt. 

Antwoord:

<div class="alert alert-box alert-info">
Aan de hand van deze regressielijn beschik je eigenlijk over een AI-systeem dat in staat is om uit een gegeven lengte van een kelkblad de lengte van het kroonblad te voorspellen.<br> Voor dit systeem zal de <em>lengte van het kelkblad</em> als <b>input</b> dienen en de <em>lengte van het kroonblad</em> als <b>output</b>. Het AI-systeem werd ontwikkeld op basis van de bovenstaande dataset.
</div>

<div>
    <font color=#690027 markdown="1">   
        <h2>5. Voorspellingen doen met het AI-systeem</h2> 
    </font>
</div>

Om te benadrukken dat de regressielijn dient om voorspellingen te doen, teken je ze langer op de grafiek.<br>
Je laat de gestandaardiseerde lengte van het kroonblad voorspellen voor een kelkblad van gestandaardiseerde lengte 3.

In [None]:
# lengte kroonblad voorspellen bij gekende lengte kelkblad
x_gekend = 3                          # kelkblad met gestandaardiseerde lengte gelijk aan 3
y_voorspeld = rechte(x_gekend, a, b)  # gestandaardiseerde lengte kroonblad bepalen a.d.h.v. model

# grafiek
plt.figure(figsize=(10,8))

x_nieuw =  np.linspace(-4, 4, 67)      # rechte langer tekenen
y_voorspeld_nieuw = rechte(x_nieuw, a, b)

plt.xlim(x.min()-2, x.max()+3)
plt.ylim(y.min()-2, y.max()+3)
plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          
plt.ylabel("lengte kroonblad")         

plt.scatter(x, y, color="blue", marker="o")     # puntenwolk
plt.plot(x, y_regressielijn, color="green")     # gevonden regressielijn
plt.plot(x_nieuw, y_voorspeld_nieuw, color="yellow")   # gevonden regressielijn verlengd
plt.plot(x_gekend, y_voorspeld, color="black", marker="o")  # voorspelde punt

plt.show()

print("Bij een kelkblad met gestandaardiseerde lengte " + str(x_gekend) + 
      " is de gestandaardiseerde lengte van het kroonblad bij benadering " + str(y_voorspeld) + ".")

### Opdracht 5.1
Probeer eens hetzelfde met een andere afmeting voor het kelkblad.

<div class="alert alert-block alert-info">
De vergelijking van een rechte die het best past bij een dataset, kan je ook vinden a.d.h.v. wiskundige formules. Daarvoor gebruik je de methode van de kleinste kwadraten. 
</div>

<div class="alert alert-box alert-warning">
Om een rechte te vinden die goed bij de gegeven data past, kan een ML-systeem vertrekken van een willekeurig gekozen rechte. Dit gebeurt door de richtingscoëfficiënt en het snijpunt met de y-as van deze rechte willekeurig te kiezen.<br>  
Het systeem wordt <em>getraind</em> met de trainingset (de inputs en de corresponderende outputs): voor elk punt van de trainingset wordt nagegaan hoeveel de corresponderende y-waarde op de voorlopige rechte afwijkt van de gegeven y-waarde. De coëfficiënten in de vergelijking van de rechte worden aangepast, zodat de gemiddelde kwadratische afwijking voor de hele dataset minimaal is. <br> Je kan deze ML-techniek bestuderen in de <em>volgende notebook</em>. 
<div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Dua, D., & Karra Taniskidou, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. <br> &nbsp; &nbsp; &nbsp; &nbsp; Irvine, CA: University of California, School of Information and Computer Sciences.<br>
[2] Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. *Annals of Eugenics*. 7(2), 179–188. <br> &nbsp; &nbsp; &nbsp; &nbsp; https://doi.org/10.1111/j.1469-1809.1936.tb02137.x<br>
[3] No machine-readable author provided. Dlanglois assumed (based on copyright claims). <br> &nbsp; &nbsp; &nbsp; &nbsp;
[CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/)], via Wikimedia Commons.

<div>
    <h2>Met steun van</h2> 
</div>

<img src="images/kikssteun.png" alt="Banner" width="1100"/>

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">AI Op School</a>, van F. wyffels & N. Gesquière, is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.