<img src="../.images/logosnb.png" alt="Banner" style="width: 800px;"/>

<div style='color: #690027;' markdown="1">
    <h1>REGRESSIE MET DATA OVER DE IRIS VIRGINICA</h1> 
</div>

<div class="alert alert-box alert-success">
In deze notebook zie je hoe een <em>machinaal leren</em>-systeem erin slaagt een <b>best passende rechte</b> te vinden bij een gegeven verzameling van punten. Het algoritme vertrekt daarbij van een willekeurig gekozen rechte. Het algortime past de coëfficiënten in de vergelijking van deze rechte aan, gebaseerd op de gegeven data, totdat uiteindelijk de <b>regressielijn</b> wordt bekomen.
</div>

De Iris dataset werd in 1936 door de Brit Ronald Fischer gepubliceerd in 'The use of multiple measurements in taxonomic problems' [1][2].<br> 
De dataset betreft drie soorten irissen (*Iris setosa*, *Iris virginica* en *Iris versicolor*), 50 monsters van elke soort.
Fischer kon de soorten van elkaar onderscheiden afgaande op vier kenmerken: de lengte en de breedte van de kelkbladen en de bloembladen.

<img src="../.images/IntroductieMachineLearning/bloemblad_kelkblad.jpg" alt="Drawing" style="width: 400px;"/> 

In deze notebook gebruik je enkel de gegevens over de lengte van de kelkblaadjes en de bloemblaadjes van de *Iris virginica*.

### De nodige modules importeren

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from matplotlib import animation
from IPython.display import HTML

<div style='color: #690027;' markdown="1">
    <h2>1. De data van de <em>Iris virginica</em></h2> 
</div>

<center><img src="../.images/IntroductieMachineLearning/Iris_virginica.jpg" alt="Drawing" style="width: 203px;"/></center>
<center>Figuur 1: *Iris virginica* [3]</center>

Lees met de module `pandas` de dataset in.

In [None]:
# dataset inlezen
virginica = pd.read_csv("../.data/IntroductieMachineLearning/virginica.dat")

Kijk de gegevens in. Dit kan zeer eenvoudig door de naam van de tabel in te geven. De lengte van enkele kelkblaadjes en van enkele bloemblaadjes worden weergegeven. Het aantal monsters is gemakkelijk af te lezen.

In [None]:
# dataset weergeven in tabel
virginica

De relatie tussen de lengte van het kelkblad en de lengte van het bloemblad wordt bestudeerd. <br> Daarvoor wordt de lengte van het bloemblad uitgezet in functie van de lengte van het kelkblad. De lengte van het bloemblad komt dus op de y-as en de lengte van het kelkblad op de x-as.

<div class="alert alert-box alert-info">
Voor het machinaal leren-systeem zal de <em>lengte van het kelkblad</em> als <b>input</b> dienen en de <em>lengte van het bloemblad</em> als <b>output</b>.
</div>

In [None]:
x = virginica["lengte kelkblad"]       # naam kolom als index gebruiken
y = virginica["lengte bloemblad"]

We zetten de data om naar NumPy arrays.

In [None]:
x = np.array(x)
y = np.array(y)

<div style='color: #690027;' markdown="1">
    <h2>2. De samenhang tussen beide kenmerken visualiseren via een regressielijn</h2> 
</div>

We standaardiseren de gegevens en geven ze weer in een puntenwolk. We berekenen de correlatiecoëfficiënt om te bekijken hoe sterk de samenhang tussen de twee kenmerken is.<br>
Vervolgens wordt de regressielijn gezocht en getekend.<br>
Met deze regressielijn wordt de lengte van een bloemblad voorspeld voor een gekende lengte van een kelkblad.

<div style='color: #690027;' markdown="1">
    <h3>2.1 De data standaardiseren</h3> 
</div>

Om te standaardiseren wordt er overgegaan op de Z-scores van de kenmerken.<br>
Voor meer uitleg over het belang van standaardiseren verwijzen we naar de notebook 'Standaardiseren'.

In [None]:
x = (x-np.mean(x))/np.std(x)
y = (y-np.mean(y))/np.std(y)

<div style='color: #690027;' markdown="1">
    <h3>2.2 De gestandaardiseerde data weergeven in puntenwolk</h3> 
</div>

In [None]:
# lengte bloemblad t.o.v. lengte kelkblad
# lengte kelkblad komt op x-as, lengte bloemblad komt op y-as
plt.scatter(x, y, color="blue", marker="o")  # puntenwolk

plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          # xlabel geeft een omschrijving op de x-as
plt.ylabel("lengte bloemblad")         # ylabel geeft een omschrijving op de y-as

plt.show()

In [None]:
plt.figure(figsize=(10,8))    # om een grotere grafiek te krijgen, zodat punten meer verspreid liggen
# bereik zo kiezen opdat geschikt voor grotere en kleinere blaadjes
plt.xlim(x.min()-2, x.max()+3)
plt.ylim(y.min()-2, y.max()+3)
plt.scatter(x, y, color="blue", marker="o")

plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          
plt.ylabel("lengte bloemblad")         

plt.show()

<div style='color: #690027;' markdown="1">
    <h3>2.3 Samenhang tussen x en y?</h3> 
</div>


In [None]:
# in hoeverre is er een verband tussen de x- en y- coördinaat van deze punten? 
# correlatiecoefficiënt bepalen (ligt tussen -1 en 1, hoe dichter bij 0, hoe slechter de samenhang)
r = np.corrcoef(x, y)[0,1]
print("R = ", r)

Zeer goede samenhang!

<div style='color: #690027;' markdown="1">
    <h3>2.4 Regressielijn</h3> 
</div>

Bepaal de regressielijn met ingebouwde functies van de module scikit-learn, een Python-module met machine learning algoritmes. <br> Om zo'n algoritme te kunnen gebruiken, moet de *data in het gewenste formaat* worden aangeboden. Voor de y-waarden volstaat een 1D-array, maar voor de x-waarden moet de 1D-array worden omgezet naat een 2D-array.

In [None]:
# lineaire regressie
X = x[:, np.newaxis]          # data in gewenste formaat aanbieden aan ML-systeem
rechte = LinearRegression()   # rechte wordt bepaald met lineaire regressie
rechte.fit(X, y)              # deze rechte moet passen bij data (X,y)

R² en de gemiddelde kwadratische afwijking berekenen:

In [None]:
# belangrijke getallen
print("R² voor de rechte m.b.t. de data: %.3f" % r2_score(y, rechte.predict(X)))
print("Gemiddelde kwadratische afwijking voor de rechte m.b.t. de data: %.2f"% mean_squared_error(y, rechte.predict(X)))

Grafiek van puntenwolk en regressielijn laten zien:

In [None]:
# grafiek van puntenwolk en regressielijn
plt.figure(figsize=(10,8))
plt.xlim(x.min()-2, x.max()+3)
plt.ylim(y.min()-2, y.max()+3)
plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          # xlabel geeft een omschrijving op de x-as
plt.ylabel("lengte bloemblad")         # ylabel geeft een omschrijving op de y-as

plt.scatter(x, y, color="blue", marker="o")     # puntenwolk
plt.plot(x, rechte.predict(X), color='green')   # gevonden regressielijn

plt.show()

Uit het model kan je rechtstreeks de richtingscoëfficiënt van de regressielijn bepalen en waar ze de y-as snijdt.

In [None]:
# berekenen rico en doorgang y-as
x_O = np.array([0])
X_O = x_O[:, np.newaxis]     # data aanbieden in gewenste formaat
y_O_predict = rechte.predict(X_O)
x_1 = np.array([1])
X_1 = x_1[:, np.newaxis]     # data aanbieden in gewenste formaat
y_1_predict = rechte.predict(X_1)
print("De regressielijn snijdt de y-as in: %.3f" % y_O_predict)
print("De regressielijn heeft als rico: %.3f" % (y_1_predict - y_O_predict))

<div style='color: #690027;' markdown="1">
    <h3>2.5 Voorspellingen doen met het model</h3> 
</div>

Je kan met het model gebruiken voorspellingen doen bij nieuwe data: bv. de lengte van het bloemblad voorspellen als je de lengte van een kelkblad kent.

In [None]:
# lengte bloemblad voorspellen bij gekende lengte kelkblad
x_gekend = np.array([3])               # kelkblad met gestandaardiseerde lengte gelijk aan 3
X_gekend = x_gekend[:, np.newaxis]     # data aanbieden in gewenste formaat
y_predict = rechte.predict(X_gekend)   # lengte bloemblad bepalen met model

plt.figure(figsize=(10,8))
plt.xlim(x.min()-2, x.max()+3)
plt.ylim(y.min()-2, y.max()+3)
plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          
plt.ylabel("lengte bloemblad")         

x_nieuw =  np.linspace(-4, 4, 67)      # rechte langer tekenen
X_nieuw = x_nieuw[:, np.newaxis]       # gewenste formaat

plt.scatter(x, y, color="blue", marker="o")     # puntenwolk
plt.plot(x, rechte.predict(X), color='green')   # gevonden regressielijn
plt.plot(x_nieuw, rechte.predict(X_nieuw), color='yellow')   # gevonden regressielijn verlengd
plt.plot(x_gekend[0], y_predict[0], color = "black", marker = "o")  # voorspelde punt

plt.show()

print("Bij een kelkblad met gestandaardiseerde lengte " + str(x_gekend[0]) + 
      " is de gestandaardiseerde lengte van het bloemblad bij benadering " + str(y_predict[0]) + ".")

Probeer eens hetzelfde met een andere afmeting voor het kelkblad.

<div style='color: #690027;' markdown="1">
    <h2>3. Stap voor stap op zoek naar de regressielijn</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>3.1 Opbouw van het algoritme</h3> 
</div>

Zo'n regressielijn wordt gezocht met een algoritme. Hier zie je hoe zo'n algoritme is opgebouwd.  

Er wordt nog steeds met dezelfde gestandaardiseerde data x en y gewerkt. 

<div class="alert alert-box alert-info">
Om een rechte te vinden die goed bij de gegeven data past, vertrekt het ML-systeem van een willekeurig gekozen rechte. Dit gebeurt door de richtingscoëfficiënt en het snijpunt met de y-as van deze rechte willekeurig te kiezen.<br>  
Het systeem wordt *getraind* met de trainingset (de inputs en de corresponderende outputs): Voor elk punt van de trainingset wordt nagegaan hoeveel de corresponderende y-waarde op de voorlopige rechte afwijkt van de gegeven y-waarde. De coëfficiënten in de vergelijking van de rechte worden aangepast zodat de gemiddelde afwijking voor de hele datset minimaal is. <br>
De volledige trainingset wordt een aantal keer doorlopen. Zo'n keer noemt men een *epoch*. Het systeem *leert* gedurende deze *pogingen ('epochs')*.
</div>

In [None]:
# trainingset met input x en output y
print(x, y)

Het systeem moet de gemiddelde kwadratische afwijking kunnen berekenen van de datapunten tot de bepaalde rechte.<br>Daartoe wordt voor elk punt het residu $y-\hat{y}$ berekend. Hierbij is $y$ de gegeven y-waarde en $\hat{y}$ de voorspelde waarde, nl. de waarde die men bekomt door de gegeven x-waarde in te vullen in de vergelijking van de rechte.<br> De kwadraten van de residu's worden bij elkaar opgeteld. Deze som gedeeld door het aantal datapunten is de gezochte fout. 

In [None]:
def gka(b, a, x, y):
    """Gemiddelde kwadratische afwijking berekenen van punten tot rechte."""
    
    totale_afw = 0
    n = len(x)            # aantal punten
    y_rechte = a * x + b  # y-waarden voor een bepaalde rechte
    
    # som kwadratische afwijkingen bij alle punten
    for i in range(n):
        totale_afw += (y[i] - y_rechte[i]) ** 2  
    
    return totale_afw/50

Als voorbeeld kan je de gemiddelde kwadratische afwijking laten berekenen t.o.v. de x-as:

In [None]:
# gemiddelde kwadratische afwijking van de tariningdata t.o.v. de rechte y = 0
fout = gka(0,0,x,y)
print(fout)

<div class="alert alert-box alert-info">
Het ML-systeem vertrekt van een willekeurige rechte met vergelijking *y = mx + q*. Bij het begin van de training worden *m* en *q* gekozen. Ook het aantal *epochs* en de *learning rate* $\eta$ worden vastgelegd.
</div>

Het algoritme zal de coëfficiënten van de rechte zo bepalen dat de fout geminimaliseerd wordt. Het doet dat met de methode **gradient descent**.<br>
Na elke *epoch* worden de coëfficiënten aangepast, afhankelijk van de waarden van de partiële afgeleiden en de *learning rate*.

In [None]:
def gradient_descent(q, m, x, y, eta):
    """Aanpassing parameters q en m na voltooide epoch met learning rate eta."""
    
    n = len(x)
    y_huidig = m * x + q      # gevonden rechte op bepaald moment in proces
    afgeleide_m = 0           # partiële afgeleide naar m declareren en initialiseren
    afgeleide_q = 0           # partiële afgeleide naar q declareren en initialiseren
    
    # berekenen van de partiële afgeleiden
    for i in range(n):
        afgeleide_m += - (2/n) * x[i] * (y[i] - y_huidig[i])
        afgeleide_q += - (2/n) * (y[i] - y_huidig[i])
    
    # waarden van m en q aanpassen
    m = m - eta * afgeleide_m
    q = q - eta * afgeleide_q
     
    # aangepaste waarden van m en q teruggeven
    return q, m

<div style='color: #690027;' markdown="1">
    <h3>3.2 Uittesten van het algoritme van gradient descent voor meerdere epochs</h3> 
</div>

Neem 0 als initiële waarde voor m en voor q. Voer gradient descent uit voor 3000 epochs met learning rate 0,01 en waarbij de aanpassingen van $m$ en $q$ en de fout na elke *epoch* wordt getoond. 

In [None]:
# algoritme testen
q=0
m=0
eta = 0.01

for j in range(3000):
    fout = gka(q,m,x,y)                    # gemiddelde kwadratische afwijking berekenen na elke epoch
    print(q, m, fout)                      # waarden q, m en fout tonen na elke epoch
    q, m = gradient_descent(q,m,x,y,eta)   # waarden q en m aanpassen na elke epoch 
    
print("De rechte snijdt de y-as in: %.3f" % q)
print("De rechte heeft als rico: %.3f" % m)
print("Gemiddelde kwadratische afwijking voor de rechte m.b.t. de data: %.2f"% fout)

In het voorbeeld zie je dat het aantal epochs mee zal bepalen hoe nauwkeurig de regressielijn wordt bepaald. De rechte die men heeft gevonden na bv. 50 epochs ligt nog zeer ver van de beoogde regressielijn. Kijk ook hoe de fout verloopt, zolang deze blijft dalen is ze nog niet geminimaliseerd, het systeem *underfit* dan.<br>
Je ziet in het voorbeeld ook dat er te veel epochs zijn, op een gegeven moment neemt de fout niet meer af en worden de waarden niet meer aangepast. Dat betekent dat het minimum is bereikt.<br>

Je kan ook de *learning rate* eens aanpassen of de initiële waarden van m en q en kijken wat dit als effect heeft.

<div style='color: #690027;' markdown="1">
    <h3>3.3 Hoe verandert de fout en de stand van de rechte gedurende het proces?</h3> 
</div>

Het proces om de regressielijn te bepalen bij gegeven data (x,y) hangt af van de startwaarden van m en q, van de *learning rate* (eta) en het aantal keer dat de data worden doorlopen (epochs). <br>
Om de evolutie van de stand van de rechte en van de grootte van de fout te bekijken, moeten gaandeweg het proces de waarden van m, q en de fout na elke epoch worden opgeslagen.<br>
Er worden daarvoor drie lijsten aangemaakt die na elke epoch worden aangevuld.

In [None]:
def gradient_descent_proces(x, y, q, m, eta, epochs):
    """Proces doorlopen en gaandeweg ijsten maken van q, m en fout."""
    lijst_fout = [gka(q, m, x, y)]      # foutenlijst declareren en initialiseren
    lijst_q = [q]                       # lijst van q's declareren en initialiseren
    lijst_m = [m]                       # lijst van rico's declareren en initialiseren

    # Voor elke epoch lijsten aanvullen
    for i in range(epochs):
        q, m = gradient_descent(q, m, x, y, eta)    # aangepaste parameters na epoch
        fout = gka(q, m, x, y)                      # kost na epoch 
        lijst_q.append(q)                           # aangepaste q toevoegen
        lijst_m.append(m)                           # aangepaste m toevoegen
        lijst_fout.append(fout)                     # deze kost toevoegen

    return [lijst_q, lijst_m, lijst_fout]

Dit algoritme doorlopen voor gekozen *m*, *q*, *epochs* en *learning rate*:

In [None]:
# initialisatie van m en q
m = 0
q = 0

# vastleggen van aantal epochs en learning rate èta
eta = 0.01 
epochs = 500 

# algoritme lineaire regressie doorlopen voor keuze m, q, èta en epochs
lijst_q, lijst_m, lijst_fout = gradient_descent_proces(x, y, q, m, eta, epochs)

# regressielijn
print ("Doorgang y-as: %.3f" % lijst_q[-1])
print ("Rico: %.3f" % lijst_m[-1])

# gemiddelde kwadratische afwijking regressielijn
print ("Geminimaliseerde fout: %.2f" %  lijst_fout[-1])

Voor dit proces een animatie maken:

In [None]:
# alle rechten
xcoord =  np.linspace(-4, 4, 67) 

ycoord = []
for j in range(epochs):
    y_r = lijst_m[j] * xcoord + lijst_q[j]         # y-waarde berekenen van alle x'n uit xcoord voor betreffende rechte
    ycoord.append(y_r)
ycoord = np.array(ycoord)    # type casting

# plot-venster initialiseren
fig, ax = plt.subplots()
line, = ax.plot(xcoord, ycoord[0], color="green")   # rechte plotten
plt.scatter(x, y, color="blue", marker="o")         # puntenwolk
ax.axis([x.min()-2,x.max()+3,y.min()-2,y.max()+3])  # bereik assen
plt.title("Iris virginica gestandaardiseerd")
plt.xlabel("lengte kelkblad")          # xlabel geeft een omschrijving op de x-as
plt.ylabel("lengte bloemblad")         # ylabel geeft een omschrijving op de y-as


def animate(i):
    line.set_ydata(ycoord[i])    # update de vergelijking van de rechte  
    return line,

plt.close()  # om voorlopig plot-venster te sluiten, enkel animatiescherm nodig

anim = animation.FuncAnimation(
    fig, animate, repeat=False, frames=len(ycoord))
    
HTML(anim.to_jshtml())

In [None]:
# grafiek evolutie fout
plt.figure(figsize=(10,8))
plt.plot(lijst_fout)
plt.xlabel('epoch')
plt.ylabel('gemiddelde kwadratische afwijking')
plt.title('Evolutie van de fout')
plt.show()

Experimenteer nu zelf. Laat het algoritme doorlopen voor zelfgekozen *m*, *q*, *epochs* en *learning rate*.

<div class="alert alert-block alert-warning">
Lineaire regressie komt ook aan bod in de notebook 'Zeeniveau' en de notebook 'Hoogte bomen en afmetingen stomata in het Amazonewoud'.
</div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Dua, D., & Karra Taniskidou, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. <br> &nbsp; &nbsp; &nbsp; &nbsp; Irvine, CA: University of California, School of Information and Computer Science.<br>
[2] Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. *Annals of Eugenics*. 7(2), 179–188. <br> &nbsp; &nbsp; &nbsp; &nbsp; https://doi.org/10.1111/j.1469-1809.1936.tb02137.x.<br>
[3] No machine-readable author provided. Dlanglois assumed (based on copyright claims). <br> &nbsp; &nbsp; &nbsp; &nbsp;
[CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/)], via Wikimedia Commons

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">ai op school</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.