<img src="../.images/logosnb.png" alt="Banner" style="width:800px;"/>

<div style='color: #690027;' markdown="1">
    <h1>HOOGTE BOMEN EN AFMETINGEN STOMATA IN HET AMAZONEWOUD</h1> 
</div>

<div class="alert alert-box alert-success">
Onderzoekers uit Brazilië onderzochten met lineaire regressie of er een verband is tussen het aantal huidmondjes op bladeren in de kruin van een boom en de hoogte van de boom. In deze notebook ga je met hun data aan de slag en pas je er zelf lineaire regressie op toe. Je kan tot slot jouw resultaten vergelijken met die van de wetenschappers. 
</div>

<div class="alert alert-block alert-warning">
In de notebook 'Regressie met de Iris virginica' vind je meer uitleg over lineaire regressie.
</div>

Paleoklimatologen hebben aangetoond dat er een verband is tussen het aantal en de grootte van stomata op bladeren en het CO<sub>2</sub>-gehalte in de atmosfeer toen deze planten groeiden.<br>
Vandaag de dag wordt er wereldwijd door wetenschappers onderzoek gedaan naar de huidmondjes op bladeren van nu. <br> Bij sommige planten ontdekte men verschillen in de stomata van bladeren ontsproten in lente tegenover die in de zomer. Bij andere planten stelde men verschillen vast tussen bladeren in de kruin van een plant en de beschaduwde bladeren onderaan in de plant.<br>
Vast staat dat het aantal en de grootte van de huidmondjes onderhevig is aan omgevingsfactoren.<br> <br>
De onderzoekers Camargo en Marenco uit Brazilië vroegen zich het volgende af:<br>
**Is er een verband tussen het aantal huidmondjes op bladeren in de kruin van een boom en de hoogte van de boom?**<br>
Om dit te onderzoeken gebruikten ze data verzameld in het Amazonewoud [1].

### Nodige modules importeren

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

In [None]:
amazone = pd.read_csv("../.data/IntroductieMachineLearning/amazone.dat")  

<div style='color: #690027;' markdown="1">
    <h2>2. Tonen van de ingelezen data</h2> 
</div>

In [None]:
# dataset weergeven in tabel
amazone

<div style='color: #690027;' markdown="1">
    <h2>3. De samenhang tussen de data nagaan via de correlatiecoëfficiënt</h2> 
</div>

Meer uitleg over de correlatiecoëfficiënt vind je in de notebook 'Standaardiseren'.

Beschouw elk kenmerk.

In [None]:
x1 = amazone["stomatale dichtheid"] 
x2 = amazone["lengte stomata"]
x3 = amazone["hoogte boom"]    

Bepaal de correlatiecoëfficiënt R voor twee kenmerken uit de tabel. Is er een sterke, matige of zwakke samenhang tussen de kenmerken?

In [None]:
# in hoeverre is er verband tussen lengte en dichtheid van de stomata?
# correlatiecoefficiênt R bepalen (ligt tussen -1 en 1, hoe dichter bij 0, hoe slechter de samenhang)
np.corrcoef(x2, x1)[0,1]

Matige samenhang!

<div class="alert alert-box alert-success">
Er is een gekend verband tussen de dichtheid van de huidmondjes en de grootte ervan. Het verband is echter niet lineair maar kan het best weergegeven worden door een kromme.  
</div>

In [None]:
# in hoeverre is er verband tussen hoogte van boom en dichtheid van stomata? 
np.corrcoef(x3, x1)[0,1]

Er is een zwakke samenhang tussen de hoogte van boom en de stomatale dichtheid!

In [None]:
# in hoeverre is er verband tussen hoogte van boom en lengte van stomata? 
np.corrcoef(x3, x2)[0,1]

Heel, heel zwakke samenhang!

<div style='color: #690027;' markdown="1">
    <h2>4. Regressielijn voor verband stomatale dichtheid en hoogte boom</h2> 
</div>

Camargo en Marenco bepaalden met Excel de regressielijn die de, weliswaar zwakke, samenhang tussen de stomatale dichtheid en de hoogte van de boom visualiseert. Ze hanteerden de rechte die de stomatale dichtheid uitzet in functie van de hoogte van de boom. Gebruikmakend van de gegeven data kan je dit zelf met de ingebouwde algoritmes van de Python-module scikit-learn doen en je resultaat met dat van hen vergelijken.<br>
Nadien doe je nog eens hetzelfde maar dan volgens de methode die gehanteerd wordt door computerwetenschappers.

Je zal hier werken met de data opgeslagen in x1 en x3 (x1 bevat de stomatale dichtheden en x3 de hoogtes van de bomen). Bij de grafische voorstelling komt x3 op de y-as en x1 op de x-as.

Voor beide methodes geldt dat de data worden gestandaardiseerd. Meer uitleg over het belang van standaardiseren vind je in de notebook 'Standaardiseren'.

We zullen voor beide methodes werken met NumPy arrays om alle functionaliteiten van NumPy te kunnen gebruiken.

<div style='color: #690027;' markdown="1">
    <h3>4.1 Methode van de Braziliaanse onderzoekers (dezelfde methode als in de wiskundeles)</h3> 
</div>

In [None]:
x1 = np.array(x1) 
x3 = np.array(x3) 
print(x1, x3)

Om vanuit de gestandaardiseerde variabelen te kunnen terugkeren naar de oorspronkelijke sla je het gemiddelde en de standaardafwijking van de variabelen op, zodat je er verder in de notebook gebruik kunt van maken.

In [None]:
# gemiddelde en standaardafwijking van de variabelen opslaan voor gebruik verder in de notebook
x1_gem = np.mean(x1)
x1_std = np.std(x1)
x3_gem = np.mean(x3)
x3_std = np.std(x3)

De methode werkt als volgt: eerst de data standaardiseren, dan de data omzetten naar het gewenste formaat, de regressielijn bepalen en samen met de puntenwolk weergeven op een grafiek.

In [None]:
# data standaardiseren
x1 = (x1 - np.mean(x1)) / np.std(x1)   # stomatale dichtheid
x3 = (x3 - np.mean(x3)) / np.std(x3)   # hoogte boom

# gewenste formaat en standaardnotatie voor regressie met scikit-learn
X = x3[:, np.newaxis]    # x3 fungeert als input
y= x1                    # x1 fungeert als output

In [None]:
# lineaire regressie
rechte = LinearRegression()
rechte.fit(X, y)

# metrics
print("R² voor de rechte: %.3f" % r2_score(x1, rechte.predict(X)))
print("Gemiddelde kwadratische afwijking voor de rechte: %.2f"% mean_squared_error(x1, rechte.predict(X)))

### Grafiek

In [None]:
# grafische voorstelling
plt.figure(figsize=(10, 8))

plt.xlim(x3.min()-0.5, x3.max()+0.5)
plt.ylim(x1.min()-0.5, x1.max()+0.5)
plt.title("Amazonewoud")
plt.xlabel("hoogte boom (gestandaardiseerd)")
plt.ylabel("stomatale dichtheid in mm² (gestandaardiseerd)")

plt.scatter(x3, x1, color="blue", marker="o")
plt.plot(x3, rechte.predict(X), color="green")

plt.show()

In [None]:
# vergelijking van de rechte met gestandaardiseerde variabelen
print("De vergelijking van de rechte: y =", rechte.coef_[0], "x +", rechte.intercept_)

### Resultaat vergelijken met dat van de wetenschappers

Vergelijk de vergelijking van de regressielijn met die van de wetenschappers. Je zal daarvoor vanuit de gestandaardiseerde variabelen moeten terugkeren naar de oorspronkelijke. Let erop dat je daarvoor het oorspronkelijke gemiddelde en de oorspronkelijke standaardafwijking gebruikt. 

In [None]:
# vergelijking van de rechte zonder standaardisatie
print("De vergelijking van de rechte: y =", 
      rechte.coef_[0]*x1_std/x3_std, "x +", rechte.intercept_ * x1_std + x1_gem - rechte.coef_[0] * x3_gem  *x1_std/x3_std)

Deze vergelijking komt overeen met de resultaten van de Braziliaanse onderzoekers. Ook R² komt overeen (R² is onafhankelijk van de standaardisatie).

<div style='color: #690027;' markdown="1">
    <h3>4.2 Methode uit machinaal leren (met trainingdata en testdata)</h3> 
</div>

<div class="alert alert-box alert-info">
Binnen machinaal leren gaat men als volgt te werk: de data worden opgesplitst in trainingdata en testdata.<br> *De trainingdata worden gebruikt om een wiskundig model op te stellen. <br>Met de testdata wordt nagegaan of het model goed presteert op nieuwe data.*<br>
Om te kijken hoe goed het model presteert wordt de gemiddelde kwadratische afwijking berekend.
</div>

In [None]:
# oorspronkelijke data
x1 = amazone["stomatale dichtheid"]   
x3 = amazone["hoogte boom"] 
x1 = np.array(x1) 
x3 = np.array(x3) 

# trainingdata
x_train = x3[0:29]
y_train = x1[0:29]

# testdata
x_test = x3[29:]
y_test = x1[29:]

De training- en testdata worden als volgt **gestandaardiseerd**: van elke gegeven uit de trainingdata wordt het gemiddelde van de trainingdata afgetrokken en vervolgens wordt het resultaat gedeeld door de standaardafwijking van de trainingdata. <br> 
De volledige dataset wordt op dezelfde manier gestandaardiseerd. Men doet dus net hetzelfde met de testdata: men gebruikt er ook het gemiddelde en de standaardafwijking van de **trainingdata**. 

In [None]:
# standaardiseren

# gemiddelde en standaardawijking van de trainingdata bepalen
x_train_gem = np.mean(x_train)
x_train_std = np.std(x_train)
y_train_gem = np.mean(y_train)
y_train_std = np.std(y_train)

# trainingdata standaardiseren
x_train = (x_train - x_train_gem) / x_train_std
y_train = (y_train - y_train_gem) / y_train_std

# gewenste formaat
X_train = x_train[:, np.newaxis]

# testdata standaardiseren
x_test = (x_test - x_train_gem) / x_train_std
y_test = (y_test - y_train_gem) / y_train_std

# gewenste formaat
X_test = x_test[:, np.newaxis]

In [None]:
# lineaire regressie
rechte = LinearRegression()
rechte.fit(X_train, y_train)     # regressielijn bepalen a.h.v. de trainingdata

# gemiddelde kwadratische afwijking t.o.v. de trainingdata
print("Gemiddelde kwadratische afwijking voor de rechte m.b.t. de trainingdata: %.2f"% mean_squared_error(y_train, rechte.predict(X_train)))

# gemiddelde kwadratische afwijking t.o.v. de testdata (generalisatie)
print("Gemiddelde kwadratische afwijking voor de rechte m.b.t. de testdata: %.2f"% mean_squared_error(y_test, rechte.predict(X_test)))

### Grafiek

In [None]:
# bereik inschatten
x_train.min(), x_train.max(), x_test.min(), x_test.max(), y_train.min(), y_train.max(), y_test.min(), y_test.max()

In [None]:
# grafische voorstelling
plt.figure(figsize=(10, 8))

plt.xlim(x_train.min()-2, x_train.max()+2)
plt.ylim(y_train.min()-2, y_test.max()+2)
plt.title("Amazonewoud")
plt.xlabel("hoogte boom (gestandaardiseerd)")
plt.ylabel("stomatale dichtheid in mm² (gestandaardiseerd)")

plt.scatter(X_train, y_train, color="green", marker="o")
plt.plot(X_train, rechte.predict(X_train), color="red")

# testdata
plt.scatter(X_test, y_test, color="blue", marker="o")

# controle vergelijking rechte 
print("rico: %.3f" % rechte.coef_[0])
print("y-intercept: %.3f" % rechte.intercept_)
x_nieuw = np.linspace(-3, 4, 40)
y_rechte = rechte.coef_[0]* x_nieuw + rechte.intercept_
plt.plot(x_nieuw, y_rechte, color="yellow", linestyle="dashed")

plt.show()

Interpretatie: 
Gemiddelde kwadratische afwijking voor de rechte m.b.t. de trainingdata is 0,93.
Gemiddelde kwadratische afwijking voor de rechte m.b.t. de testdata is 2,78. Deze fout is groter, dus niet zo'n goede generalisatie.<br>

In [None]:
# vergelijking van de rechte
print("De vergelijking van de rechte: y =", rechte.coef_[0], "x +",rechte.intercept_)

In [None]:
# vergelijking van de rechte zonder standaardisatie
print("De vergelijking van de rechte: y =", 
      rechte.coef_[0]*y_train_std/x_train_std, "x +",
      rechte.intercept_ * y_train_std + y_train_gem - rechte.coef_[0] * x_train_gem *y_train_std/x_train_std)

## Uitschieter

Merk op dat een bepaald punt van de testset allicht beschouwd kan worden als uitschieter. Bekijk eens wat de generalisatie is zonder dit punt. 

In [None]:
# index uitschieter in de testset bepalen 
print(x_test, y_test)

De uitschieter staat op de derde positie in de lijst en heeft dus index 2.

In [None]:
# testdata zonder uitschieter
x_2_test = np.delete(x_test, 2)
y_2_test = np.delete(y_test, 2)
print(x_2_test)
print(y_2_test)

# gewenste formaat
X_2_test = x_2_test[:, np.newaxis]

In [None]:
print("Gemiddelde kwadratische afwijking voor de rechte m.b.t. de testdata: %.2f"% mean_squared_error(y_2_test, rechte.predict(X_2_test)))

Dat is al heel wat beter.

<div style='color: #690027;' markdown="1">
    <h2>5. Opdracht: bepaal de regressielijn voor verband stomatale dichtheid en lengte</h2> 
</div>

Eerder in deze notebook berekende je de correlatiecoëfficiënt van de lengte van de stomata en de stomatale dichtheid. De lineaire samenhang tussen deze kenmerken is matig. 

In [None]:
x1 = amazone["stomatale dichtheid"]
x2 = amazone["lengte stomata"]
np.corrcoef(x2, x1)[0,1]

Omdat de correlatiecoëfficiënt negatief is, is de regressielijn dalend.

In [None]:
# puntenwolk
plt.figure(figsize=(10, 8))

plt.xlim(0, 1000)
plt.ylim(0, 50)
plt.title("Amazonewoud")
plt.xlabel("stomatale dichtheid in mm²")
plt.ylabel("lengte stomata in micron")

plt.scatter(x1, x2, color="blue", marker="o")

plt.show()

Bepaal nu zelf de regressielijn en geef je resultaat weer op de grafiek. 

<div class="alert alert-block alert-warning">
In de notebook 'Zeeniveau' leer je hoe je naast een rechte een kromme vindt die het beste past bij een gegeven puntenwolk. Je leert er ook over underfitting en overfitting.   
</div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Camargo, Miguel Angelo Branco, & Marenco, Ricardo Antonio. (2011). Density, size and distribution of stomata in 35 rainforest tree species in Central Amazonia. Acta Amazonica, 41(2), 205-212. https://dx.doi.org/10.1590/S0044-59672011000200004 en via e-mail.<br>

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">ai op school</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.