<img src="images/kiksmeisedwengougent.png" alt="Banner" width="1100">

<div>
    <font color=#690027 markdown="1">   
        <h1>HOOGTE BOMEN EN AFMETINGEN STOMATA IN HET AMAZONEWOUD</h1>
    </font>
</div>

<div class="alert alert-box alert-success">
Onderzoekers uit Brazilië onderzochten met lineaire regressie of er een verband is tussen het aantal huidmondjes op bladeren in de kruin van een boom en de hoogte van de boom. In deze notebook ga je met hun data aan de slag en pas je er zelf lineaire regressie op toe. Je kan tot slot jouw resultaten vergelijken met die van de wetenschappers. 
</div>

De regressielijn kan je rechtstreeks vinden met formules uit de wiskunde, maar hier pas je een techniek uit machinaal leren toe.

<div class="alert alert-block alert-warning">
In het leerpad 'Lineaire regressie' vind je uitleg over de basis van lineaire regressie.
</div>

Paleoklimatologen hebben aangetoond dat er een verband is tussen het aantal en de grootte van stomata op bladeren en het CO<sub>2</sub>-gehalte in de atmosfeer toen deze planten groeiden.<br>
Vandaag de dag wordt er wereldwijd door wetenschappers onderzoek gedaan naar de huidmondjes op bladeren van nu. <br> Bij sommige planten ontdekte men verschillen in de stomata van bladeren ontsproten in lente tegenover die in de zomer. Bij andere planten stelde men verschillen vast tussen bladeren in de kruin van een plant en de beschaduwde bladeren onderaan in de plant.<br>
Vast staat dat het aantal en de grootte van de huidmondjes onderhevig is aan omgevingsfactoren.<br> <br>
De onderzoekers Camargo en Marenco uit Brazilië vroegen zich het volgende af:<br>
**Is er een verband tussen het aantal huidmondjes op bladeren in de kruin van een boom en de hoogte van de boom?**<br>
Om dit te onderzoeken gebruikten ze data verzameld in het Amazonewoud [1].

### Nodige modules importeren

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

from scipy.optimize import curve_fit    # voor regressie
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

In [None]:
amazone = pd.read_csv("data/amazone.csv")  

<div style='color: #690027;' markdown="1">
    <h2>2. Tonen van de ingelezen data</h2> 
</div>

In [None]:
# dataset weergeven in tabel
amazone

<div style='color: #690027;' markdown="1">
    <h2>3. De lineaire samenhang tussen de data nagaan via de correlatiecoëfficiënt</h2> 
</div>

<div class="alert alert-block alert-warning">
Meer uitleg over de correlatiecoëfficiënt vind je in de notebook 'Standaardiseren'.
</div>

Beschouw elk kenmerk.

In [None]:
x1 = amazone["stomatale dichtheid"] 
x2 = amazone["lengte stomata"]
x3 = amazone["hoogte boom"]    

Bepaal de correlatiecoëfficiënt R voor twee kenmerken uit de tabel. Is er een sterke, matige of zwakke lineaire samenhang tussen de kenmerken?

In [None]:
# in hoeverre is er lineair verband tussen lengte en dichtheid van stomata?
# correlatiecoefficiênt R bepalen (ligt tussen -1 en 1, hoe dichter bij 0, hoe slechter lineaire samenhang)
np.corrcoef(x2, x1)[0,1]

Matige lineaire samenhang!

<div class="alert alert-box alert-success">
Er is een gekend verband tussen de dichtheid van de huidmondjes en de grootte ervan. Het verband wordt best niet beschouwd als lineair maar kan het best weergegeven worden door een kromme.  
</div>

In [None]:
# in hoeverre is er lineair verband tussen hoogte van boom en dichtheid van stomata? 
np.corrcoef(x3, x1)[0,1]

Er is een zwakke lineaire samenhang tussen de hoogte van boom en de stomatale dichtheid!

In [None]:
# in hoeverre is er lineair verband tussen hoogte van boom en lengte van stomata? 
np.corrcoef(x3, x2)[0,1]

Heel, heel zwakke lineaire samenhang!

<div style='color: #690027;' markdown="1">
    <h2>4. Regressielijn voor verband stomatale dichtheid en hoogte boom</h2> 
</div>

Camargo en Marenco bepaalden met Excel de regressielijn die de, weliswaar zwakke, lineaire samenhang tussen de stomatale dichtheid en de hoogte van de boom visualiseert. Ze hanteerden de rechte die de stomatale dichtheid uitzet in functie van de hoogte van de boom. Gebruikmakend van de gegeven data kan je dit zelf met de ingebouwde algoritmes van de Python-module SciPy doen en je resultaat met dat van hen vergelijken.<br>
In een volgende notebook doe je nog eens hetzelfde maar dan volgens de methode die gehanteerd wordt door computerwetenschappers. Zij reserveren een deel van de data om de kwaliteit van het model na te gaan.

Je zal hier werken met de data opgeslagen in x1 en x3 (x1 bevat de stomatale dichtheden en x3 de hoogtes van de bomen). Bij de grafische voorstelling komt x3 op de y-as en x1 op de x-as.

Voor beide methodes geldt dat de data worden gestandaardiseerd. 

<div class="alert alert-block alert-warning">
Meer uitleg over het belang van standaardiseren vind je in de notebook 'Standaardiseren'.
</div>

We zullen voor beide methodes werken met NumPy arrays om alle functionaliteiten van NumPy te kunnen gebruiken.

<div style='color: #690027;' markdown="1">
    <h3>4.1 Methode van de Braziliaanse onderzoekers (dezelfde methode als in de wiskundeles)</h3> 
</div>

In [None]:
x1 = np.array(x1) 
x3 = np.array(x3) 
print(x1, x3)

Om vanuit de gestandaardiseerde variabelen te kunnen terugkeren naar de oorspronkelijke sla je het gemiddelde en de standaardafwijking van de variabelen op, zodat je er verder in de notebook gebruik kunt van maken.

In [None]:
# gemiddelde en standaardafwijking van variabelen opslaan voor gebruik verder in notebook
x1_gem = np.mean(x1)
x1_std = np.std(x1)
x3_gem = np.mean(x3)
x3_std = np.std(x3)

De methode werkt als volgt: eerst de data standaardiseren, dan de data omzetten naar het gewenste formaat, de regressielijn bepalen en samen met de puntenwolk weergeven op een grafiek.

In [None]:
# data standaardiseren
x1 = (x1 - np.mean(x1)) / np.std(x1)   # stomatale dichtheid
x3 = (x3 - np.mean(x3)) / np.std(x3)   # hoogte boom

# gewenste formaat en standaardnotatie voor regressie met scikit-learn
x = x3                   # x3 fungeert als input
y = x1                   # x1 fungeert als output

In [None]:
# regressielijn is rechte

# ingeven hoe vergelijking rechte is opgebouwd 
def rechte(x, a, b):
    """Voorschrift (schuine) rechte met variabele x en coëfficiënten a en b."""
    return a * x + b

# rechte zoeken die beste past bij bepaalde data, vergelijking tonen en coëfficiënten teruggeven
def linreg(x, y):
    """Rechte best passend bij data x en y."""
    popt, pcov = curve_fit(rechte, x, y)            # curve_fit() kijkt in def rechte() hoe functievoorschrift eruitziet
    # curve_fit() geeft twee zaken terug, waaraan gerefereerd wordt met popt en pcov
    # enkel eerste nodig, popt, die a en b van gezochte rechte geeft
    a, b = popt                                     # coëfficiënten
    print("y = ", a, "x +", b)                      # toon vergelijking regressielijn
    return a, b                                     # geeft coëfficiënten terug van vergelijking regressielijn

In [None]:
# coëfficiënten regressielijn bij gegeven punten
a, b = linreg(x, y)
print(a, b)

In [None]:
# lineaire regressie
y_regressielijn = rechte(x, a, b)    

In [None]:
# metrics
print("R² voor de rechte: %.3f" % r2_score(y, y_regressielijn))
print("Gemiddelde kwadratische afwijking voor de rechte: %.2f"% mean_squared_error(y, y_regressielijn))

### Grafiek

In [None]:
# grafische voorstelling
plt.figure(figsize=(10, 8))

plt.xlim(x3.min()-0.5, x3.max()+0.5)
plt.ylim(x1.min()-0.5, x1.max()+0.5)
plt.title("Amazonewoud")
plt.xlabel("hoogte boom (gestandaardiseerd)")
plt.ylabel("stomatale dichtheid in mm² (gestandaardiseerd)")

plt.scatter(x3, x1, color="blue", marker="o")
plt.plot(x, y_regressielijn, color="green")

plt.show()

In [None]:
# vergelijking van rechte met gestandaardiseerde variabelen
print("De vergelijking van de rechte: y =", a, "x +", b)

### Resultaat vergelijken met dat van de Braziliaanse wetenschappers

Vergelijk de vergelijking van de regressielijn met die van de wetenschappers. Je zal daarvoor vanuit de gestandaardiseerde variabelen moeten terugkeren naar de oorspronkelijke. Let erop dat je daarvoor het oorspronkelijke gemiddelde en de oorspronkelijke standaardafwijking gebruikt. 

In [None]:
# vergelijking van rechte zonder standaardiseren
print("De vergelijking van de rechte: y =", 
      a * x1_std / x3_std, "x +", b * x1_std + x1_gem - a * x3_gem * x1_std / x3_std)

Deze vergelijking komt overeen met de resultaten van de Braziliaanse onderzoekers. Ook R² komt overeen (R² is onafhankelijk van het standaardiseren).

<div class="alert alert-box alert-success">
In een volgende notebook bepaal je de regressielijn met een methode uit machinaal leren. Daar wordt een onderscheid gemaakt van trainingdata en testdata.
</div>

<div class="alert alert-block alert-warning">
In de notebooks 'ZeeniveauLineaireRegressie', 'ZeeniveauRegressie' en 'ZeeniveauMLRegressie' leer je hoe je naast een rechte een kromme vindt die het beste past bij een gegeven puntenwolk. Je leert er ook over underfitting en overfitting.   
</div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Camargo, Miguel Angelo Branco, & Marenco, Ricardo Antonio. (2011). <br> &nbsp; &nbsp; &nbsp; &nbsp;Density, size and distribution of stomata in 35 rainforest tree species in Central Amazonia. Acta Amazonica, 41(2), 205-212. <br> &nbsp; &nbsp; &nbsp; &nbsp;https://dx.doi.org/10.1590/S0044-59672011000200004 en via e-mail.

<div>
    <h2>Met steun van</h2> 
</div>

<img src="images/kikssteun.png" alt="Banner" width="1100"/>

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">AI Op School</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.