<img src="../.images/logosnb.png" alt="Banner" style="width:800px;"/>

<div style='color: #690027;' markdown="1">
    <h1>SMELTENDE GLETSJERS: DE SILVRETTAGLETSJER</h1> 
</div>

<div class="alert alert-box alert-success">
In deze notebook leer je een puntenwolk maken van data uit een <em>csv-bestand</em>. Je leert ook hoe je met de ingebouwde functies in de Python-module scikit-learn de regressielijn kunt bepalen.
</div>

Sinds de industriële revolutie is de concentratie broeikasgassen in de atmosfeer stelselmatig toegenomen. Sinds 1880 is de gemiddelde globale temperatuur ongeveer met 0,85 °C gestegen. Deze opwarming gaat gepaard met een opwarming van de oceanen, een stijging van het zeeniveau met 20 cm, het meer voorkomen van extreme weersomstandigheden en een afname van 40 % van het Arctische zee-ijs. Ook het gletsjerijs smelt, bijna overal ter wereld.<br><br>
Het smeltwater afkomstig van gebergtegletsjers zal in belangrijke mate bepalen hoeveel het zeeniveau in de toekomst zal stijgen. Mogelijke scenario's spreken van een stijging tot 30 cm door het afsmelten van de gebergtegletsjers. <br>
Bovendien hebben gletsjers een impact op lokale watervoorraden en zijn ze belangrijk voor het toerisme.<br>
De snelheid waarmee het volume van een gletsjer afneemt o.i.v. de globale temperatuurstijging verschilt van gletsjer tot gletsjer. Lokale factoren spelen hierin immers een rol: bv. de oriëntatie van de gletsjer, de mate waarin de gletsjer in de schaduw ligt...[1]. 

De 3 km lange Silvrettagletsjer ligt in het noordoosten van Zwitserland. Sinds 1954 heeft de gletsjer al 400 m aan lengte ingeboet [3].

Dr. Lander Van Tricht verschafte ons data van zijn onderzoek naar hoe de Silvrettagletsjer evolueert. Sinds 1919 werd geregistreerd met hoeveel meter de gletsjer jaarlijks verdunt [2]. 

### De nodige modules importeren

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

In [None]:
silvretta = pd.read_csv("../.data/IntroductieMachineLearning/Silvretta.dat")

In [None]:
silvretta.head()

In [None]:
silvretta.tail()

In [None]:
# tabel met 98 rijen en 3 kolommen
# eerste kolom bevat naam van de gletsjer
# tweede kolom komt overeen met jaartal van de meting, derde met verdunning van de gletsjer in meter
# we werken met tweede en derde kolom van de tabel

In [None]:
x = silvretta["jaartal"]    # hoofding van kolom "jaar" speelt rol van index
y = silvretta["verdunning (m)"]

In [None]:
# data omzetten naar geschikt formaat voor machine learning
x = np.array(x)
y = np.array(y)
print(x)
print(y)

<div style='color: #690027;' markdown="1">
    <h2>2. Data weergeven in puntenwolk</h2> 
</div>

In [None]:
plt.figure(figsize=(15,12))    # om een grotere grafiek te krijgen, zodat punten meer verspreid
plt.xlim(1900, 2070)
plt.ylim(-3, 4)
plt.scatter(x, y, color="blue", marker="o")
plt.title("Verdunning gletsjer Silvretta")
plt.xlabel("jaartal")
plt.ylabel("verdunning in m")
plt.show()

<div style='color: #690027;' markdown="1">
    <h2>3. Samenhang tussen jaartal en verdunning?</h2> 
</div>

In [None]:
# in hoeverre is er een verband tussen jaartal en terugtrekking van de gletsjer? 
# correlatiëcoefficiënt bepalen (ligt tussen -1 en 1, hoe dichter bij 0, hoe slechter de samenhang)
np.corrcoef(x, y)[0,1]

Zeer zwakke positieve samenhang. 

<div style='color: #690027;' markdown="1">
    <h2>4. Onderzoek naar trend verdunning van de gletsjer</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>4.1 Standaardiseren</h3> 
</div>

De data worden als volgt **gestandaardiseerd**: <br> Van elk gegeven uit de trainingdata wordt het gemiddelde afgetrokken en vervolgens wordt het resultaat gedeeld door de standaardafwijking. Men berekent m.a.w. van alle trainingdata de Z-score. 

<div class="alert alert-block alert-warning"> 
Meer uitleg over de correlatiecoëfficiënt en standaardiseren vind je in de notebook <a href="./standaardiseren.ipynb" target="_blank">Standaardiseren</a>.
</div>

In [None]:
# gemiddelde en standaardafwijking van de data bepalen
x_gem = np.mean(x)
x_std = np.std(x)
y_gem = np.mean(y)
y_std = np.std(y)

In [None]:
# standaardiseren van de data
x1 = (x - x_gem) / x_std
y1 = (y - y_gem) / y_std

<div style='color: #690027;' markdown="1">
    <h3>4.2 Regressielijn bepalen</h3> 
</div>

In [None]:
# gewenste formaat
X1= x1[:, np.newaxis] 

In [None]:
# lineaire regressie
regressielijn = LinearRegression()
regressielijn.fit(X1,y1)

print("R² voor de regressielijn: %.3f" % r2_score(y1, regressielijn.predict(X1) ))
print("Gemiddelde kwadratische afwijking voor de regressielijn: %.2f" % mean_squared_error(y1, regressielijn.predict(X1)))

<div style='color: #690027;' markdown="1">
    <h3>4.3 Regressielijn plotten</h3> 
</div>

In [None]:
plt.figure(figsize=(15,12))

plt.plot(X1, regressielijn.predict(X1), color="green")

plt.xlim(x1.min()-0.5, x1.max()+1)
plt.ylim(y1.min()-0.5, y1.max()+1)
plt.scatter(X1, y1, color="blue", marker="o")
plt.title("Verdunning gletsjer Silvretta (gestandaardiseerd)")
plt.xlabel("jaartal")
plt.ylabel("verdunning")

plt.show()

Er is duidelijk een stijgende trend vast te stellen. 

In [None]:
# vergelijking van de rechte
print("De vergelijking van de rechte: y =", regressielijn.coef_[0], "x +",regressielijn.intercept_)

In [None]:
# vergelijking van de rechte zonder standaardisatie
print("De vergelijking van de rechte: y =", regressielijn.coef_[0]*y_std/x_std, "x +",regressielijn.intercept_ * y_std + y_gem - regressielijn.coef_[0] * x_gem *y_std/x_std)

<div style='color: #690027;' markdown="1">
    <h2>5. Totale verdunning van de gletsjer</h2> 
</div>

Schrijf een Python-script om de totale verdunning van de gletsjer te berekenen sinds het begin van de data.

Schrijf een Python-script om de totale verdunning van de gletsjer te berekenen sinds 2000.

<div class="alert alert-block alert-warning"> 
Je vindt inspiratie in de notebook <a href="../IntroductiePython/Structuren.ipynb" target="_blank">Structuren</a>.
</div>

<div style='color: #690027;' markdown="1">
    <h2>6. Onderzoek naar trend verdunning van de gletsjer met training- en testdata</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>6.1 Trainingdata en testdata</h3> 
</div>

We splitsen de data op in trainingdata en testdata.<br> *De trainingdata worden gebruikt om een wiskundig model op te stellen. <br>Met de testdata wordt nagegaan of het model goed omgaat met nieuwe data.*

In [None]:
# De data voorbereiden

# trainingdata
x_train = x[18:]
y_train = y[18:]
print(x_train)
print(y_train)

# testdata
x_test = x[:18]
y_test = y[:18]
print(x_test)
print(y_test)

<div style='color: #690027;' markdown="1">
    <h3>6.2 Standaardiseren</h3> 
</div>

In [None]:
# gemiddelde en standaardawijking van de trainingdata bepalen
x_train_gem = np.mean(x_train)
x_train_std = np.std(x_train)
y_train_gem = np.mean(y_train)
y_train_std = np.std(y_train)

In [None]:
# gemiddelde en standaardawijking van de trainingdata bepalen
x_train_gem = np.mean(x_train)
x_train_std = np.std(x_train)
y_train_gem = np.mean(y_train)
y_train_std = np.std(y_train)

# trainingdata standaardiseren
x_train = (x_train - x_train_gem) / x_train_std
y_train = (y_train - y_train_gem) / y_train_std

# testdata standaardiseren om te kunnen gebruiken in het model
x_test = (x_test - x_train_gem) / x_train_std
y_test = (y_test - y_train_gem) / y_train_std

<div style='color: #690027;' markdown="1">
    <h3>6.3 Regressielijn bepalen</h3> 
</div>

In [None]:
# gewenste formaat
X_train = x_train[:, np.newaxis]   
X_test = x_test[:, np.newaxis]

In [None]:
# lineaire regressie
regressielijn_ml = LinearRegression()
regressielijn_ml.fit(X_train,y_train)

# print("R² voor de regressielijn m.b.t. de trainingdata: %.3f" % r2_score(y_train, regressielijn_ml.predict(X_train) ))
print("Gemiddelde kwadratische afwijking voor de regressielijn m.b.t. de trainingdata: %.2f" % mean_squared_error(y_train, regressielijn_ml.predict(X_train)))

plt.show()

<div style='color: #690027;' markdown="1">
    <h3>6.4 Regressielijn plotten</h3> 
</div>

In [None]:
plt.figure(figsize=(15,12))
plt.xlim(x_train.min()-0.5, x_test.max()+1)
plt.ylim(y_train.min()-0.5, y_train.max()+1)
plt.scatter(X_train, y_train, color="blue", marker="o")
plt.title("Verdunning gletsjer Silvretta (gestandaardiseerd)")
plt.xlabel("jaartal")
plt.ylabel("verdunning")

plt.plot(X_train, regressielijn_ml.predict(X_train), color="green")

# testdata
plt.scatter(X_test, y_test, color="orchid", marker="o")
plt.plot(X_test, regressielijn_ml.predict(X_test), color="green")
# print("R² voor de regressielijn m.b.t. de testdata: %.3f" % r2_score(y_test, regressielijn.predict(X_test) ))
print("Gemiddelde kwadratische afwijking voor de regressielijn m.b.t. de testdata: %.2f" % mean_squared_error(y_test, regressielijn_ml.predict(X_test)))

plt.show()

In [None]:
# vergelijking van de rechte
print("De vergelijking van de rechte: y =", regressielijn_ml.coef_[0], "x +",regressielijn_ml.intercept_)

In [None]:
# vergelijking van de rechte zonder standaardisatie
print("De vergelijking van de rechte: y =", regressielijn_ml.coef_[0]*y_train_std/x_train_std, "x +",regressielijn_ml.intercept_ * y_train_std + y_train_gem - regressielijn_ml.coef_[0] * x_train_gem *y_train_std/x_train_std)

Volgens de regressielijn verloopt de verdunning van 1919 tot 1998 ongeveer aan een constant tempo. Maar merk op dat de testdata, die de verdunning geven van 1999 tot 2016, bijna allemaal boven de regressielijn liggen, wat aangeeft dat de verdunning in die periode sneller is verlopen.

In [None]:
plt.figure(figsize=(15,12))    # om een grotere grafiek te krijgen, zodat punten meer verspreid
plt.xlim(1900, 2070)
plt.ylim(-3, 4)
x_nieuw = np.arange(1919, 2016, 1)
plt.plot(x_nieuw, regressielijn_ml.coef_[0]*y_train_std/x_train_std *x_nieuw + regressielijn_ml.intercept_ * y_train_std + y_train_gem - regressielijn_ml.coef_[0] * x_train_gem *y_train_std/x_train_std)
plt.scatter(x, y, color="blue", marker="o")
plt.title("Verdunning gletsjer Silvretta")
plt.xlabel("jaartal")
plt.ylabel("verdunning in m")
plt.show()

<div style='color: #690027;' markdown="1">
    <h2>7. Het model toepassen</h2> 
</div>

Gebruik het model om te berekenen hoeveel meter de gletsjer de komende tien jaar zal verdunnen.<br>
Zal dit een realistische inschatting zijn, of eerder een onder- of overschatting? Leg uit.

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Zekollari, H., Fürst, J. J., & Huybrechts, P. (2014). Modelling the evolution of Vadret da Morteratsch, Switzerland,<br> &nbsp; &nbsp; &nbsp; &nbsp;since the little ice age and into the future. *Journal of Glaciology*.60, 244. doi:10.3189/2014JoG14J053.<br>
[2] Van Tricht, L. (2019). Via e-mail. <br>
[3] Schweizer Gletscher. Glacier Monitoring Switzerland (Glamos).<br> &nbsp; &nbsp; &nbsp; &nbsp; Geraadpleegd op 18 augustus 2019 via https://www.glamos.ch/factsheet#/A10g%2F05.

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">ai op school</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 