<img src="../.images/logosnb.png" alt="Banner" style="width:1100px;"/>

<div style='color: #690027;' markdown="1">
    <h1>BINAIRE CLASSIFICATIE MET NEURAAL NETWERK MET EEN VERBORGEN LAAG</h1> 
</div>

<div class="alert alert-box alert-success">
In deze notebook bouw je een neuraal netwerk op met de functionaliteiten van de Python-module Keras. Het probleem is er een van <b>binaire classificatie</b>: gevens onderverdelen in twee klassen. De klassen zijn niet lineair scheidbaar.<br> 
In het netwerk gebruik je <b>activatiefuncties</b>, namelijk de ReLU- en de sigmoïde-functie. Het zijn niet-lineaire functies. ReLU is een veelgebruikte activatiefunctie, die het mogelijk maakt klassen die niet lineair scheidbaar zijn, toch te scheiden.
</div>

### De nodige modules importeren

In deze notebook bouw je een *'Sequential model'* op met Keras. Dat is een model dat bestaat uit *aaneengeschakelde lagen*. 
Je zal werken met een input layer, een output layer en ertussen één hidden layer.<br>
Je zal dus het model en de lagen moeten kunnen aanmaken.

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

from keras import models
from keras import layers
from keras import optimizers

from sklearn.utils import shuffle    # om data onderling te kunnen wisselen 

Je gaat aan de slag met 60 gegeven punten in het vlak. Sommige punten zijn blauw, andere zijn groen. De punten vertegenwoordigen twee klassen. <br> Van elk punt is de coördinaat en de kleur gegeven.<br>
Het is de bedoeling dat de groene en blauwe punten van elkaar gescheiden worden. 

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

Lees met de module `pandas` de dataset in.

In [None]:
punten = pd.read_csv("../.data/IntroductieDeepLearning/parabolen.dat")  # in te lezen tabel heeft geen hoofding

<div style='color: #690027;' markdown="1">
    <h2>2. Tonen van de ingelezen data</h2> 
</div>

Bekijk de data door de instructie `punten` uit te voeren. De dataset bestaat uit de x- en y-coördinaat van de punten en de kleur van elk punt. <br>
De x- en y-coördinaat zijn kenmerken, de kleur is een label. <br> Omdat er twee soorten labels zijn, zegt men dat de punten verdeeld zijn over **twee klassen**.

In [None]:
punten

Deze tabel is een tabel met 60 rijen en 3 kolommen: er zijn immers 60 punten, 2 kenmerken en 1 label. <br><br>
De kenmerken:
- eerste kolom: x-coördinaat; 
- tweede kolom: y-coördinaat.

Het label:
- derde kolom: kleur.

<div class="alert alert-box alert-info">
In machinaal leren worden twee kenmerken doorgaans weergegeven met x1 en x2 en het label met y.
</div>

<div style='color: #690027;' markdown="1">
    <h2>3. Onderzoeken of de punten van elkaar gescheiden kunnen worden</h2> 
</div>

Of punten scheidbaar zijn, zie je het best op een grafiek. 

Om de data te visualiseren, heb je de x- en y-coördinaat, dus de kenmerken x1 en x2, van de punten nodig.<br>
Daarnaast moet je ook rekening houden met de kleur.

<div style='color: #690027;' markdown="1">
    <h3>3.1 De data voorbereiden</h3> 
</div>

In [None]:
x1 = punten["x"]
x2 = punten["y"]
y = punten["kleur"]

In [None]:
# data in juiste formaat
x1 = np.array(x1)
x2 = np.array(x2)

In [None]:
# labels numeriek weergeven
y[y == 'blauw'] = 0
y[y == 'groen'] = 1

In [None]:
print(y)

In [None]:
# te onthouden voor de testset
mean1 = np.mean(x1)
std1 = np.std(x1)
mean2 = np.mean(x2)
std2 = np.std(x2)

In [None]:
# datapunten standaardiseren
x1 = (x1 - np.mean(x1))/np.std(x1)
x2 = (x2 - np.mean(x2))/np.std(x2)

X = np.stack((x1, x2), axis=1)    # juiste formaat, axis=1 zet x1 en x2 als kolommen


<div style='color: #690027;' markdown="1">
    <h3>3.2 De data weergeven in gestandaardiseerde puntenwolk</h3> 
</div>

In [None]:
plt.figure()     

plt.scatter(x1[:30], x2[:30], color="blue", marker="x")    
plt.scatter(x1[30:], x2[30:], color="green", marker="<") 

plt.show()

De punten zijn niet lineair scheidbaar maar wel scheidbaar door een kromme.

In [None]:
X, y = shuffle(X, y)                 # kenmerken en klassen blijven samen

<div style='color: #690027;' markdown="1">
    <h2>4. Opbouw van een neuraal netwerk</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>4.1 De data voorbereiden</h3> 
</div>

Je gaat dus eerst na of de data wel in het juiste formaat staat. Voor de labels is dat alvast niet het geval. Het zijn woorden i.p.v. 0 en 1. <br>
Je vroeg eerder al de vorm van de tensor X op met `X.shape`. De uitvoer was (15,2). Dat betekent dat X een tensor is met 15 vectoren van dimensie 2. 

In [None]:
# splitsen in training en validatiedata
# te nemen uit geshuffelde data
x1 = X[:, 0]            
x2 = X[:, 1]            

x1_val = np.append(x1[0:5],x1[30:35])
x2_val = np.append(x2[0:5],x2[30:35]) 
X_val = np.stack((x1_val, x2_val), axis=1)    # juiste formaat, axis=1 zet x1 en x2 als kolommen
x1_train = np.append(x1[5:30], x1[35:]) 
x2_train = np.append(x2[5:30], x2[35:]) 
X_train = np.stack((x1_train, x2_train), axis=1)                

In [None]:
X_train.shape

In [None]:
X_val.shape

In [None]:
y_val =  np.append(y[0:5], y[30:35])
y_train = np.append(y[5:30], y[35:]) 

In [None]:
# tarining- en validatieset tonen
plt.scatter(X_train[:,0],X_train[:,1])
plt.scatter(X_val[:,0],X_val[:,1])

<div style='color: #690027;' markdown="1">
    <h3>4.2 Architectuur van het neuraal netwerk</h3> 
</div>

Je model voor het netwerk is een ***Sequential model*** dat bestaat uit aaneengeschakelde lagen: een *input layer*, een *output layer* en ertussen één *hidden layer*. <br>
Je gebruikt *dense layers* . Dit betekent dat het *fully connected* layers zijn: de neuronen in een bepaalde laag zijn verbonden met alle neuronen in de vorige laag.<br>
In elke laag moet je een keuze maken voor het **aantal outputneuronen** van die laag. <br>
Voor de uitvoerlaag ligt dat vast: er zijn **twee categorieën** zijn, gelabeld 0 en 1, en het model  moet elke datapunt toekennen aan een categorie. Het model moet dus de waarde 0 of 1 geven als uitvoer. Je hebt daar dus 1 uitvoerneuron. <br> Voor de verborgen laag kan je wat experimenteren met het aantal neuronen en de performanties van het netwerk vergelijken. <br>

Het model moet de *input* krijgen in de vorm van een tensor die bestaat uit *vectoren*. Bovendien moet het model weten hoeveel elementen elk datapunt, dus elke vector, in die tensor bevat. Dit wordt met de eerste laag meegegeven met de parameter `input_dim`.<br>
Met de volgende lagen moet dat niet meegegeven worden, aangezien het aantal elementen dan automatisch vastligt door de wiskundige bewerkingen die zullen gebeuren.

In de hidden layer en in de output layer wordt er na de lineaire transformaties, bepaald door de *weights* gekozen door het netwerk, ook nog een activatiefunctie toegepast. Welke *activatiefunctie* dat is, moet jij vastleggen. In dit netwerk voor binaire classificatie kies je voor **ReLU**. De activatiefunctie in de output layer wordt bepaald door het soort probleem. Aangezien je hier een classificatieprobleem hebt met meer dan twee klassen, is de activatiefunctie de **sigmoïde-functie**.

Om de architectuur te voltooien moet je nog een *loss*-functie en een *optimizer* kiezen. Met de loss-functie wordt bekeken hoeveel het model afwijkt van de labels. Voor dit probleem van binaire classificatie kies je voor **binary cross-entropy** en **gradient descent**. De totale fout hierop zal geminimaliseerd worden m.b.v. de optimizer. Tot slot kies je nog een *metrics* waarmee je de *performantie* van het model kunt nagaan. Hier kies je voor 'accuracy', het percentage datapunten dat aan de juiste categorie wordt toegekend. 

In [None]:
# architectuur netwerk
network = models.Sequential()
network.add(layers.Dense(20, activation="relu", input_dim=2))    # hidden layer: 20 neuronen, activatie ReLU       
network.add(layers.Dense(1, activation="sigmoid"))               # output layer: 1 output neuron, activatie sigmoïde       
sgd = optimizers.SGD(lr=0.08)                                    # lr kiezen
network.compile(optimizer=sgd,
                loss="binary_crossentropy",
                metrics=["accuracy"])                            # optimizer, loss en metrics kiezen

<div style='color: #690027;' markdown="1">
    <h3>4.3 Trainen van het neuraal netwerk</h3> 
</div>

In [None]:
# trainen van het netwerk met methode `fit`, m.a.w. punten en labels op elkaar afstemmen
# 40 epochs
history = network.fit(X_train, y_train, epochs=40, validation_data=(X_val,y_val), batch_size=len(y_train))

In [None]:
loss = history.history["loss"]
epochs = range (1 , len(loss) +1)
accuracy = history.history["accuracy"]
val_acc = history.history["val_accuracy"]
val_loss = history.history["val_loss"]

<div style='color: #690027;' markdown="1">
    <h3>4.4 Prestatie van het model</h3> 
</div>

In [None]:
font = {'family': 'serif',
        'color':  'black',
        'weight': 'normal',
        'size': 14,
        }
plt.figure(figsize=(16,8))

plt.subplot(1,2,1)
plt.plot(epochs, loss, color="blue", label="train", linewidth=2)
plt.plot(epochs, val_loss, color="lightblue", label="val", linewidth=2)
plt.xticks(np.arange(0, 45, step=5))             
plt.title("Loss op training- en validatieset", fontdict=font)
plt.xlabel("epoch", fontdict=font)
plt.ylabel("loss", fontdict=font)
plt.legend(loc="lower left")

plt.subplot(1,2,2)
plt.plot(epochs, accuracy, color="green", label="train", linewidth=2)
plt.plot(epochs, val_acc, color="lime", label="val", linewidth=2)
plt.xticks(np.arange(0, 45, step=5)) 

plt.xlabel("epoch", fontdict=font)
plt.ylabel("acc", fontdict=font)

plt.title("Accuracy op training- en validatieset", fontdict=font)
plt.legend(loc="lower right")

plt.show()

Wat merk je op?<br>
Het model underfits / is optimaal / overfits.

<div style='color: #690027;' markdown="1">
    <h3>4.5 Testen van het model</h3> 
</div>

Test het model uit op de testset.<br>
Daarvoor moet eerst de data worden voorbereid, ze moet op dezelfde manier worden gestandaardiseerd.

In [None]:
# testset inladen
testset = pd.read_csv("../.data/IntroductieDeepLearning/testsetparabolen.dat") 

In [None]:
# data voorbereiden
x1_test = testset["x"]
x2_test = testset["y"]
x1_test = np.array(x1_test)
x2_test = np.array(x2_test)

y_test = testset["kleur"]
y_test[y_test == 'blauw'] = 0
y_test[y_test == 'groen'] = 1

x1_test = (x1_test - mean1) / std1 
x2_test = (x2_test - mean2) / std2
X_test = np.stack((x1_test, x2_test), axis=1)

Het formaat van de `testpunten` is zoals gewenst.<br>
Gebruik je de methode `predict()`, dan geeft het model hoe zeker het is dat `testpunt` tot klasse '1' behoort.<br>
Met de methode `predict_classes()` geeft het model de klasse dat het beslist heeft. 

In [None]:
# alle testpunten
predictions = network.predict_classes(X_test)
for i in range(4):
    print('%s => %d (expected %d)' % (X_test[i].tolist(), predictions[i], y_test[i]))

<div style='color: #690027;' markdown="1">
    <h2>5. Decision boundary</h2> 
</div>

In [None]:
# decision boundary
font = {'family': 'serif',
        'color':  'black',
        'weight': 'normal',
        'size': 14,
        }
color = ["blue", "green"]
soort = ["parabool 1", "parabool 2"]
                 

plt.figure(figsize=(8, 6))

for target in range(2):
    X_plot = X[y == target]
    plt.scatter(X_plot[:, 0], X_plot[:, 1], marker='o', color=color[target], label=soort[target])
plt.title("Classificatie punten twee parabolen", fontdict=font)
plt.xlabel("x-coördinaat", fontdict=font)
plt.ylabel("y-coördinaat", fontdict=font)
# plt.axis('equal')
plt.legend(loc="upper right")

as1 = np.linspace(-2, 2, 40)
as2 = np.linspace(-2, 5, 40)

# resolutie
xx1 = np.arange(as1.min()-1, as1.max()+1, 0.1)
xx2 = np.arange(as2.min()-1, as2.max()+1, 0.1)                     

for a in xx1:
    for b in xx2:
        P = np.array([[a, b]])
        voorspeldeklasse = network.predict_classes(P) 
        if voorspeldeklasse == 0:
            kleur = "lightblue"
        else:
            kleur = "lightgreen"
        plt.plot(a, b, marker='.', color=kleur)

plt.show()

<div style='color: #690027;' markdown="1">
    <h2>6. Model verbeteren</h2> 
</div>

Maak de notebook leeg: **Kernel > Restart & Clear Output**<br>
Train opnieuw met 100 epochs, en erna eens met 400 epochs.<br>
Experimenteer eventueel met een grotere of kleinere learning rate.<br><br>
Slaag je erin een goed presterend model te vinden dat niet overfit?

<div class="alert alert-box alert-info">
De data bestaan uit punten met twee <b>kenmerken</b> en een overeenkomstig <b>label</b>. Het label kan twee waarden aannemen; er zijn twee <b>klassen</b>. Een grens tussen de klassen is een <b>decision boundary</b>. <br>
Het model is een neuraal netwerk met een <b>invoerlaag</b>, een <b>verborgen laag</b> met activatiefunctie ReLU en een <b>uitvoerlaag</b> met activatiefunctie de sigmoïde-functie. <br>
    
De klassen zijn niet lineair scheidbaar, maar kunnen toch van elkaar gescheiden worden dankzij de <b>niet-lineaire functie ReLU</b>.  
</div>

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">AI Op School</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.