<img src="../.images/logosnb2.png" alt="Banner" style="width:1100px;"/>

<div style='color: #690027;' markdown="1">
    <h1>CLASSIFICATIE MET KERAS VAN DE MNIST DATASET</h1> 
</div>

<div class="alert alert-box alert-success">
Deze notebook bevat een <em>concreet voorbeeld van een neuraal netwerk</em> dat wordt opgebouwd met de functionaliteiten van de Python-module <em>Keras</em>. <br>
Het voorbeeld betreft een <em>classificatieprobleem</em>, nl. het classificeren van grijswaardenafbeeldingen van handgeschreven cijfers. 
</div>

De afbeeldingen worden aangeboden in een formaat van 28x28 pixels; er zijn 10 klassen met labels 0 t.e.m. 9. 

Om het netwerk te trainen wordt gebruikgemaakt van de MNIST dataset. Deze dataset bestaat uit 60 000 afbeeldingen om het netwerk te trainen en  10 000 afbeeldingen om het netwerk te testen. <br>
Deze afbeeldingen werden verzameld door het National Institute of Standards and Technology (de NIST in het letterwoord MNIST) in de jaren 80. 

### Nodige modules importeren

In deze notebook bouw je een *sequential model* op met Keras.<br>Dat is een model dat bestaat uit *aaneengeschakelde lagen*. 
Je zal werken met een input layer, een output layer en ertussen één hidden layer.<br>
Je zal dus dat model en de lagen moeten kunnen aanmaken.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from keras import models
from keras import layers
from keras.utils import to_categorical         # om klassen op andere manier te kunnen weergeven
from keras.datasets import mnist

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

De MNIST data bestaan uit een koppel. Bovendien is elk van beide elementen van het koppel is zelf een koppel.  

De data zijn als volgt opgebouwd:
-  (trainingdata, overeenkomstige categorieën) in het eerste element;
-  (testdata, overeenkomstige categorieën) in het tweede element.

Je laadt de dataset in met de instructie `mnist.load_data()`. <br>`load_data()` is een functie van `mnist`. <br>Ondertussen benoem je vier variabelen die elk verwijzen naar een bepaalde soort data in de dataset.  

In [None]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()      # elementen van tuples krijgen juiste naam

### Opdracht 1.1
-  Hoeveel elementen bevat het object waarnaar `train_images` verwijst?
-  Hoeveel elementen bevat het object waarnaar `test_labels` verwijst?

Controleer je antwoord m.b.v. de volgende code-cel.

In [None]:
print(len(train_images))         # aantal punten in trainingset
print(len(train_labels))         # aantal labels in trainingset
print(len(test_images))          # aantal punten in testset
print(len(test_labels))          # aantal labels in testset

### Opdracht 1.2
Wat betekent de uitvoer van de volgende code-cellen?

In [None]:
train_images.shape                   

In [None]:
train_labels.shape

Antwoord:

<div style='color: #690027;' markdown="1">
    <h2>2. Bekijken van de data</h2> 
</div>

In [None]:
beeld1 = train_images[4]
beeld2 = train_images[100]
label1 = train_labels[4]
label2 = train_labels[100]

In [None]:
# labels
print(label1, label2)

# beelden
plt.figure()

plt.subplot(1,2,1)
plt.imshow(beeld1, cmap="gray")
plt.subplot(1,2,2)
plt.imshow(beeld2, cmap="gray")

plt.show()

In [None]:
print(beeld1.shape)
print(beeld1)

### Opdracht 2.1
Vraag het grootste en kleinste getal in deze matrix op en het type van de getallen.

In [None]:
beeld1.dtype

In [None]:
print(np.min(beeld1), np.max(beeld1))

Antwoord:

<div style='color: #690027;' markdown="1">
    <h2>3. Opbouwen van het neuraal netwerk</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>3.1 Architectuur van het neuraal netwerk</h3> 
</div>

Je model voor het netwerk is een *Sequential model* dat bestaat uit aaneengeschakelde lagen: een *input layer*, een *output layer* en ertussen één *hidden layer*. <br>
Je gebruikt *dense layers*. Dat betekent dat het *fully connected* layers zijn: de neuronen in een bepaalde laag zijn verbonden met alle neuronen in de vorige laag.<br>
In elke laag moet je een keuze maken voor het aantal output neuronen van die laag. <br>
Voor de uitvoerlaag ligt dat vast: aangezien er tien klassen zijn, moet het model voor elke klasse weergeven hoe zeker het is van die bepaalde klasse. Je hebt daar dus 10 neuronen. <br> Voor de verborgen laag kan je wat experimenteren met het aantal neuronen en de performanties van het netwerk vergelijken. <br>

Het model moet de *input* krijgen in de vorm van een tensor die bestaat uit *vectoren*. Bovendien moet het model weten hoeveel elementen elk datapunt, dus elke vector, in die tensor bevat. Dat wordt met de eerste laag meegegeven met de parameter `input_dim`.<br>
Met de volgende lagen moet dat niet meegegeven worden, aangezien het aantal elementen dan automatisch vastligt door de wiskundige bewerkingen die zullen gebeuren.

In de hidden layer en in de output layer wordt er na de lineaire transformaties, bepaald door de *weights* gekozen door het netwerk, ook nog een activatiefunctie toegepast. Welke *activatiefunctie* dat is, moet jij vastleggen. In de meeste moderne netwerken wordt er gekozen voor 'ReLU'. De activatiefunctie in de output layer wordt eigenlijk bepaald door het soort probleem. Aangezien je hier een classificatieprobleem hebt met meer dan twee klassen, is de activatiefunctie de 'Softmax activatiefunctie'.

Om de architectuur te voltooien moet je nog een *loss*-functie en een *optimizer* kiezen. Met de loss-functie wordt bekeken hoeveel het model afwijkt van de labels. De totale fout hierop zal geminimaliseerd worden m.b.v. de optimizer. Tot slot kies je nog een *metrics* waarmee je de *performantie* van het model kunt nagaan. Hier kies je voor 'accuracy', het percentage datapunten dat aan de juiste categorie wordt toegekend. 

In [None]:
# architectuur netwerk    
network = models.Sequential()                                             #'Sequential model' bestaat uit aaneengeschakelde lagen
network.add(layers.Dense(15, activation='relu', input_dim= 28 * 28))      # hidden layer: 15 neuronen, activatiefunctie
network.add(layers.Dense(10, activation='softmax'))                       # output layer: 10 outputneuronen, activatiefunctie
network.compile(optimizer='sgd',
                loss='categorical_crossentropy',
                metrics=['accuracy'])                                     # optimizer, loss en metrics kiezen

<div style='color: #690027;' markdown="1">
    <h3>3.2 Trainen van het neuraal netwerk</h3> 
</div>

Hiervoor vroeg je `train_images.shape` op. De datapunten zijn dus matrices. Deze datapunten moeten echter aangeboden worden als vectoren. 

De dimensie van elke vector ligt vast in de architectuur van het netwerk. Elk datapunt moet dus omgevormd worden naar een vector met dimensie 784. 

De 60 000 28x28-matrices moeten dus omgevormd worden tot vectoren, of m.a.w. je moet de trainingset omvormen van een stapel van 60 000 28x28-matrices naar een stapel van 60 000 vectoren.

Bovendien is het beter de waarden van de afbeeldingen te *normaliseren*. 

<div class="alert alert-block alert-warning"> 
Meer uitleg over normaliseren vind je in de notebook 'Standaardiseren'.
</div>

In [None]:
# voorbereiden van dataset

# trainingset van stapel van 60 000 28x28-matrices naar stapel van 60 000 vectoren
train_images = train_images.reshape((60000, 28 * 28))      
train_images = train_images.astype('float32') / 255            # elementen herschalen naar interval [0,1] ipv [0,255]

# testset van stapel van 10 000 28x28-matrices naar stapel van 10 000 vectoren
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

# labels opslaan in andere gedaante bv. 0 wordt 1000000000, 1 wordt 0100000000, ..., 7 wordt 00000001000 ... 
# dus een 1 op plaats met index 7 (je begint te tellen vanaf index 0) 
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [None]:
# trainen met methode `fit` van network, m.a.w. beelden en  labels op elkaar afstemmen
# 5 epochs, dus 5 keer trainingset doorlopen
# steeds 128 prenten per keer gebruiken om de optimizer op toe te passen, bv. gemiddelde afgeleide over 128 datapunten
history = network.fit(train_images, train_labels, epochs=5, batch_size=128)

loss = history.history["loss"]      # gedurende training telkens na elke epoch waarde loss-functie opslaan in lijst
acc = history.history["acc"]        # gedurende training telkens na elke epoch waarde loss-functie opslaan in lijst
epochs = range (1 , len(loss) +1)   # epochs nummeren van 1 tot aantal epochs 

In [None]:
print("loss =", loss)
print("acc =", acc)
print("epochs =", epochs)

Zie je dat de loss daalt en de accuracy stijgt?

In [None]:
plt.figure()

plt.plot(epochs, acc, "o", color="blue")
plt.plot(epochs, loss, "o", color="green")

plt.show()

De nauwkeurigheid van het netwerk is na de training behoorlijk op de trainingset. De fout is wel nog groot.

<div style='color: #690027;' markdown="1">
    <h3>3.3 Prestatie van het model</h3> 
</div>

Om te weten hoe goed het model is, moet je weten hoe goed het presteert op de testdata.<br> Het is niet omdat het model goed presteert op de trainingdata dat het ook goed presteert op ongeziene data. Je gaat dus na hoe de loss en accuracy is op de testdata. 

In [None]:
test_loss, test_acc = network.evaluate(test_images, test_labels)

In [None]:
print('test_acc:', test_acc)

De nauwkeurigheid op de testset is zelfs nog beter dan op de trainingset. Dat betekent dat het model goed generaliseert. 

Door de volgende code-cel uit te voeren, test je het model op een datapunt uit de trainingdata (herneem `beeld1` van in het begin van de notebook). Eerst wordt ervoor gezorgd dat je werkt met het juiste formaat.

In [None]:
# datapunt voorbereiden
voorbeeld = train_images[4].reshape((1, 28 * 28))
# testen
network.predict(voorbeeld)

Wat je hier krijgt is een array waarin staat hoe zeker het model is dat het aangeboden datapunt een 0, een 1, een 2, enz. is, in die volgorde. Die zekerheden worden uitgedrukt in procent.

Vul in en verwijder wat niet past:

Het model is het meest zeker dat het een .... is. <br>
Die zekerheid is .... <br>
Correct/Foutief geclassificeerd!

<div style='color: #690027;' markdown="1">
    <h3>3.4 Model testen op ongeziene data</h3> 
</div>

Kan het model ook cijfers herkennen die we zelf schreven? Probeer het uit.

In [None]:
zeven = np.loadtxt("../.data/IntroductieDeepLearning/zeven.dat")
vier = np.loadtxt("../.data/IntroductieDeepLearning/vier.dat")
twee = np.loadtxt("../.data/IntroductieDeepLearning/twee.dat")

In [None]:
plt.figure()

plt.subplot(1,3,1)
plt.imshow(zeven, cmap="gray")
plt.subplot(1,3,2)
plt.imshow(vier, cmap="gray")
plt.subplot(1,3,3)
plt.imshow(twee, cmap="gray")

plt.show()

Gelijken deze cijfers voldoende op die van de dataset?
Waarom is dat van belang?

Antwoord:

In [None]:
print(zeven.shape, twee.shape, vier.shape)

In [None]:
print(zeven)
print(zeven.dtype)

De datapunten hebben de vorm van matrices.

Bekijk hoe het model presteert op deze cijfers.

In [None]:
# data voorbereiden
zeven = zeven.reshape((1, 28 * 28))              # omvormen naar tensor die 1 vector bevat
vier = vier.reshape((1, 28 * 28))
twee = twee.reshape((1, 28 * 28))
# print(nieuw formaat)
print(zeven.shape, twee.shape, vier.shape)

In [None]:
network.predict(zeven)

In [None]:
network.predict(vier)

In [None]:
network.predict(twee)

Hoe presteert het model op deze zelfgeschreven cijfers?

Antwoord:

### Opdracht 3.1
Schrijf zelf enkele cijfers en test uit of het model jouw handschrift leest!<br>
Je maakt hiervoor zel een notebook aan met Jupyter Notebook binnen Anaconda of in Google Colaboratory of in Microsoft Azure Notebooks.

Besluit:

<div class="alert alert-block alert-warning">
In de notebook 'Van jpg naar dat of npy' lees je meer over hoe je je afbeeldingen naar het gewenste formaat omvormt.
</div>

<div style='color: #690027;' markdown="1">
    <h2>4. Op zoek naar een beter model</h2> 
</div>

### Opdracht 4.1
Pas het aantal neuronen en het aantal epochs in de netwerk-architectuur aan om de prestaties van het netwerk te verbeteren. 

Wie haalt de beste nauwkeurigheid?

De beste nauwkeurigheid die je model haalt is ........ voor de trainingset en .... voor de testset.

### Opdracht 4.2
Test je model uit op je eigen cijfers.<br>
Je maakt hiervoor zelf een notebook aan met Jupyter Notebook binnen Anaconda of in Google Colaboratory of in Microsoft Azure Notebooks.

Tip: vermijd *overfitting*.

<div class="alert alert-box alert-info">
Het verschil tussen de <em>training accuracy</em> en de <em>test accuracy</em> is belangrijk. Als de training accuracy groter is dan de test accuracy, dan spreekt men van <em>overfitting</em>: het feit dat het model slechter gaat presteren op nieuwe data dan op de trainingdata.
</div>

<div>
    <h2>Referentielijst</h2> 
</div>

[1] Chollet, F. (2018). *Deep learning with Python*. Manning publications.<br>
[2] Getting started with the Keras Sequential model. Geraadpleegd op 25 september 2019 via https://keras.io/getting-started/sequential-model-guide/.

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:100px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">AI op School</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 