# ML Workshop: Handschrifterkennung

##### Dieses Programm erlaubt es euch, Python-Code ganz einfach im Browser ausführen. Ihr könnt die jeweilige Zelle mit der Taskenkombination SHIFT + ENTER ausführen.

Vorgehensweise:   
1. Importieren der benötigten Module/Bibliotheken   
2. Laden des Datensatzes (Handgeschriebene Ziffern)   
3. Aufteilung des Datensatzes in Trainings- und Testdaten   
4. Normalisierung der Daten   
5. Erstellung und Training des Künstlichen Neuronalen Netzes   
6. Testen und Validierung der Genauigkeit unseres Neuronalen Netzes   


In [None]:
# 1. Importieren der benötigten Module/Bibliotheken   
import tensorflow as tf # Framework von Google zur Erstellung von NN
import keras # ML Bibliothek, stellt Schnittstellen für Tensorflow bereit
from keras.models import Sequential
from keras.layers import Dense # FULLY CONNECTED LAYERS
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import to_categorical

In [None]:
# 2. Laden des Datensatzes (Handgeschriebene Ziffern) 
# 70.000 Bilder von handgeschriebenen Ziffern in der Größe von 28x28px  
mnist = keras.datasets.mnist 

In [None]:
# 3. Aufteilung des Datensatzes in Trainings- und Testdaten (Supervised Learning)
# 60.000 Trainingsdaten
# 10.000 Testdaten
(train_data, train_labels), (test_data, test_labels) = mnist.load_data()

In [None]:
# Wie sehen die Daten aus?
from matplotlib import pyplot as plt # Bibliothek zur Erstellung von Graphen

# Ausgabe des 1. Bildes der Trainingsdaten + Label
plt.imshow(train_data[0])
print(train_labels[0])

In [None]:
# 4. Normalisierung der Daten (preprocessing)
# Warum müssen die Daten normalisiert werden?
# Unser NN rechnet mit Daten zwischen 0 und 1, die Daten aus dem Datensatz bestehen aber aus Zahlen zwischen 0 und 255
print(train_data)


In [None]:
# Mithilfe der normalize Funktion wandeln wir die Daten um
train_data  = tf.keras.utils.normalize(train_data, axis=1)
test_data  = tf.keras.utils.normalize(test_data, axis=1)
print(train_data)

In [None]:
# 5. Erstellung und Training des Künstlichen Neuronalen Netzes
# Wir verwenden ein vollständig verbundenes, sequentiell aufgebautes Netz, welches aus 2 Hidden Layers und einem Output Layer besteht
# Beide Hidden Layers besitzen 128 Neuronen und werden nach der Multiplikation der Inputs mit den Gewichen durch die relu-Aktivierungsfunktion aktiviert
# Der Output Layer besitzt 10 Neuronen (Wahrscheinlichkeit für jede Ziffer 0-9)
model = Sequential()

model.add(Dense(128, activation='relu')) # Hidden Layer 1

model.add(Dense(128, activation='relu')) # Hidden Layer 2

model.add(Dense(10, activation='softmax')) # Output Layer

In [None]:
# Das Netz benötigt eine Optimierungsstrategie (Adam), ein Berechnungsverfahren für den Loss und eine Metrik, die gemessen werden soll (Genauigkeit)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

In [None]:
# "Füttern" des Netzes, damit es lernen kann
# Wir geben dem Netz die Trainingsdaten + die entsprechenden Labels
# 60.000 ist die Anzahl der Bilder 
# 784 ist die Länge des Inputs (28x28px) 
model.fit(train_data.reshape(60000, 784), train_labels, epochs=3)

In [None]:
# 6. Testen und Validierung der Genauigkeit unseres Neuronalen Netzes
# Nun nutzen wir die Testdaten, um unser trainiertes Netz zu testen
# Das Netz klassifiziert eigenständig das Bild und prüft mithilfe des Labels, ob die Vorhersage richtig oder falsch war
# Anhand dessen kann die Genauigkeit des Netzes berechnet werden
val_loss, val_acc = model.evaluate(test_data.reshape(10000, 784), test_labels)
print(val_acc)

In [None]:
# Nun überprüfen wir das ganze noch manuell
import numpy as np

# Wir lassen alle Bilder der Testdaten klassifizieren
predictions = model.predict(test_data.reshape(10000, 784))

# So sieht die Ausgabe für das 21. Bild unserer Testdaten aus (Index beginnt bei 0)
print(predictions[20])

In [None]:
pred_20 = predictions[20]

# Speichern des Index der höchsten Zahl aus pred_20 in max_20 -> Welche Zahl hat unser Netz auf dem Bild erkannt 
max_20 = np.argmax(pred_20)

# Die Zahl, die unser Algorithmus auf dem Bild erkannt hat
print(max_20)
# Ausgabe des Bildes
plt.imshow(test_data[20])