<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Einführung Machine Learning
### Sommersemester 2023
Prof. Dr. Heiner Giefers

# Fashion MNIST mit Neuronalen Netzen

In diesem Arbeitsblatt wollen wir uns erneut den Fashion MNIST Datensatz vornehmen, den wir schon aus dem 7. Arbeitsblatt kennen.
Dort haben wir das Problem mit Multinomialer Logistischer Regression gelöst.
Hier wollen wir ein Multi-Layer Perceptron einsetzen, also ein recht einfaches, mehrschichtiges (und voll-vermaschtes) Neuronale Netz.
Wir werden später sehen, dass sich eine andere Form von Neuronalen Netzen, die sogenannten Faltungsnetze (oder *Convolutional Neural Networks*, CNN) besser für solche Aufgaben eignen.

Zunächst importieren wir den Datensatz aus Tensorflow und passen die Daten an.

In [None]:
import tensorflow as tf

#Datensatz aus Keras laden
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()

#Pixelwerte nach [0,1] skalieren
X_train = X_train / 255.0
X_test = X_test / 255.0

# Mache aus den 2D Bildern 1D Vektoren
X_train = X_train.reshape(-1,28*28,1)[:,:,0]
X_test = X_test.reshape(-1,28*28,1)[:,:,0]

Der MLPClassifier aus **Scikit-learn**kann für binäre, Multi-Klassen und Multi-Label Klassifizierung verwendet werden. Die Aktivierungsfunktion der Ausgabeschicht wird basierend auf dem Typ von `y` ausgewählt:

- **Multi-Klassen**: Es sind verschiedene Klassen möglich, von denen eine wahr ist. `y` kann kann einen Wert annehmen (`y` ist ein Integer) $\rightarrow$ *Softmax*
- **Multi-Label oder binär**: Es sind verschiedene Klassen möglich, von denen mehrere wahr sein können (`y` ist ein Vektor von "Einzel-Wahrscheinlichkeiten") $\rightarrow$ *Sigmoidfunktion*
- **Regression**: `y` ist ein Wert aus $\mathbb{R}$ $\rightarrow$ *Identitätsfunktion* ($f(x)=x$)


Der MLPClassifier vervwendet als Trainings-Algorithmus *Stochastic Gradient Descent* (SGD), *Adam* oder *L-BFGS*.
SGD kennen wir bereits.
Adam ist eine Weiterentwicklung von SGD, bei der für einzelne Attribute die Lernrate entsprechend optimiert wird.
Dass kann dabei helfen, für jedes Merkmal die *passende* Schrittweite zu finden.

L-BFGS ist ebenfalls ein itteratives Lösungsverfahren und gehört zur Klasse der sogenannten *Quasi-Newton-Verfahren*.
Anders als SGD-basierte verfahren benötigt L-BFGS in jedem Iterationsschritt alle Daten, konvergiert aber in vielen Fällen trozdem recht schnell zum Minimum.

Da das Trainieren eines MLP Modells schon recht zeitaufwändig ist, verwenden wir in der folgenden Code-Zelle das Modul *Pickle*, um das Modell in eine Datei zu speichern.
Achten Sie darauf, die Datei zu löschen, wenn Sie das Modell erneut trainieren möchten.

In [None]:
from sklearn.neural_network import MLPClassifier
import os, pickle
modelname = "model.pickle"

if os.path.isfile(modelname):
    clf = pickle.load(open(modelname, "rb"))
else:
    # Hier soll ein MLPClassifier clf erstellt und trainiert werden
    # YOUR CODE HERE
    raise NotImplementedError()
    pickle.dump(clf, open(modelname, "wb"))

In [None]:
clf.score(X_test, y_test)

In [None]:
clf.predict(X_test[:10])

In [None]:
# Zum Löschen der Modell-Datei folgende Zeite un-kommentieren:
# !rm model.pickle

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

# specify the number of rows and columns you want to see
num_row = 3
num_col = 5

# get a segment of the dataset
num = num_row*num_col
start = np.random.randint(0, len(X_train)-num)
images = X_train[start:start+num]
labels = y_train[start:start+num]
y_hat = clf.predict(images)


import numpy as np

labels_de = ["T-Shirt", "Hose", "Pullover", "Kleid", "Mantel", "Sandalen", "Shirt", "Turnschuhe", "Tasche", "Stiefelette"]

# plot images
fig, axes = plt.subplots(num_row, num_col, figsize=(1.5*num_col,2*num_row))
for i in range(num_row*num_col):
    ax = axes[i//num_col, i%num_col]
    ax.imshow(images[i].reshape(28,28), cmap='gray')
    ax.set_title(f'$y$: {labels_de[labels[i]]}\n$\hat{{y}}$: {labels_de[y_hat[i]]}')
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

plt.tight_layout()
plt.show()