<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Machine Learning
### Sommersemester 2021
Prof. Dr. Heiner Giefers

# Rückblick Logistic Regression

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
from tensorflow.keras import datasets , utils

In [None]:
# Test Case
m_c, n_c = 2, 4
np.random.seed(0)
X_c = np.random.randn(m_c, n_c)
theta0_c, theta1_c = 0, np.random.randn(n_c, 1)
y_c = np.random.randn(m_c, 1)

Bei der Logistischen Regression haben wir das Gradientenverfahren benutzt, um die Parameter unseres Modells, einer linearen Funktion $$Z = f_{\Theta}(x)=\Theta_0+\Theta_1x$$ transformiert durch die Aktivierungsfunktion $$\hat y = h_{\Theta}(x) = \sigma(Z) = \frac{1}{1+e^{-Z}}$$ schrittweise zu verbessern.
Die Verbesserung, bzw. die Qualität des Modells, haben wir anhand der Kostenfunktion $$J_{\Theta}(x)=-\frac{1}{m} \sum\limits_{i = 1}^{m} [y^{(i)}\log(\hat y^{(i)}) + (1-y^{(i)})\log(1- \hat y^{(i)})]$$ berechnet:

## Forward Pass
**Aufgabe: Schreibe eine Funktion $f$, die folgende Parameter erhält:**
1. Die Matrix $X \in \mathbb{R}^{m\times{}n}$, die die Datenpunkte des Trainigsdatensatzes enthält.
2. Die Parameter $\Theta$. Dabei ist der Bias Parameter $\Theta_0$ ein skalarer Wert, $\Theta_1$ hingegen ein Vektor aus $\mathbb{R}^n$, in Numpy also mit der Dimension `(n, 1)`.

**$f$ soll folgende lineare Funktion implementieren:** $$Z = f_{\Theta}(X)=\Theta_0+X\Theta_1$$


In [None]:
def f(X, theta0, theta1):
    """evaluates linear function.
    Arguments:
        X: value
        theta0: Bias
        theta1: Function slope
    """
    
    # YOUR CODE HERE
    raise NotImplementedError()
    
    return Z

In [None]:
# Test Cell
#----------

Z = f(X_c, theta0_c, theta1_c)
#----------
# f

assert Z.shape == (m_c, 1), 'Use correctly sequenced matrix multiplication'
assert np.isclose(Z[0], 3.38207), 'Expected 3.38207 but got %.5f' %Z[0]

del Z

**Aufgabe: Implementieren Sie die Perzepton-Fuinkion $h$. Die Funktion $h$ soll die gleichen Parameter wie $f$ erhalten und die Funktion $f$ intern aufrufen. Das Ergebnis von $f$ soll durch die Sigmoid-Aktivierungsfunktion transformiert werden.:** $$\hat y = h_{\Theta}(x) = \sigma(Z) = \frac{1}{1+e^{-Z}}$$

In [None]:
def h(X, theta0, theta1):
    """returns the sigmoid of the linear function.
    Arguments:
        X: Data
        theta0: Bias
        theta1: Function slope
    """
    
    # YOUR CODE HERE
    raise NotImplementedError()
    
    return y_hat

In [None]:
# Test Cell
#----------

y_hat = h(X_c, theta0_c, theta1_c)
#----------
# h

assert y_hat.shape == (m_c, 1)
assert np.isclose(y_hat[0], 0.96713), 'Expected 0.96713 but got %.5f' %y_hat[0]

del y_hat

**Aufgabe: Berechnen Sie nun die Kostenfunktion. Schreiben Sie eine Funktion $J$, die folgende Parameter erhält:**
1. Die Matrix $X \in \mathbb{R}^{m\times{}n}$, die die Datenpunkte des Trainigsdatensatzes enthält. .
2. Die Parameter $\Theta$. Dabei ist der Bias Parameter $\Theta_0$ ein skalarer Wert, $\Theta_1$ hingegen ein Vektor aus $\mathbb{R}^n$, in Numpy also mit der Dimension `(n, 1)`.
3. Die Label $y$ in der Größe des Datensatzes `(m, 1)`.

**$J$ berechnet die folgende Kostenfunktion:** $$J_{\Theta}(x)=-\frac{1}{m} \sum\limits_{i = 1}^{m} [y^{(i)}\log(\hat y^{(i)}) + (1-y^{(i)})\log(1- \hat y^{(i)})]$$

In [None]:
def J(X,theta0, theta1,y):
    """computes the Cross-entropy cost function
    Arguments:
        X: Data
        theta0: Bias
        theta1: Function slope
        y: True labels
    """
    # YOUR CODE HERE
    raise NotImplementedError()
    
    return J.squeeze()

In [None]:
# Test Cell
#----------

cost = J(X_c,theta0_c,theta1_c,y_c)
#----------
# J

assert cost.shape == (), 'Use correctly sequenced matrix multiplication'
assert np.isclose(cost, 0.66739), 'Expected 0.66739but got %.5f' %cost

del cost

## Backpropagation

**Schreibe für das Gradientenverfahren eine Funktion `grads`, die folgende Parameter erhält**
1. Die Matrix $X \in \mathbb{R}^{m\times{}n}$, die die Datenpunkte des Trainigsdatensatzes enthält. .
2. Die Parameter $\Theta$. Dabei ist der Bias Parameter $\Theta_0$ ein skalarer Wert, $\Theta_1$ hingegen ein Vektor aus $\mathbb{R}^n$, in Numpy also mit der Dimension `(n, 1)`.
3. Die Label $y$ in der Größe des Datensatzes `(m, 1)`.

**und den Fradienten $\partial\theta$ für die Parameter $\theta$ berechnet** 

Dabei ist $\partial\theta_0$ ein Skalar der dem Gradienten des Bias Parameters entspricht: $$\partial\theta_0 = \frac{1}{m} \sum_{i=1}^m (\hat y^{(i)}-y^{(i)})$$

$\partial\theta_1$ ist ein Vektor der Dimension `(n, 1)` mit den Gradienten der anderen Parameter: $$ \partial \theta_1 = \frac{1}{m}X^T(\hat y-y)$$

In [None]:
def grads(X,theta0, theta1,y):
    """Calculates grads of the cost function with respect to the parameters.
    Arguments:
        X: Data
        theta0: Bias
        theta1: Function slope
        y: True labels
    """
    
    # YOUR CODE HERE
    raise NotImplementedError()
    
    return dtheta0, dtheta1

In [None]:
# Test Cell
#----------

dt0, dt1 = grads(X_c,theta0_c,theta1_c,y_c)
#----------
# grads

assert dt0.shape == (), 'theta0 should be a scaler'
assert dt1.shape == theta1_c.shape
assert np.isclose(dt1[0], 0.38273), 'Expected 0.38273 but got %.5f' %dt1[0]

**Aufgabe: Schreiben Sie nun eine Funktion, die die Modellparameter aufgrund der berechneten Gradienten aktualisiert.Die Funktion `update`erhält die Parameter $\theta$, die Gradienten $\partial \theta$ sowie die Lernrate $\alpha$ und berechnet:

$$\theta = \theta - \alpha \cdot \partial \theta$$

In [None]:
def update(theta0, theta1,dtheta0, dtheta1, alpha):
    """updates parameters using gradient decent updating rule."""
    
    # YOUR CODE HERE
    raise NotImplementedError()
    
    return theta0, theta1

In [None]:
# Test Cell
#----------

t0, t1 = update(theta0_c, theta1_c,dt0, dt1, 0.1)
#----------
# update

assert t0.shape == (), 'theta0 should be a scaler'
assert t1.shape == theta1_c.shape
assert np.isclose(t1[0], -0.141491), 'Expected -0.141491 but got %.5f' %t1[0]
del t0, t1, dt0, dt1

Nun können wir das iterative Gradientenverfahren programmieren.
**Aufgabe: Schreiben Sie eine Funktion `gradient_descent`, die folgende Parameter erhät:**
1. Die Matrix $X \in \mathbb{R}^{m\times{}n}$, die die Datenpunkte des Trainigsdatensatzes enthält. .
2. Die Parameter $\Theta$. Dabei ist der Bias Parameter $\Theta_0$ ein skalarer Wert, $\Theta_1$ hingegen ein Vektor aus $\mathbb{R}^n$, in Numpy also mit der Dimension `(n, 1)`.
3. Die Label $y$ in der Größe des Datensatzes `(m, 1)`.
4. Die Lernrate $\alpha$.
5. Die Anzahl der Iterationen.
**Die Funktion soll die Trainierten Modellparameter $\theta$ zurückgeben.**

*Hinweis*: Berechnen Sie Kosten mit der Funktion `J` und hängen Sie diese Kosten nach jedem BErechnungsschritt and die Liste `cost` an --> Berechnen Sie die Gradienten mit der Funktion `grads` --> Verwenden Sie diese Gradienten um die Parameter mit der Funktion `optim`

In [None]:
def gradient_decent(X, theta0, theta1, y, alpha=0.1, iterations=400):
    """performs gradient decent optimization.
    Arguments:
        X: Data
        theta0: Bias
        theta1: Function slope
        y: True labels
        alpha(default=0.1): Learning rate
        iterations(default=400): number of updating iterations
    """
    
    costs = []
    
    for i in range(iterations):
        # YOUR CODE HERE
        raise NotImplementedError()
        
    return theta0, theta1, costs

In [None]:
# Test Cell
#----------

t0, t1, costs = gradient_decent(X_c, theta0_c, theta1_c, y_c)
#----------
# gradient_decent

assert len(costs) == 400, 'Make sure to calculate and append the cost in every iteration.'
assert np.isclose(t1[3], 1.05186), 'Expected 1.05186 but got %.5f' %t1[3]

del t0, t1, costs

## Trainieren Sie das Modell

Wir habe nun alle Funktionen um unser Perzeptron für einen *echten* Datensatz zu einzusetzen.
Wir verwenden hier den Brustkrebs-Datensatz aus Sklearn:

In [None]:
scaler = MinMaxScaler()
data = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(data.data,data.target,test_size=0.3)

# preprocessing
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
y_train = np.expand_dims(y_train, 1)
y_test = np.expand_dims(y_test, 1)

In [None]:
# initializing parameters
theta0 = 0.
theta1 = np.zeros((len(X_train[0]), 1))

#training the model
theta0, theta1, costs = gradient_decent(X_train, theta0, theta1, y_train.reshape(-1, 1), alpha = 2)

In [None]:
plt.plot(range(1,len(costs)),costs[1:], "x-")
plt.show()

In [None]:
# measuring performance
y_pred = (h(X_test,theta0, theta1) >= 0.5)*1
acc = 100-np.sum(np.abs(y_pred-y_test))*100/len(y_test)

print("Die classifcation accuracy ist: ",acc)

Bisher haben wir ein Perzeptron betrachtet, also eine Art Neuronales Netz mit nur einer Schicht. Die gleichen Methoden können wir aber auch für mehrschichtige Neuronale Netze verwenden.

# Neurale Netze

(*wird noch übersetzt*)

Similarly, we will generalize the same structure to write the functions for forward and backward propagation and optimization but with one difference is that the input-out dimensions are a little more flexable.

## Forward Propagation
**First we build a function that takes in:**
1. The layer input data matrix $A$ where each column is a single datapoint and the number of columns is the size of the dataset ($A = X$ for the first layer and $A = \hat y$ for the last layer).
2. The parameters $\Theta$. Note: from now on we will refer to $\Theta_0$ as $b$ and $\Theta_1$ as $W$ where $b$ is a vector value representing the bias for each node and $W$ is a matrix having the dimensions of the current layer and the previous layer.

**and returns the linear function:** $$Z = f_{\Theta}(A)= b + AW$$


In [None]:
def f(A, b, W):
    """evaluates linear function.
    Arguments:
        A: Layer input data
        b: Biases vector
        W: Weights matrix
    """
    Z = b + A@W
    cache = (A, b, W) # keeping cache is important for backpropagation
    
    return Z, cache

To introduce the nonlinearity, **we build the sigmoid activation function that takes in the same arguments from before and returns the activation function:** $$A_{next}= h_{\Theta}(A) = \sigma(Z) = \frac{1}{1+e^{-Z}}$$

In [None]:
def h(A, b, W):
    """computes the sigmoid of the linear function.
    Arguments:
        A: Layer input data
        b: Biases vector
        W: Weights matrix
    """
    
    Z, Zcache = f(A, b, W)
    A = 1.0 / (1.0+np.exp(-Z))
    cache = (Zcache, Z) # keeping cache is important for backpropagation
    
    return A, cache

Note that the dimensions of the network is determined by those of parameters, therefore it is convenient to write a function to initalize the parameters and dictate network architecture 

In [None]:
def init(dims):
    """returns initial weights and biases."""
    #dims = [X,L1,L2,...,y]
    b = []
    W = []
    
    for l in range(1, len(dims)):
        b.append(np.zeros((1, dims[l])))
        W.append(np.random.randn(dims[l-1], dims[l])*0.01) # to break symmetry, it's good to have non-zero weights 
        
    return b, W

After having the building blocks ready, **we can create a function that repeats the same calculation over multiple layers from input layer $X$ to output layer $y$**

In [None]:
def forward(X, b, W):
    """Performs a forward propagation through all layers.
    returns the output layer and cache of intermidiates.
    """
    
    caches = []
    A = X
    
    for l in range(len(b)):
        A_prev = A
        A, cache = h(A_prev, b[l], W[l])
        caches.append(cache)
        
    return A, caches

Now to calculate the cost function. **We build a function that takes in:**
1. The predicted labels through forward propagation $\hat{y}$ in the size of the dataset (1, m).
3. The true labels  $y$ in the size of the dataset (1, m).

**and returns the cost function:** $$-\frac{1}{m} \sum\limits_{i = 1}^{m} [y^{(i)}\log(\hat{y}^{(i)}) + (1-y^{(i)})\log(1- \hat{y}^{(i)})]$$

In [None]:
def J(y_pred, y):
    """evaluates Cross-entropy cost function."""
    J = -(y.T@np.log(y_pred) + ((1.0-y.T)@np.log(1.0-y_pred)))/len(y)
    
    return J

## Back Propagation

For gradients . **We build a function that takes in:**
1. The gradient of cost wrt linear function ($\partial Z$)
2. The cache of $f$ collected during forward propagation.

**and returns the grads for the parameters $\partial b, \partial W, \partial A_{prev}$.** 

Note that $\partial b$ is a vector representing the bias grads: $$\partial b = \frac{1}{m} \sum_{i=1}^m (\partial z^{(i)})$$


and $\partial W$ is a matrix having the layer deminsions: $$ \partial W = \frac{1}{m}A_{prev}^T\partial Z$$

and $\partial A_{prev}$ is gradient of cost wrt activation function $A$ of the previous layer $$ \partial A_{prev} = \frac{1}{m}\partial ZW^T$$

In [None]:
def f_back(dZ, cache):
    """calculates grads w.r.t. parameters."""
    
    A_prev, b, W = cache
    m = len(A_prev[0])
    
    db = np.sum(dZ, axis=0, keepdims=True)/m
    dW = (A_prev.T@dZ)/m
    dA_prev = (dZ@W.T)/m
    
    return dA_prev, db, dW

For gradients . **We build a function that takes in:**
1. The gradient of cost wrt activation function $\partial A$
2. The cache of $h$ collected during forward propagation.

**and returns the grads for the parameters $\partial b, \partial W, \partial A_{prev}$.**

Note that $\partial Z$ is a matrix having the layer deminsions: $$\partial Z = \partial A \cdot \sigma (Z) (1-\sigma (Z))$$

In [None]:
def h_back(dA, cache):
    """calculates grads w.r.t. linear function."""
    
    Zcache, Z = cache

    sigma = 1/(1+np.exp(-Z))
    dZ = dA * sigma * (1-sigma)
    dA_prev, db, dW = f_back(dZ, Zcache)
    
    return dA_prev, db, dW

**We can now iterate these function backward over all layers and gather the gradients along the way.**

In [None]:
def grads(y_hat, y, caches):
    """performs backprobagation through all layers to calculate grads of all parameters."""
    
    db = []
    dW = []
    
    dA = -(y/y_hat - (1-y)/(1-y_hat)) # derivative of cost with respect to y_hat
    
    for l in reversed(range(len(caches))):
        dA, db_, dW_ = h_back(dA, caches[l])

        db.insert(0, db_)
        dW.insert(0, dW_)
        
    return db, dW

## Optimization

For gradient decent optimization. We write a function that updates the parameters, it recieves:
1. parameters for the entire network ($b, W$).
2. grads of the entire network ($\partial b, \partial W$).
3. learning rate $\alpha$.

and returns the updated set of parameters ($b, W$).

In [None]:
def optim(parameters, grads, alpha):
    """updates parameters using gradient decent updating rule."""
    
    b, W = parameters
    db, dW = grads
    
    for l in range(len(b)):
        b[l] = b[l] - alpha*db[l]
        W[l] = W[l] - alpha*dW[l]
        
    return b, W

## Train a model

Now that we have set up the network, let's create a model and train it on the MNIST dataset.

In [None]:
#Importing MNIST from tensorflow dataset liabrary

(X_train, y_train), (X_test, y_test) = datasets.mnist.load_data()

Check out an random sample:

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(18,3))

for i in range(10):
    ax[i].set_title('Image label: %d' %i)
    ax[i].axis('off')
    ax[i].imshow(X_train[y_train == i][0], cmap='gray')
plt.show()

In [None]:
# preprocessing

X_train = X_train.reshape(-1, 28*28)/255
X_test = X_test.reshape(-1, 28*28)/255
y_train = utils.to_categorical(y_train)
y_test = utils.to_categorical(y_test)

In [None]:
def model(X, y, layers_dims, alpha = 0.01, epoch = 20, batch_size = 400):
    """An MLP that optimizes Cross-entropy cost function using gradient decent.
    X: Input data
    y: Target labels
    layers_dims: A list of layers' dimensions
    alpha(default = 0.01): Learning rate
    epoch(default = 20): Number of epochs
    batch_size(default = 400): Size of minibatches
    """
    
    costs = []
    parameters = init(layers_dims)
    b, W = parameters
    
    for i in range(epoch):
        
        for batch in range(0,len(y),batch_size):
            y_hat, caches = forward(X[batch:batch+batch_size], b, W)
            cost = J(y_hat, y[batch:batch+batch_size])
            gradss = grads(y_hat, y[batch:batch+batch_size], caches)
            parameters = optim(parameters, gradss, alpha)
            b, W = parameters

        costs.append(cost.item(0))
        print(f'Epoch {i}: {cost.item(0)}')
            
    plt.plot(range(1,len(costs)),costs[1:], "x-")
    plt.show()
    return parameters

In [None]:
def predict(X, parameters):
    """predict labels using learned parameters."""
    
    b, W = parameters
    y_pred, _ = forward(X, b, W)
    
    return (y_pred>=0.5)*1

In [None]:
trained_wieghts_0 = model(X_train, y_train, [28*28, 10], 0.5)

In [None]:
trained_wieghts_1 = model(X_train, y_train, [28*28, 20, 10], 0.5)

In [None]:
y_pred_0 = predict(X_test, trained_wieghts_0)
acc_0 = 100-np.sum(np.abs(y_pred_0-y_test))*100/len(y_test)

y_pred_1 = predict(X_test, trained_wieghts_1)
acc_1 = 100-np.sum(np.abs(y_pred_1-y_test))*100/len(y_test)

acc_0, acc_1

Let's see a classified random sample from the testset:

In [None]:
img_i = np.random.randint(10000, size=8)
fig, ax = plt.subplots(1, 8, figsize=(18,3))
for i, j in enumerate(img_i):
    ax[i].set_title('True: %d\nPredicted: %d' %(np.argmax(y_test[j]), np.argmax(y_pred_1[j])))
    ax[i].axis('off')
    ax[i].imshow(X_test[j].reshape(28,28), cmap='gray')
plt.show()

In the next section, we learn how to build neural nets more easily in Keras

# Neuronale Netze mit Keras

In dieser Aufgabenblatt geht es darum, ein einfachen Künstliches Neuronales Netz für ein Regressionsproblem mit der Keras API zu implementieren.

Wir verwenden den *Boston Housing* Datensatz, der als Standard-Anwendungsbeispiel über die Keras API heruntergeladen werden kann.

Der Datensatz beschreibt die Wohnverhältnisse in verschieden Gebieten um Boston in den 1970er Jahren.
Er enthält 506 Einträge mit jeweils 13 numerischen Merkmalen, die Zielvariable beschreibt den mittleren Wert der Häuserpreise in dem jeweiligen Bezirk (in Tausend USD).

Gute Modelle sollten Vorhersagen mit einer mittlere quadratische Abweichung (*mean squared error*, MSE) unterhalb 20 (Tausend USD) treffen.



In [None]:
#import sys
#!conda install --yes --prefix {sys.prefix} tensorflow

Zuerst binden wir die wichtigsten Bibliotheken ein und laden den Datensatz mit der Funktion `boston_housing.load_data()` herunter.

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras import models, layers, datasets

In [None]:
(X_train, y_train), (X_test, y_test) = datasets.boston_housing.load_data()

In [None]:
mean = X_train.mean(axis=0)
X_train -= mean
std = X_train.std(axis=0)
X_train /= std

X_test -= mean
X_test /= std

X_test.shape

In [None]:
model = models.Sequential()
model.add(layers.Dense(32, activation='relu', input_shape=(X_train.shape[1],)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(1))

Nachdem die Modellparameter zusammengestellt sind, muss die Eigentliche Modellfunktion erstellt werden.
In Tensorflow wird damit der Graph des Modells erzeugt.
Die `compile`-Funktion kann mit verschiedenen Parametern angepasst werden:
- `optimizer` legt die Art (den Algorithmus) des Gradientenverfahrens fest. (https://keras.io/optimizers/)
- `loss` bestimmt die Art der Kostenfunktion (https://keras.io/losses/)
- `metrics` legt fest, welche Qualitätsmerkmale beim Trainieren überprüft werden sollen (https://keras.io/metrics/)



In [None]:
model.compile(
    optimizer='SGD',
    loss='mse',
    metrics=['mae','mape'])

Um die Ergebnisse zu visulaisieren, legen wir ein Log-Verzeichnis pro Lauf des Verfahrens an, in das wir die Informationen der `fit`-Funktion schreiben.
Damit können wir später die Ergebnisse der einzelnen Trainingsläufe vergeleichen.

In [None]:
import time
newlog = '.\\keras_data\\run_' + time.strftime("%Y%m%d-%H%M%S")
tbCallBack = tf.keras.callbacks.TensorBoard(log_dir=newlog, histogram_freq=0, write_graph=True, write_images=True)

Nun rufen wir die `fit`-Funktion auf, um die Modellparameter zu lernen.

In [None]:
model.fit(
    X_train,
    y_train,
    epochs=200,
    batch_size=64,
    callbacks=[tbCallBack]
)

Nach dem Training verwenden wir die Testdaten, um unser trainiertes Modell zu evaluieren

In [None]:
mse_score, mae_score, mape_score = model.evaluate(X_test, y_test, verbose=False)
print("Mittlwert der Fehlerquadrate: ", mse_score)
print("Mittlerer absoluter Fehler: ", mae_score)
print("Mittlerer absoluter Fehler (in Prozent): ", mape_score)

Das Trainierte Modell schätzt die Häuserpreise vermutlich nicht sonderlich gut.
Dies liegt an der sehr unglücklichen Wahl der (Hyper-)Parameter.
Versuchen Sie die Parameter sinnvoll anzupassen, sodass sich die Qualität der Schaätzfunktion verbessert.

Um die Log-Dateien sowie den Modellgraphnen zu visualisieren, können die Tensorboard verwenden.
Rufen Sie daszu (im Verzeichnis der *.ipynb* Datei) das Kommando `tensorboard --logdir=./keras_data` auf.
Wenn Tensorboard gestartet ist, erreichen Sie die Web-Oberfläche unter der URL `localhost:8008`.

In [None]:
for a in model.get_weights():
    print(np.shape(a))

In [None]:
model.summary()

Wir verwenden nun in einem zweiten Beispiel Keras mit dem MNIST Datensatz:

### Beschaffen der Daten und Vorverarbeiten

1. Daten mit `datasets.mnist.load_data()` laden
2. Bilder in eindimensionale Arrays umwandeln mit `reshape`. Teilen durch 255 um zu Normalisieren.
3. One-Hot Encoding der Labels mit `utils.to_categorical`

In [None]:
# Data loading
(X_train, y_train), (X_test, y_test) = (None, None), (None, None)
# YOUR CODE HERE
raise NotImplementedError()


# Data preprocessing
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert X_train.ptp() == X_test.ptp() == 1, 'Data is not nomalized'
assert X_train.shape == (60000, 784)
assert X_test.shape == (10000, 784)
assert y_train.shape == (60000, 10), 'Make sure to one hot encode train labels'
assert y_test.shape == (10000, 10), 'Make sure to one hot encode test labels'

### Das Modell aufstellen
Erstellen Sie ein Modell mit geeigneten Hyperparametern:

*Hinweise:*
- Verwenden Sie die `softmax` Aktivierungsfunktion um die Ausgabeschicht in eine Wahrscheinlichkeitsfunktion umzuwandeln.
- `input_shape` ist ein Vektor der Dimension `(784,)`

In [None]:
mnist_model = None

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert type(mnist_model) == models.Sequential
assert mnist_model.built, 'The model is not built'
assert len(mnist_model.layers) > 2, 'You should have at least one hidden layer'
assert mnist_model.input_shape[1:] == X_train[0].shape, 'Input must match the features of the image'
assert mnist_model.output_shape[1] == 10, 'Output must match the number of classes'

### Modell Kompilieren
VErwenden Sie `compile` um den `optimizer`, die `loss` Funktion und die `metrics` festzulegen.

*Hinweise:* 
- Da wir `softmax` verwenden, wählen wir die Kostenfunktion `categorical_crossentropy`.
- `accuracy` ist an dieser Stelle eine gute Metrik für die Klassifikation

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert 'accuracy' in mnist_model.metrics_names
assert mnist_model.loss
assert mnist_model.optimizer

### Training
Trainieren Sie das Modell mit der `fit` Funktion.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert len(mnist_model.history.epoch) >= 2

### Testen
Evaluieren Sie das Modell mit der `evaluate` Funktion:

In [None]:
loss, acc = [None]*2

# YOUR CODE HERE
raise NotImplementedError()
print("loss: %.4f - accuracy: %.4f " %(loss, acc))

### Visualisierung

In [None]:
img_i = np.random.randint(10000, size=8)
fig, ax = plt.subplots(1, 8, figsize=(18,3))
for i, j in enumerate(img_i):
    ax[i].set_title('True: %d\nPredicted: %d' %(np.argmax(y_test[j]), mnist_model.predict_classes(X_test[j].reshape(1, -1))))
    ax[i].axis('off')
    ax[i].imshow(X_test[j].reshape(28,28), cmap='gray')
plt.show()

In [None]:
mnist_model.summary()

## Referenzen:
[1] M. Berthold, C. Borgelt, F. Höppner and F. Klawonn, Guide to Intelligent Data Analysis, London: Springer-Verlag, 2010.  
[2] A. Ng, Machine Learning Yearning, deeplearning.ai, 2018.  

**Tipp:** Schauen Sie sich die Playlist von *3Blue1Brown* über Neuronale Netze auf [Youtube](https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi) an