# Convolutional Neural Networks trainieren

## Convolutional Neural Networks für Bildklassifikation

Zu Beginn wollen wir das Klassifizieren der Ziffern des MNIST Datensatzes aufgreifen, was wir bereits mit Fully Connected Networks (FCNs) durchgeführt haben. Dazu bereiten wir den Datensatz, die `DataLoader` und die Loss-Funktion vor.

In [None]:
import torch
import numpy as np
import torchvision

mnist_train = torchvision.datasets.MNIST('data/', train=True, 
                                         transform=torchvision.transforms.ToTensor(),
                                         download=True)
mnist_test = torchvision.datasets.MNIST('data/', train=False, 
                                         transform=torchvision.transforms.ToTensor(),
                                         download=True)

train_loader = torch.utils.data.DataLoader(mnist_train, batch_size=16, shuffle=True)
test_loader = torch.utils.data.DataLoader(mnist_test, batch_size=16)

loss_fn = torch.nn.CrossEntropyLoss()

### Aufgabe 1

Die wichtigsten Bestandteile eines Convolutional Neural Networks (CNNs) sind die [`torch.nn.Conv2d`](https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html) Layer. Die Faltungskernel haben üblicherweise die Größe $3\times 3$. Im Verlaufe des Netzwerk wird das Bild immer weiter downgesampelt, indem beispielsweise bei der Faltung das Stride auf $2$ gesetzt wird oder Pooling Layer wie [`torch.nn.MaxPool2d`](https://pytorch.org/docs/stable/generated/torch.nn.MaxPool2d.html) verwendet werden. Nach jedem Downsampling wird die Anzahl der Channels um einen Faktor von $2$ erhöht, um die Zahl der Neuronen nicht zu stark zu reduzieren.

Das letzte Layer ist fully connected, sodass man die Wahrscheinlichkeiten für die gewünschte Anzahl an Klassen erhält. Da ein solches Layer allerdings ein Batch von Vektoren erwartet, muss man die Features vorher in Vektoren umwandeln. Eine Möglichkeit dies zu tun haben wir uns in der Übung zu FCNs angeschaut, eine andere ist [`torch.nn.AvgPool2d`](https://pytorch.org/docs/stable/generated/torch.nn.AvgPool2d.html).

Baue ein Netzwerk, was aus $5$-$10$ Layern besteht und zwei Downsampling Operationen enthält. Überprüfe, ob die Dimensionen der Layer zusammen passen, indem du ein Batch mit deinem Netzwerk verarbeitest.

Füge nach den Convolution-Layern ReLU-Layer ein. Du brauchst am Übergang zu den Fully Connected Layern die Operation  `torch.nn.Flatten()`.

In [None]:
#z.B. torch.nn.AvgPool2d(2, 2)
?torch.nn.AvgPool2d

In [None]:
# z.B. torch.nn.Conv2d(1, 8, 3, padding=1)
# Argumente: in_channels, out_channels, kernel_size
?torch.nn.Conv2d

In [None]:
net = _

x = mnist_train[0][0].reshape(1, 1, 28, 28)
out = net(x)
print(out)

### Aufgabe 2

Trainiere dein Netzwerk und werte die Genauigkeit auf dem Testset aus.

In [None]:
def evaluate(model, loader):
    sum_correct = 0
    sum_imgs = 0

    for x_batch, y_batch in loader:
        # Vorhersage des Netzes ohne Gradientenberechnung

        # Vorhergesagtes Label
        
        # Anzahl der Bilder updaten
        
        # Anzahl der korrekt klassifizierten Bilder
        
    # Accuracy berechnen und zurückgeben
    
    return accuracy

In [None]:
from matplotlib import pyplot as plt
from tqdm import tqdm

# Erstellen des Optimizers

# Training
n_epoch = 6

loss_hist = []

for ep in range(n_epoch):
    for x_batch, y_batch in tqdm(train_loader):
        # Vorhersage des Netzwerks

        # Loss berechnen
        
        # Backpropagation
        
        # Optimizer step + Gradienten löschen

        # Loss speichern
    
    # Accuracy bestimmen mittels evaluate + test_loader
    acc = _
    print('Accuracy nach %i Epoche(n): %.2f%%' % (ep + 1, acc * 100))

plt.plot(loss_hist)
plt.show()

## Neuronale Netze evaluieren und verbessern

### Aufgabe 3

Die Confusion Matrix ist ein hilfreiches Tool, um die Fehler, die ein Netzwerk macht, zu verstehen. Sie kann man mit der Funktion `sklearn.metrics.confusion_matrix` ermitteln.

Bestimme die Confusion Matrix und stelle sie grafisch dar.

In [None]:
import seaborn as sns
import pandas as pd

from sklearn.metrics import confusion_matrix

labels = []
predictions = []

with torch.no_grad():
    for x_batch, y_batch in tqdm(test_loader):
        y_pred = _
        y_pred_label = torch.argmax(y_pred, dim=-1)
        
        labels.extend(y_batch.numpy())
        predictions.extend(y_pred_label.numpy())
        

# Confusion Matrix bestimmen
conf_mat = _

# Grafische Darstellung
classes = list(range(10))
conf_mat_pd = pd.DataFrame(conf_mat, classes, classes)
plt.figure(figsize=(15, 9))
sns.heatmap(conf_mat_pd, annot=True)
plt.show()

### Aufgabe 4

Ziffern zu klassifizieren ist ein relativ einfaches Problem und man kann mit relativ einfachen Modellen bereits eine Genauigkeit von $99\%$ erreichen. Deswegen wollen wir jetzt mit dem komplexeren Datensatz CIFAR10 arbeiten, der Farbbilder der Größe $32\times 32$ Pixel aus $10$ Klassen wie Frosch und Schiff beinhaltet.

Wir laden den Datensatz mit [`torchvision.datasets.CIFAR10`](https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR10.html) und visualisieren einige Bilder aus verschiedenen Klassen.

In [None]:
cifar10_train_ = torchvision.datasets.CIFAR10('data/', train=True, 
                                             transform=torchvision.transforms.ToTensor(),
                                             download=True)
cifar10_test = torchvision.datasets.CIFAR10('data/', train=False, 
                                            transform=torchvision.transforms.ToTensor(),
                                            download=True)

### Aufgabe 5

Teile den Trainingsdatensatz und ein Trainings- und einen Validierungsdatensatz auf, sodass zur Validierung etwa $10\%$ der ursprünglichen Trainingsdaten verwendet werden. Erstelle `DataLoader` für den Trainings-, Validierungs- und Testdatensatz, nur der Trainingloader soll geshufflet werden.

In [None]:
cifar10_train, cifar10_val = torch.utils.data.random_split(cifar10_train_, 
                                                           [_, _]) # Trainingsanzahl, Testanzahl

In [None]:
train_loader = torch.utils.data.DataLoader(cifar10_train, batch_size=16, shuffle=True)
val_loader = _
test_loader = _

### Aufgabe 6

Konstruiere ein CNN für den CIFAR10-Datensatz. Da die Bilder größer sind als die von MNIST, solltest du $3$ Downsampling Operationen einbauen.

In [None]:
net = # ???

x = cifar10_train[0][0].reshape(1, 3, 32, 32)
out = net(x)
print(out)

### Aufgabe 7

Trainiere dein CNN. Bestimme dabei die Genauigkeit nach jeder Epoche und stelle sie, den Loss, sowie die Confusion Matrix nach dem Training grafisch dar. 

Verwende bei der Evaluierung auschließlich den Validierungsdatensatz. Den Testdatensatz wollen wir erst ganz am Ende benutzen.

### Aufgabe 8

Versuche die Performance deines Modells zu verbessern, indem du beispielsweise die Architektur optimierst, Regularisierung oder Data Augmentation verwendest und Learning Rate Decay benutzt.

Beachte, dass Batch Normalization und Dropout Layer sich während des Trainings und der Evaluierung unterschiedlich verhalten haben, weswegen du deinem CNN explizit mit `net.train()` oder `net.eval()` mitteilen musst, in welcher Phase es sich befindet.

### Aufgabe 9

Bestimme nun die Genauigkeit und die Confusion Matrix auf dem Testset.