# PPMROB - Laborübung
Dr. Dietmar Schreiner

---

# Deep Convolutional Neural Networks in pyTorch

## Zielsetzung

In dieser Laborübung wird ein __Image Classification__ Network für den Fashion-MNIST (NIST = National Institute of Standards and Technology; M = modified) Datenbestand entwickelt, trainiert und evaluiert.

### Fashion-MNIST

Der Fashion-MNIST Datenbestand hat sich aus dem MNIST Datenbestand entwickelt, welcher eine Sammlung von 70.000 handgeschriebenen Ziffern ist. Der MNIST Benchmark ist allerdings überaltet und stellt für moderne Methoden keine interessante Herausforderung mehr dar.

<img src="img/mnist_example.png" alt="MNIST" style="height: 200px;"/> 

Im Lauf der Zeit wurden zahlreiche neue Aufgabenstellungen und Datenbestände entwickelt, publiziert und auch weltweit akzeptiert. Einer davon ist der sogenannte Fashion-MNIST Datenbestand. ([Zalando Research](https://github.com/zalandoresearch/fashion-mnist))

Wie der ursprpngliche MNIST Datenbestand enthält auch der Fashion-MNIST Datenbestand 70.000 Bilder, die nun aber keine Ziffern sondern Produkte aus dem Sortiment von Zalando enthalten. Für den Benchmark werden die Bilder gleich dem MNIST Benchmark im Verhältnis 6:1 zwischen Training und Test aufgeteilt.

<td> <img src="img/fmnist.png" alt="Fashion-MNIST" style="height: 200px;"/> </td>

#### Klassen (Labels)

Der Fashion-MNIST Datenbestand ist in 10 Klassen eingeteilt.

Index | Klasse/Label
:---|:---
0 | T-Shirt/Top
1 | Hose
2 | Pullover
3 | Kleid
4 | Mantel/Jacke
5 | Sandale
6 | Hemd
7 | Turnschuh
8 | Tasche/Beutel
9 | Stiefelette

#### Bildformat

* Jedes Bild entspricht der Auflösung __28 x 28__ und umfasst 748 Pixel.
* Jedes Pixel wird durch ein Byte repräsentiert, das den Dunkelheitswert des Bildpunkts speichert (je dunkler, je höher der Wert). 

#### Datenformat

* Jede Zeile im Datenbestand repräsentiert ein Bild.
* Spalte 0 enthält das Label.
* Die Spalten 1 bis 748 enthalten das Bild (Dunkelheitswerte).


## Vorgehensweise

Im Bereich Machine Learning sieht die typische Vorgehensweise wie folgt aus:

* Vorbereiten der Daten
* Entwickeln des Modells
* Trainieren des Modells
* Analyse und Evaluation der Ergebnisse


### Vorbereitung der Daten

(Lern)Daten sind ein elementarer Baustein für die Leistungsfähigkeit eines Neuronalen Netzes. Die Vorbereitung bzw. die Aufbereitung der Daten spielt daher eine sehr wichtige Rolle. 

**Anmerkung: Datenherkunft**

Da die zum Lernen benutzten Daten das Endergebnis des Lernprozesses definieren sind folgende Fragen von esentieller Wichtigkeit:

- Wer hat den Datenbestand erzeugt?
- Wie wurde der Datenbestand erzeugt?
- Wurden die Daten einer Transformation unterzogen?
- Mit welchem Ziel wurde der Datenbestand erstellt?
- Ist der Datenbestand möglicherweise unausgewogen?

#### ETL Prozess

Der ETL Prozess zur Bereitstellung der Daten unterteilt sich in drei Schritte:

* **E**xtract: Extrahieren der Daten aus einer Datenquelle
* **T**ransform: Transformation der Daten in das gewünschte (eigene) Format
* **L**oad: Laden der Daten in passende Datenstrukturen zur weiteren Analyse/Verarbeitung

Für dieser Laborübung wird auf die vorhandenen Ressourcen des __torchvision__ Pakets zurückgegriffen. Diese sind:

* __Datasets__ (z.B. MNIST, Fashion-MNIST)
* __Models__ (z.B. vgg16)
* Transforms
* Utils

__Aufgabe:__ Analyse des MNIST Packages, bzw. der Implementierung von Fashion-MNIST in ___torchvision___.
>__Tip__: miniconda3 -> envs -> ppmrob -> Lib -> site-packages -> torchvision)



##### Exctract & Transform

Im ersten Schritt werden die Fashion-MNIST Bilddaten von der Datenquelle extrahiert. Im zweiten Schritt werden die Bilddaten in einen pyTorch Tensor übertragen. 

In pyTorch steht dazu die Klassen ___Dataset___ (abstrakte Klasse) zur Verfügung. Eine Kindklasse der abstrakten __Dataset__ Klasse muss zwingend eine Implementierung der Methoden __\_\_getitem()\_\___ und __\_\_len()\_\___ enthalten.

```python
class MyDataset(Dataset):
    ...
    def __getitem__(self, index):
        ...
        return sample, label
    def __len__(self):
        ...
        return lenOfMyDataset
    ...
```

Die vom ___torchvision___ Paket bereitgestellte Implementierung für den Fashion-MNIST Datenbestand erledigt Extraktion und Transformation innerhalb des Konstruktors der Fashion-MNIST Klasse.



In [None]:
import torch
import torchvision
import torchvision.transforms as transforms

In [None]:
# for reference purpose
print(torch.__version__)
print(torchvision.__version__)

In [None]:
train_set = torchvision.datasets.FashionMNIST(
    root = './data', # target directory for dataset
    train = True, # select partition from which the data is taken from
    download = True, # download if data does not exist
    transform = transforms.Compose([transforms.ToTensor()]) # transform raw image data to tensow
)

__Aufgabe:__ Analyse des Fashion-MNIST Datenbestandes.

##### Load

Im dritten Schritt werden die Daten in ein Objekt verpackt, das den Datenzugriff und die Verwendung der Daten erleichtert. In pyTorch steht dazu die Klasse ___DataLoader___ zur Verfügung.


In [None]:
train_loader = torch.utils.data.DataLoader(
    train_set, # dataset to operate on
    batch_size=10 # batch size for the DL operation, default is 1
)        

##### Arbeiten mit den Daten

In [None]:
import numpy as np
import matplotlib.pyplot as plt # conda install -c conda-forge matplotlib

torch.set_printoptions(linewidth=120)

###### Allgemeine Struktur des Datenbestands

In [None]:
len(train_set) # size of dataset

In [None]:
train_set.targets # labels of all images within the dataset

In [None]:
train_set.targets.bincount() # frequency distribution of labels within tensor

Da alle Bins gleich viele Elemente anthalten wird dieser Datenbestand als ausgewogen (_balanced_) bezeichnet. Stehen die Ausgangsdaten nur unausgewogen (_unbalanced_) zur Verfügung ist es i.d.R. sinnvoll die Ausgewogenheit herzustellen, indem Elemente in unterrepräsentierten Klassen dupliziert werden (___Oversampling___).

###### Datenzugriff

In [None]:
sample = next(iter(train_set)) # get next single sample from stream of iterable objects

In [None]:
len(sample)

In [None]:
type(sample)

In [None]:
image, label = sample # get image and lable via python's sequence unpacking mechanism

In [None]:
image.shape # examine shape of image tensor

In [None]:
plt.imshow(image.squeeze(),cmap='gray')
print('label:', label)

In [None]:
type(sample[1])

###### Batches

Batches sind eine Zudammenfassung von mehreren (_n_) Bildern, also ein Tensor aus _n_ Bild-Tensoren.

In [None]:
batch = next(iter(train_loader)) # get batch from train_loader (not train_data!)

In [None]:
len(batch)

In [None]:
type(batch)

In [None]:
type(batch[0])

In [None]:
type(batch[1])

In [None]:
images, labels = batch

In [None]:
images.shape

In [None]:
labels.shape

In [None]:
grid = torchvision.utils.make_grid(images, nrow=10)
plt.figure(figsize=(15,15)) # figure size 15x15
plt.imshow(np.transpose(grid,(1,2,0)))

print('labels:', labels)

### Entwickeln des Modells

Mit dem Begriff Modell (model) wird _das Neuronale Netzwerk selbst_, dessen Architektur, Parameter (learnable) und Hyperparameter, bezeichnet.

Um ein Model zu entwickeln wird von PyTorch im Package ___torch.nn___ umfangreiche Funktionalität zur Verfügung gestellt, die dem OO-Paradigma folgt. Die Basisklasse für alle Neuronalen Netzwerke, wie auch für alle Module (Schichten mit trainierbaren Parametern) eines Neuronalen Netzes ist die Klasse ___Module___. Diese ist unter anderem zuständig für das Registrieren der trainierbaren Gewichte (Parameter) der Module.

Die Implementierung eines Neuronalen Netzes in PyTorch efolgt in folgenden Schritten:

* Erweitern der Basisklasse ___torch.nn.Module___
* Hinzufügen der Layer in Form von Klassenattributen
* Implementierung des Forward Passes des Neuronalen Netzes in der Methode ___forward()___

#### Erweiterung der Basisklasse & Hinzufügen der Layer

Um ein Neuronales Netz zu spezifizieren muss dessen Klasse von ___torch.nn.Module___ erben. Im  Konstruktor werden alle Layer des Neuronalen Netzes als Klassenattribute hinzugefügt. Die Layer selbst sind wieder Kinder der Basisklasse ___torch.nn.Module___.

```python
import torch.nn as nn

class MyModel(nn.Module):
    ...
    def __init__(self):
        super().__init__()
        # define architecture here
        # ...
    ...
```

In PyTorch sind einige häufig benötigte Typen von Layer bereits vorimplementiert. Diese sind z.B.:

* Linear Layers
* Convolutional Layers
* Reccurent Layers
* Transformers
* Data Manipulation Layers
    * Max pooling Layers
    * Normalization Layers
    * Dropout Layers

#### Forward Pass

Der Datenfluss durch das Neuronale Netz wird in der Implementierung der Funktion ___forward()___ konkretisiert. Dabei wird mittels Fuktionskomposition der einzelnen Layer und Funktionale eine zusammengesetzte "Gesamtfunktion" des Moduls/NNs realsiert. 
PyTorch stellt im Paket ___torch.nn.functional___ zusätzlich für Neuronale Netze typische Funktionen, wie z.B. ___ReLU___ oder ___SoftMax___ zur Verfügung.

```python
import torch.nn as nn

class MyModel(nn.Module):
    ...
    def forward(self, t):
        # implement forward pass for the NN here
        # the overall forward pass is simply a function concatenation
        # ...
        return t
    ...   
```

Die Funktion ___forward()___ wird in PyTorch vom Funktor der Klasse (**\_\_call()\_\_**) aufgerufen, wenn eine Forward Propagation berechnet werden soll.

```python
# instantiate my neural network
my_model = MyModel()

# now feed in an input_tensor for the network's forward pass
my_model(input_tensor)
```



#### Beispiel für ein einfaches Neuronales Netz

Beispielhaft soll folgendes Neuronales Netz mit 100 Input-Neuronen implementiert werden, das ein Hidden-Layer mit 200 Neuronen und ein Output-Layer mit 10 Neuronen besitzt. Alle Layer sind _dense_.

<img src="img/nn_example.png" alt="MNIST" style="height: 350px;" align="left"/> 


In [None]:
import torch.nn as nn
import torch.nn.functional as fn

In [None]:
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.linear1 = nn.Linear(100, 200) # Hyper parameters, manually chosen
        self.activation = nn.ReLU()
        self.linear2 = nn.Linear(200, 10) # Hyper parameters, manually chosen
        self.softmax = nn.Softmax()
        
    def forward(self, t):
        t = self.linear1(t)
        t = self.activation(t)
        t = self.linear2(t)
        t = self.softmax(t)
        return(t)
    
my_model = MyModel()

In [None]:
# show my_model
my_model

In [None]:
# show specific layer of my_model
my_model.linear2

In [None]:
# show type of specific layer of my_model
for base in my_model.linear1.__class__.__bases__:
    print(base.__name__)

In [None]:
# show my_model parameters
for param in my_model.parameters():
    print(param)
    print(param.shape)

In [None]:
# show parameters of specific layer of my_model
for param in my_model.linear1.parameters():
    print(param)
    print(param.shape)

In [None]:
# show learnable parameters of my_network
for name, param in my_model.named_parameters():
    print(name, '\t\t', param.shape)

In [None]:
# show learnable parameters (weights) of specific layer
print(my_model.linear1.weight)
print(my_model.linear1.weight.shape)

#### Funktionsweise eines Layers am Beispiel Linear Layer

Um die Funktionsweise des PyTorch Linear Layers zu untersuchen wird eine lineare Transformation zuerst händisch implementiert:

In [None]:
# define input tensor
in_features = torch.tensor([1,2,3,4], dtype=torch.float32)

# define weight tensor
weight_matrix = torch.tensor([
    [1,2,3,4],
    [2,3,4,5],
    [3,4,5,6]
], dtype=torch.float32)

# multiply them
weight_matrix.matmul(in_features)

Nun wird die selbe Funktionalität in Form eines PyTorch Linear Layers realisiert:

In [None]:
# define a linear layer of desired shape
linear = nn.Linear(in_features=4, out_features=3)

# apply input tensor 
linear(in_features) # this invoces forward(...) via __call__(...)

Das Ergebins ist allerdings nicht das gewünschte, da PyTorch beim Erzeugen eines Layers die Gewichte standardmäßig mit Zufallswerten initialisiert.

In [None]:
print(linear.weight)

Um die oben händisch implementierte lineare Transformation richtigzustellen muss daher der"zufällige" Gewichtstensor mit der korrekten _weight_matrix_ ersetzt werden.

In [None]:
# set weight tensor to the desired one
linear.weight = nn.Parameter(weight_matrix)

# apply input tensor 
linear(in_features)

Auch dieses Ergebnis ist nicht korrekt, auch wenn sich bereits eine gewisse Ähnlichkeit zum Soll-Wert zeigt. Der Grund hierfür ist der Bias, der in PyTorch für ein Linear Layer standardmäßig aktiviert ist.

In [None]:
# deactivate bias
linear.bias=None # better provide argument False for parameter bias when constructing a linear layer

# apply input tensor 
linear(in_features)

Zusammenfassend kann ein PyTorch Linear Layer formal beschrieben werden durch $y=Ax+b$ wobei

| Variable | Bedeutung |
|:---|:--- |
| $A$ | Gewichte (Tensor) |
| $x$ | Input Tensor |
| $b$ | Bias Tensor |
| $y$ | Output Tensor |


#### Convolutional Neuronal Network für Fashion-MNIST

##### Modell

Für die Klassifikation eines Bildes aus dem Fashion-MNIST Datenbestandes kann ein einfaches Convolutional Neural Network verwendet werden. Die Architektur (das Model) des Netzes entspricht nachfolgender Abbildung:

<img src="img/fmnist_network.jpg" alt="MNIST" style="height: 300px;" align="left"/> 

Das Modell besteht aus 2 **Convolution Layer**, beider mit quadratischen Filtern der Größe _5x5_ und **Max Pooling** der Form _2x2_ sowie 3 **Fully Connected Layer** (Dense Layer).

In [None]:
class Network(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5) # in: 1x image (28x28), out: 6 channels (12x12)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5) # in: 6x feature map (12x12), out: 12 channels (4x4)
        self.fc1 = nn.Linear(in_features=12*4*4, out_features=120) # in: 12x feature map (4x4) flattened, out: 120, dense
        self.fc2 = nn.Linear(in_features=120, out_features=60) # in: 120 out: 60, dense 
        self.out = nn.Linear(in_features=60, out_features=10) # in: 60, out: 10 output classes
        
    def forward(self,t):
        # (1) input layer (identity...)
        t = t
        
        # (2) hidden convolution layer 1
        t = self.conv1(t)
        t = fn.relu(t)
        t = fn.max_pool2d(t, kernel_size=2, stride=2)
        
        # (3) hidden convolution layer 2
        t = self.conv2(t)
        t = fn.relu(t)
        t = fn.max_pool2d(t, kernel_size=2, stride=2)
        
        # (4) hidden linear layer 1
        t = t.reshape(-1, 12*4*4)
        t = self.fc1(t)
        t = fn.relu(t)

        # (5) hidden linear layer 2
        t = self.fc2(t)
        t = fn.relu(t)
        
        # (6) output layer
        t = self.out(t)
        
        # this is not used in this example, as for learning we will use x-entropy (which does softmax by itself)
        # t = fn.softmax(t, dim=1)

        return(t)

Zur Berechnung der ___Output___ Hyperparameter kann für quadratische Bilder und Filter folgende Formel herangezogen werden:

\begin{align}
O = \dfrac{n-f+2p}{s}+1
\end{align}

| Variable | Bedeutung |
|:---|:---|
| $n$ | Breite und Höhe des Bildes |
| $f$ | Breite und Höhe des Filters |
| $p$ | Padding |
| $s$ | Stride |

Allgemein (nicht-quadratisch) gilt:

\begin{align}
O_h = \dfrac{n_h-f_h+2p}{s}+1
\end{align}

\begin{align}
O_w = \dfrac{n_w-f_w+2p}{s}+1
\end{align}

| Variable | Bedeutung |
|:---|:---|
| $n_w$ | Breite des Bildes |
| $n_h$ | Höhe des Bildes |
| $f_w$ | Breite des Filters |
| $f_h$ | Höhe des Filters |
| $p$ | Padding |
| $s$ | Stride |

### Inferenz (Forward Pass) 


Um am Ausgang dieses Netzwerks eine Aussage/Prognose zu einem bestimmten Bild zu erhalten, muß das Bild (eigentlich der Bildtensor) vorwärts durch das Netz propagiert werden. Dieser Vorgang wird als ___Inferenz___ bezeichnet.

**Hinweis**: Zum Zeitpunkt der Inferenz ist das maschinelle Lernen des Neuronalen Netzes bereits abgeschlossen. Die in PyTorch dynamische Berechnung der Gradienten der Fehlerfunktion (benötigt für den Lernvorgang) des Netzwerks bei der Vorwärtspropagation eines Tensors wird daher nicht benötigt und sollte deaktiviert werden.

In [None]:
# deactivate dynamic gradient calculation
torch.set_grad_enabled(False)

In [None]:
# instantiate the Fashion-MNIST network
network = Network()

In [None]:
# show the model
network

#### Inferenz für ein einzelnes Bild

In [None]:
# get a sample image
sample = next(iter(train_set))
image, label = sample

In [None]:
image.shape

PyTorch erwartet als Input für Neuronale Netze nicht ein einzelnen Bild sondern einen Batch. 
> ___(batch_size, in_channels, height, width)___

Dieser kann natürlich auch nur aus einem Bild bestehen.

In [None]:
# create a batch containing exactly one image by add one dimension
image.unsqueeze(0).shape

In [None]:
# run inference
pred = network(image.unsqueeze(0))

In [None]:
pred.shape

In [None]:
pred # outout tensor (raw)

In [None]:
pred.argmax(dim=1) # the index of the "best" (max) argument

In [None]:
fn.softmax(pred, dim=1) # probability for each class

Das Ergebnis ist natürlich unbefriedigend. Dies liegt daran, dass das verwendete Neuronale Netzwerk (noch) nicht trainiert ist.

#### Inferenz für einen Batch

Eines PyTorch Batche ist (wie bereits oben gezeigt) ein Tensor folgender ausprägung:
> ___(batch_size, in_channels, height, width)___


In [None]:
# get next batch from data loader
batch = next(iter(train_loader))

# decompose batch
images, labels = batch

In [None]:
images.shape

In [None]:
labels.shape

In [None]:
# run inference
preds = network(images)

In [None]:
# output tensor (raw)
preds.shape

In [None]:
preds

In [None]:
# most likely class for each image
preds.argmax(dim=1)

In [None]:
# ground truth
labels

In [None]:
# comparison of result to ground truth
preds.argmax(dim=1).eq(labels)

In [None]:
def num_of_correct_preds(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

In [None]:
num_of_correct_preds(preds, labels)

### Trainieren des Modells

Der Vorgang des maschinellen Lernens in einem Neuronalen Netzes umfasst folgende Schritte:

1. Batch von Trainingsdaten (aus der Menge der Trainingsdaten) vorbereiten
2. Vorwärtspropagation des Batches durch das Neuronale Netz
3. Berechnung des Fehlers (loss)
4. Berechnung der Gradienten der Fehlerfunktion unter Berücksichtigung der Gewichte
5. Aktualisieren der Gewichte unter Zuhilfenahme der Gradienten

Diese Schritte werden für eine gesamte **Epoche** wiederholt. Unter eine Epoche versteht man die Gesamtmenge der Trainingsdaten.

Solange die Güte (Genauigkeit) des Netzwerks nicht der gewünschten entspricht wiederhole den gesamten Vorgang für weitere Epochen. 

**Anmerkung**: Sollte ein Modell auch nach umfangreichem wiederholten Training die geforderte Güte klar nicht erreichen, kann es sinnvoll sein, den Trainingsvorgang abzubrechen und das Modell zu überarbeiten. 

In [None]:
# do some house keeping
torch.set_grad_enabled(True) # should be on by default, but maybe has been turned off above

#### Vorbereitung eines Batches

In [None]:
# create a new train_loader with batch size of 100
train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)

# get a batch of training data
batch = next(iter(train_loader))

images, labels = batch

#### Vorwärtspropagation des Batches

In [None]:
# calculate predictions for the batch
preds = network(images)

#### Beechnung des Fehlers

In [None]:
# calculate loss for the batch
loss = fn.cross_entropy(preds, labels)
loss.item()

Die Interpretation dieses Wertes hängt von der gewählten Fehlerfunktion ab. Mit voranschreitendem Training des Netzes sollte sich der Wert verringern.

#### Berechnung der Gradienten

Vor dem ersten Aufruf der Back-Propagation Funktion existieren (noch) keine Gradienten.

In [None]:
# prior to the first call of backward() no gradients exist
print(network.conv1.weight.grad)

In [None]:
# calculate gradients
loss.backward()

Nach Durchführung der Back-Propergation stehen berechnete Gradienten zur Verfügung. Für jeden Tensor mit Gewichten wird ein korrespondierender Tensor mit den Gradienten der Gewichte erzeugt.

In [None]:
network.conv1.weight.grad.shape

#### Aktualisieren der Gewichte

Um die Gewichte des Neuronalen Netzes neu einzustellen, was eben der Lernvorgang ist, werden diese mittels eines sogenannten ___Optimizers___ aktualisiert. Gängige Optimizer sind:

* **Stochastic Gradient Decent (SGD)**: Die Gewichtsänderung entspricht dem Produkt aus Lernrate und Gradient.
* **Root Mean Square Propagation (RMSProp)**: Die Gewichtsänderung hängt von einem exponentiell gleitenden Durchschnitt vorherigen Gradienten und einer daraus abgeleiteten Lernrate ab.
* **Adaptive Moment Estimation (ADAM)**: Dieser Optimizer kombiniert RMSProp mit einem Momentum.

In [None]:
# import optimizer package
import torch.optim as optim

In [None]:
optimizer = optim.Adam(network.parameters(), lr=0.01) # lr is the hyper parameter "learning rate"

##### Training mit einem einzelnen Batch
Vor dem Lernvorgang:

In [None]:
print("Loss: ",loss.item())
print("Correct items:", num_of_correct_preds(preds, labels))

In [None]:
# update the weights
optimizer.step()

Nach dem Lernvorgang:

In [None]:
# get predictions for the same images
preds = network(images)

# calculate new loss
loss = fn.cross_entropy(preds, labels)

print("Loss: ",loss.item())
print("Correct items:", num_of_correct_preds(preds, labels))

In [None]:
# do some house keeping
enumerate(train_loader) # just reset the data loader for further usage

##### Training einer Epoche

Um eine gesamte Epoche zu trainieren muss mit dem ___DataLoader___ über den gesamten datenbestand iteriert werden. Dabei wird jeder Batch wie oben gezeigt abgearbeitet.

**Wichtig**: PyTorch akkumuliert alle Gradienten zwischen aufeinanderfolgenden Aufrufen der ___backward()__ Funktion. Da das für den Lernvorgang nicht gewünscht wird, müssen vor dem Berechnen der Gradienten des Batches alle Werte des vorausgegangenen Batches mittels der Funktion ___zero.grad()___ auf 0 zurückgesetzt werden.

In [None]:
total_loss = 0
total_correct = 0

def do_epoche(epoche_loss, epoche_correct):
    # iterate over all batches
    for batch in train_loader:
    
        images, labels = batch # prepare batch
    
        preds = network(images) # forward pass batch
        loss = fn.cross_entropy(preds, labels) # calculate loss
    
        optimizer.zero_grad() # reset gradient tensors (would be accumulated otherwise)
    
        loss.backward() # calculate gradients
        optimizer.step() # update weights
    
        epoche_loss+=loss.item()
        epoche_correct+=num_of_correct_preds(preds, labels)
    
    return epoche_loss, epoche_correct

total_loss, total_correct = do_epoche(total_loss, total_correct)

print("epoche:", 0, "total correct:", total_correct, "loss:", total_loss)

In [None]:
total_correct / len(train_set)

In [None]:
# do some house keeping
enumerate(train_loader) # reset the data loader for further usage
network = Network() # create a new untrained network
optimizer = optim.Adam(network.parameters(), lr=0.01) # create a new optimizer

##### Training über mehrere Epochen

In [None]:
import time
start_time = time.time()

for epoche in range(5):
    total_loss = 0
    total_correct = 0
    
    total_loss, total_correct = do_epoche(total_loss, total_correct)
    print("epoche:", epoche, "total correct:", total_correct, "loss:", total_loss, "accuracy:", total_correct / len(train_set))

print("time:", time.time() - start_time)

#### Training auf der GPU

PyTorch ermöglicht eine komfortable Nutzung von GPU Ressourcen bei der Verwendung Neuronaler Netze. Source Code kann mit geringen anpassungen sogar Hardware-Agnostisch entwickelt werden.

Bei der Nutzung einer GPU (___CUDA___) ist darauf zu achten, dass alle Operanden (das Neuronale Netz, sowie alle Input Tensoren wie z.B. Batch der Bilder und Labels) auf der GPU instanziert werden.

In [None]:
# use GPU if available, else use the CPU for calculations
if torch.cuda.is_available():
    target_device="cuda"
else:
    target_device="cpu"
    
device=torch.device(target_device)   

In [None]:
device

In [None]:
# create a new neural network and transfer it to the GPU memory
network = Network().to(device) # move NN to GPU

In [None]:
for n, p in network.named_parameters():
    print(p.device, '', n)

In [None]:
# do some house keeping
enumerate(train_loader) # just reset the data loader for further usage

# create a new optimizer that is based on the GPU memory of the new network
optimizer = optim.Adam(network.parameters(), lr=0.01)

In [None]:
start_time = time.time()

for epoche in range(5):
    total_loss = 0
    total_correct = 0
    
    # iterate over all batches
    for batch in train_loader:
        images = batch[0].to(device)
        labels = batch[1].to(device) 
    
        preds = network(images) # forward pass batch
        loss = fn.cross_entropy(preds, labels) # calculate loss
    
        optimizer.zero_grad() # reset gradient tensors (would be accumulated otherwise)
    
        loss.backward() # calculate gradients
        optimizer.step() # update weights
    
        total_loss+=loss.item()
        total_correct+=num_of_correct_preds(preds, labels)

    print("epoche:", epoche, "total correct:", total_correct, "loss:", total_loss, "accuracy:", total_correct / len(train_set))

print("time:", time.time() - start_time)


### Analyse und Evaluation der Ergebnisse

In [None]:
# do some house keeping
enumerate(train_loader) # just reset the data loader for further usage

In [None]:
# reinstantiate Network
network = Network()

# create a new optimizer that is based on the memory of the new network
optimizer = optim.Adam(network.parameters(), lr=0.01)

In [None]:
# train the Network
import time
start_time = time.time()

for epoche in range(5):
    total_loss = 0
    total_correct = 0
    
    total_loss, total_correct = do_epoche(total_loss, total_correct)
    print("epoche:", epoche, "total correct:", total_correct, "loss:", total_loss, "accuracy:", total_correct / len(train_set))

print("time:", time.time() - start_time)

In [None]:
# helper function that feeds all datasets from a dataloader into the neural net and
# returns a tensor with all predictions for the input data set
def get_all_preds(model, loader):
    all_preds = torch.tensor([])
    for batch in loader:
        images, labels = batch
        preds = model(images)
        all_preds = torch.cat((all_preds, preds), dim=0)
    return all_preds

#### Evaluation mit Testdaten

Im Zuge der Datenaufbereitung wurden alle Verfügbaren Daten in Trainings- und Testdaten partitioniert. Der Trainingsprozess ist mit den Trainingsdaten vollzogen worden, für die Evaluierung des trainierten Neuronalen Netzes kommen die Testdaten, die das Neuronale Netz noch nie gesehen hat, zum Einsatz.

In [None]:
test_set = torchvision.datasets.FashionMNIST(
    root = './data', # target directory for dataset
    train = False, # select partition from which the data is taken from
    download = True, # download if data does not exist
    transform = transforms.Compose([transforms.ToTensor()]) # transform raw image data to tensow
)

In [None]:
len(test_set)

In [None]:
test_loader = torch.utils.data.DataLoader(
    test_set, # dataset to operate on
    batch_size=10000 # batch size for the DL operation, default is 1
) 

Da beim Inferieren des Neuronalen Netzes kein Lernvorgang stattfindet, können alle Funktionen der Berechnungsverfolgung für Gradienten deaktiviert werden. Dies kann auch auf lokaler Ebene z.B. mittels eines Context Managers erfolgen:

In [None]:
# calculate predictions
with torch.no_grad(): # context manager deactivates gradient calculation
    test_preds = get_all_preds(network, test_loader)

Eine weitere Möglichkeit die dynamische Berechnung der Gradienten lokal zu deaktivieren ist die Annotation einer Funktion mittels eines Dekorators:

```python
@torch.no_grad()
def get_all_preds(model, loader):
    ...
```

In [None]:
total = len(test_set.targets) # total number of images processed
total_correct = num_of_correct_preds(test_preds, test_set.targets) # number of correct predicitions

print("Network accuracy: ", total_correct/total, " got ", total_correct, " right from ", total )

#### Confusion Matrix

Eine sogenannte ___Confusion Matrix___ ist eine 3-dimensionale Matrix die darüber Auskunft gibt, welche Klassen korrekt erkannt wurden, und bei welchen Klassen Abweichungen in der Vorhersage vorliegen.

Dazu werden auf den zwei orthogonalen Achsen der Grundebene (x,y) jeweils alle Labels (Klassen) aufgetragen, um die Vorhersage des Neuronalen Netzes mit dem tatsächlichen Wert in Relation zu setzen. Die erste Achse (x) repräsentiert die Vorhersagen des Netzwerks und die zweite Achse (y) die tatsächlichen Werte (_ground truth_). In der dritten Dimension (z) wird die Gesamtzahl aller zur jewiligen Paarung aus Vorhersage und tatsächlichem Wert gehörenden Ausgaben (x,y) des Neuronalen Netzes gezählt.

<img src="img/cm.jpg" alt="Confusion Matrix" style="height: 120px;" align="center"/>

In einem perfekt trainierten Netzwerk (_accuracy=100%_) wird nur die erste Hauptdiagonale der Grundebene Werte $\gt 0$ für die z-Achse enthalten, da alle Klassenprognosen exakt mit den tatsächlichen Klassen übereinstimmen. In _echten_ Neuronalen Netzen werden auch abseits der Hauptdiagonale Werte auftreten (eben falsche Prognosen). Mittels der Confusion Matrix wird dadurch deutlich bei welchen Klassen Prognosen scheitern, und vor allem was womit verwechselt wird.

In [None]:
# create data loader based on training data (!)
pred_loader = torch.utils.data.DataLoader(train_set, batch_size=10000)

# calculate predictions
with torch.no_grad(): # context manager deactivates gradient calculation
    train_preds = get_all_preds(network, pred_loader)

In [None]:
train_preds.shape

In [None]:
train_preds.requires_grad

In [None]:
num_of_correct_preds(train_preds, train_set.targets)

##### Berechnung der Confusion Matrix

In [None]:
# labels (ground truth)
train_set.targets

In [None]:
# predictions
train_preds.argmax(dim=1)

In [None]:
# map ground truth to prediction for each prediction
stacked = torch.stack(
    (
        train_set.targets, 
        train_preds.argmax(dim=1)
    ),
    dim=1
)

In [None]:
stacked.shape

In [None]:
stacked

In [None]:
stacked[0].tolist()

In [None]:
cmt = torch.zeros(10, 10, dtype=torch.int64)
cmt

In [None]:
for p in stacked:
    gt, pred = p.tolist()
    cmt[gt, pred] = cmt[gt, pred] + 1
    
cmt

##### Plot der Confusion Matrix

In [None]:
from sklearn.metrics import confusion_matrix # scikit-learn
from resources.plotcm import plot_confusion_matrix # local include

cm = confusion_matrix(train_set.targets, train_preds.argmax(dim=1))

In [None]:
type(cm)

In [None]:
cm

In [None]:
names = ("T-Shirt/Top", "Hose", "Pullover", "Kleid", "Mantel/Jacke", "Sandale", "Hemd", "Turnschuh", "Tasche/Beutel", "Stiefelette")
plt.figure(figsize=(10,10))
plot_confusion_matrix(cm, names)

### Speichern und Laden eines trainierten Neuronalen Netzes

Das erlernte "Wissen" eines Neuronalen Netzes befindet sich in den erlernbaren Parametern. Um dieses zu erhalten, und somit das trainierte Neuronale Netz zu persisitieren, können diese Parameter gespeichert und geladen werden. Ein erfolgreich trainiertes Neuronales Netz kann dadurch mittels Modelldefinition und gespeicherter Parameter wiederhergestellt werden, ohne einen neuerlichen Lernprozess erforderlich zu machen.

In [None]:
file_name = "nets/fashionMNIST.pt"

#### Speichern

Die Funktion ___torch.save()___ speichert ein komplettes Modell in eine Datei (zip) unter der Verwendung von Pickle.

In [None]:
torch.save(
    network, # neural network to be saved
    file_name
)

#### Laden
Die Funktion ___torch.load()___ läd ein komplettes mittels ___torch.save()___ gespeichertes Neuronales Netz.

**Anmerkung**: Nach dem Aufruf von ___torch.load()___ sollte die Funktion ___eval()___ des Models aufgerufen werden um ___dropout___ und ___batch normalization___ ___Layer___ für den Inferenzvorgang korrekt zu initialisieren. 

In [None]:
network2 = torch.load(
    file_name,
    weights_only=False
)
network2.eval()