<center>
<img src="https://venturebeat.com/wp-content/uploads/2019/06/pytorch-e1576624094357.jpg?w=1200&strip=all" style="width: 800px;">
</center>


# PyTorch

---

### Lernziele
* Sie können ein einfaches Neuronales Netz mit PyTorch programmieren.
* Sie können fortgeschrittene Schichten von Neuronen in Ihr Netzwerk einbauen (Dropout, Batchnorm).
* Sie lernen weitere moderne Optimierungen kennen (Momentum, adam).
---

Letzte Woche haben Sie ein einfaches neuronales Netzwerk selber programmiert. Wie schon erwähnt, ist es aber nicht nötig jedes Netzwerk selber zu programmieren. Bestimmte Softwarepackete übernehmen viele der Unannehmlichkeiten, die beim Erstellen und Trainieren von Netzwerken auftreten.

Grundsätzlich gibt es zwei Libraries, die benutzt werden können, PyTorch und TensorFlow. TensorFlow wird von Google entwickelt. TensorFlow ist die populärere Wahl, vor allem in der Industrie. PyTorch hingegen, hat sich vor allem in der wissenschaftlichen Welt durchgesetzt. Grundsätzlich gilt PyTorch als das leichter zu lernende Framework ist insgesamt benutzerfreundlicher. 

Während es früher noch große Unterschiede gab, werden die beiden Libraries heute immer ähnlicher in ihrer Funktionalität.

Als Letztes gibt es noch Keras und PyTorch Lightning. Beide haben das Ziel das Erstellen von Neuronale Netzwerke noch einfacher zu machen. Keras benutzt im Hintergrund TensorFlow, macht es aber vor allem Anfänger leichter Netzwerke zu trainieren. Dasselbe gilt für PyTorch Lightning und PyTorch.

In der Chemieinformatik bietet sich aber PyTorch an, da es spezielle Libraries für Graph Neural Networks nur für PyTorch gibt/gegeben hat.


Ein essenzieller Bestandteil von PyTorch ist **autograd**. Autograd ist eine Library, die, wie der Name erahnen lässt, die Gradienten automatisch berechnen und sammeln kann. Dadurch müssen die Ableitungen nicht mehr selber berechnen werden.
Auch gibt es viele Funktionen, wie z. B. Activationfunctions oder lineare Transformationen, die schon in PyTorch implementiert sind. 

*TensorFlow hat diese Funktionalitäten natürlich auch.*

### Tensors

Während Sie bis jetzt mit NumPy Arrays gerechnet haben, benutzen wir heute `Tensors`, genauer gesagt PyTorch `tensors`. 

**Was ist der Unterschied?**

Erst einmal keiner. Arrays und Tensors sind sich in vielen Punkten ähnlich. Beide speichern Zahlen/Werte in einer strukturierten Form. So können Sie in NumPy Matrizen in einem 2D-Array speichern, Sie können aber die gleich Matrix auch in einem 2D-Tensor speichern.
Auch lassen sich Tensors in Arrays und Arrays in Tensors umwandeln.

Der Unterschied zwischen den beiden „Speichermöglichkeiten“ ist, dass PyTorch Tensor von PyTorch entwickelt worden sind. Und NumPy Arrays wurden von den Entwicklern von NumPy entwickelt. 
Viele Funktionen, die NumPy bietet, gibt es auch von PyTorch für deren Tensors (heißen dann aber eventuell anders). 
PyTorch hat ihre Tensors entwickelt, um mathematische Operationen schneller durchführen zu können. Zudem kann man Tensors auch auf die Grafikkarte „laden“, was die Geschwindigkeit von Operation um ein Vielfaches verbessert.

Mit Tensors zu rechnen ist fast identisch zu Rechnung mit Arrays. Aber die Funktionen tragen eventuell andere Namen. `torch.mm()` ist zum Beispiel die Funktion für Matrixmultiplikation und `.t()` ist das Transpose einer Matrix. Ähnlich wie mit `np.array()` Arrays erstellt werden, so werden mit `torch.tensor()` Tensors erstellt.

In [None]:
import torch # lädt PyTorch

In [None]:
X = torch.tensor([[1,2,3],
                [4,5,6]])

W = torch.tensor([[8,9,10],
                 [11,12,313]])

b = torch.tensor([1,2])

torch.mm(X,W.t())+b

Das ist die lineare Transformation, die Sie auch schon kennen.<br>
PyTorch vereinfacht diesen Schritt aber. 
So gibt es ein Modul in PyTorch mit dem Namen `nn`, diese enthält viele Funktionen, die hilfreich sind für das Erstellen von Neuronalen Netzwerken.

Wir können das Module `nn` mit `from torch import nn` laden. 

# Neuronales Netzwerk mit PyTorch

In [None]:
from torch import nn

PyTorch `nn` stellt unter anderem die Funktion `nn.Linear` zur Verfügung. Diese führt die lineare Transformation $xW^T +b $ aus.
Als Input nimmt die Funktion: 
* `in_features`  die Anzahl der Features, die der Input hat, vor der Transformation hat, oder auch die Größe der Input Layer. Gestern hatten die Bilder 784 Pixel, also 784 Features
* `out_features`  wie viele Features der Input nach der Transformation haben soll. `out_features` legt also die Größe der Hidden Layer fest. 

In [None]:
layer_1=nn.Linear(in_features = 784, out_features=300, bias=True)

Fehlt den nicht der Input für die Layer?

Stimmt, bis jetzt haben Sie auch keine lineare Transformation durchgeführt, sondern nur eine Variable  `layer_1` erstellt. Diese kann dann die lineare Transformation für uns durchführen.
Praktisch ist vor allem, dass die Weights dieser Transformation automatisch von PyTorch initialisiert werden. Das nimmt Ihnen schon ein wenig Arbeit ab.
Die Weights $W$ dieser Layer können auch angeschaut werden.

Dafür benutzen Sie `list(layer_1.parameters())[0]`
Wenn Sie die genaue Größe der Weightmatrix in Erfahrung bringen wollen, können Sie wie bei NumPy `.shape` benutzen: `list(layer_1.parameters())[0].shape` 

In [None]:
list(layer_1.parameters())[0]

In [None]:
list(layer_1.parameters())[0].shape

Sie sehen, die Weightmatrix hat die gleichen Dimensionen wie die Matrix von letzter Woche. Sie können auch sehen, dass die Matrix tatsächlich Weights beinhaltet.
Sie brauchen jetzt nur einen Input (Bilder), die Sie mit dieser linearen Transformation verändern wollen. 
Dazu wird der Trainingsdatensatz von letzter Woche mit NumPy geladen.
Zusätzlich müssen die Bilder noch in einen Tensor umgewandelt werden. Das geht mit `torch.tensor()`

Sie müssen natürlich auch wieder die Daten skalieren. Dafür benutzen Sie den Min-Max Scaler.
In PyTorch muss genauer auf die Datentypen geachtet werden. 
Deswegen legen wir den Datentyp `dtype` festgelegt. Die Datenart für unsere Bilder ist `float32`. `float` kennt ihr noch von gestern, die `32` legt fest wie genau diese Zahl sein kann.
`long` sagt Ihnen vielleicht nichts, ist aber einfach einer der `torch` Begriffe für Integers.



<br>
<details>
<summary><strong>Besonders Interessierte HIER KLICKEN:</strong></summary>

Im letzten Notebook wurde angeschnitten, warum wir die Weightmatrix genau so initialisieren.
Tatsächlich werden in TensorFlow die Weightmatrizen so erstellt, dass eine Matrixmultiplikation auch ohne `transpose` auskommt.
    
Hier ist die Beschreibung des Codes für den Forwardpass von Tensorflow.
    
    
```
  `Dense` implements the operation:
  `output = activation(dot(input, kernel) + bias)`
  where `activation` is the element-wise activation function
  passed as the `activation` argument, `kernel` is a weights matrix
  created by the layer, and `bias` is a bias vector created by the layer
  (only applicable if `use_bias` is `True`). These are all attributes of
  `Dense`.
```
Für PyTorch ist diese [hier](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) zu finden.
    
PyTorch übernimmt hier die Notation, die eine größere Ähnlichkeit zu der mathematischen Notation hat.


</details>


In [None]:
import numpy as np
def min_max(x):
    return (x - np.min(x)) / (np.max(x) - np.min(x))


train_data = np.genfromtxt('../data/mnist/mnist_train.csv', delimiter=',', skip_header =False) #genfromtxt reads .txt files if we chose delimiter ="," the function can read also .csv files  (comma seperated values)

train_images = min_max(train_data[:,1:])
train_images = torch.tensor(train_images, dtype = torch.float32)
train_labels=torch.tensor(train_data[:,0].astype(int), dtype = torch.long) 


test_data = np.genfromtxt('../data/mnist/mnist_test.csv', delimiter=',', skip_header =False) #genfromtxt reads .txt files if we chose delimiter ="," the function can read also .csv files  (comma seperated values)

test_images = min_max(test_data[:,1:])
test_images = torch.tensor(test_images, dtype = torch.float32)
test_labels=torch.tensor(test_data[:,0].astype(int), dtype = torch.long) 

train_images.shape

Der Datensatz umfasst 60000 Bilder mit jeweils 784 Pixeln.
Diese können Sie jetzt als Input für die lineare Transformation benutzen.

In [None]:
z_1=layer_1(train_images)
print(z_1)
z_1.shape

Die `layer_1` gibt den Output (`z_1`) aus. Dieser hat die `shape` `[60000,200]`. Also immer noch 60000 Bilder, aber diesmal hat jedes nur jeweils 200 Features (Größe der Hidden Layer). So wie es auch bei der Definition der `layer_1` bestimmt wurde.

Was Ihnen auffallen sollte, am Ende des Tensors `z_1` steht `grad_fn=<AddmmBackward>`. Dies zeigt an, dass *autograd* die Gradienten für diese Transformation erfasst hat. Man kann auch erkennen, dass wir eine Matrixmultiplikation `mm` und eine Addition `Add` durchgeführt haben. Es wird immer die letzte durchgeführte Transformation des Tensors angezeigt.

Was Ihnen jetzt noch fehlt, ist die Activationfunction. Auch hier kann PyTorch helfen. 
PyTorchs `nn`Library hat ein Submodul `functional`. Hier sind viele zusätzliche mathematische Funktionen enthalten, unter anderem auch die `relu` und `sigmoid` Funktionen. Da die ReLU Funktion in der Praxis noch bessere Ergebnisse liefert als die Sigmoid Funktion verwenden wir jetzt diese.<br>
`functional` lässt sich wie folgt importieren: `from torch.nn import functional as F`. Wir nennen `functional` zu `F` um, quasi eine Norm, wenn man mit PyTorch arbeitet.

`F.relu()` kann jetzt benutzt werden um die ReLU Funktion anzuwenden. 

In [None]:
from torch.nn import functional as F

a_1 = F.relu(z_1)
print(a_1)

Wenn Sie `a_1` mit `z_1` vergleichen können Sie sehen, dass alle Werte die vorher negative waren Null wurden und alle Werte die positive waren unverändert sind.
Auch kann man im `grad fn` sehen, dass eine ReLU angewandt wurde. Also auch das hat *autograd* mit aufgezeichnet. 

Der erste Teil der Forwardpropagation ist geschafft. 
Für den zweiten Schritt können wir einfach eine weitere Layer erstellen, die `a_1` als Input nimmt.

In [None]:
layer_2 = nn.Linear(300,10) # 10 ist die Anzahl der out_features, da wir 10 Ziffern haben.
z_2=layer_2(a_1)

Auch hier brauchen Sie wieder eine Activationfunction. Diesmal aber die `softmax`-Funktion um die Wahrscheinlichkeiten zu erhalten.
`nn.functional` hat auch eine `softmax()` Funktion.

In [None]:
y_hat = F.softmax(z_2,dim=1)# der dim Parameter legt fest ob über Spalten oder Reihen die Softmax funktion angewandt wird.
y_hat.shape

In PyTorch kann man auch verschiedene Layers zusammenfassen. Mit `nn.Sequential` können Sie die lineare Transformation und Activationfunction direkt hintereinander schalten. Der Input wird automatisch durch jede der Layers weitergeleitet.
Das macht Ihren Code übersichtlicher und einfacher zu schreiben.

In [None]:
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,10))
netzwerk

Wie Sie sehen können, wurde ein Netzwerk mit einer Hiddenlayer erstellt. Was Ihnen ausfallen sollte ist, dass anstatt `F.relu` `nn.ReLU` benutzt wurde. Wenn eine `relu` Funktion innerhalb von `Sequential()` benutzt werden soll, müssen Sie immer `nn.ReLU` benutzen. 

Das `netzwerk` könnte nun die Bilder klassifizieren:
Mit `netzwerk(input)` kann der Input z. B. unsere Bilder durch das Netzwerk geführt werden.
Anhand der Tensorgröße des Outputs können Sie sehen, dass tatsächlich am Ende 60000 Bilder mit jeweils 10 Features (den 10 Ziffern bekommen) als Output herausgegeben werden.

In [None]:
output=netzwerk(train_images)
output.shape

Eine weitere Veränderung ist, dass Sie nicht mehr die letzte Activationfunktion benutzt haben. PyTorch wählt die Activationfunktion automatisch. Die Entscheidung welche Activationfunction in der letzten Layer benutzt werden soll hängt von der Wahl der Lossfunktion ab.

### Loss Funktion

Auch mit der Lossfunktion kann `nn` helfen. Die häufigsten Lossfunktionen sind nämlich schon in PyTorch enthalten.
Sie können einfach eine neue Variable erstellen und dieser die `nn.CrossEntropyLoss()` Funktion zuordnen.

In [None]:
loss_funktion = nn.CrossEntropyLoss()

`loss_funktion` kann nun den Loss berechnen und wendet dabei automatisch die Softmax-Funktion an.
Dazu müssen Sie einfach nur `y_hat` und die `train_labels` in die Funktion geben. Hier zeigt sich ein weiterer Vorteil, Sie brauchen die Labels nicht noch `one-hot` codieren, auch das macht PyTorch.

In [None]:
loss=loss_funktion(output, train_labels)
loss

### Back Propagation

Als letzten Schritt müssen Sie noch die Back Propagation durchführen. Dank *autograd* geht das einfach mit dem Befehl `loss.backward()`. Dieser berechnet die Gradienten für alle Weightmatrizen.

Danach müssen die Weightmatrizen nur noch geupdated werden. Wie Sie sich denken können, nimmt Ihnen auch der PyTorch ab.
PyTorch stellt sogar eine Vielzahl von Algorithmen zu Verfügung. Viele dieser funktionieren besser als der einfache Gradient Descent.
Für das Updaten der Weights wird ein neues Modul von PyTorch benötigt.
Dafür laden Sie `from torch import optim`. `optim` enthält Optimizer, also Funktionen, die für uns das Netzwerk optimieren - die Weights updaten.

Ähnlich wie bei der Loss Funktion, können Sie auch hier einfach eine Variable erstellen und ihr Updatefunktion zuordnen. 
Sie können jetzt den `optim.SGD()` zum updaten benutzen. SGD = Stochastic Gradient Descent.  In der Funktion selber definieren Sie, welche Parameter (Weights) verändert werden sollen. Auch legen Sie hier die Lernrate fest.

In [None]:
loss.backward() #sammelt die Gradienten

In [None]:
from torch import optim
weights_updaten=optim.SGD(netzwerk.parameters(), lr=0.01) # Sie legen fest welche Parameter und mit welche Lernrate diese verändert werden sollen

weights_updaten.step()  # mit- step() updaten Sie die Weights


Jetzt haben Sie alles, was man für ein Netzwerk braucht.

Sie können wieder einen for-loop benutzen, um das Training zu automatisieren.

Es fällt euch eventuell auf, dass wir noch `updaten.zero_grad()` benutzen. Diese Funktion wird benutzt, um die gesammelten Gradienten zu löschen. Wird das nicht gemacht, so würde der Optimizer alle Gradienten aus allen Epochs zusammen zählen.

In [None]:
## Definieren von Netzwerk, LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,10))

loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(i, 
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Sie können sehen, dass Sie mit viel weniger Aufwand ein neuronales Netzwerk trainieren können. Sie können auch ohne großen Aufwand ein zweite oder dritte Hiddenlayer zu Ihrem Model hinzufügen.
Einfach eine `nn.ReLU` und eine `nn.Linear` Layer in `Sequential` hinzufügen und *autograd* kann auch für diese Layer die Gradienten berechnen. Alles andere bleibt gleich. Denken Sie nur daran, dass die Dimensionen von einer zu nächsten Layer passen müssen. 

In [None]:
## Definieren von Netzwerk, Loss Funktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,300),# <----- EXTRA LAYER
                         nn.ReLU(), 
                         nn.Linear(300,10))
print(netzwerk)
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(i,
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Sie haben vielleicht schon gemerkt, dass wir als Optimizer (Weights updaten) den Stochastic Gradient Descent benutzen. Bisher wurde nur von dem Gradient Descent gesprochen.
Tatsächlich wird der Gradient Descent, so wie gestern erklärt eigentlich nicht mehr benutzt, sondern als Alternative der Stochastic Gradient Descent. 

Der Unterschied:<br>
Im Stochastic Gradient Descent wird der Datensatz nicht auf einmal durch das Netz geschickt, sondern der Datensatz wird in kleineren Teilen (**minibatch**) durch das Netzwerk gebracht. <br>
In diesem Datensatz gibt es insgesamt 60000 Bilder. Beim Gradient Descent, werden wird der Forwardpass mit 60000 Bilder berechnet, für die 60000 Bilder der Loss berechnet. Danach werden die Bilder einmal upgedatet.
Dann wiederholt sich der Schritt. 

Es wäre doch effizienter, wenn nicht erst nach allen 60000 Bilder ein Update passiert. Sondern schon nach 200 oder auch nur 100.  Dadurch kann das Netzwerk viel schneller lernen
Genau das macht Stochastic Gradient Descent.  Nicht alle Bilder, sondern nur z. B. 32 Bilder werden auf einmal durch das Netzwerk geschickt. Für diese 32 wird dann der Loss berechnet und die Updates durchgeführt.
Dann wird das wiederholt, aber diesmal mit 32 neuen Bilder. So können innerhalb eines Epochs viel öfter die Weights upgedatet werden.
Die Batchsize gibt an, wie groß ein Minibatch (der kleine Teil der Daten, der durchs Netzwerk geht) sein soll und kann auch die Performance des Models beeinflussen.
<center>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcT0TVrYkk0A0FfPvnzYTe747F0qPLG2rU2Bmg&usqp=CAU" style="width: 600px;">
</center>
<h8><center>Source: Insu Han and Jongheon Jeong, http://alinlab.kaist.ac.kr/resource/Lec2_SGD.pdf</center></h8>


Vorteile:<br>
* schneller
* braucht weniger Speicherplatz (auf der Graphikkarte)

Nachteile: <br>
* kann nicht das Optimum finden (kann aber auch gut sein, um overfitting zu verhindern)

Damit wir die Vorteile vom Stochastic Gradient Descent nutzen können, müssen wir zuerst die Daten in Minibatches einteilen. Auch dafür können Sie auch PyTorch benutzen, die entsprechenden Funktionen gibt es im Submodul `torch.utils.data`.

In [None]:
from torch.utils import data

In `torch.utils.data` gibt es zwei Funktionen, die Sie brauchen:

* `data.TensorDataset(input,labels)` erstellt ein PyTorch Dataset aus den Daten
* `data.DataLoader(Dataset, batch_size)`  erstellt Minibatches der angegebenen Größe aus einem Dataset

In [None]:
train_data=data.TensorDataset(train_images, train_labels) # input sind unsere Tensors die einmal die Bilder und einmal die Labels beinhalten
loader = data.DataLoader(train_data, batch_size = 32)

In [None]:
print(len(loader))

Die Variable `loader` enthält nun 1875 Minibatches mit jeweils 32 Bilder und deren 32 Labels. In der nächsten Zelle können Sie den Inhalt des ersten Batches sehen.

In [None]:
list(loader)[0]

Um alles zusammenzubringen, brauchen Sie einen zweiten `for-loop`, der innerhalb des ersten `for-loops` die Minibatches nach einander auswählt und durch das Netzwerk führt. 

In [None]:
## Definieren von Netzwerk, LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,300),
                         nn.ReLU(), 
                         nn.Linear(300,10))
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 2

## Trainings Loop
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichter den Loss jedes Minibatches
                   # damit können wir am Ende den Durschnittslost innerhalb des Epochs berechnen
    for minibatch in loader: # for-loop geht durch alle Minibatches
        images, labels = minibatch # minibatch wird in Bilder und Labels geteilt
        
        updaten.zero_grad()
        output = netzwerk(images) # Forward Propagation
    
        loss   = loss_funktion(output, labels)
        loss.backward()
        loss_list.append(loss.item())
        updaten.step()
        
    output = netzwerk(train_images)
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (np.mean(loss_list), acc)
    )
    

Nach nur zwei Epochs ist die Accuracy viel niedriger als jemals zuvor. Dafür schicken wir noch einmal das ganze Dataset durch das Netzwerk und berechnen die Genauigkeit. Der einzelne Epoch dauert viel länger, aber die Trainingszeit verkürzt sich insgesamt.
Um die Genauigkeit auszurechnen wird, nachdem all Minibatches durch das Netzwerk gegangen sind, noch einmal der ganze Datensatz durch das Netzwerk geschickt (ohne die Weights zu verändern) und die Genauigkeit berechnet. Der Epochloss ist der durchschnittliche Loss der Minibatches.

Tipp: Wenn man den Wert eines Tensors und nicht den Tensor weitergeben will, kann man `tensor.item()` benutzen.

# Fortgeschrittene Layers

Wir werden uns im Folgenden mit den fortgeschrittenen Layern beschäftigen.

## Dropout

Dropout wird während des Trainings benutzt, um einzelne Neuronen zufällig aus dem Netzwerk zu *droppen*. Sie also kurzzeitig aus dem Netzwerk zuwerfen. Mathematisch bedeutet das, dass ihr Output einfach auf null gesetzt wird.
Jedes Mal, wenn ein Batch durch das Netzwerk geführt wird, wird erneut *gelost, welche Neuronen* für diesen Batch entfernt werden.

Dieses zufällige Löschen von Neuronen zwingt das Netzwerk dazu, sich nicht auf einzelne Neuronen verlassen zu können. Ähnlich wie beim Random Forest, wo zufällige Variablen entfernt werden, wird mittels Dropout overfitting verhindert.
Zum Evaluieren des Netzwerkes werden aber keine der Neuronen mehr entfernt. Das heißt, die Dropout-Layer wird übergangen.

Wie viele Neuronen gelöscht werden, ist eine Hyperparameter, der so wie die Learningrate von euch selber gewählt werden kann. Der Dropout wird in Prozenten angeben. Also ein Dropout von `0.8` bedeutet, dass in dieser Layerr 80 % der Neuronen entfernt werden. Ein Standardwert für den Dropout ist `0.2`. Oft wird auch direkt nach dem Input eine Dropout-Layer benutzt.

In PyTorch ist die Dropout-Layer wie folgt definiert: `nn.Dropout(0.2)`

In [None]:
torch.manual_seed(1235)

beispiel_x = torch.tensor([[1.,2.,3.,4.,5.]] )
do = nn.Dropout(0.5)
do(beispiel_x)

Drei der Werte wurden auf `0.` gesetzt, die anderen Werte aber haben sich verdoppelt. **Warum ist das passiert?**

Das liegt daran, dass wir mit Dropout trainieren, aber ohne Dropout evaluieren werden. Das bedeutet, dass, bei einem Dropout von `0.5`, nur die Hälfte der Neuronen genutzte werden bzw. eine Hälfte auf null gesetzt. In der Forwardpropagation werden die Werte als gewichtete Summe weitergegeben. Wenn die Hälfte der Neuronen den Wert `0` hat, ist die Summe natürlich viel kleiner als bei einem Netzwerk, bei dem kein Dropout verwendet wird. Die Weights passen sich dementsprechend auch in einer Weise an, die nur den Input von 50 % der Neuronen erhält. 

Ohne Dropout: $$z = \beta_0 + \beta_11 + \beta_22 +\beta_33 +\beta_44 +\beta_55$$

Mit Dropout: $$\begin{align}z&= \beta_0 + \beta_10 + \beta_22 +\beta_30 +\beta_44 +\beta_50 \\
&=\beta_0 + \beta_22+\beta_44\end{align}$$



Die Summe $z$ mit Dropout ist immer kleiner als die ohne. Das Skalieren der Weights sorgt also dafür, dass die Summe ähnlich bleibt.

Während der Evaluierung, in der kein Dropout verwendet wird, haben wir auf einmal doppelt so viele Inputs, aber unsere Weights erwarten nur die Hälfte. Um diese Diskrepanz zwischen Training und Evaluation zu verhindern, skaliert der Dropout automatisch während des Trainings die Werte.

Sie können eine `Layer` oder ein komplettes Netzwerk vom Trainings- zum Evaluierungsmodus wechseln, indem  Sie `netzwerk.eval()` benutzen. Um es in den Trainingsmodus zu konvertieren wird `.train()` benutzt. WICHTIG ist hierbei, dass per Default jede Layer und jedes Netzwerk sich im `train()` Modus befindet.



In [None]:
do.eval()
do(beispiel_x)

Im `.eval()` Modus wird der Dropout nicht angewendet.

## Batchnorm

Batchnorm Layers sind eine weiter beliebte Layer in neuronalen Netzwerken. Wie der Name suggeriert, werden hier die Batches bzw. die Activations Minibatches normalisiert.
Erinnern Sie sich noch daran, dass wir unseren Input skalieren. Das Gleiche macht Batchnorm, allerdings im  Netzwerk selber, sodass auch später im Netzwerk die Werte ungefähr die gleiche Skala haben. Grundsätzlich werden Variablen wie folgt normalisiert:

$$x_s = \frac{x-\bar{x}}{sd_x}$$

Hier steht $\bar{x}$ für den Mittelwert und $sd_x$ ist die Standardabweichung (standard deviation) von $x$.<br><br>
In einem klassischen neuronalen Netzwerk werden die Actvations einer Layer in zwei Schritten berechnet. Zunächst wird die lineare Transformation durchgeführt:

$$Z = XW^T+b$$
*Hier ist $X$ ein Minibatch, also zum Beispiel nur 32 Bilder*

Darauf folgt eine nicht-lineare Aktivierungsfunktion:

$$A = \sigma(Z)$$

Mit Batchnorm werden die Werte vor der Aktivierungsfunktion noch einmal normalisiert.

$$Z_s = (\frac{Z-\bar{Z}}{sd_Z})  \cdot \gamma + \beta $$

Diese wird für jede Spalte, oder auch jees Neuron unabhängig voneinander getan. Der Mittelwert $\bar{Z}$ und die Standardabweichung $sd_Z$ werden hier auch nur per Minibatch berechnet. Was neu ist, ist das $\gamma$ und $\beta$. Das sind nur zwei einzelne Parameter, die die Normalverteilung $N(0,1)$ verschieben und skalieren können. Diese beiden Parameter sind auch Lernbar, das heißt Sie werden während des Trainings auch verändert.

Wichtig ist auch zu beachten, dass während des Trainings die Mittelwerte der Minibatches als neue Mittelwerte  zusammengefasst werden. Dieser Mittelwert der Mittelwerte wird dann in der Testphase benutzt, um die Batches zu normalisieren.

*Ob man erst die Aktivierungsfunktion anwendet und dann Batchnorm oder andersrum ist eine Frage, die Ihnen keiner beantworten kann. Es gibt solche und solche Antworten.*

Vervollständigen Sie die `layer_one`. Die Größe der Hidden Layer und des Dropouts ist Ihnen überlassen.

In [None]:
batch_x, batch_y = next(iter(loader)) # select the first batch

layer_one = nn.Sequential(nn.Linear(____,___),
                         nn.BatchNorm1d(_____),
                         nn.ReLU(),
                         nn.Dropout(____))
layer_one(batch_x)

<details>
    <summary><b>Lösung:</b></summary>

```python
layer_one = nn.Sequential(nn.Linear(784,300),
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2))
```
</details>

Erweitern Sie nun das komplette Netzwerk von vorhin.
Wichtig: nach der letzten Linear Layer wird weder Batchnorm noch Dropout verwendet.

In [None]:
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         ______________,
                         ______________,
                         ______________,
                         nn.Linear(300,300),
                         ______________,
                         ______________,
                         ______________,
                         nn.Linear(300,10))

<details>
    <summary><b>Lösung:</b></summary>

```python
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2),
                         nn.Linear(300,300),
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2),
                         nn.Linear(300,10))
```
</details>

# Optimizers

Optimizers bestimmen wie genau die Weight des Netzwerks geupdated werden. Bis jetzt haben Sie immer den `SGD` benutzt. Allerdings wird dieser simple Algorithmus nur noch selten verwendet. In der PyTorch Implementation gibt es weitere Parameter für `SGD`, die das Training effektiver gestalten können. Einer ist das `momentum`. Wenn Sie Momentum zum Trainieren benutzten, werden Weights nicht nur nach den Gradients des jetzigen Minibatches upgedatet. Sondern, die Gradients der vorherigen Minibatches haben auch einen Einfluss. Der `momentum` parameter gibt an, wie stark oder schwach der Einfluss vorheriger Minibatches ist.

Durch das Momentum soll der Loss geradliniger optimiert werden. Als Beispiel kann man sich einen Ball vorstellen, der einen Berg herunterrollt. Je länger in dieselbe Richtung rollt, desto schneller wird er. Und je schneller er wird, desto weniger Einflüsse haben kleine Richtungsänderung, die durch Veränderung des Terrains (Gradienten) ausgelöst werden. 

So ist es auch mit dem Loss, wenn die Gradients eine Zeit lang in dieselbe Richtung gehen, dann sollte nicht ein Minibatch diese Richtung auf einmal ändern. 

Einer der meistbenutzten Algorithmen zum Trainieren von Netzwerken ist der `ADAM` Algorithmus. Er kombiniert viele Verbesserungen des SGD, unter anderem auch eine Version des Momentums.  

**ADAM muss aber nicht immer besser sein, als SGD**

Eine Übersicht alle verfügbaren Algorithmen können sie [hier](https://pytorch.org/docs/stable/optim.html#algorithms) finden. 



In [None]:
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.Adam(netzwerk.parameters(), lr=0.1)
EPOCHS = 10

## Trainings Loop
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichter den Loss jedes Minibatches
                   # damit können wir am Ende den Durschnittslost innerhalb des Epochs berechnen
    netzwerk.train()
    for minibatch in loader: # for-loop geht durch alle minibatches
        images, labels = minibatch # minibatch wird in Bilder und Labels geteilt
        
        updaten.zero_grad()
        output = netzwerk(images) # Forward Propagation
    
        loss   = loss_funktion(output, labels)
        loss.backward()
        loss_list.append(loss.item())
        updaten.step()
    netzwerk.eval()    
    output = netzwerk(train_images)
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    
    print(i,
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (np.mean(loss_list), acc)
    )

# Übungsaufgabe

Für die Übungsaufgabe werden Sie ein Netzwerk trainieren, diesmal aber mit den Toxizitätsdaten aus Woche 5.
Zunächst laden Sie wieder alle notwendigen Libraries und Daten. Benutzen Sie diemal auch Batchnorm, Dropout und den ADAM Algorithmus.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
%run ../utils/utils.py

In [None]:
data_tox = pd.read_csv("../data/toxicity/sr-mmp.tab", sep = "\t")
data_tox = data_tox.iloc[:,1:] #alle Spalten bis auf die erste (index 0) werden ausgewählt
data_tox.columns = ["smiles", "activity"]
data_tox.head()

Als Nächstes berechnen Sie die Fingerprints. Dafür steht ihnen wie in Woche 05 die Funktion `get_fingerprints` zur Verfügung.

In [None]:
fps = get_fingerprints(data_tox)
fps["activity"] = data_tox.activity
fps.head()

Bevor Sie diese in Pytorch verwenden können, müssen Sie die sowohl die Fingerprints als auch die `activity` in `tensors` umwandeln. Beachten Sie, dass beide im DataFrame `fps` sind. 

`.values` konvertiert einen Datenframe in ein `np.array`.

Danach teilen Sie die Daten in Training und Testset auf.

In [None]:
fps = torch.tensor(___.values, dtype=torch.float32) #

In [None]:
train, test=train_test_split(fps,test_size= 0.2 , train_size= 0.8, random_state=1234)


train_x = train[:,:-1]
train_y = train[:,-1]
test_x = test[:,:-1]
test_y = test[:,-1]


Auch jetzt wollen wir wieder Minibatches benutzten. Deswegen müssen wir unsere Trainingsdaten noch in zu einem `DataLoader` konvertieren. Warum nur die Trainingsdaten? Das Benutzen von Batches ist erst einmal nur relevant für das Training. Solange ihr Computer fähig ist den Testdatensatz auf einmal durch das Netzwerk zu führen, müssen wir den Testdatensatz nicht in Batches unterteilen.

In [None]:
train_data=data.TensorDataset(______, _____) # input sind unsere Tensors die einmal die Fingerprints die activities
loader=data.DataLoader(train_data, batch_size = 32)
len(loader)

Passen Sie das Netzwerk so an, dass der Input und Output die richtige Größe haben. Also die Länge der Fingerprints und die Anzahl der Klassen, die wir vorhersagen.

In [None]:
netzwerk = nn.Sequential(nn.Linear(), 
                         nn.BatchNorm1d(),
                         nn.ReLU(), 
                         nn.Dropout(),
                         nn.Linear(),
                         nn.BatchNorm1d(),
                         nn.ReLU(), 
                         nn.Dropout(),
                         nn.Linear())

loss_funktion = nn.BCEWithLogitsLoss()
updaten = ___________________, lr=0.1)    
EPOCHS = 10

Als letztes füllen Sie den `for loop`. 

`.squeeze` konvertiert den `(n,1)` `output` tensor zu einem 1-dimensionalen Tensor der Länge `n`.

In [None]:
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichter den Loss jedes Minibatches
    for minibatch in loader: # for-loop geht durch alle minibatches
        updaten.__________
        molecules, activity = minibatch # minibatch wird in Bilder und Labels geteilt
        output = netzwerk(____________) # Forward Propagation
        loss   = loss_funktion(output.squeeze(), ____________)
        loss._______
        loss_list.append(loss.item())
        updaten.________
    # Hier wird die Accuracy für den Testsatz berechnet
    output = netzwerk(test_x)
    acc = torch.sum((output>0).squeeze().int() == test_y)/float(test_y.shape[0])
   
    print(
        "Training Loss: %.2f Test Accuracy: %.2f"
        % (np.mean(loss_list), acc.item())
    )