<center>
<img src="https://venturebeat.com/wp-content/uploads/2019/06/pytorch-e1576624094357.jpg?w=1200&strip=all" style="width: 800px;">
</center>


# PyTorch



---

### Lernziele
* Sie sind in der Lage, ein einfaches neuronales Netz mit PyTorch zu programmieren.
* Sie sind in der Lage, fortgeschrittene Schichten von Neuronen in Ihr Netz einzubauen (Dropout, Batchnorm).
* Sie lernen fortgeschrittene Optimierungen (Momentum, adam).
---

Letzte Woche haben Sie selbst ein einfaches neuronales Netz programmiert. Wie bereits erwähnt, ist es nicht notwendig, jedes Netz selbst zu programmieren. Bestimmte Softwarepakete übernehmen viele der Unannehmlichkeiten beim Erstellen und Trainieren von Netzen.

Im Wesentlichen gibt es zwei Libaries, die verwendet werden können: PyTorch und TensorFlow. TensorFlow wird von Google entwickelt. TensorFlow ist die populärere Wahl, besonders in der Industrie. PyTorch hingegen wird vor allem in der wissenschaftlichen Welt verwendet. Grundsätzlich gilt PyTorch als das einfacher zu erlernende Framework und ist insgesamt ein wenig benutzerfreundlicher. 

Während es früher große Unterschiede gab, ähneln sich die beiden Libraries heute in ihrer Funktionalität immer mehr.

Schließlich gibt es noch Keras und PyTorch Lightning. Beide zielen darauf ab, die Erstellung neuronaler Netze noch einfacher zu machen. Keras verwendet TensorFlow im Hintergrund, erleichtert aber das Training von Netzen, insbesondere für Anfänger. Das Gleiche gilt für PyTorch Lightning und PyTorch.

In der Chemieinformatik ist PyTorch jedoch eine gute Wahl, da spezielle Libraries wie z.B. für Graph Neural Networks nur für PyTorch existieren bzw. existierten.


Ein wesentlicher Bestandteil von PyTorch ist **autograd**. Autograd ist eine Library, die, wie der Name schon sagt, die Gradienten automatisch berechnen und sammeln kann. So müssen Sie die Gradienten nicht selbst berechnen.
Außerdem gibt es viele Funktionen, wie Aktivierungsfunktionen oder lineare Transformationen, die bereits in PyTorch implementiert sind. 

*TensorFlow besitzt diese Funktionalitäten natürlich auch.*


### Tensors

Während Sie bisher mit `numpy`-Arrays gearbeitet haben, werden wir heute `tensors` verwenden, genauer gesagt PyTorch `tensors`. 

**Was ist der Unterschied?**

Zunächst einmal keiner. Arrays und Tensoren sind sich in vielerlei Hinsicht ähnlich. Beide speichern Zahlen/Werte in einer strukturierten Form. So kann man in NumPy Matrizen in einem 2D-Array speichern, aber man kann die gleiche Matrix auch in einem 2D-Tensor speichern.
Außerdem können Tensoren in Arrays und Arrays in Tensoren konvertiert werden.

Der Unterschied zwischen den beiden "Speicheroptionen" ist, dass PyTorch Tensor von PyTorch entwickelt wurden. Und NumPy Arrays wurden von den Entwicklern von NumPy entwickelt. 
Viele Funktionen, die NumPy anbietet, sind auch bei PyTorch für deren Tensoren verfügbar (werden aber möglicherweise anders genannt). 
PyTorch hat seine Tensoren entwickelt, um mathematische Operationen schneller durchzuführen. Außerdem können Tensoren auch auf die Grafikkarte "geladen" werden, was die Geschwindigkeit der Operationen um ein Vielfaches erhöht.

Das Rechnen mit `tensors` ist fast identisch zu dem Rechnen mit `np.arrays`. Aber die Funktionen können unterschiedliche Namen haben. Zum Beispiel ist `torch.mm()` die Funktion für die Matrixmultiplikation und `.t()` ist die Transponierung einer Matrix. Ähnlich wie `np.array()` Arrays erzeugt, erzeugt `torch.tensor()` Tensoren.

In [None]:
import torch # lädt PyTorch

In [None]:
X = torch.tensor([[1,2,3],
                [4,5,6]])

W = torch.tensor([[8,9,10],
                 [11,12,313]])

b = torch.tensor([1,2])

torch.mm(X,W.t())+b

Das ist die lineare Transformation, die Sie auch schon kennen.<br>
PyTorch vereinfacht diesen Schritt jedoch. 
So gibt es in PyTorch ein Modul namens `nn`, dieses enthält viele Funktionen, die bei der Erstellung von neuronalen Netzen hilfreich sind.

Wir können das Modul `nn` mit `from torch import nn` laden. 

# Neuronales Netzwerk mit PyTorch

In [None]:
from torch import nn

PyTorch `nn` bietet unter anderem die Funktion `nn.Linear`. Sie führt die lineare Transformation $xW^T +b $ durch.
Als Input nimmt die Funktion:


* `in_features` die Anzahl der Features, die der Input vor der Transformation hat, oder die Größe der Inputlayer. Gestern hatten die Bilder 784 Pixel, also 784 Features.
* `out_features` die Anzahl der Features, die der Input nach der Transformation haben soll. Also definiert `out_features` die Größe der Hidden Layer. 



In [None]:
layer_1 = nn.Linear(in_features = 784, out_features=300, bias=True)

Fehlt den nicht der Input für die Layer?

Stimmt, bis jetzt haben Sie auch keine lineare Transformation durchgeführt, sondern nur eine Variable  `layer_1` erstellt. Diese kann dann die lineare Transformation für uns durchführen.

---
*Technisch gesehen ist `nn.Linear` keine Funktion, sondern eine Klasse (`class`). Klassen sind besondere Python Objekte. Wie genau Klassen funktionieren, ist nicht relevant für diesen Kurs. Wichtig zu verstehen ist, dass*

```py
layer_1 = nn.Linear(in_features = 784, out_features=300, bias=True)
```
*ein Objekt `layer_1` erstellt welches der Klasse `nn.Linear` zugehört. Jede Klasse in Python kann eigenen Funktionen haben. Zum Beispiel, haben die meisten `nn` Klassen eine `forward` Funktion die einen bestimmten Forward Pass ausführt.*

---



Praktisch an `nn` Layer ist, dass die Weights dieser Layer automatisch von PyTorch initialisiert werden. Das nimmt Ihnen bereits ein wenig Arbeit ab.
Die Gewichte $W$ dieser Schichten können auch eingesehen werden.

Dazu verwendet man `list(layer_1.parameters())[0]`.
Wenn Sie die genaue Größe der Gewichtsmatrix wissen wollen, können Sie `.shape` wie NumPy verwenden: `list(layer_1.parameters())[0].shape`. 

In [None]:
list(layer_1.parameters())[0]

In [None]:
list(layer_1.parameters())[0].shape

Wie Sie sehen, hat die Weightmatrix die gleiche Größe wie die Matrix der letzten Woche. Sie können auch sehen, dass die Matrix tatsächlich Weights enthält.
Alles, was Sie jetzt brauchen, ist ein Input (Bilder), die Sie mit dieser linearen Transformation verändern wollen. 
Dazu wird der Trainingsdatensatz von letzter Woche mit `numpy` geladen.

Zusätzlich müssen die Bilder in einen Tensor umgewandelt werden. Dazu benutzen Sie `torch.tensor()`.


Natürlich müssen Sie die Daten wieder skalieren. Dazu verwenden Sie den Min-Max-Scaler.
In PyTorch muss man den Datentypen mehr Aufmerksamkeit schenken. 
Deshalb definieren wir den Datentyp `dtype`. Der Datentyp für unsere Bilder ist `float32`. Sie kennen `float` von gestern, die `32` definiert, wie genau diese Zahl sein kann.
`long` wird Ihnen vielleicht nichts sagen, aber es bezeichnet einfach `integers`.



<br>
<details>
<summary><strong>Besonders Interessierte HIER KLICKEN:</strong></summary>

Im letzten Notebook haben wir diskutiert, warum wir die Weightmatrix auf diese bestimmte Weise initialisieren.
Tatsächlich werden in TensorFlow die Weightmatrizen so erstellt, dass eine Matrixmultiplikation ohne `transpose` durchgeführt werden kann.

    
Hier ist die Beschreibung des Codes für den Forwardpass von Tensorflow.
    

  `Dense` implements the operation:
  `output = activation(dot(input, kernel) + bias)`
  where `activation` is the element-wise activation function
  passed as the `activation` argument, `kernel` is a weights matrix
  created by the layer, and `bias` is a bias vector created by the layer
  (only applicable if `use_bias` is `True`). These are all attributes of
  `Dense`.

PyTorchs Beschreibung kann [hier](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) gefunden werden.
    

</details>


In [None]:
import numpy as np
def min_max(x):
    return (x - np.min(x)) / (np.max(x) - np.min(x))


train_data = np.genfromtxt('https://uni-muenster.sciebo.de/s/b7DBTefJhTHZoGx/download', delimiter=',', skip_header =False) #genfromtxt reads .txt files if we chose delimiter ="," the function can read also .csv files  (comma seperated values)

train_images = min_max(train_data[:,1:])
train_images = torch.tensor(train_images, dtype = torch.float32)
train_labels=torch.tensor(train_data[:,0].astype(int), dtype = torch.long) 


test_data = np.genfromtxt('https://uni-muenster.sciebo.de/s/snnGZLWHjECihI5/download', delimiter=',', skip_header =False) #genfromtxt reads .txt files if we chose delimiter ="," the function can read also .csv files  (comma seperated values)

test_images = min_max(test_data[:,1:])
test_images = torch.tensor(test_images, dtype = torch.float32)
test_labels=torch.tensor(test_data[:,0].astype(int), dtype = torch.long) 

train_images.shape

Der Datensatz umfasst 60000 Bilder mit je 784 Pixeln.
Diese können Sie nun als Input für die lineare Transformation verwenden.

In [None]:
z_1=layer_1(train_images)
print(z_1)
z_1.shape

Die `layer_1` gibt den Output (`z_1`) aus. Diese hat die Form `[60000,300]`. Also immer noch 60000 Bilder, aber dieses Mal hat jedes nur 300 Merkmale (Größe der versteckten Schicht). Wie es auch bei der Definition von `layer_1` festgelegt wurde.


Was Ihnen auffallen sollte, ist, dass am Ende des Tensors `z_1` `grad_fn=<AddmmBackward>` steht. Man kann erkennen, dass *autograd* die Gradienten für diese Transformation erfasst hat. Sie können auch sehen, dass wir eine Matrixmultiplikation `mm` und eine Addition `Add` durchgeführt haben. Es wird immer die zuletzt durchgeführte Transformation des Tensors angezeigt.

Was Ihnen jetzt noch fehlt, ist die Aktivierungsfunktion. Auch hier kann PyTorch helfen. 
Die `nn`-Library von PyTorch hat ein Untermodul `functional`. Hier sind viele zusätzliche mathematische Funktionen enthalten, unter anderem die `relu` und `sigmoid` Funktionen. Da die `relu`-Funktion in der Praxis noch bessere Ergebnisse liefert als die `sigmoid`-Funktion, werden wir sie jetzt verwenden.<br>

`functional` lässt sich wie folgt importieren: `from torch.nn import functional as F`. Wir nennen `functional` zu `F` um, quasi eine Norm, wenn man mit PyTorch arbeitet.

`F.relu()` kann jetzt benutzt werden um die ReLU Funktion anzuwenden. 

In [None]:
from torch.nn import functional as F

a_1 = F.relu(z_1)
print(a_1)

Wenn Sie `a_1` mit `z_1` vergleichen, können Sie sehen, dass alle Werte, die vorher negativ waren, zu Null wurden und alle Werte, die positiv waren, unverändert sind.
Auch kann man in der `grad_fn` sehen, dass eine ReLU angewendet wurde. Auch dies wurde von *autograd* aufgezeichnet. 

Der erste Teil des Forward Pass ist damit erledigt. 
Für den zweiten Schritt können wir einfach eine weitere Layer erstellen, die `a_1` als Eingabe erhält.

In [None]:
layer_2 = nn.Linear(300,10) # 10 ist die Anzahl der out_features, da wir 10 Ziffern haben.
z_2=layer_2(a_1)

Wieder brauchen Sie eine Aktivierungsfunktion. Aber dieses Mal die `softmax`-Funktion, um die Wahrscheinlichkeiten zu erhalten.
`nn.functional` hat auch eine `softmax()`-Funktion.

In [None]:
y_hat = F.softmax(z_2,dim=1) # der dim Parameter legt fest ob über Spalten oder Reihen die Softmax funktion angewandt wird.
y_hat.shape

In PyTorch können Sie auch verschiedene Schichten kombinieren. Mit `nn.Sequential` können Sie die lineare Transformation und die Aktivierungsfunktion direkt nacheinander schalten. Die Eingabe wird automatisch durch jede der Layers geleitet.
Das macht den Code übersichtlicher und einfacher zu schreiben.

In [None]:
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,10))
netzwerk

Wie Sie sehen können, wurde ein Netzwerk mit einer Hidden Layer erstellt. Was Ihnen auffallen sollte, ist, dass anstelle von `F.relu` `nn.ReLU` verwendet wurde. Wenn eine `relu`-Funktion innerhalb von `Sequential()` verwendet werden soll, müssen Sie immer `nn.ReLU` verwenden. 

Das `netzwerk` kann nun die Bilder klassifizieren:
Mit `network(input)` kann man den Input, z.B. unsere Bilder, durch das Netzwerk leiten.
Anhand der Tensorgröße der Ausgabe kann man sehen, dass am Ende tatsächlich 60000 Bilder mit je 10 Merkmalen (die 10 Ziffern) als Output ausgegeben werden.

In [None]:
output = netzwerk(train_images)
output.shape

Eine weitere Änderung ist, dass Sie nicht mehr die letzte Aktivierungsfunktion verwenden. PyTorch wählt die Aktivierungsfunktion automatisch aus. Die Entscheidung, welche Aktivierungsfunktion in der letzten Schicht zu verwenden ist, hängt von der Wahl der Lossfunktion ab.

### Loss Funktion


`nn` kann auch bei der Lossfunktion helfen. Die gängigsten Lossfunktionen sind bereits in PyTorch enthalten.
Sie können einfach eine neue Variable erstellen und ihr die Funktion `nn.CrossEntropyLoss()` zuweisen.

In [None]:
loss_funktion = nn.CrossEntropyLoss()

Die Funktion `loss_function` kann nun den Loss berechnen, indem sie automatisch die Softmax-Funktion anwendet.
Dazu muss man nur `y_hat` und die `train_labels` in die Funktion eingeben. Hier sieht man ein weiterer Vorteil von Pytorch: man  muss die Labels nicht noch `one-hot` kodieren.

In [None]:
loss = loss_funktion(output, train_labels)
loss

### Backpropagation

Der letzte Schritt besteht darin, eine Backpropagation durchzuführen. Dank *autograd* ist dies einfach mit dem Befehl `loss.backward()` möglich. Er berechnet die Gradienten für alle Weightmatrizen.

Danach müssen Sie nur noch die Weightmatrizen aktualisieren. Wie Sie sich vorstellen können, kümmert sich PyTorch auch um diese Aufgabe.
PyTorch bietet sogar eine Vielzahl von  unterschiedlichen Algorithmen, welche die Weight auf unterschiedliche Weise aktualisieren.

Für das Aktualisieren der Gewichte wird ein neues Modul von PyTorch benötigt.
Dazu lädt man `from torch import optim`. `optim` enthält Funktionen, die das Netz für uns optimieren - also die Weights aktualisieren.

Ähnlich wie bei der Lossfunktion kann man einfach eine Variable erstellen und ihr eine Updatefunktion zuweisen. 
Sie können nun die Funktion `optim.SGD()` zur Aktualisierung der Weights verwenden. SGD = Stochastic Gradient Descent.  In der Funktion selbst legen Sie fest, welche Parameter (Weights) verändert werden sollen. Außerdem legen Sie hier die Lernrate fest.

In [None]:
loss.backward() # sammelt die Gradienten

In [None]:
from torch import optim
weights_updaten=optim.SGD(netzwerk.parameters(), lr=0.01) 
# Sie legen fest welche Parameter und mit welche Lernrate diese verändert werden sollen

weights_updaten.step()  # mit- step() updaten Sie die Weights


Jetzt haben Sie alles, was Sie brauchen, um ein Neuronales Netz zu trainieren.

Sie können wieder einen `for-loop` verwenden, um das Training zu automatisieren.

Sie werden feststellen, dass wir zusätzlich noch `updaten.zero_grad()` verwenden. Diese Funktion wird verwendet, um die Gradienten des vorherigen Updates zu löschen. Wenn dies nicht geschieht, würde der Optimierer alle Gradienten aus allen Epochen konstant summieren.

In [None]:
## Definieren von Netzwerk, LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,10))

loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(i, 
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Sie sehen, dass Sie ein neuronales Netz mit viel weniger Aufwand trainieren können. Sie können auch ohne großen Aufwand eine zweite oder dritte Hidden Layer zu Ihrem Modell hinzufügen.
Fügen Sie einfach eine `nn.ReLU`- und eine `nn.Linear`-Layer in `Sequential` ein, und *autograd* kann die Gradienten auch für diese Layers berechnen. Alles andere bleibt gleich. Denken Sie nur daran, dass die Dimensionen von einer Layer zur nächsten passen müssen. 

In [None]:
## Definieren von Netzwerk, Loss Funktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,300),# <----- EXTRA LAYER
                         nn.ReLU(), 
                         nn.Linear(300,10))
print(netzwerk)
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(i,
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Sie haben vielleicht bemerkt, dass wir den Stochastic Gradient Descent als Optimierer verwenden (um die Weights zu aktualisieren). Bislang haben wir nur über den Gradient Descent gesprochen.
Tatsächlich wird der Gradient Descent, wie in der Vorlesung erklärt, eigentlich nicht mehr verwendet, sondern alternativ der Stochastic Gradient Descent.

Der Unterschied:<br>
Im Stochastic Gradient Descent wird der Datensatz nicht auf einmal durch das Netz geschickt, sondern der Datensatz wird in kleineren Teilen (**minibatch**) durch das Netzwerk geführt. <br>
In diesem Datensatz gibt es insgesamt 60000 Bilder. Beim Gradient Descent, wird der Forwardpass gleichzeitig mit 60000 Bilder durchgeführt, und für die 60000 Bilder wird gleichzeitig der Loss berechnet. Danach werden die Weights **einmal** upgedatet.
Dann wiederholt sich der Schritt. 

Es wäre effizienter, wenn nicht nach allen 60000 Bilder ein Update stattfinden würde. Sondern schon nach 200 oder sogar nur 100, so dass das Netz viel schneller lernen kann.
Genau das macht der Stochastic  Gradient Descent.  Nicht alle Bilder, sondern nur z.B. 32 Bilder werden auf einmal durch das Netz geschickt. Für diese 32 Bilder wird dann der Loss berechnet und die Updates werden durchgeführt.
Dann wird dieser Schritt wiederholt, aber diesmal mit 32 neuen Bildern. Auf diese Weise können die Weights innerhalb einer Epoche sehr viel häufiger aktualisiert werden.

Die Batchsize gibt an, wie groß ein Minibatch (der kleine Teil der Daten, der durch das Netz geführt wird) sein soll, und kann ebenfalls die Performance des Modells beeinflussen.
<center>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcT0TVrYkk0A0FfPvnzYTe747F0qPLG2rU2Bmg&usqp=CAU" style="width: 600px;">
</center>
<h8><center>Quelle: Insu Han and Jongheon Jeong, http://alinlab.kaist.ac.kr/resource/Lec2_SGD.pdf</center></h8>


Vorteile:<br>
* schneller
* braucht weniger Speicherplatz (auf der Graphikkarte)

Nachteile: <br>
* kann nicht das Optimum finden (kann aber auch gut sein, um overfitting zu verhindern)

Um die Vorteile des Stochastic Gradient Descent nutzen zu können, müssen wir die Daten zunächst in Minibatches aufteilen. Auch hierfür kann man PyTorch verwenden, die entsprechenden Funktionen sind im Submodul `torch.utils.data` verfügbar.

In [None]:
from torch.utils import data

In `torch.utils.data` gibt es zwei Funktionen, die Sie benötigen:

* `data.TensorDataset(input,labels)` erzeugt einen PyTorch-Dataset aus den Daten.
* `data.DataLoader(Dataset, batch_size)` erzeugt Minibatches der angegebenen Größe aus einem PyTorch Dataset.

In [None]:
train_data = data.TensorDataset(train_images, train_labels) 
# input sind unsere Tensors die einmal die Bilder und einmal die Labels beinhalten
loader = data.DataLoader(train_data, batch_size = 32)

In [None]:
print(len(loader))

Die Variable `loader` enthält nun 1875 Minibatches mit jeweils 32 Bildern und deren 32 Beschriftungen. In der nächsten Zelle können Sie den Inhalt des ersten Batches sehen.

In [None]:
list(loader)[0]

Um alles zusammenzubringen, braucht man einen zweiten `for-loop`, der die Minibatches einen nach dem anderen innerhalb des ersten `for-loops` auswählt und sie durch das Netzwerk führt. 

In [None]:
## Definieren von Netzwerk, LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.ReLU(), 
                         nn.Linear(300,300),
                         nn.ReLU(), 
                         nn.Linear(300,10))
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 2

## Trainings Loop
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichtert den Loss jedes Minibatches
                   # damit können wir am Ende den Durschnittsloss innerhalb des Epochs berechnen
    for minibatch in loader: # for-loop geht durch alle Minibatches
        images, labels = minibatch # minibatch wird in Bilder und Labels geteilt
        
        updaten.zero_grad()
        output = netzwerk(images) # Forward Propagation
    
        loss   = loss_funktion(output, labels)
        loss.backward()
        loss_list.append(loss.item())
        updaten.step() #minibatch is divided into images and labels
        
    output = netzwerk(train_images)
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (np.mean(loss_list), acc)
    )
    

Nach nur zwei Epochen ist die Accuracy viel höher als je zuvor. Ein einzelner Epoch dauert viel länger im Vergleich zu "normalen" Gradient Descent, aber die insgesamte Trainingszeit wird reduziert.

Zur Berechnung der Accuracy wird der gesamte Datensatz, nachdem alle Minibatches das Netzwerk durchlaufen haben, erneut durch das Netzwerk geschickt (ohne die Gewichte zu ändern). Die Accuracy wird dann auf der Grundlage dieser Vorhersagen berechnet, der Loss ist der durchschnittliche Loss der Minibatches.

Tipp: Wenn Sie den Wert eines Tensors und nicht den Tensor selbst kopieren/ausgeben wollen, können Sie `x.item()` verwenden.

# Fortgeschrittene Layers


Im Folgenden werden wir uns mit neuen Layers befassen, die man neben linearen Layers verwendet.

## Dropout

Dropout wird während des Trainings verwendet, um einzelne Neuronen nach dem Zufallsprinzip aus dem Netz *zu entfernen*. Mit anderen Worten, sie werden für eine kurze Zeit ausgeschaltet. Mathematisch gesehen bedeutet dies, dass ihre Output einfach auf Null gesetzt wird.
Jedes Mal, wenn ein Batch das Netz durchläuft, wird der Output von zufällig ausgewählten Neuronen auf Null gesetzt. 

Diese zufällige temporäre *Löschung*  von Neuronen zwingt das Netz, sich nicht auf einzelne Neuronen zu verlassen. Ähnlich wie bei Random Forest, wo zufällig Variablen entfernt werden, verhindert Dropout ein *overfitting* .
Während der Validierung des Netzwerkes (Valideriungs- oder Testset), werden jedoch keine Neuronen mehr entfernt. Das heißt, die Dropout-Layer wird übersprungen.

Wie viele Neuronen aus dem Netzwerk entfernt werden, ist ein weiterer Hyperparameter, der ebenso wie die Lernrate von Ihnen gewählt werden kann. Der Dropout wird in Prozent angegeben. Ein Dropout von `0,8` bedeutet also, dass in dieser Layer 80% der Neuronen entfernt werden bzw. ihr Output auf Null gesetzt wird. Ein Standardwert für den Dropout ist `0.2`. Oft wird eine Dropout-Layer auch direkt nach dem Input verwendet.

In PyTorch wird eine Dropout-Layer wie folgt definiert: `nn.Dropout(0.2)`.

In [None]:
torch.manual_seed(1235)

beispiel_x = torch.tensor([[1.,2.,3.,4.,5.]] )
do = nn.Dropout(0.5)
do(beispiel_x)

Drei der Werte wurden auf `0` gesetzt, aber die anderen Werte haben sich verdoppelt. **Warum ist das passiert?**

Das liegt daran, dass wir mit Dropout trainieren, aber ohne Dropout evaluieren. Das bedeutet, dass bei einem Dropout von `0.5` nur die Hälfte der Neuronen verwendet wird. Bei dem Forward Pass werden die Werte als gewichtete Summe weitergegeben. Wenn die Hälfte der Neuronen den Wert `0` hat, ist die Summe natürlich viel kleiner als in einem Netz, in dem kein Dropout verwendet wird. Im Laufe des Trainings wird die Skala der Weights an die erwartete Skala der Inputs angepasst.

Ohne Dropout: $$z = \beta_0 + \beta_11 + \beta_22 +\beta_33 +\beta_44 +\beta_55$$

Mit Dropout: $$\begin{align}z&= \beta_0 + \beta_10 + \beta_22 +\beta_30 +\beta_44 +\beta_50 \
&=\beta_0 + \beta_22+\beta_44\end{align}$$


Die Summe $z$ mit Dropout ist immer kleiner als die Summe ohne Dropout. Indem wir die Größe der weitergeleiteten Inputs erhöhen, stellen wir sicher, dass sich die Weights nicht an die falsche Skala der Inputs anpassen.

Denn bei der Evaluierung, bei der kein Dropout verwendet wird, haben wir plötzlich doppelt so viele Inputs. Diese Diskreptanz zwischen Training und Evaluierung wird damit vorgebeugt.

Sie können eine Schicht oder ein komplettes Netz vom Trainings- in den Evaluierungsmodus wechseln, indem Sie `network.eval()` verwenden. Um es in den Trainingsmodus zu versetzen, wird `.train()` verwendet. WICHTIG ist, dass sich standardmäßig jede Schicht und jedes Netz im Modus `train()` befindet.



In [None]:
do.eval()
do(beispiel_x)

Im `.eval()` Modus wird der Dropout nicht angewendet.

## Batchnorm


Batchnorm-Layers sind eine weitere häufig verwendete Layer in neuronalen Netzen. Wie der Name suggeriert, normalisieren sie die Batches oder besser gesagt die Activations der Minibatches.
Erinnern Sie sich daran, dass wir unsere Eingaben skalieren. Batchnorm tut dasselbe, aber im Netz selbst, so dass die Werte tiefer im Netz auch ungefähr die selbe Größenordnung haben. Grundsätzlich werden die Variablen wie folgt normalisiert:


$$x_s = \frac{x-\bar{x}}{sd_x}$$

Dabei steht $\bar{x}$ für den Mittelwert und $sd_x$ ist die Standardabweichung von $x$.<br><br>
In einem klassischen neuronalen Netz werden die Activations einer Layer in zwei Schritten berechnet. Zunächst wird die lineare Transformation durchgeführt:

$$Z = XW^T+b$$
*Hier ist $X$ ein Minibatch, also zum Beispiel nur 32 Bilder*

Darauf folgt eine nicht-lineare Aktivierungsfunktion:

$$A = \sigma(Z)$$

Mit Batchnorm werden die Werte vor der Aktivierungsfunktion noch einmal normalisiert.

$$Z_s = (\frac{Z-\bar{Z}}{sd_Z}) \cdot \gamma + \beta $$

Dies geschieht für jedes Neuron unabhängig von einander. Der Mittelwert $\bar{Z}$ und die Standardabweichung $sd_Z$ werden auch hier nur pro Minibatch berechnet. Neu ist das $\gamma$ und $\beta$. Dies sind nur zwei einzelne Parameter, die die Normalverteilung $N(0,1)$ verschieben und skalieren können. Auch diese beiden Parameter sind lernbar, d.h. sie werden auch beim Training verändert.


Wichtig ist auch, dass während des Trainings die Mittelwerte der Minibatches zusammengefasst werden zu einem Mittelwert über alle Minibatches. Dieser Durchschnitt wird dann in der Evaluierung des Testsets zur Normalisierung der Minibatches verwendet.

*Ob man zuerst die Aktivierungsfunktion und dann die Batchnorm anwendet oder umgekehrt, ist eine Frage, die Ihnen niemand beantworten kann. Es gibt Pro und Contra für beide Methoden.*

Vervollständige die `layer_one`. Die Größe der Hidden Layers und des Dropouts ist Ihnen überlassen.

In [None]:
batch_x, batch_y = next(iter(loader)) # hier wird der erste Minibatch ausgewählt

layer_one = nn.Sequential(nn.Linear(____,___),
                         nn.BatchNorm1d(_____),
                         nn.ReLU(),
                         nn.Dropout(____))
layer_one(batch_x)

<details>
    <summary><b>Lösung:</b></summary>

```python
layer_one = nn.Sequential(nn.Linear(784,300),
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2))
```
</details>

Erweitern Sie nun das komplette Netz von vorhin.
Wichtig: Nach der letzten linearen Layer wird weder Batchnorm noch Dropout verwendet.

In [None]:
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         ______________,
                         ______________,
                         ______________,
                         nn.Linear(300,300),
                         ______________,
                         ______________,
                         ______________,
                         nn.Linear(300,10))

<details>
    <summary><b>Lösung:</b></summary>

```python
netzwerk = nn.Sequential(nn.Linear(784,300), 
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2),
                         nn.Linear(300,300),
                         nn.BatchNorm1d(300),
                         nn.ReLU(),
                         nn.Dropout(0.2),
                         nn.Linear(300,10))
```
</details>

# Optimizers


Optimizers bestimmen, wie genau die Weights des Netzes geupdatet werden. Bisher haben Sie immer den `SGD` verwendet.  In der PyTorch-Implementierung vom `SGD` gibt es mehr Parameter für `SGD`, die das Training effektiver machen können. Einer davon ist "Momentum". Wenn Sie Momentum für das Training verwenden, werden die Weights nicht nur gemäß den Gradienten des aktuellen Minibatch aktualisiert. Auch die Gradienten der vorherigen Minibatches haben einen Einfluss. Der Parameter `momentum` gibt an, wie stark oder schwach der Einfluss der vorherigen Minibatches ist.

Das Momentum soll den Loss in einer geraden Linie optimieren. Als Beispiel kann man sich einen Ball vorstellen, der einen Hügel hinunterrollt. Je länger diese in dieselbe Richtung rollt, desto schneller wird sie. Und je schneller sie wird, desto weniger Einfluss haben kleine Richtungsänderungen, die durch Veränderungen des Geländes (Gradients) ausgelöst werden. 

Wenn also die Gradients eine Zeit lang in dieselbe Richtung zeigen, dann sollte ein einzelner Minibatch diese Richtung nicht auf einmal ändern. 

Einer der am häufigsten verwendeten Algorithmen für das Training von Netzen ist der "ADAM"-Algorithmus. Er kombiniert viele Verbesserungen von SGD, einschließlich einer Version von Momentum.  

**ADAM muss nicht immer besser sein als SGD**.

Eine Übersicht über alle verfügbaren Optimierungsalgorithmen finden Sie [hier](https://pytorch.org/docs/stable/optim.html#algorithms). 




In [None]:
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.Adam(netzwerk.parameters(), lr=0.1)
EPOCHS = 10

## Trainings Loop
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichtert den Loss jedes Minibatches
                   # damit können wir am Ende den Durschnittsloss innerhalb des Epochs berechnen
    netzwerk.train()
    for minibatch in loader: # for-loop geht durch alle Minibatches
        images, labels = minibatch # minibatch wird in Bilder und Labels geteilt
        
        updaten.zero_grad()
        output = netzwerk(images) # Forward Propagation
    
        loss   = loss_funktion(output, labels)
        loss.backward()
        loss_list.append(loss.item())
        updaten.step()
    netzwerk.eval()    
    output = netzwerk(train_images)
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    
    print(i,
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (np.mean(loss_list), acc)
    )

# Übungsaufgabe

Für die Übungsaufgabe werden Sie ein Netzwerk trainieren, aber dieses Mal mit den Toxizitätsdaten aus Woche 5.
Laden Sie zunächst erneut alle erforderlichen Libraries und Daten. Verwenden Sie dieses Mal auch Batchnorm, Dropout und den ADAM-Algorithmus.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
import sys
if 'google.colab' in sys.modules: # checks whether the notebook runs on collab
    !wget https://raw.githubusercontent.com/kochgroup/intro_pharma_ai/main/utils/utils.py
    !pip install rdkit==2022.3.4
    %run utils.py
else:
    %run ../utils/utils.py # lädt vorgeschriebene Funktionen

In [None]:
data_tox = pd.read_csv("https://raw.githubusercontent.com/filipsPL/tox21_dataset/master/compounds/sr-mmp.tab", sep = "\t")
data_tox = data_tox.iloc[:,1:] #alle Spalten bis auf die erste (index 0) werden ausgewählt
data_tox.columns = ["smiles", "activity"]
data_tox.head()

Als Nächstes berechnen Sie die Fingerprints. Wie in Woche 05 steht Ihnen dafür die Funktion `get_fingerprints` zur Verfügung.

In [None]:
fps = get_fingerprints(data_tox)
fps["activity"] = data_tox.activity
fps.head()

Bevor Sie sie in PyTorch verwenden können, müssen Sie sowohl die Fingerprints als auch die `acitivty` in `tensors` umwandeln. Beachten Sie, dass beide im DataFrame `fps` sind. 

`.values` konvertiert einen DataFrame in ein `np.array`.

Dann werden die Daten in einen Trainings- und einen Testsatz aufgeteilt.

In [None]:
fps = torch.tensor(___.values, dtype=torch.float32) #

In [None]:
train, test=train_test_split(fps,test_size= 0.2 , train_size= 0.8, random_state=1234)


train_x = train[:,:-1]
train_y = train[:,-1]
test_x = test[:,:-1]
test_y = test[:,-1]


Jetzt wollen wir wieder Minibatches verwenden. Dazu müssen wir unsere Trainingsdaten noch in einen `DataLoader` umwandeln. Warum nur die Trainingsdaten? Die Verwendung von Minibatches ist nur für das Training relevant. Solange Ihr Computer in der Lage ist, den Testdatensatz auf einmal durch das Netz zu führen, brauchen wir den Testdatensatz nicht in Minibatches aufzuteilen.

In [None]:
train_data=data.TensorDataset(______, _____) # input sind unsere Tensoren, einmal die Fingerprints und die activities
loader=data.DataLoader(train_data, batch_size = 32)
len(loader)

Passen Sie das Netz so an, dass der Input und der Output die richtige Größe haben. Also die Länge der Fingerprints und die Anzahl der Klassen, die wir vorhersagen.

In [None]:
netzwerk = nn.Sequential(nn.Linear(), 
                         nn.BatchNorm1d(),
                         nn.ReLU(), 
                         nn.Dropout(),
                         nn.Linear(),
                         nn.BatchNorm1d(),
                         nn.ReLU(), 
                         nn.Dropout(),
                         nn.Linear())

loss_funktion = nn.BCEWithLogitsLoss()
updaten = ___________________, lr=0.1)    
EPOCHS = 10

Als letztes füllen Sie den `for loop`. 

`.squeeze` konvertiert den `(n,1)` `output` tensor zu einem 1-dimensionalen `tensor` der Länge `n`.

In [None]:
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichtert den Loss jedes Minibatches
    netzwerk.train()
    for minibatch in loader: # for-loop geht durch alle minibatches
        updaten.__________
        molecules, activity = minibatch # Minibatch wird in Moleküle und Labels geteilt
        output = netzwerk(____________) # Forward Propagation
        loss   = loss_funktion(output.squeeze(), ____________)
        loss._______
        loss_list.append(loss.item())
        updaten.________
    # Hier wird die Accuracy für den Testsatz berechnet
    netzwerk.eval()
    output = netzwerk(test_x)
    acc = torch.sum((output>0).squeeze().int() == test_y)/float(test_y.shape[0])
   
    print(
        "Training Loss: %.2f Test Accuracy: %.2f"
        % (np.mean(loss_list), acc.item())
    )