<center>
<img src="https://venturebeat.com/wp-content/uploads/2019/06/pytorch-e1576624094357.jpg?w=1200&strip=all" style="width: 800px;">
</center>


# PyTorch

Letzte Woche haben Sie ein einfaches neuronales Netzwerk selber programmiert. Wie schon erwähnt, ist es aber nicht nötig jedes Netzwerk selber zu programmieren. Bestimmte Softwarepackete übernehmen viele der Unannehmlichkeiten, die beim Erstellen und Trainieren von Netzwerken auftreten.

Grundsätzlich gibt es zwei Libraries, die benutzt werden können, PyTorch und TensorFlow. TensorFlow wird von Google entwickelt. TensorFlow ist die populärere Wahl, vor allem in der Industrie. PyTorch hingegen, hat sich vor allem in der wissenschaftlichen Welt durchgesetzt. Grundsätzlich gilt PyTorch als das leichter zu lernende Framework ist insgesamt benutzerfreundlicher. 

Während es früher noch große Unterschiede gab, werden die beiden Libraries heute immer ähnlicher in ihrer Funktionalität.

Als Letztes gibt es noch Keras und PyTorch Lightning. Beide haben das Ziel das Erstellen von Neuronale Netzwerke noch einfach zu machen. Keras benutzt im Hintergrund TensorFlow, macht es aber vor allem Anfänger leichter Netzwerke zu trainieren. Dasselbe gilt für PyTorch Lightning und PyTorch.

In der Chemieinformatik bietet sich aber PyTorch an, da es spezielle Libraries für Graph Neural Networks nur für PyTorch gibt/gegeben hat.


Ein essenzieller Bestandteil von PyTorch ist **autograd**. Autograd ist eine Library, die, wie der Name erahnen lässt, die Gradienten automatisch berechnen und sammeln kann. Dadurch müssen die Ableitungen nicht mehr selber berechnen werden.
Auch gibt es viele Funktionen, wie z. B. Activationfunctions oder lineare Transformationen, die schon in PyTorch implementiert sind. 

*TensorFlow hat diese Funktionalitäten natürlich auch.*

### Tensors

Während Sie bis jetzt mit NumPy Arrays gerechnet haben, benutzen wir heute `Tensors`, genauer gesagt PyTorch `tensors`. 

**Was ist der Unterschied?**

Erst einmal keiner. Arrays und Tensors sind sich in vielen Punkten ähnlich. Beide speichern Zahlen/Werte in einer strukturierten Form. So können Sie in NumPy Matrizen in einem 2D-Array speichern, Sie können aber die gleich Matrix auch in einem 2D-Tensor speichern.
Auch lassen sich Tensors in Arrays und Arrays in Tensors umwandeln.

Der Unterschied zwischen den beiden „Speichermöglichkeiten“ ist, dass PyTorch Tensor von PyTorch entwickelt worden sind. Und NumPy Arrays wurden von den Entwicklern von NumPy entwickelt. 
Viele Funktionen, die NumPy bietet, gibt es auch von PyTorch für deren Tensors (heißen dann aber eventuell anders). 
PyTorch hat ihre Tensors entwickelt, um mathematische Operationen schneller durchführen zu können. Zudem kann man Tensors auch auf die Grafikkarte „laden“, was die Geschwindigkeit von Operation um ein Vielfaches verbessert.

Mit Tensors zu rechnen ist fast identisch zu Rechnung mit Arrays. Aber die Funktionen tragen eventuell andere Namen. `torch.mm()` ist zum Beispiel die Funktion für Matrixmultiplikation und `.t()` ist das Transpose einer Matrix. Ähnlich wie mit `np.array()` Arrays erstellt werden, so werden mit `torch.tensor()` Tensors erstellt.

In [2]:
import torch # lädt PyTorch

In [3]:
X = torch.tensor([[1,2,3],
                [4,5,6]])

W = torch.tensor([[8,9,10],
                 [11,12,313]])

b = torch.tensor([1,2])

torch.mm(X,W.t())+b

tensor([[  57,  976],
        [ 138, 1984]])

Das ist die lineare Transformation, die Sie auch schon kennen.<br>
PyTorch vereinfacht diesen Schritt aber. 
So gibt es ein Modul in PyTorch mit dem Namen `nn`, diese enthält viele Funktionen, die hilfreich sind für das Erstellen von Neuronalen Netzwerken.

Wir können das Module `nn` mit `from torch import nn` laden. 

# Neuronales Netzwerk mit PyTorch

In [6]:
from torch import nn

PyTorch `nn` stellt unter anderem die Funktion `nn.Linear` zur Verfügung. Diese führt die lineare Transformation $xW^T +b $ aus.
Als Input nimmt die Funktion: 
* `in_features`  die Anzahl der Features, die der Input hat, vor der Transformation hat, oder auch die Größe der Input Layer. Gestern hatten die Bilder 784 Pixel, also 784 Features
* `out_features`  wie viele Features der Input nach der Transformation haben soll. `out_features` legt also die Größe der Hidden Layer fest. 

In [7]:
layer_1=nn.Linear(in_features = 784, out_features=200, bias=True)

Fehlt den nicht der Input für die Layer?

Stimmt, bis jetzt haben Sie auch keine lineare Transformation durchgeführt, sondern nur eine Variable  `layer_1` erstellt. Diese kann dann die lineare Transformation für uns durchführen.
Praktisch ist vor allem, dass die Weights dieser Transformation automatisch von PyTorch initialisiert werden. Das nimmt Ihnen schon ein wenig Arbeit ab.
Die Weights $W$ dieser Layer können auch angeschaut werden.

Dafür benutzen Sie `list(layer_1.parameters())[0]`
Wenn Sie die genaue Größe der Weightmatrix in Erfahrung bringen wollen, können Sie wie bei NumPy `.shape` benutzen: `list(layer_1.parameters())[0].shape` 

In [9]:
list(layer_1.parameters())[0]

Parameter containing:
tensor([[-0.0310,  0.0229, -0.0257,  ..., -0.0160, -0.0056, -0.0040],
        [-0.0286, -0.0035, -0.0241,  ...,  0.0262,  0.0008,  0.0012],
        [-0.0062,  0.0013, -0.0058,  ...,  0.0001, -0.0265,  0.0290],
        ...,
        [ 0.0121,  0.0122, -0.0201,  ...,  0.0262, -0.0173,  0.0075],
        [ 0.0052,  0.0053,  0.0166,  ..., -0.0269,  0.0094,  0.0091],
        [-0.0024,  0.0179,  0.0120,  ..., -0.0181, -0.0220,  0.0267]],
       requires_grad=True)

In [10]:
list(layer_1.parameters())[0].shape

torch.Size([200, 784])

Sie sehen, die Weightmatrix hat die gleichen Dimensionen wie die Matrix von letzter Woche. Sie können auch sehen, dass die Matrix tatsächlich Weights beinhaltet.
Sie brauchen jetzt nur einen Input (Bilder), die Sie mit dieser linearen Transformation verändern wollen. 
Dazu wird der Trainingsdatensatz von letzter Woche mit NumPy geladen.
Zusätzlich müssen die Bilder noch in einen Tensor umgewandelt werden. Das geht mit `torch.tensor()`

Sie müssen natürlich auch wieder die Daten skalieren. Dafür benutzen Sie den Min-Max Scaler.
In PyTorch muss genauer auf die Datentypen geachtet werden. 
Deswegen legen wir den Datentyp `dtype` festgelegt. Die Datenart für unsere Bilder ist `float32`. `float` kennt ihr noch von gestern, die `32` legt fest wie genau diese Zahl sein kann.
`long` sagt Ihnen vielleicht nichts, ist aber einfach einer der `torch` Begriffe für Integers.



<br>
<details>
<summary><strong>Besonders Interessierte HIER KLICKEN:</strong></summary>

Im letzten Notebook wurde angeschnitten, warum wir die Weightmatrix genau so initialisieren.
Tatsächlich werden in TensorFlow die Weightmatrizen so erstellt, dass eine Matrixmultiplikation auch ohne `transpose` auskommt.
    
Hier ist die Beschreibung des Codes für den Forwardpass von Tensorflow.
    
    
```python
  `Dense` implements the operation:
  `output = activation(dot(input, kernel) + bias)`
  where `activation` is the element-wise activation function
  passed as the `activation` argument, `kernel` is a weights matrix
  created by the layer, and `bias` is a bias vector created by the layer
  (only applicable if `use_bias` is `True`). These are all attributes of
  `Dense`.
```
Für PyTorch ist diese [hier](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) zu finden.
    
PyTorch übernimmt hier die Notation, die eine größere Ähnlichkeit zu der mathematischen Notation hat.


</details>


In [12]:
import numpy as np
def min_max(x):
    return (x - np.min(x)) / (np.max(x) - np.min(x))


train_data = np.genfromtxt('../data/mnist/mnist_train.csv', delimiter=',', skip_header =False) #genfromtxt reads .txt files if we chose delimiter ="," the function can read also .csv files  (comma seperated values)

train_images = min_max(train_data[:,1:])
train_images = torch.tensor(train_images, dtype = torch.float32)
train_labels=torch.tensor(train_data[:,0].astype(int), dtype = torch.long) 

train_images.shape

torch.Size([60000, 784])

Der Datensatz umfasst 60000 Bilder mit jeweils 784 Pixeln.
Diese können Sie jetzt als Input für die lineare Transformation benutzen.

In [13]:
z_1=layer_1(train_images)
print(z_1)
z_1.shape

tensor([[ 0.0928,  0.4636,  0.2488,  ..., -0.0703, -0.1776,  0.1341],
        [ 0.1657,  0.1012, -0.1248,  ..., -0.5124,  0.0401,  0.1205],
        [-0.0559,  0.1749,  0.0677,  ..., -0.1446,  0.1145, -0.0859],
        ...,
        [ 0.0507,  0.3522,  0.1234,  ..., -0.1301,  0.1683, -0.0620],
        [ 0.1776,  0.3217,  0.0355,  ..., -0.1141,  0.0513,  0.1434],
        [ 0.0281,  0.1119,  0.0771,  ..., -0.2499, -0.1876,  0.0880]],
       grad_fn=<AddmmBackward>)


torch.Size([60000, 200])

Die `layer_1` gibt den Output (`z_1`) aus. Dieser hat die `shape` `[60000,200]`. Also immer noch 60000 Bilder, aber diesmal hat jedes nur jeweils 200 Features (Größe der Hidden Layer). So wie es auch bei der Definition der `layer_1` bestimmt wurde.

Was Ihnen auffallen sollte, am Ende des Tensors `z_1` steht `grad_fn=<AddmmBackward>`. Dies zeigt an, dass ***autograd** die Gradienten für diese Transformation erfasst hat. Wenn man will, kann man auch erkennen, dass wir eine Matrixmultiplikation `mm` und eine Addition `Add` durchgeführt haben.

Was Ihnen jetzt noch fehlt, ist die Activationfunction. Auch hier kann PyTorch helfen. 
PyTorchs `nn`Library hat ein Submodul `functional`. Hier sind viele zusätzliche mathematische Funktionen enthalten, unter anderem auch die `relu` Funktion.
`functional` lässt sich wie folgt importieren: `from torch.nn import functional as F`. Wir nennen `functional` zu `F` um, quasi eine Norm, wenn man mit PyTorch arbeitet.

`F.relu()` kann jetzt benutzt werden um die ReLU Funktion anzuwenden. 

In [14]:
from torch.nn import functional as F

a_1 = F.relu(z_1)
print(a_1)

tensor([[0.0928, 0.4636, 0.2488,  ..., 0.0000, 0.0000, 0.1341],
        [0.1657, 0.1012, 0.0000,  ..., 0.0000, 0.0401, 0.1205],
        [0.0000, 0.1749, 0.0677,  ..., 0.0000, 0.1145, 0.0000],
        ...,
        [0.0507, 0.3522, 0.1234,  ..., 0.0000, 0.1683, 0.0000],
        [0.1776, 0.3217, 0.0355,  ..., 0.0000, 0.0513, 0.1434],
        [0.0281, 0.1119, 0.0771,  ..., 0.0000, 0.0000, 0.0880]],
       grad_fn=<ReluBackward0>)


Wenn Sie `a_1` mit `z_1` vergleichen können Sie sehen, dass alle Werte die vorher negative waren Null wurden und alle Werte die positive waren unverändert sind.
Auch kann man im `grad fn` sehen, dass eine ReLU angewandt wurde. Also auch das hat *autograd* mit aufgezeichnet. 

Der erste Teil der Forwardpropagation ist geschafft. 
Für den zweiten Schritt können wir einfach eine weitere Layer erstellen, die `a_1` als Input nimmt.

In [15]:
layer_2 = nn.Linear(200,10) # 10 ist die Anzahl der out_features, da wir 10 Ziffern haben.
z_2=layer_2(a_1)

Auch hier brauchen Sie wieder eine Activationfunction. Diesmal aber die `softmax`-Funktion um die Wahrscheinlichkeiten zu erhalten.
`nn.functional` hat auch eine `softmax()` Funktion.

In [16]:
y_hat = F.softmax(z_2,dim=1) # die dim Funktion legt fest ob über Spalten oder Reihen die Softmax funktion angewandt wird.

In PyTorch kann man auch verschiedene Layers zusammenfassen. Mit `nn.Sequential` können Sie die lineare Transformation und Activationfunction direkt hintereinander schalten. Der Input wird automatisch durch jede der Layers weitergeleitet.
Das macht Ihren Code übersichtlicher und einfacher zu schreiben.

In [17]:
netzwerk = nn.Sequential(nn.Linear(784,200), 
                         nn.ReLU(), 
                         nn.Linear(200,10))
netzwerk

Sequential(
  (0): Linear(in_features=784, out_features=200, bias=True)
  (1): ReLU()
  (2): Linear(in_features=200, out_features=10, bias=True)
)

Wie Sie sehen können, wurde ein Netzwerk mit einer Hiddenlayer erstellt. Was Ihnen ausfallen sollte ist, dass anstatt `F.relu` `nn.ReLU` benutzt wurde. Wenn eine `relu` Funktion innerhalb von `Sequential()` benutzt werden soll, müssen Sie immer `nn.ReLU` benutzen. 

Das `netzwerk` könnte nun die Bilder klassifizieren:
Mit `netzwerk(input)` kann der Input z. B. unsere Bilder durch das Netzwerk geführt werden.
Anhand der Tensorgröße des Outputs können Sie sehen, dass tatsächlich am Ende 60000 Bilder mit jeweils 10 Features (den 10 Ziffern bekommen) als Output herausgegeben werden.

In [18]:
output=netzwerk(train_images)
output.shape

torch.Size([60000, 10])

Eine weitere Veränderung ist, dass Sie nicht mehr die letzte Activationfunktion benutzt haben. PyTorch wählt die Activationfunktion automatisch. Die Entscheidung welche Activationfunction in der letzten Layer benutzt werden soll hängt von der Wahl der Lossfunktion ab.

### Loss Funktion

Auch mit der Lossfunktion kann `nn` helfen. Die häufigsten Lossfunktionen sind nämlich schon in PyTorch enthalten.
Sie können einfach eine neue Variable erstellen und dieser die `nn.CrossEntropyLoss()` Funktion zuordnen.

In [19]:
loss_funktion = nn.CrossEntropyLoss()

`loss_funktion` kann nun den Loss berechnen und wendet dabei automatisch die Softmax-Funktion an.
Dazu müssen Sie einfach nur `y_hat` und die `train_labels` in die Funktion geben. Hier zeigt sich ein weiterer Vorteil, Sie brauchen die Labels nicht noch `one-hot` codieren, auch das macht PyTorch.

In [20]:
loss=loss_funktion(output, train_labels)
loss

tensor(2.3013, grad_fn=<NllLossBackward>)

### Back Propagation

Als letzten Schritt müssen Sie noch die Back Propagation durchführen. Dank *autograd* geht das einfach mit dem Befehl `loss.backward()`. Dieser berechnet die Gradienten für alle Weightmatrizen.

Danach müssen die Weightmatrizen nur noch geupdated werden. Wie Sie sich denken können, nimmt Ihnen auch der PyTorch ab.
PyTorch stellt sogar eine Vielzahl von Algorithmen zu Verfügung. Viele dieser funktionieren besser als der einfache Gradient Descent.
Für das Updaten der Weights wird ein neues Modul von PyTorch benötigt.
Dafür laden Sie `from torch import optim`. `optim` enthält Optimizer, also Funktionen, die für uns das Netzwerk optimieren - die Weights updaten.

Ähnlich wie bei der Loss Funktion, können Sie auch hier einfach eine Variable erstellen und ihr Updatefunktion zuordnen. 
Sie können jetzt den `optim.SGD()` zum updaten benutzen. SGD = Stochastic Gradient Descent.  In der Funktion selber definieren Sie, welche Parameter (Weights) verändert werden sollen. Auch legen Sie hier die Lernrate fest.

In [21]:
loss.backward() #sammelt die Gradienten

In [22]:
from torch import optim
weights_updaten=optim.SGD(netzwerk.parameters(), lr=0.01) # Sie legen fest welche Parameter und mit welche Lernrate diese verändert werden sollen

weights_updaten.step() # mit- step() verändert Sie ein die Weights


Jetzt haben Sie alles, was man für ein Netzwerk braucht.

Sie können wieder einen for-loop benutzen, um das Training zu automatisieren.

Es fällt euch eventuell auf, dass wir noch `updaten.zero_grad()` benutzen. Diese Funktion wird benutzt, um die gesammelten Gradienten zu löschen. Wird das nicht gemacht, so würde der Optimizer alle Gradienten aus allen Epochs zusammen zählen.

In [23]:
## Definieren des Netzwerkes,LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,200), 
                         nn.ReLU(), 
                         nn.Linear(200,10))

loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Training Loss: 2.30 Training Accuracy: 0.15
Training Loss: 2.24 Training Accuracy: 0.22
Training Loss: 2.18 Training Accuracy: 0.33
Training Loss: 2.12 Training Accuracy: 0.48
Training Loss: 2.05 Training Accuracy: 0.59
Training Loss: 1.97 Training Accuracy: 0.65
Training Loss: 1.89 Training Accuracy: 0.70
Training Loss: 1.79 Training Accuracy: 0.72
Training Loss: 1.70 Training Accuracy: 0.74
Training Loss: 1.60 Training Accuracy: 0.75
Training Loss: 1.50 Training Accuracy: 0.77
Training Loss: 1.40 Training Accuracy: 0.78
Training Loss: 1.31 Training Accuracy: 0.79
Training Loss: 1.23 Training Accuracy: 0.79
Training Loss: 1.15 Training Accuracy: 0.80
Training Loss: 1.08 Training Accuracy: 0.81
Training Loss: 1.02 Training Accuracy: 0.81
Training Loss: 0.96 Training Accuracy: 0.82
Training Loss: 0.92 Training Accuracy: 0.82
Training Loss: 0.87 Training Accuracy: 0.83
Training Loss: 0.84 Training Accuracy: 0.83
Training Loss: 0.80 Training Accuracy: 0.84
Training Loss: 0.77 Training Acc

Sie können sehen, dass Sie mit viel weniger Aufwand ein neuronales Netzwerk trainieren können. Sie können auch ohne großen Aufwand ein zweite oder dritte Hiddenlayer zu Ihrem Model hinzufügen.
Einfach eine `nn.ReLU` und eine `nn.Linear` Layer in `Sequential` hinzufügen und **autograd** kann auch für diese Layer die Gradienten berechnen. Alles andere bleibt gleich. Denken Sie nur daran, dass die Dimensionen von einer zu nächsten Layer passen müssen. 

In [25]:
## Definieren Sie das Netzwerk, Loss Funktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,200), 
                         nn.ReLU(), 
                         nn.Linear(200,200),
                         nn.ReLU(), 
                         nn.Linear(200,10))
print(netzwerk)
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 50

## Trainings Loop
for i in range(50):
    updaten.zero_grad()
    output = netzwerk(train_images) # Forward Propagation
    
    loss   = loss_funktion(output, train_labels)
    loss.backward()
    
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (loss.item(), acc)
    )
    
    updaten.step()

Sequential(
  (0): Linear(in_features=784, out_features=200, bias=True)
  (1): ReLU()
  (2): Linear(in_features=200, out_features=200, bias=True)
  (3): ReLU()
  (4): Linear(in_features=200, out_features=10, bias=True)
)
Training Loss: 2.30 Training Accuracy: 0.10
Training Loss: 2.29 Training Accuracy: 0.15
Training Loss: 2.28 Training Accuracy: 0.24
Training Loss: 2.27 Training Accuracy: 0.31
Training Loss: 2.26 Training Accuracy: 0.34
Training Loss: 2.24 Training Accuracy: 0.37
Training Loss: 2.23 Training Accuracy: 0.41
Training Loss: 2.21 Training Accuracy: 0.46
Training Loss: 2.19 Training Accuracy: 0.51
Training Loss: 2.17 Training Accuracy: 0.57
Training Loss: 2.14 Training Accuracy: 0.61
Training Loss: 2.10 Training Accuracy: 0.64
Training Loss: 2.06 Training Accuracy: 0.67
Training Loss: 2.01 Training Accuracy: 0.68
Training Loss: 1.96 Training Accuracy: 0.69
Training Loss: 1.89 Training Accuracy: 0.69
Training Loss: 1.81 Training Accuracy: 0.70
Training Loss: 1.73 Training Ac

Sie haben vielleicht schon gemerkt, dass wir als Optimizer (Weights updaten) den Stochastic Gradient Descent benutzen. Gestern wurde nur von dem Gradient Descent gesprochen.
Tatsächlich wird der Gradient Descent, so wie gestern erklärt eigentlich nicht mehr benutzt, sondern als Alternative der Stochastic Gradient Descent. 

Der Unterschied:<br>
Im Stochastic Gradient Descent wird der Datensatz nicht auf einmal durch das Netz geschickt, sondern der Datensatz wird in kleineren Teilen (**minibatch**) durch das Netzwerk gebracht. <br>
In diesem Datensatz gibt es insgesamt 60000 Bilder. Beim Gradient Descent, werden wird der Forwardpass mit 60000 Bilder berechnet, für die 60000 Bilder der Loss berechnet. Danach werden die Bilder einmal upgedatet.
Dann wiederholt sich der Schritt. 

Es wäre doch effizienter, wenn nicht erst nach allen 60000 Bilder ein Update passiert. Sondern schon nach 200 oder auch nur 100.  Dadurch kann das Netzwerk viel schneller lernen
Genau das macht Stochastic Gradient Descent.  Nicht alle Bilder, sondern nur z. B. 32 Bilder werden auf einmal durch das Netzwerk geschickt. Für diese 32 wird dann der Loss berechnet und die Updates durchgeführt.
Dann wird das wiederholt, aber diesmal mit 32 neuen Bilder. So können innerhalb eines Epochs viel öfter die Weights upgedatet werden.
Die Batchsize gibt an, wie groß ein Minibatch (der kleine Teil der Daten, der durchs Netzwerk geht) sein soll und kann auch die Performance des Models beeinflussen.
<center>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcT0TVrYkk0A0FfPvnzYTe747F0qPLG2rU2Bmg&usqp=CAU" style="width: 600px;">
</center>
<h8><center>Source: Insu Han and Jongheon Jeong, http://alinlab.kaist.ac.kr/resource/Lec2_SGD.pdf</center></h8>


Vorteile:<br>
* schneller
* braucht weniger Speicherplatz (auf der Graphikkarte)

Nachteile: <br>
* kann nicht das Optimum finden (kann aber auch gut sein, um overfitting zu verhindern)

Um Minibatches aus den Daten zu machen, können Sie auch PyTorch benutzen. Dafür gibt es ein weiteres Submodule `torch.utils.data`.

In [65]:
from torch.utils import data

In `torch.utils.data` gibt es zwei Funktionen, die Sie brauchen:

* `data.TensorDataset(input,labels)` erstellt ein PyTorch Dataset aus den Daten
* `data.DataLoader(Dataset, batch_size)`  erstellt Minibatches der angegebenen Größe aus einem Datensatz

In [27]:
train_data=data.TensorDataset(train_images, train_labels) # input sind unsere Tensors die einmal die Bilder und einmal die Labels beinhalten
loader = data.DataLoader(train_data, batch_size = 32)

In [28]:
print(len(loader))

1875


Die Variable `loader` enthält nun 1875 Minibatches mit jeweils 32 Bilder und deren 32 Labels. In der nächsten Zelle können Sie den Inhalt des ersten Batches sehen.

In [29]:
list(loader)[0]

[tensor([[0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         ...,
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.]]),
 tensor([5, 0, 4, 1, 9, 2, 1, 3, 1, 4, 3, 5, 3, 6, 1, 7, 2, 8, 6, 9, 4, 0, 9, 1,
         1, 2, 4, 3, 2, 7, 3, 8])]

Um alles zusammenzubringen, brauchen Sie einen zweiten `for-loop`, der innerhalb des ersten `for-loops` die Minibatches nach einander auswählt und durch das Netzwerk führt. 

In [30]:
## Definieren des Netzwerkes,LossFunktion und Update Algorithmus
netzwerk = nn.Sequential(nn.Linear(784,200), 
                         nn.ReLU(), 
                         nn.Linear(200,200),
                         nn.ReLU(), 
                         nn.Linear(200,10))
loss_funktion = nn.CrossEntropyLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.3)
EPOCHS = 2

## Trainings Loop
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichter den Loss jedes Minibatches
                   # damit können wir am Ende den Durschnittslost innerhalb des Epochs berechnen
    for minibatch in loader: # for-loop geht durch alle minibatches
        images, labels = minibatch # minibatch wird in Bilder und Labels geteilt
        
        updaten.zero_grad()
        output = netzwerk(images) # Forward Propagation
    
        loss   = loss_funktion(output, labels)
        loss.backward()
        loss_list.append(loss.item())
        updaten.step()
        
    output = netzwerk(train_images)
    acc=((output.max(dim=1)[1]==train_labels).sum()/float(output.shape[0])).item()
    print(
        "Training Loss: %.2f Training Accuracy: %.2f"
        % (np.mean(loss_list), acc)
    )
    

Training Loss: 0.25 Training Accuracy: 0.96
Training Loss: 0.10 Training Accuracy: 0.98


Nach nur zwei Epochs ist die Accuracy viel niedriger als jemals zuvor. Dafür schicken wir noch einmal das ganze Dataset durch das Netzwerk und berechnen die Genauigkeit. Der einzelne Epoch dauert viel länger, aber die Trainingszeit verkürzt sich insgesamt.
Um die Genauigkeit auszurechnen wird, nachdem all Minibatches durch das Netzwerk gegangen sind, noch einmal der ganze Datensatz durch das Netzwerk geschickt (ohne die Weights zu verändern) und die Genauigkeit berechnet. Der Epochloss ist der durchschnittliche Loss der Minibatches.

Tipp: Wenn man den Wert eines Tensors und nicht den Tensor weitergeben will, kann man `tensor.item()` benutzen.

# Übungsaufgabe

Für die Übungsaufgabe werden Sie ein Netzwerk trainieren, diesmal aber mit den Toxizitätsdaten aus Woche 5.
Zunächst laden Sie wieder alle notwendigen Libraries und Daten.

In [236]:
import pandas as pd
from sklearn.model_selection import train_test_split
%run ../utils/utils.py

In [237]:
data_tox = pd.read_csv("../data/toxicity/sr-mmp.tab", sep = "\t")
data_tox = data_tox.iloc[:,1:] #alle Spalten bis auf die erste (index 0) werden ausgewählt
data_tox.columns = ["smiles", "activity"]
data_tox.head()

Unnamed: 0,smiles,activity
0,OC(=O)[C@H](O)[C@@H](O)[C@H](O)C(=O)CO,0
1,C[C@]12CC[C@H]3[C@@H](CCc4cc(O)ccc43)[C@@H]1CC...,1
2,CC(C)(C)c1cc(O)ccc1O,1
3,CN(C)c1ccc(cc1)C(c1ccccc1)=C1C=CC(C=C1)=[N+](C)C,1
4,NC(Cc1ccccc1)C(O)=O,0


Als Nächstes berechnen Sie die Fingerprints. Dafür steht ihnen wie in Woche 05 die Funktion `get_fingerprints` zur Verfügung.

In [239]:
fps = get_fingerprints(data_tox)
fps["activity"] = data_tox.activity
fps.head()

100%|██████████████████████████████████████| 2246/2246 [00:02<00:00, 750.66it/s]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,2039,2040,2041,2042,2043,2044,2045,2046,2047,activity
0,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,1
4,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Bevor Sie diese in Pytorch verwenden können, müssen Sie die sowohl die Fingerprints als auch die `acitivity` in `tensors` umwandeln. Beachten Sie, dass beide im DataFrame `fps` sind. 

`.values` konvertiert einen Datenframe in ein `np.array`.

Danach teilen Sie die Daten in Training und Testset auf.

In [240]:
fps = torch.tensor(_______.values, dtype=torch.float32) #

In [241]:
train, test=train_test_split(______,test_size= 0.2 , train_size= 0.8, random_state=1234)


train_x = train[__________]
train_y = train[__________]
test_x = test[__________]
test_y = test[__________]


Auch jetzt wollen wir wieder Minibatches benutzten. Deswegen müssen wir unsere Trainingsdaten noch in zu einem `DataLoader` konvertieren. Warum nur die Trainingsdaten? Das Benutzen von Batches ist erst einmal nur relevant für das Training. Solange ihr Computer fähig ist den Testdatensatz auf einmal durch das Netzwerk zu führen, müssen wir den Testdatensatz nicht in Batches unterteilen.

In [242]:
train_data=data.TensorDataset(______, _____) # input sind unsere Tensors die einmal die Fingerprints die activities
loader=DataLoader(train_data, batch_size = 32)
len(loader)

Passen Sie das Netzwerk so an, dass der Input und Output die richtige Größe haben. Also die Länge der Fingerprints und die Anzahl der Klassen, die wir vorhersagen.

In [246]:
netzwerk = nn.Sequential(nn.Linear(____,200), 
                         nn.ReLU(), 
                         nn.Linear(200,200),
                         nn.ReLU(), 
                         nn.Linear(200,___))

loss_funktion = nn.BCEWithLogitsLoss()
updaten = optim.SGD(netzwerk.parameters(), lr=0.1)    
EPOCHS = 10

Als letztes füllen Sie den `for loop`. 

`.squeeze` konvertiert den `(n,1)` `output` tensor zu einem 1-dimensionalen Tensor der Länge `n`.

In [247]:
for i in range(EPOCHS):
    loss_list = [] # diese Liste speichter den Loss jedes Minibatches
    for minibatch in loader: # for-loop geht durch alle minibatches
        updaten.__________
        molecules, activity = minibatch # minibatch wird in Bilder und Labels geteilt
        output = netzwerk(____________) # Forward Propagation
        loss   = loss_funktion(output.squeeze(), ____________)
        loss._______
        loss_list.append(loss.item())
        updaten.________
    # Hier wird die Accuracy für den Testsatz berechnet
    output = netzwerk(test_x)
    acc = torch.sum((output>0).squeeze().int() == test_y)/test_y.shape[0]
   
    print(
        "Training Loss: %.2f Test Accuracy: %.2f"
        % (np.mean(loss_list), acc.item())
    )

ValueError: Target size (torch.Size([32])) must be the same as input size (torch.Size([32, 2]))