## AutoGrad in PyTorch

In diesem Praxisbeispiel schauen wir uns an, wie PyTorch mittels AutoGrad die Gradienten eines Modells berechnet.


In [1]:
import torch
from torch.autograd import grad
import torch.nn.functional as F

Torch wird jeden Tensor, der den Parameter **requires_grad** auf **True** gesetzt hat als Variable betrachten, die es zu optimieren gilt. Ist dieser Wert nicht gesetzt, wird der Tensor als konstant angenommen.

Wir definieren uns ein Minimal-Neuronales-Netz mit einem Eingangsneuron:
a = ReLU(wx+b)

In [2]:
x = torch.tensor([3.])
w = torch.tensor([2.], requires_grad=True)
b = torch.tensor([1.], requires_grad=True)

# Inference mit x=3.
m = w*x + b
a = F.relu(m)

Wir wollen in diesem Fall die Einheitsfunktion als Loss-Funktion verwenden (anders gesagt: Wir verwenden keine Loss-Funktion, sondern wollen den Output des Netzwerks minimieren.

In [3]:
a.grad_fn

<ReluBackward0 at 0x10cd73bb0>

In [4]:
m.grad_fn

<AddBackward0 at 0x107ba1850>

## Aufgabe 1: Erstellen Sie einen SGD-Optimizer und setzen Sie die Gradienten der Parameter zu Null.

Die Lernrate des Optimizers soll 0.001 sein.

In [None]:
optim = ...

### Führen Sie nun die Backpropagation von a mit der backward()-Funktion durch.

### Schauen Sie, welche Gradienten in den Parametern w und b aufgelaufen sind:

Sie sollten sehen: 
- w.grad: tensor([3.])
- b.grad: tensor([1.])

### Führen Sie nochmals eine Inference und einen Backward-Pass durch und schauen Sie erneut die Gradienten an.

Was erkennen wir dabei?

Sie sollten erkennen können, dass sich die Gradienten jetzt verdoppelt haben:
- w.grad: tensor([6.])
- b.grad: tensor([2.])

Deswegen müssen wir die Gradienten am Anfang eines Batch (nach erfolgtem Update) zu Null setzen.

## Aufgabe 2: Welche Veränderung erwarten Sie für beide Parameter nach diesem Schritt des Optimizers? 

Berechnen Sie diese von Hand.

In [None]:
erwartet_w = 
erwartet_b = 

## Aufgabe 3: Führen Sie nun optim.step() durch und kontrollieren Sie, ob Sie richtig lagen.

In [None]:
optim.step()