# Aufgabe 9 - CNN - Backpropagation: Optimierer

Dieses Notebook thematisiert die Optimierung mittels Stochastic Gradient Descent (SGD) mit Mini-Batches, klassischem Momentum und Weight Decay.

Ziel ist es, den Gradientenfluss während der Backpropagation genau zu analysieren und nachzuimplementieren.

Dieses Notebook vereint alle bisher betrachteten NumPy-Implementierungen und fügt sie zu einem kompletten Trainingsschritt zusammen.

### Inhaltsverzeichnis
- [(b) Implementierung des CNN in NumPy und Berechnung der Gradienten](#b)
    - [Implementierung der Klasse Linear](#linear)
    - [Implementierung der Klasse SoftmaxCrossEntropy](#softmax_cross_entropy)
    - [Implementierung des gesamten Netzwerks](#netzwerk)
- [(d) Implementierung der Optimierung](#d)
- [(e) Reproduktion mit PyTorch](#e)

<hr style="border-width: 5px">

### Vorbereitung
Der Übersicht halber sind einige Funktionalitäten in ein separates Paket ausgelagert. Grundvoraussetzung für deren Verwendung ist, dass Sie das Paket `tui-dl4cv` <font color="#aa0000">installieren bzw. aktualisieren</font> und anschließend importieren.

Für die Installation stehen Ihnen zwei mögliche Wege zur Verfügung.

**(1) Installation direkt in diesem Notebook:**
Führen Sie den nachfolgenden Code-Block aus.

In [None]:
import sys

print(f"Automatically install package for '{sys.executable}'")
!{sys.executable} -m pip install tui-dl4cv \
    --extra-index-url "https://2023ws:QSv2EKuu9MmyPAZzez82@nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple" \
    --no-cache --upgrade

ODER

**(2) Manuelle Installation über die Konsole:**
Öffnen Sie eine Konsole ("Anaconda Prompt" unter Windows) und führen Sie folgenden Befehl aus:
```text
pip install tui-dl4cv --extra-index-url "https://2023ws:QSv2EKuu9MmyPAZzez82@nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple" --no-cache --upgrade
```

**Führen Sie abschließend folgenden Code-Block aus, um das Paket verwenden zu können.**

In [None]:
from tui_dl4cv.cnn import print_tensors

# bisherige Implementierungen wiederverwenden
from tui_dl4cv.cnn import MaxPooling
from tui_dl4cv.cnn import StandardConvolution

<hr style="border-width: 5px">

<a name="b"></a>
### (b) Implementieren Sie das gegebene CNN mithilfe von NumPy und berechnen Sie die Gradienten für alle Gewichte.

Greifen Sie für die Convolution und das Max-Pooling auf die Klassen `StandardConvolution` und `MaxPooling` aus den bisherigen Notebooks zurück. Beide Klassen wurden bereits importiert und stehen in diesem Notebook zur Verfügung. Beachten Sie, dass die Klasse `StandardConvolution` zur Vereinfachung der Backpropagation ihre Eingabe automatisch speichert. Während der Backpropagation muss daher nicht noch einmal der Input übergeben werden.

Im Folgenden sollen die zur Realisierung noch fehlenden Teile implementiert werden:
- eine Klasse `Linear` zur Realisierung einer vollverschalteten Schicht
- eine Klasse `SoftmaxCrossEntropy` zur Realisierung der Softmax-Ausgabe und anschließender Fehlerbestimmung in Form der Kreuzentropie

---
Pakete importieren:

In [None]:
# NumPy
import numpy as np

---
<a name="linear"></a>
*Implementierung Klasse `Linear`:*

Beachten Sie, dass der Input Tensor in dieser Klasse ebenfalls zwischengespeichert wird, damit er anschließend zur Bestimmung der Gradienten für die Gewichtsmatrix wiederverwendet werden kann.

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktion könnte für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.dot</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.dot.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

In [None]:
class Linear:
    def __init__(self, weight_tensor, bias_tensor):
        # Gewichte speichern
        self.weight = weight_tensor
        self.bias = bias_tensor

        # zum Speichern des aktuellen Input Tensors
        self.x = None

    def forward(self, input_tensor):
        # Input Tensor speichern
        self.x = input_tensor

        return    # bitte Code ergaenzen <---------------- [Luecke (1)]

    def backward_bias(self, output_tensor_grad):
        return    # bitte Code ergaenzen <---------------- [Luecke (2)]

    def backward_weight(self, output_tensor_grad):
        return    # bitte Code ergaenzen <---------------- [Luecke (3)]

    def backward_input(self, output_tensor_grad):
        return    # bitte Code ergaenzen <---------------- [Luecke (4)]

---
<a name="softmax_cross_entropy"></a>
*Implementierung Klasse `SoftmaxCrossEntropy`:*

Beachten Sie, dass zunächst für jedes Beispiel im Batch getrennt die Softmax-Ausgabe und anschließend der Fehler in Form der Kreuzentropie berechnet werden.
Abschließend werden die Fehler auf ein Skalar reduziert, welches den Startpunkt für die Backpropagation bildet.

In der Regel erfolgt die Reduktion durch eine Mittelwertbildung.

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktionen könnten für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.log</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.log.html" target="_blank">NumPy-Dokumentation</a>
        </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">np.sum</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.sum.html" target="_blank">NumPy-Dokumentation</a>
        </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">np.zeros</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.zeros.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

In [None]:
class SoftmaxCrossEntropy:
    def __init__(self):
        # zum Speichern der aktuellen Input Tensoren
        self.y = None
        self.t = None

        self.n_examples = None
        self.n_classes = None

    def forward(self, z, t):
        # Batchsize und Klassenanzahl auslesen
        self.n_examples, self.n_classes = z.shape

        # Teacher speichern
        self.t = t

        # Softmax-Ausgabe berechnen und speichern
        # Um numerische Instabilitaeten zu vermeiden, sollte das Maximum der Logits
        # subtrahiert werden bevor die Exponentialfunktion angewendet wird. Das
        # Softmax-Ergebnis bleibt dadurch unveraendert.
        exp_z = np.exp(z - z.max())
        self.y = exp_z / np.sum(exp_z, axis=1, keepdims=True)

        # Cross Entropy `e_ce` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (5)]

        # Ergebnisse zurueckgeben
        return self.y, e_ce

    def backward(self):
        # Teacher in 1-aus-n-Kodierung (engl.: one-hot encoding) umwandeln
        t_one_hot = np.zeros((self.n_examples, self.n_classes))
        t_one_hot[range(self.n_examples), self.t] = 1

        # Gradienten bestimmen
        # bitte Code ergaenzen <---------------- [Luecke (6)]

*Verständnisfrage:*

Beeinflusst die konkrete Umsetzung der Reduktion der Fehler aller Beispiele eines Batches auf ein Skalar die Wahl der Lernrate?

<br>
<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<ul>
    <li>Bei einer Reduktion durch den Mittelwert geht der Faktor $\frac{1}{b}$ (Batchsize $b$) mit in die Gradienten ein.</li>
    <li>Bei einer Reduktion durch die Summe fehlt dieser Faktor.</li>
</ul>
</details>

---
<a name="netzwerk"></a>
**Abschließend kann eine Klasse `CNN` zur Realisierung des gesamten Netzwerks implementiert werden.**
Die zu realisierende Klasse soll:
- alle Schichten und Gewichte speichern
- die Forward Propagation umsetzen
- die Backpropagation umsetzen und die Gradienten für alle Gewichte zurückgeben


*Implementierung:*

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktionen könnten für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.copy</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.copy.html" target="_blank">NumPy-Dokumentation</a>
        </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">np.reshape</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.reshape.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

In [None]:
class CNN:
    def __init__(self, w_1, b_1, w_3, b_3):
        # Gewichte kopieren, damit sie spaeter nochmal verwendet werden koennen
        w_1_ = w_1.copy()
        b_1_ = b_1.copy()
        w_3_ = w_3.copy()
        b_3_ = b_3.copy()

        # Schicht 1 `self.conv` anlegen
        # bitte Code ergaenzen <---------------- [Luecke (7)]

        # Schicht 2 `self.maxpool` anlegen
        # bitte Code ergaenzen <---------------- [Luecke (8)]

        # Schicht 3 `self.fc` anlegen
        # bitte Code ergaenzen <---------------- [Luecke (9)]

    def named_parameters(self):
        return {'w_1': self.conv.weight,
                'b_1': self.conv.bias,
                'w_3': self.fc.weight,
                'b_3': self.fc.bias}

    def forward(self, input_tensor):
        n_examples = input_tensor.shape[0]

        # Schicht 1: `o_1` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (10)]

        # Schicht 2: `o_2` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (11)]

        # Uebergang zu vollverschalteten Schichten
        o_2_flat = o_2.reshape(n_examples, 12)

        # Schicht 3: `z_3` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (12)]

        return z_3

    def backward(self, output_tensor_grad):
        # Schicht 3: `dedb_3`, `dedw_3` und `dedo_2` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (13)]
        # bitte Code ergaenzen <---------------- [Luecke (14)]
        # bitte Code ergaenzen <---------------- [Luecke (15)]

        # Uebergang zurueck von vollverschalteter Schicht
        dedo_2_spatial = dedo_2.reshape(dedo_2.shape[0], 3, 2, 2)

        # Schicht 2: `dedo_1` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (16)]

        # Schicht 1: `dedb_1` und `dedw_1` berechnen
        # bitte Code ergaenzen <---------------- [Luecke (17)]
        # bitte Code ergaenzen <---------------- [Luecke (18)]

        # Gradienten fuer alle Gewichte zurueckgeben
        return {'w_1': dedw_1,
                'b_1': dedb_1,
                'w_3': dedw_3,
                'b_3': dedb_3}

---
*Definition der Netzwerkeingabe und der Gewichte*:

In [None]:
# Input Tensor mit Groesse 2x1x5x5 definieren
x = np.array([[[[0, -1, 0, -1, -2],
                [-1, 1, -2, 0, 0],
                [2, 0, 0, 1, 1],
                [1, -1, 0, -1, -1],
                [2, 0, -2, 0, 1]]],
              [[[1, 0, -1, 0, -2],
                [-1, 2, 0, 1, 1],
                [0, 0, 1, 0, -1],
                [1, 0, -2, 1, 0],
                [0, -2, 0, 0, 0]]]], dtype='float32')

# Teacher Tensor definieren
t = np.array([0, 1], dtype='int')

# Schicht 1
# Filter
w_1 = np.array([[[[2.0, -1.0],
                  [1.0, 2.0]]],
                [[[-2.0, 1.0],
                  [2.0, -1.0]]],
                [[[1.0, 0.0],
                  [-1.0, 1.0]]]], dtype='float32')
# Bias
b_1 = np.array([1, 1, 1], dtype='float32')

# Schicht 3
# Gewichtsmatrix
w_3 = np.array([[1, 1, 1, 0, 0, 0, -1, -1, -1, 0, 0, 0],
                [-1, -1, -1, 1, 1, 1, 0, 0, 0, 1, 1, 1]],
               dtype='float32')

# Bias
b_3 = np.array([1, 1], dtype='float32')

---
*Anwendung des Netzwerks:*

In [None]:
# Netzwerkobjekt anlegen
network = CNN(w_1, b_1, w_3, b_3)

# Objekt fuer Softmax-Ausgabe und Kreuzentropie anlegen
loss = SoftmaxCrossEntropy()

# Forward Propagation: `z`, `y` und `e_ce` berechnen
# bitte Code ergaenzen <---------------- [Luecke (19)]
# bitte Code ergaenzen <---------------- [Luecke (20)]

# Ergebnisse der Forward Propagation ausgeben
print_tensors(tensors=(y, e_ce),
              labels=('y bzw. o_3', 'E'),
              precision=4)

# Backpropagation
dedz = loss.backward()
gradients = network.backward(dedz)

# Gradienten ausgeben
print_tensors(tensors=list(gradients.values()),
              labels=[f'{k}.grad' for k in gradients.keys()],
              precision=4)

<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
y bzw. o_3:
[[0.0474 0.9526]
 [0.0025 0.9975]]
E:
1.5255
w_1.grad:
[[[[-2.3777  2.3765]
   [-2.8503 -0.4726]]]
 [[[-1.9014  0.9464]
   [ 0.9513 -0.9501]]]
 [[[-0.0012 -1.4264]
   [-2.8515  0.4713]]]]
b_1.grad:
[-2.3753  1.9002  1.9002]
w_3.grad:
[[-2.3728 -1.8977 -2.8552 -0.9489 -3.8041 -1.9002 -2.3765 -1.4214 -1.4227
  -1.4276 -0.9489 -1.4227]
 [ 2.3728  1.8977  2.8552  0.9489  3.8041  1.9002  2.3765  1.4214  1.4227
   1.4276  0.9489  1.4227]]
b_3.grad:
[-0.4751  0.4751]
</code>
</details>

<hr style="border-width: 5px">

<a name="d"></a>
### (d) Realisieren Sie den Optimierungsschritt in NumPy und führen Sie für alle Gewichte zwei Updateschritte durch.

Als Optimierer soll Stochastic Gradient Descent (SGD) mit einer Lernrate $\eta = 0.01$ und einem klassischen Momentum von $\gamma = 0.8$ zum Einsatz kommen.
Zusätzlich soll ein ergänzendes Weight Decay mit $\lambda = 0.01$ verwendet werden.

Verwenden Sie die an PyTorch angelehnte Update-Formel:
\begin{equation}
v_t \leftarrow \gamma \cdot v_{t-1} + \left(\frac{\partial E}{\partial \theta} + \lambda \cdot \theta \right)\quad \text{mit: }v_0 = 0 \\
\theta_{t+1} \leftarrow \theta_t - \eta \cdot v_t
\end{equation}

*Implementierung:*

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktion könnte für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.zeros_like</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.zeros_like.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

In [None]:
class SGD:
    def __init__(self, parameters, lr, momentum=0.0, weight_decay=0.0):
        # Parameter speichern
        self.parameters = parameters
        self.lr = lr
        self.momentum = momentum
        self.weight_decay = weight_decay

        # Velocities initialisieren
        self.velocities = {name: np.zeros_like(value)
                           for name, value in self.parameters.items()}

    def step(self, gradients):
        for name in self.parameters:
            # fuer jeden Parameter

            weight = self.parameters[name]
            velocity = self.velocities[name]
            grad = gradients[name]

            # neue Velocity `velocity` bestimmen
            # bitte Code ergaenzen <---------------- [Luecke (21)]

            # Velocity speichern fuer naechsten Updateschritt
            self.velocities[name] = velocity

            # neue Gewichte bestimmen (inplace)
            # bitte Code ergaenzen <---------------- [Luecke (22)]

---

*Zwei Optimierungsschritte ausführen:*

In [None]:
# Netzwerkobjekt anlegen
network = CNN(w_1, b_1, w_3, b_3)

# Objekt fuer Softmax-Ausgabe und Kreuzentropie anlegen
loss = SoftmaxCrossEntropy()

# Optimiererobjekt erstellen
optimizer = SGD(network.named_parameters(),
                lr=0.01, momentum=0.8, weight_decay=0.01)

# Updateschritte
for epoch in range(2):
    print(f"{'-'*40}\nEpoche {epoch+1}:")

    # Forward Propagation: `z`, `y` und `e_ce` berechnen
    # bitte Code ergaenzen <---------------- [Luecke (23)]
    # bitte Code ergaenzen <---------------- [Luecke (24)]

    # Ergebnisse der Forward Propagation ausgeben
    print_tensors(tensors=(y, e_ce),
                  labels=('y bzw. o_3', 'E'),
                  precision=4)

    # Backpropagation
    dedz = loss.backward()
    gradients = network.backward(dedz)

    # Gradienten ausgeben
    # print_tensors(tensors=list(gradients.values()),
    #               labels=[f'{k}.grad' for k in gradients.keys()],
    #               precision=4)

    # Optimierungsschritt ausfuehren
    optimizer.step(gradients)

    # neue Gewichte ausgeben
    print_tensors(tensors=list(network.named_parameters().values()),
                  labels=list(network.named_parameters().keys()),
                  precision=4)

<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
----------------------------------------
Epoche 1:
y bzw. o_3:
[[0.0474 0.9526]
 [0.0025 0.9975]]
E:
1.5255
w_1:
[[[[ 2.0236 -1.0237]
   [ 1.0284  2.0045]]]
 [[[-1.9808  0.9904]
   [ 1.9903 -0.9904]]]
 [[[ 0.9999  0.0143]
   [-0.9714  0.9952]]]]
b_1:
[1.0237 0.9809 0.9809]
w_3:
[[ 1.0236  1.0189  1.0285  0.0095  0.038   0.019  -0.9761 -0.9857 -0.9857
   0.0143  0.0095  0.0142]
 [-1.0236 -1.0189 -1.0285  0.9904  0.9619  0.9809 -0.0238 -0.0142 -0.0142
   0.9856  0.9904  0.9857]]
b_3:
[1.0047 0.9951]
----------------------------------------
Epoche 2:
y bzw. o_3:
[[0.5472 0.4528]
 [0.0408 0.9592]]
E:
0.3223
w_1:
[[[[ 2.0529 -1.0536]
   [ 1.0643  2.0095]]]
 [[[-1.9572  0.9794]
   [ 1.9783 -0.9787]]]
 [[[ 1.0003  0.0321]
   [-0.9362  0.9894]]]]
b_1:
[1.0531 0.9577 0.9575]
w_3:
[[ 1.0525  1.0418  1.0646  0.021   0.0854  0.0423 -0.9466 -0.9686 -0.9685
   0.0321  0.0209  0.0312]
 [-1.0525 -1.0418 -1.0646  0.9787  0.9143  0.9574 -0.0532 -0.0311 -0.0312
   0.9676  0.9788  0.9685]]
b_3:
[1.0103 0.9891]
</code>
</details>

<hr style="border-width: 5px">

<a name="e"></a>
### (e) Reproduzieren Sie die Ergebnisse mit einer PyTorch-Implementierung.


---
Pakete importieren:

In [None]:
# PyTorch
import torch
import torch.nn.functional as F

---
*Netzwerk implementieren:*

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende PyTorch-Definitionen könnten für die Vervollständigung der Lücken hilfreich sein:
    <ul style="margin-bottom: 0px">
        <li><code style="background-color: #FAEAEA;">torch.nn.Module</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.Module.html" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.nn.Conv2d</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.nn.Linear</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.Linear.html" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.nn.functional.max_pool2d</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.functional.max_pool2d.html#torch.nn.functional.max_pool2d" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.Tensor.view</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.Tensor.view.html#torch.Tensor.view" target="_blank">PyTorch-Dokumentation</a>
        </li>
    </ul>
</div>

In [None]:
class PyTorchCNN(torch.nn.Module):
    def __init__(self, print_tensors=True):
        super(PyTorchCNN, self).__init__()

        # Schichten anlegen
        self.conv = torch.nn.Conv2d(in_channels=1, out_channels=3, kernel_size=2,
                                     stride=1, padding=0, dilation=1, groups=1,
                                     bias=True)
        self.fc = torch.nn.Linear(in_features=12, out_features=2,
                                  bias=True)

        # Gewichte mit bereits definierten Variablen initialisieren
        self.conv.weight.data = torch.tensor(w_1)
        self.conv.bias.data = torch.tensor(b_1)
        self.fc.weight.data = torch.tensor(w_3)
        self.fc.bias.data = torch.tensor(b_3)

    def forward(self, x):
        o_1 = self.conv(x)
        o_2 = F.max_pool2d(o_1, kernel_size=2, stride=2)
        o_2_flat = o_2.view(-1, 12)
        z_3 = self.fc(o_2_flat)

        return z_3

---

*Ergebnisse reproduzieren:*

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende PyTorch-Definitionen könnten für die Vervollständigung der Lücken hilfreich sein:
    <ul style="margin-bottom: 0px">
        <li><code style="background-color: #FAEAEA;">torch.optim.SGD</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.nn.functional.softmax</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.functional.softmax.html#torch.nn.functional.softmax" target="_blank">PyTorch-Dokumentation</a>
        </li>
        <li><code style="background-color: #FAEAEA;">torch.nn.functional.cross_entropy</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.functional.cross_entropy.html#torch.nn.functional.cross_entropy" target="_blank">PyTorch-Dokumentation</a>
        </li>
    </ul>
</div>

In [None]:
# Netzwerkobjekt anlegen
network = PyTorchCNN()

# Optimiererobjekt erstellen
optimizer = torch.optim.SGD(network.parameters(),
                            lr=0.01, momentum=0.8, weight_decay=0.01)

# Eingabe und Teacher in PyTorch Tensoren konvertieren
x_pytorch = torch.tensor(x)
t_pytorch = torch.tensor(t, dtype=torch.long)

# Updateschritte
for epoch in range(2):
    print(f"{'-'*40}\nEpoche {epoch+1}:")

    # Forward Propagation: `z`, `y` und `e_ce` berechnen
    # bitte Code ergaenzen <---------------- [Luecke (25)]
    # bitte Code ergaenzen <---------------- [Luecke (26)]
    # bitte Code ergaenzen <---------------- [Luecke (27)]

    # Ergebnisse der Forward Propagation ausgeben
    print_tensors(tensors=(y, e_ce),
                  labels=('y bzw. o_3', 'E'),
                  precision=4)


    # Backpropagation
    optimizer.zero_grad()
    e_ce.backward()

    # Optimierungsschritt ausfuehren
    optimizer.step()

    # neue Gewichte ausgeben
    print_tensors(tensors=list(dict(network.named_parameters()).values()),
                  labels=list(dict(network.named_parameters()).keys()),
                  precision=4)

<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
----------------------------------------
Epoche 1:
y bzw. o_3:
[[0.0474 0.9526]
 [0.0025 0.9975]]
E:
1.5255
conv.weight:
[[[[ 2.0236 -1.0237]
   [ 1.0284  2.0045]]]
 [[[-1.9808  0.9904]
   [ 1.9903 -0.9904]]]
 [[[ 0.9999  0.0143]
   [-0.9714  0.9952]]]]
conv.bias:
[1.0237 0.9809 0.9809]
fc.weight:
[[ 1.0236  1.0189  1.0285  0.0095  0.038   0.019  -0.9761 -0.9857 -0.9857
   0.0143  0.0095  0.0142]
 [-1.0236 -1.0189 -1.0285  0.9904  0.9619  0.9809 -0.0238 -0.0142 -0.0142
   0.9856  0.9904  0.9857]]
fc.bias:
[1.0047 0.9951]
----------------------------------------
Epoche 2:
y bzw. o_3:
[[0.5472 0.4528]
 [0.0408 0.9592]]
E:
0.3223
conv.weight:
[[[[ 2.0529 -1.0536]
   [ 1.0643  2.0095]]]
 [[[-1.9572  0.9794]
   [ 1.9783 -0.9787]]]
 [[[ 1.0003  0.0321]
   [-0.9362  0.9894]]]]
conv.bias:
[1.0531 0.9577 0.9575]
fc.weight:
[[ 1.0525  1.0418  1.0646  0.021   0.0854  0.0423 -0.9466 -0.9686 -0.9685
   0.0321  0.0209  0.0312]
 [-1.0525 -1.0418 -1.0646  0.9787  0.9143  0.9574 -0.0532 -0.0311 -0.0312
   0.9676  0.9788  0.9685]]
fc.bias:
[1.0103 0.9891]
</code>
</details>

$_{_\text{Created for Deep Learning for Computer Vision (DL4CV)}}$