<img src="Bilder/ost_logo.png" width="240" align="right"/>
<div style="text-align: left"> <b> Applied Neural Networks | FS 2025 </b><br>
<a href="mailto:christoph.wuersch@ost.ch"> © Christoph Würsch, François Chollet </a> </div>
<a href="https://www.ost.ch/de/forschung-und-dienstleistungen/technik/systemtechnik/ice-institut-fuer-computational-engineering/"> Eastern Switzerland University of Applied Sciences OST | ICE </a>

[![Run in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ChristophWuersch/AppliedNeuralNetworks/blob/main/ANN05/5.1-Einführung_CNN_MNIST_PyTorch_ger.ipynb)


Der MNIST-Datensatz wurde von **Yann LeCun**, **Corinna Cortes** und **Christopher Burges** im Jahr 1998 eingeführt. Der MNIST-Datensatz und die Arbeit von Yann LeCun mit LeNet-5 ebneten den Weg für die Entwicklung von Convolutional Neural Networks, die heute das Rückgrat des modernen Deep Learning bilden. Durch das Studium von MNIST erhalten die Studierenden ein grundlegendes Verständnis für die Funktionsweise von CNNs und ihre historische Bedeutung im Bereich der KI.

In [None]:
# für Ausführung auf Google Colab auskommentieren und installieren
!pip install -q -r https://raw.githubusercontent.com/ChristophWuersch/AppliedNeuralNetworks/main/requirements.txt

In [None]:
from IPython.display import Image, display
url = "https://raw.githubusercontent.com/ChristophWuersch/AppliedNeuralNetworks/master/ANN05/Bilder/Yann-1024x341.jpg"
display(Image(url=url))

Es handelt sich um eine Ableitung des ursprünglichen NIST-Datensatzes, der handgeschriebene Ziffern enthält, die von

- **Angestellten der Volkszählungsbehörde** (saubere, weniger unterschiedliche Schreibstile).
- **Highschool-Schülern** (unordentlicher, vielfältiger Schreibstil).

Die Schöpfer von MNIST normalisierten und verarbeiteten diese Ziffern, um den Datensatz konsistenter und für Experimente zum maschinellen Lernen geeignet zu machen.
In den späten 1980er Jahren demonstrierte Yann LeCun den ersten erfolgreichen Einsatz eines Convolutional Neural Network (CNN) für die Erkennung handgeschriebener Ziffern. Diese bahnbrechende Arbeit beinhaltete: LeCuns Modell mit der Bezeichnung **LeNet-5** bestand aus Faltungsschichten, Pooling-Schichten und vollständig verbundenen Schichten. Es wurde speziell für die Verarbeitung von Bildern und die Extraktion hierarchischer Merkmale entwickelt. LeNet-5 reduzierte die Anzahl der trainierbaren Parameter im Vergleich zu vollständig verknüpften Netzwerken erheblich, indem es die Gewichtsteilung nutzte.

Das Modell wurde für die Ziffernerkennung bei der Post eingesetzt, um Postleitzahlen auf Briefumschlägen automatisch zu lesen. Die Aufgabe erforderte ein hohes Maß an Genauigkeit und Robustheit aufgrund der Variabilität der Handschrift. 
Die Anwendung eines Convolutional Neural Network (CNN) auf den MNIST-Datensatz ist eine beliebte Methode, um die Fähigkeiten von CNNs für Bildklassifizierungsaufgaben kennenzulernen und zu demonstrieren. Der MNIST-Datensatz besteht aus 28×28 Graustufenbildern handgeschriebener Ziffern (0-9), mit einem Trainingssatz von 60.000 Beispielen und einem Testsatz von 10.000 Beispielen.


Im Folgenden wird ein grundlegender Ansatz zur Anwendung eines CNN auf den MNIST-Datensatz mithilfe der Programmiersprache Python und PyTorch vorgestellt:
1.  *Laden* und Vorverarbeiten der Daten: Der MNIST-Datensatz kann mit der Keras-Bibliothek geladen werden, und die Bilder können normalisiert werden, um Pixelwerte zwischen 0 und 1 zu erhalten.
2. *Definieren Sie die Modellarchitektur*: Die Architektur sollte in der Regel Faltungsschichten, Pooling-Schichten und voll verknüpfte Schichten umfassen.
3. *Kompilieren des Modells*: Das Modell muss mit einer Verlustfunktion, einem Optimierer und einer Metrik zur Bewertung kompiliert werden.
4. *Trainieren des Modells*: Das Modell kann mit der Keras-Funktion fit() auf dem Trainingssatz trainiert werden. Es ist wichtig, die Trainingsgenauigkeit und den Verlust zu überwachen, um sicherzustellen, dass das Modell richtig konvergiert.
5. *Evaluieren Sie das Modell*: Das trainierte Modell kann mit Hilfe der Keras-Funktion evaluate() auf der Testmenge bewertet werden. Die für Klassifizierungsaufgaben üblicherweise verwendete Bewertungsmetrik ist die Genauigkeit.

Im Folgenden finden Sie einige Tipps und bewährte Verfahren, die bei der Anwendung eines CNN auf den MNIST-Datensatz zu beachten sind:
- Beginnen Sie mit einer einfachen Architektur und erhöhen Sie bei Bedarf schrittweise die Komplexität.
- Experimentieren Sie mit verschiedenen Aktivierungsfunktionen, Optimierern, Lernraten und Stapelgrößen, um die optimale Kombination für Ihre spezielle Aufgabe zu finden.
- Verwenden Sie Regularisierungstechniken wie Dropout oder Gewichtsabnahme, um eine Überanpassung zu verhindern.
- Visualisieren Sie die vom Modell gelernten Filter und Feature-Maps, um Einblicke in seine Funktionsweise zu erhalten.
- Vergleichen Sie die Leistung des CNN mit anderen Algorithmen des maschinellen Lernens wie Support Vector Machines oder Random Forests, um ein Gefühl für die relative Leistung zu bekommen.

In [9]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from tqdm import tqdm


# Load and preprocess the MNIST dataset
transform = transforms.Compose(
    [
        transforms.ToTensor(),
        transforms.Normalize((0.5,), (0.5,)),  # Normalize to [-1, 1]
    ]
)

train_dataset = datasets.MNIST(
    root="./data", train=True, download=True, transform=transform
)
test_dataset = datasets.MNIST(
    root="./data", train=False, download=True, transform=transform
)


ModuleNotFoundError: No module named 'torch'

In [None]:
train_loader = DataLoader(train_dataset, batch_size=500, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=500, shuffle=False)

#### Warum wird 0.5 zur Normalisierung von Daten auf [-1, 1] verwendet?
Die Funktion „Normalisieren“ in `PyTorch` ist wie folgt definiert:

$$
X_{\text{norm}} = \frac{X - \mu}{\sigma}
$$

wobei:
- $\mu$ der Mittelwert ist,
- $\sigma$ die Standardabweichung ist.

Für den MNIST-Datensatz:
- Die Pixelwerte reichen von $[0, 255]$.
- Bei der Umwandlung in Tensoren mit „ToTensor()“ werden die Pixelwerte auf $[0, 1]$ skaliert.

Um diese Werte auf $[-1, 1]$ zu normalisieren, verwenden wir:
- $\mu = 0.5$: Dadurch wird der Bereich von $[0, 1]$ auf $[-0,5, 0,5]$ verschoben.
- $\sigma = 0.5$: Damit wird der Bereich von $[-0,5, 0,5]$ auf $[-1, 1]$ verschoben.

#### Formel:
Für einen Eingabewert $x$:
$$
x_{\text{norm}} = \frac{x - 0.5}{0.5}
$$

#### Ergebnis:
- Ursprünglicher Pixelbereich ($[0, 255]$): Skaliert auf $[0, 1]$ durch `ToTensor()`.
- Nach der Normalisierung: Transformiert nach $[-1, 1]$ mit `Normalize((0.5,), (0.5,))`.

Diese Normalisierung wird häufig verwendet, weil sie die Daten um $0$ mit einem konsistenten Bereich zentriert, was dazu beiträgt, dass neuronale Netze beim Training schneller konvergieren.

In [None]:
train_dataset[0][0];

In [None]:
train_dataset[0][1]

In [None]:
import matplotlib.pyplot as plt
import numpy as np


def plot_mnist_digits(images, labels, num_images=10):
    """
    Plots a selection of MNIST digits.

    Parameters:
    images (numpy.ndarray): Array of images.
    labels (numpy.ndarray): Array of labels.
    num_images (int): Number of images to display.
    """
    plt.figure(figsize=(16, 2))
    for i in range(num_images):
        plt.subplot(1, num_images, i + 1)
        plt.imshow(torch.squeeze(images[i]), cmap="gray")
        plt.title(labels[i].numpy())
        plt.axis("off")
    plt.show()


In [None]:
batch_size = 32
print_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
inputs, labels = next(iter(print_loader))  # Get the first batch

plot_mnist_digits(inputs, labels, num_images=batch_size)

In [None]:
import torch
import matplotlib.pyplot as plt


def plot_mnist_grid(images, labels, grid_size=(4, 4)):
    """
    Plots a grid of MNIST digits with labels as insets.

    Parameters:
    images (torch.Tensor or numpy.ndarray): Array of images (shape: N x H x W).
    labels (torch.Tensor or numpy.ndarray): Array of labels.
    grid_size (tuple): Size of the grid (rows, cols).
    """
    fig, axes = plt.subplots(
        grid_size[0], grid_size[1], figsize=(grid_size[1] * 1.5, grid_size[0] * 1.5)
    )

    for i, ax in enumerate(axes.flatten()):
        if i < len(images):
            ax.imshow(torch.squeeze(images[i]), cmap="gray", aspect="auto")
            ax.text(
                2,
                5,
                str(labels[i].item()),
                fontsize=12,
                color="red",
                bbox=dict(facecolor="white", alpha=0.6),
            )
            ax.axis("off")
        else:
            ax.axis("off")  # Hide unused subplots

    plt.subplots_adjust(wspace=0.05, hspace=0.05)  # Reduce spacing
    plt.show()


In [None]:
grid_size = 16
print_loader = DataLoader(train_dataset, batch_size=grid_size**2, shuffle=True)
images, labels = next(iter(print_loader))  # Get the first batch
plot_mnist_grid(images, labels, grid_size=(grid_size, grid_size))

In [None]:
train_loader.dataset

In [None]:
# Define the CNN model
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3)  # Output: [32, 26, 26]
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3)  # Output: [64, 24, 24]
        self.pool = nn.MaxPool2d(kernel_size=3)  # Output: [64, 8, 8]
        self.dropout = nn.Dropout(0.5)
        self.flatten = nn.Flatten()
        self.fc1 = nn.Linear(64 * 8 * 8, 250)  # Adjusted for correct input size
        self.fc2 = nn.Linear(250, 10)

    def forward(self, x):
        x = torch.relu(self.conv1(x))
        x = torch.relu(self.conv2(x))
        x = self.pool(x)
        x = self.dropout(x)
        x = self.flatten(x)
        x = torch.sigmoid(self.fc1(x))
        x = self.fc2(x)
        return x


Das CNN wurde entwickelt, um MNIST-Bilder (28x28 Graustufenbilder) in 10 Ziffernklassen (0-9) zu klassifizieren. Das Modell besteht aus den folgenden Komponenten:

- **2 Convolutional Layers**
- **1 Max-Pooling-Schicht**
- **Dropout für Regularisierung**
- **2 vollständig verknüpfte (lineare) Schichten**


Die Eingabegrösse der MNIST-Bilder ist:

$$
\text{Eingangsgrösse} = [\text{Stapelgrösse}, 1, 28, 28]
$$

Hier:
- Die Stapelgrösse ist die Anzahl der Bilder, die gleichzeitig verarbeitet werden.
- $1$ ist die Anzahl der Kanäle (Graustufenbild).
- $28 \times 28$ ist die räumliche Auflösung des Bildes.


##### **3.1 Faltungsschicht 1**

- **Operation**: Wendet 32 Filter der Grösse $3 \times 3$ an.
- **Eingabegrösse**: $[1, 28, 28]$
- **Ausgangsgrösse**: Berechnet als:
  $$
  \text{Ausgabehöhe/-breite} = \frac{\text{Eingangsgrösse} - \text{Kerngrösse} + 2 \times \text{Padding}}{\text{Stride}} + 1
  $$
  Substituieren der Werte:
  $$
  \text{Ausgabehöhe/-breite} = \frac{28 - 3 + 2 \times 0}{1} + 1 = 26
  $$
  Die Ausgabegrösse wird zu:
  $$
  [\text{Stapelgrösse}, 32, 26, 26]
  $$

##### **3.2 Faltungsschicht 2**

- **Operation**: Wendet 64 Filter der Grösse $3 \times 3$ an.
- **Eingabegrösse**: $[32, 26, 26]$
- **Ausgangsgrösse**:
  $$
  \text{Ausgabehöhe/-breite} = \frac{26 - 3 + 2 \times 0}{1} + 1 = 24
  $$
  Die Ausgabegrösse wird zu:
  $$
  [\text{Stapelgrösse}, 64, 24, 24]
  $$

##### **3.3 Max-Pooling-Schicht**

- **Operation**: Wendet eine $3 \mal 3$ Pooling-Operation an.
- **Eingabegrösse**: $[64, 24, 24]$
- **Ausgangsgrösse**:
  $$
  \text{Ausgabehöhe/-breite} = \frac{24 - 3}{3} + 1 = 8
  $$
  Die Ausgabegrösse wird zu:
  $$
  [\text{Stapelgrösse}, 64, 8, 8]
  $$


##### **3.4 Ebene abflachen**

- **Operation**: Konvertiert den 3D-Tensor in einen 1D-Tensor für vollständig verbundene Schichten.
- **Eingabegrösse**: $[64, 8, 8]$
- **Ausgabegrösse**:
  $$
  \text{Flattened size} = 64 \times 8 \times 8 = 4096
  $$

##### **3.5 Vollständig verknüpfte Schicht 1**

- **Operation**: Ordnet die 4096 Eingangsmerkmale 250 Neuronen zu.
- **Eingangsgrösse**: $4096$
- **Ausgangsgrösse**:
  $$
  [250]
  $$

##### **3.6 Vollständig verknüpfte Schicht 2**

- **Operation**: Verknüpft die 250 Eingabemerkmale mit 10 Ausgabeneuronen (eine für jede Ziffernklasse).
- **Eingangsgrösse**: $250$
- **Ausgangsgrösse**:
  $$
  [\text{Stapelgrösse}, 10]
  $$



#### **4. Aktivierungsfunktionen**
- **ReLU (Rectified Linear Unit)**: Wird in Faltungsschichten verwendet, um Nichtlinearität einzuführen.
- **Sigmoid**: Wird in der ersten vollverknüpften Schicht angewendet, um die Ausgaben zu komprimieren.
- **Softmax**: Wird intern nach der letzten Schicht (z. B. in `CrossEntropyLoss`) angewendet, um Logits in Wahrscheinlichkeiten umzuwandeln.



#### **5. Vorwärtspass**
Die Vorwärtsmethode verarbeitet die Eingabe durch die Schichten in der folgenden Reihenfolge:
1. Faltungsschicht 1 mit ReLU-Aktivierung.
2. Faltungsschicht 2 mit ReLU-Aktivierung.
3. Max-Pooling-Schicht.
4. Dropout-Schicht.
5. Ebene abflachen.
6. Vollständig verbundener Layer 1 mit Sigmoid-Aktivierung.
7. Vollständig verbundene Schicht 2.


#### **6. Zusammenfassung der Ausgabegrössen**
| Schicht | Ausgabegrösse |
|-------------------------|---------------------------|
| Eingabe | $[\text{Stapelgrösse}, 1, 28, 28]$ |
| Faltungsschicht 1 | $[\text{Stapelgrösse}, 32, 26, 26]$|
| Faltungsschicht 2 | $[\text{Stapelgrösse}, 64, 24, 24]$|
| Max-Pooling-Schicht | $[\text{Stapelgrösse}, 64, 8, 8]$ |
| Flatten | $[\text{Stapelgrösse}, 4096]$ |
| Vollständig verbundene Schicht 1 | $[\text{Stapelgrösse}, 250]$ |
| Vollständig verbundene Schicht 2 | $[\text{Stapelgrösse}, 10]$ |

In [None]:
# Install required libraries
#!pip install torchsummary torchviz

# Import required libraries
import torch
from torchsummary import summary
from torchviz import make_dot

mymodel = CNN()  # Adjust device as per your requirement

# Summarize the model
summary(
    mymodel, input_size=(1, 28, 28), device="cpu"
)  # Adjust input_size as per your model's requirement

# Visualize the model architecture
x = torch.randn(1, 1, 28, 28)  # Adjust input size as per your model's requirement
y = mymodel(x)

make_dot(y, params=dict(mymodel.named_parameters())).render(
    "model_architecture", format="png"
)


In [None]:
from IPython.display import display
from PIL import Image

# Load and display the image
image = Image.open("model_architecture.png")
display(image)


### Training

In [None]:
# to tain on the GPU, we use CUDA 12.4
#!pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124


# Select device: CUDA if available, otherwise CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

In [None]:
# Initialize the model and move it to the selected device
model = CNN().to(device)

# Define loss function and optimizer
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adadelta(model.parameters())


In [None]:
import torch
import matplotlib.pyplot as plt
from tqdm import tqdm

# Training loop
num_epochs = 12
train_losses = []
test_losses = []
train_accuracies = []
test_accuracies = []

for epoch in range(num_epochs):
    # Training
    model.train()
    running_loss = 0.0
    correct_train = 0
    total_train = 0

    # Wrap train_loader with tqdm for progress bar
    progress_bar = tqdm(
        train_loader, desc=f"Epoch {epoch + 1}/{num_epochs}", leave=False
    )

    for inputs, labels in progress_bar:
        inputs, labels = inputs.to(device), labels.to(device)  # Move batch to CUDA

        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        _, predicted = torch.max(outputs, 1)
        total_train += labels.size(0)
        correct_train += (predicted == labels).sum().item()

        # Update progress bar with loss info
        progress_bar.set_postfix(loss=loss.item())

    train_losses.append(running_loss / len(train_loader))
    train_accuracies.append(100 * correct_train / total_train)

    # ===========================
    # Validation (Test) Phase
    # ===========================
    model.eval()  # Set model to evaluation mode
    test_loss = 0.0
    correct_test = 0
    total_test = 0

    with torch.no_grad():  # No gradients needed during validation
        for inputs, labels in test_loader:
            inputs, labels = inputs.to(device), labels.to(device)

            outputs = model(inputs)
            loss = criterion(outputs, labels)
            test_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total_test += labels.size(0)
            correct_test += (predicted == labels).sum().item()

    test_losses.append(test_loss / len(test_loader))
    test_accuracies.append(100 * correct_test / total_test)

    print(
        f"Epoch {epoch + 1}/{num_epochs} | Train Loss: {train_losses[-1]:.4f} | Train Acc: {train_accuracies[-1]:.2f}% | Test Loss: {test_losses[-1]:.4f} | Test Acc: {test_accuracies[-1]:.2f}%"
    )


In [None]:
# Plot Training and Validation Loss
plt.figure(figsize=(10, 5))
plt.plot(range(1, num_epochs + 1), train_losses, label="Train Loss", marker="o")
plt.plot(range(1, num_epochs + 1), test_losses, label="Test Loss", marker="s")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.title("Training & Validation Loss")
plt.legend()
plt.grid()
plt.show()

# Plot Training and Validation Accuracy
plt.figure(figsize=(10, 5))
plt.plot(range(1, num_epochs + 1), train_accuracies, label="Train Accuracy", marker="o")
plt.plot(range(1, num_epochs + 1), test_accuracies, label="Test Accuracy", marker="s")
plt.xlabel("Epoch")
plt.ylabel("Accuracy (%)")
plt.title("Training & Validation Accuracy")
plt.legend()
plt.grid()
plt.show()


Die Trainingsschleife ist für das Training des Modells über mehrere Epochen hinweg unter Verwendung der bereitgestellten Trainingsdaten verantwortlich. Im Folgenden werden die wichtigsten Komponenten der Schleife im Detail erläutert:

### Zusammenfassung der wichtigsten Schritte:
1. **Null-Gradienten**: Zurücksetzen der Gradienten vor der Verarbeitung eines neuen Stapels.
2. **Vorwärtspass**: Berechnet Vorhersagen aus dem Modell.
3. **Verlustberechnung**: Berechnung der Diskrepanz zwischen Vorhersagen und Beschriftungen.
4. **Rückwärtspass**: Berechnung der Gradienten über Backpropagation.
5. **Parameter-Aktualisierung**: Anpassung der Modellparameter mit Hilfe des Optimierers.
6. **Metrische Aktualisierung**: Verfolgung von Verlust und Genauigkeit während des Trainings.

Die Trainingsschleife wird für `num_epochs` wiederholt, um die Leistung des Modells iterativ zu verbessern.


#### **1. Epochen-Schleife**
- Diese Schleife durchläuft die Anzahl der Epochen, d. h. die Gesamtzahl der vollständigen Durchläufe durch den gesamten Trainingsdatensatz.
- Jede Epoche aktualisiert die Modellparameter, um den Verlust zu minimieren und die Vorhersagen zu verbessern.
#### **2. Modell in den Trainingsmodus versetzen**
- Mit `model.train()` wird das Modell in den Trainingsmodus versetzt. Dies stellt sicher, dass sich Schichten wie `Dropout` oder `BatchNorm` korrekt verhalten (z.B. das Aktivieren von Dropout während des Trainings, aber nicht während der Auswertung).
#### **3. Initialisierung der Tracking-Variablen**
- `running_loss`: Akkumuliert den Gesamtverlust über die Batches in der aktuellen Epoche.
- `correct_train`: Zählt die Anzahl der korrekten Vorhersagen, die das Modell während der Epoche gemacht hat.
- `total_train`: Zählt die Gesamtzahl der in der aktuellen Epoche verarbeiteten Proben.
#### **4. Batch-Schleife**
- Die Schleife iteriert über die Trainingsdaten in Mini-Batches, die von `train_loader` bereitgestellt werden.
- Eingaben": Ein Stapel von Eingabedaten (z.B. Bilder).
- Beschriftungen": Die entsprechenden „ground-truth“-Bezeichnungen für die Eingaben.
#### **5. Nullen der Gradienten**
- Mit `optimizer.zero_grad()` werden die Gradienten der Modellparameter zurückgesetzt, bevor die Gradienten für den aktuellen Stapel berechnet werden.
- Dies ist notwendig, weil Gradienten in PyTorch standardmäßig akkumulieren.
#### **6. Vorwärtspass**
- `outputs = model(inputs)` Lässt die Eingabedaten durch das Modell laufen, um Vorhersagen zu generieren.
- `outputs`: Die Vorhersagen des Modells (`logits` im Fall von `CrossEntropyLoss`).
#### **7. Berechnen des Verlusts**
- `loss = criterion(outputs, labels)` berechnet den Verlust zwischen den Vorhersagen des Modells (`outputs`) und den „ground-truth labels“ (`labels`) unter Verwendung der angegebenen Verlustfunktion (`criterion`).

Verlustformel für `CrossEntropyLoss`:
$$
\mathcal{L}(x, y) = - \sum_{i=1}^C y_i \log(p_i)
$$
wobei:
- $C$ die Anzahl der Klassen ist,
- $y_i$ ist das Grundwahrheits-Label (one-hot kodiert),
- $p_i$ ist die vorhergesagte Wahrscheinlichkeit für die Klasse $i$ (Ergebnis von `Softmax`).

#### **8. Rückwärtspass**
- `loss.backward()` berechnet die Gradienten des Verlustes in Bezug auf die Modellparameter mittels Backpropagation.
- Die Gradienten werden im Attribut `.grad` der einzelnen Parameter gespeichert.
#### **9. Modellparameter aktualisieren**
- `optimizer.step()` aktualisiert die Modellparameter unter Verwendung der berechneten Gradienten und des Optimierungsalgorithmus (z.B. `Adam`, `SGD`).

#### **10. Metriken aktualisieren**
- `running_loss`: Akkumuliert den Gesamtverlust für die aktuelle Epoche, indem der Verlust für den aktuellen Stapel addiert wird.
- `torch.max(outputs, 1)`: Ermittelt die vorhergesagte Klasse für jede Probe im Batch.
- `total_train`: Verfolgt die Anzahl der bisher verarbeiteten Proben.
- `correct_train`: Zählt die korrekt klassifizierten Proben durch Vergleich der Vorhersagen mit den „ground-truth labels“.

#### **11. Berechnung von Epochenmetriken**
- train_losses`: Speichert den durchschnittlichen Verlust für die Epoche.
  $$ \text{Durchschnittsverlust} = \frac{\text{Gesamtverlust in Epoche}}{\text{Anzahl der Batches}} $$
- `train_accuracies`: Speichert die Trainingsgenauigkeit für die Epoche.
  $$ \text{Genauigkeit} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Gesamtzahl der Stichproben}} \times 100 $$


## Implementierung in PyTorch Lightning

In [None]:
import pytorch_lightning as pl
from torchmetrics.classification import Accuracy
from pytorch_lightning.loggers import CSVLogger
import pandas as pd
import matplotlib.pyplot as plt


class LitModel(pl.LightningModule):
    def __init__(self, model, learning_rate=1.0):
        super().__init__()
        self.model = model
        self.criterion = nn.CrossEntropyLoss()
        self.learning_rate = learning_rate

        # Metrics
        self.train_acc = Accuracy(task="multiclass", num_classes=10)
        self.val_acc = Accuracy(task="multiclass", num_classes=10)

    def forward(self, x):
        return self.model(x)

    def training_step(self, batch, batch_idx):
        inputs, labels = batch
        outputs = self.model(inputs)
        loss = self.criterion(outputs, labels)
        acc = self.train_acc(outputs, labels)
        self.log("train_loss", loss, prog_bar=True, on_epoch=True)
        self.log("train_acc", acc, prog_bar=True, on_epoch=True)
        return loss

    def validation_step(self, batch, batch_idx):
        inputs, labels = batch
        outputs = self.model(inputs)
        loss = self.criterion(outputs, labels)
        acc = self.val_acc(outputs, labels)
        self.log("val_loss", loss, prog_bar=True, on_epoch=True)
        self.log("val_acc", acc, prog_bar=True, on_epoch=True)

    def configure_optimizers(self):
        return optim.Adadelta(self.parameters(), lr=self.learning_rate)


In [None]:
# Initialize model and dataset
model = CNN()  # Assuming CNN is already defined
train_loader = DataLoader(train_dataset, batch_size=500, shuffle=True, pin_memory=True)
test_loader = DataLoader(test_dataset, batch_size=500, shuffle=False, pin_memory=True)

# Create a CSV logger
logger = CSVLogger("logs", name="my_model")

# Define the PyTorch Lightning trainer
trainer = pl.Trainer(
    max_epochs=12,
    accelerator="gpu" if torch.cuda.is_available() else "cpu",
    logger=logger,
    log_every_n_steps=10,
)

# Train the model
trainer.fit(LitModel(model), train_loader, test_loader)

In [None]:
# ===========================
# 📊 Load and Plot CSV Logs
# ===========================

# Load the CSV file into Pandas
log_file = f"logs/my_model/version_0/metrics.csv"  # Update path if needed
df = pd.read_csv(log_file)
dg = df.groupby("epoch").mean()
dg.head()

In [None]:
# Extract epoch-wise values
epochs = dg.index.values
train_losses = dg["train_loss_epoch"].values
val_losses = dg["val_loss"].values
train_accs = dg["train_acc_epoch"].values
val_accs = dg["val_acc"].values

In [None]:
# Plot Training & Validation Loss
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.plot(epochs, train_losses, "o-", label="Train Loss")
plt.plot(epochs, val_losses, "s-", label="Validation Loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.title("Training & Validation Loss")
plt.legend()
plt.grid()

# Plot Training & Validation Accuracy
plt.subplot(1, 2, 2)
plt.plot(epochs, train_accs, "o-", label="Train Accuracy")
plt.plot(epochs, val_accs, "s-", label="Validation Accuracy")
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.title("Training & Validation Accuracy")
plt.legend()
plt.grid()

plt.show()
