<a href="https://colab.research.google.com/github/gracialukelo/deep_ann/blob/main/training.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Gradientproblme
#

## Gradientenprobleme:

1. Schwindende Gradienten: Wenn die Gradienten beim Rückwärtsdurchlauf durch das Netzwerk immer kleiner werden, können die frühen Schichten im Netzwerk kaum lernen.

2. Explodierende Gradienten: Umgekehrt können die Gradienten auch sehr groß werden, was zu instabilem Lernen führt.

Beispiel: Stellen Sie sich vor, Sie versuchen, durch einen dichten Nebel zu navigieren. Wenn der Nebel immer dichter wird (schwindende Gradienten), wird es schwer, den Weg zu finden. Wenn der Nebel plötzlich stark auftritt (explodierende Gradienten), kann man den Überblick verlieren.

Lösungen:

Normalisierungstechniken: Batch-Normalisierung kann helfen, die Gradienten in einem stabilen Bereich zu halten.

Initialisierung der Gewichte: Eine gute Initialisierung der Netzwerkgewichte kann verhindern, dass die Gradienten explodieren oder verschwinden.

## Fehlende Trainingsdaten:

Große Netze benötigen eine Menge an Trainingsdaten, die oft schwer zu beschaffen sind oder teuer zu labeln sind.

Beispiel: Wenn Sie ein Kind mit sehr vielen unterschiedlichen Spielzeugen spielen lassen wollen, aber nur eine kleine Anzahl von Spielzeugen haben, wird es schwer sein, alle Spielzeuge zu erkennen.


Lösungen:

Transfer Learning: Ein vortrainiertes Modell wird verwendet, um von bereits vorhandenen Daten zu lernen und dann für spezifische Aufgaben angepasst.

Unüberwachtes Pretraining: Vortraining des Modells auf unbeschrifteten Daten, um ein gutes Startmodell zu erhalten.

## Langsame Trainingszeiten:

Das Training von großen Netzen kann sehr zeitaufwendig sein, da die Modelle viele Parameter und Berechnungen erfordern.

Beispiel: Das Backen eines großen Kuchens dauert länger als das eines kleinen, da mehr Zutaten und Zeit benötigt werden.


Lösungen:

Optimierer: Einsatz effizienter Optimierungsalgorithmen wie Adam oder RMSprop, die schneller konvergieren als einfache Methoden wie Stochastic Gradient Descent.



## Overfitting:

Ein Modell mit vielen Parametern kann die Trainingsdaten zu genau lernen und dabei die Fähigkeit verlieren, auf neuen, unbekannten Daten gut zu performen.

Beispiel: Ein Schüler, der nur die Fragen der letzten Prüfung auswendig lernt, kann bei neuen Fragen Schwierigkeiten haben.


Lösungen:

Regularisierungstechniken: Methoden wie Dropout oder L2-Regularisierung verhindern, dass das Modell zu stark an den Trainingsdaten haftet und verbessern die Generalisierungsfähigkeit des Modells.


#Zusammenfassung und Implementierung:

**Gradientenprobleme lösen:** Verwenden Sie Batch-Normalisierung und gute Gewichtinitialisierung.

**Fehlende Trainingsdaten:** Nutzen Sie Transfer Learning und unüberwachtes Pretraining.

**Trainingszeiten reduzieren:** Setzen Sie moderne Optimierer wie Adam ein.

**Overfitting vermeiden:** Wenden Sie Regularisierungstechniken wie Dropout an.

# Batch-Normalisierung: Erklärung und mathematische Berechnung
Ziel: Werte eines neuronalen Netzes während des Trainings stabilisieren, indem die Inputs jeder Schicht normalisiert werden.

Batch-Normalisierung ist eine Technik, die verwendet wird, um die Eingaben einer Schicht in einem neuronalen Netzwerk während des Trainings zu stabilisieren. Hier ist die mathematische Beschreibung der Schritte:

---

## 1. Zentrierung und Normalisierung

In jedem Mini-Batch werden die Eingaben so transformiert, dass sie einen Mittelwert von **0** und eine Standardabweichung von **1** haben. Dies wird wie folgt berechnet:

1. **Berechnung des Mittelwerts (\( \mu_B \))** für jede Eingabe in dem aktuellen Batch:
   $$
   \mu_B = \frac{1}{m} \sum_{i=1}^m x_i
   $$

2. **Berechnung der Varianz (\( \sigma_B^2 \))**:
   $$
   \sigma_B^2 = \frac{1}{m} \sum_{i=1}^m (x_i - \mu_B)^2
   $$

3. **Normalisierung der Eingaben (\( \hat{x}_i \))**:
   $$
   \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}
   $$
   Hier ist \( \epsilon \) eine kleine Konstante, um Division durch Null zu vermeiden.

---

## 2. Skalierung und Verschiebung

Nach der Normalisierung werden die Eingaben mittels zwei trainierbarer Parameter transformiert:

1. **Skalierung mit \( \gamma \)** (wird während des Trainings gelernt):
   $$
   y_i = \gamma \hat{x}_i
   $$

2. **Verschiebung mit \( \beta \)** (wird ebenfalls während des Trainings gelernt):
   $$
   y_i = \gamma \hat{x}_i + \beta
   $$

Diese Transformation erlaubt es dem Netzwerk, die optimalen Werte für die Eingaben jeder Schicht zu lernen.



In [4]:
# Python
import numpy as np

# Eingaben in einem Batch
x = np.array([10, 20, 30, 40], dtype=float)

# Schritt 1: Berechnung von Mittelwert und Standardabweichung
mu_B = np.mean(x)  # Mittelwert
sigma_B = np.std(x)  # Standardabweichung

print("Mittelwert (μ_B):", mu_B)
print("Standardabweichung (σ_B):", sigma_B)

# Schritt 2: Normalisierung
x_hat = (x - mu_B) / sigma_B

print("\nNormalisierte Werte (x^):", x_hat)

# Schritt 3: Skalierung und Verschiebung
gamma = 2  # Skalierungsparameter
beta = 1   # Verschiebungsparameter

y = gamma * x_hat + beta

print("\nErgebnis nach Skalierung und Verschiebung (y):", y)


Mittelwert (μ_B): 25.0
Standardabweichung (σ_B): 11.180339887498949

Normalisierte Werte (x^): [-1.34164079 -0.4472136   0.4472136   1.34164079]

Ergebnis nach Skalierung und Verschiebung (y): [-1.68328157  0.10557281  1.89442719  3.68328157]


In [5]:
# PyTorch

import torch
import torch.nn as nn

# Beispiel-Daten: Mini-Batch mit 4 Samples, 3 Features pro Sample
inputs = torch.tensor([
    [10.0, 20.0, 30.0],
    [15.0, 25.0, 35.0],
    [20.0, 30.0, 40.0],
    [25.0, 35.0, 45.0]
])

# Batch-Normalisierungsschicht
# num_features: Anzahl der Eingabefeatures (hier: 3)
batch_norm = nn.BatchNorm1d(num_features=3)

# Die Schicht ist standardmäßig trainierbar, wir verwenden jedoch hier Beispiel-Daten
# Forward Pass durch die Batch-Normalisierungsschicht
normalized_inputs = batch_norm(inputs)

print("Eingaben:")
print(inputs)
print("\nNormalisierte Eingaben:")
print(normalized_inputs)

Eingaben:
tensor([[10., 20., 30.],
        [15., 25., 35.],
        [20., 30., 40.],
        [25., 35., 45.]])

Normalisierte Eingaben:
tensor([[-1.3416, -1.3416, -1.3416],
        [-0.4472, -0.4472, -0.4472],
        [ 0.4472,  0.4472,  0.4472],
        [ 1.3416,  1.3416,  1.3416]], grad_fn=<NativeBatchNormBackward0>)


## Gradient Clipping

Gradient Clipping ist eine direkte Technik, um exploding gradients zu verhindern. Es greift ein, wenn die Gradienten während des Backpropagationsschritts zu groß werden.



#### Clipping nach Wert (Value Clipping)
Jeder Wert im Gradienten wird auf das Intervall
[
−
1.0
,
1.0
]
[−1.0,1.0] begrenzt.
Werte, die größer als 1.0 oder kleiner als -1.0 sind, werden auf 1.0 bzw. -1.0 gesetzt.

#### Clipping nach Norm (Norm Clipping)
Die gesamte Norm der Gradienten (also die Länge des Gradientenvektors im Raum) wird begrenzt.
Wenn die Norm der Gradienten größer als max_norm ist, wird der gesamte Vektor skaliert, sodass die Norm
≤
max_norm
≤max_norm ist.

In [6]:
'import torch

#

# Beispiel: Gradienten
gradients = torch.tensor([0.5, 2.0, -3.0, 4.0], requires_grad=True)

# Clipping-Schwellenwert (Maximum für jeden Gradientenwert)
clip_value = 1.0

# Clipping anwenden
clipped_gradients = torch.clamp(gradients, min=-clip_value, max=clip_value)

print("Originale Gradienten:", gradients)
print("Geclippte Gradienten (nach Wert):", clipped_gradients)

Originale Gradienten: tensor([ 0.5000,  2.0000, -3.0000,  4.0000], requires_grad=True)
Geclippte Gradienten (nach Wert): tensor([ 0.5000,  1.0000, -1.0000,  1.0000], grad_fn=<ClampBackward1>)


In [7]:
# Beispiel: Gradienten
gradients = torch.tensor([0.5, 2.0, -3.0, 4.0], requires_grad=True)

# Clipping-Schwellenwert (maximale Norm)
max_norm = 2.0

# Norm der Gradienten berechnen
gradient_norm = torch.norm(gradients)

# Clipping anwenden, falls die Norm größer als max_norm ist
if gradient_norm > max_norm:
    clipped_gradients = gradients * (max_norm / gradient_norm)
else:
    clipped_gradients = gradients

print("\nOriginale Gradienten:", gradients)
print("Norm der Gradienten vor Clipping:", gradient_norm)
print("Geclippte Gradienten (nach Norm):", clipped_gradients)
print("Norm der Gradienten nach Clipping:", torch.norm(clipped_gradients))


Originale Gradienten: tensor([ 0.5000,  2.0000, -3.0000,  4.0000], requires_grad=True)
Norm der Gradienten vor Clipping: tensor(5.4083, grad_fn=<LinalgVectorNormBackward0>)
Geclippte Gradienten (nach Norm): tensor([ 0.1849,  0.7396, -1.1094,  1.4792], grad_fn=<MulBackward0>)
Norm der Gradienten nach Clipping: tensor(2., grad_fn=<LinalgVectorNormBackward0>)
