# Bias-Variance Trade-off, Overfitting und Underfitting

![Capa](../Assets/bias_variance_tradeoff/capa3.png)

## 1. Das grundlegende Problem

Wenn wir ein Machine Learning Modell trainieren, wollen wir, dass es gut mit neuen Daten funktioniert (die es noch nie gesehen hat). Aber es gibt zwei Arten von Fehlern, die auftreten können:

1. Fehler auf dem Training Set (Trainingsdaten)
2. Fehler auf dem Test Set (neue Daten)

Das ideale Modell hat niedrige Fehler bei beiden. Aber in der Praxis gibt es einen Trade-off zwischen zwei Konzepten: Bias und Variance.

## 2. Was ist Bias (Verzerrung)?

Bias ist der Fehler, der durch falsche Annahmen oder ein zu einfaches Modell verursacht wird.

### Praktische Analogie

Stellen Sie sich vor, Sie versuchen, ein Ziel mit Pfeilen zu treffen:
- Hoher Bias = Ihre Pfeile treffen konstant weit vom Zentrum entfernt (Sie zielen falsch)
- Niedriger Bias = Ihre Pfeile treffen im Durchschnitt nahe am Zentrum

### Im Machine Learning

Ein Modell mit hohem Bias:
- Ist zu einfach, um die Muster in den Daten zu erfassen
- Macht starke Annahmen über die Beziehung zwischen X und y
- Führt zu Underfitting (Unteranpassung)

Beispiel: Eine gerade Linie verwenden, um Daten mit einer Kurve zu modellieren

![High Bias](../Assets/bias_variance_tradeoff/1.jpg)

```
Modell zu einfach!
Erfasst nicht das echte Muster.
```

## 3. Was ist Variance (Varianz)?

Variance ist der Fehler, der durch übermäßige Empfindlichkeit gegenüber Trainingsdaten verursacht wird.

### Praktische Analogie

Weiter mit den Pfeilen:
- Hohe Variance = Ihre Pfeile sind überall verstreut (inkonsistent)
- Niedrige Variance = Ihre Pfeile sind nah beieinander gruppiert (konsistent)

### Im Machine Learning

Ein Modell mit hoher Variance:
- Ist zu komplex und "merkt sich" die Trainingsdaten
- Passt sich zu sehr an das Rauschen in den Daten an
- Führt zu Overfitting (Überanpassung)

Beispiel: Ein Polynom 10. Grades verwenden, um einfache Daten zu modellieren

![High Variance](../Assets/bias_variance_tradeoff/2.png)

``` 
Modell zu komplex!
Geht durch alle Punkte, aber 
generalisiert nicht auf neue Daten.
```

## 4. Underfitting (Unteranpassung) - Hoher Bias

### Was ist das?

Underfitting tritt auf, wenn das Modell zu einfach ist, um die Muster in den Daten zu erfassen.

### Merkmale

- Hoher Fehler auf dem Training Set
- Hoher Fehler auf dem Test Set
- Modell hat das grundlegende Muster der Daten nicht gelernt

### Numerisches Beispiel

Datensatz mit quadratischer Beziehung: $y = x^2 + \text{Rauschen}$

| x  | y (tatsächlich) |
|----|----------|
| 1  | 1.2      |
| 2  | 4.1      |
| 3  | 9.3      |
| 4  | 16.2     |
| 5  | 25.1     |

Modell 1: Gerade Linie $h(x) = \theta_0 + \theta_1 x$

Ergebnis:
- Training Error: 45.2
- Test Error: 47.8

Warum? Eine gerade Linie kann die Krümmung der Daten nicht erfassen!

### Wie erkennt man Underfitting?

1. Hoher Training Error (ungefähr 40-50% Fehler)
2. Test Error ähnlich wie Training (kleiner Unterschied)
3. Lernkurve: beide Fehler bleiben hoch, auch mit mehr Daten

## 5. Overfitting (Überanpassung) - Hohe Variance

### Was ist das?

Overfitting tritt auf, wenn das Modell zu komplex ist und die Trainingsdaten "auswendig lernt", einschließlich des Rauschens.

### Merkmale

- Niedriger Fehler auf dem Training Set
- Hoher Fehler auf dem Test Set
- Modell hat auswendig gelernt statt zu lernen

### Numerisches Beispiel

Datensatz mit quadratischer Beziehung: $y = x^2 + \text{Rauschen}$

| x  | y (Training) | y (Test) |
|----|------------|----------|
| 1  | 1.2        | 0.9      |
| 2  | 4.1        | 3.8      |
| 3  | 9.3        | 9.5      |
| 4  | 16.2       | 15.7     |
| 5  | 25.1       | 25.4     |

Modell 2: Polynom 10. Grades $h(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + ... + \theta_{10} x^{10}$

Ergebnis:
- Training Error: 0.01 (praktisch null!)
- Test Error: 152.7 (explodiert!)

Warum? Das Modell passte sich perfekt an die Trainingsdaten an (einschließlich Rauschen), generalisiert aber nicht auf neue Daten.

### Wie erkennt man Overfitting?

1. Sehr niedriger Training Error (ungefähr 1-5% Fehler)
2. Sehr hoher Test Error (10x größer als Training)
3. Große Lücke zwischen Training und Test Error
4. Lernkurve: Training fällt weiter, Test beginnt zu steigen

## 6. Das ideale Modell - Just Right (Goldilocks)

### Merkmale

- Niedriger Fehler auf dem Training Set
- Niedriger Fehler auf dem Test Set
- Kleine Lücke zwischen beiden

### Numerisches Beispiel

Modell 3: Polynom 2. Grades $h(x) = \theta_0 + \theta_1 x + \theta_2 x^2$

Ergebnis:
- Training Error: 2.1
- Test Error: 2.8
- Lücke: nur 0.7

Perfekt! Erfasst das echte Muster (quadratisch) ohne das Rauschen auswendig zu lernen.

## 7. Bias-Variance Trade-off

### Die Gesamtfehler-Gleichung

$$\text{Gesamtfehler} = \text{Bias}^2 + \text{Variance} + \text{Irreduzibles Rauschen}$$

Wobei:
- Bias²: Fehler durch zu einfaches Modell
- Variance: Fehler durch zu empfindliches Modell
- Irreduzibles Rauschen: inhärenter Fehler in den Daten (unvermeidbar)

### Der Trade-off

![Bias-Variance Trade-off](../Assets/bias_variance_tradeoff/3.png)

### Umgekehrte Beziehung

Komplexität erhöhen:
- Bias nimmt ab (erfasst komplexe Muster)
- Variance nimmt zu (empfindlich gegenüber Rauschen)
  
Komplexität verringern:
- Bias nimmt zu (erfasst keine Muster)
- Variance nimmt ab (stabiler)

## 8. Wie diagnostiziert man das Problem?

### Fehler vergleichen

| Situation | Training Error | Test Error | Lücke | Diagnose |
|----------|---------------|------------|-----|-------------|
| A        | 45%           | 47%        | 2%  | Underfitting (hoher Bias) |
| B        | 2%            | 3%         | 1%  | Just Right |
| C        | 1%            | 25%        | 24% | Overfitting (hohe Variance) |

## 9. Wie behebt man Underfitting (hoher Bias)?

### Lösungen

### 1. Modellkomplexität erhöhen

Vorher:
```python
# Modell zu einfach
h(x) = θ₀ + θ₁x  # Gerade Linie
```

Nachher:
```python
# Komplexeres Modell
h(x) = θ₀ + θ₁x + θ₂x²  # Parabel
```

### 2. Mehr Features hinzufügen

Vorher:
```python
# Nur 1 Feature
X = [size]
```

Nachher:
```python
# Mehrere Features
X = [size, bedrooms, age, location]
```

### 3. Feature Engineering

Abgeleitete Features erstellen:
```python
# Original Features
x₁ = size

# Abgeleitete Features
x₂ = size²
x₃ = size³
x₄ = sqrt(size)
```

### 4. Regularisierung entfernen

Wenn Sie Regularisierung (λ) verwenden, verringern oder entfernen Sie sie:
```python
# Vorher: λ zu hoch
λ = 10  # Erzwingt einfaches Modell

# Nachher: λ kleiner oder null
λ = 0  # Erlaubt flexibleres Modell
```

### 5. Länger trainieren

Für neuronale Netze, Epochen erhöhen:
```python
# Vorher
epochs = 10  # Früh gestoppt

# Nachher
epochs = 100  # Länger trainiert
```

### Vorsicht!

Beim Beheben von Underfitting können Sie Overfitting verursachen. Überwachen Sie immer den Test Error!

## 10. Wie behebt man Overfitting (hohe Variance)?

### Lösungen

### 1. Mehr Daten sammeln

Die beste Lösung! Mehr Daten helfen dem Modell, besser zu generalisieren.

Vorher:
```python
m = 100  # Wenige Beispiele
```

Nachher:
```python
m = 10000  # Viele Beispiele
```

Warum funktioniert es? Mit mehr Daten kann das Modell nicht alles "auswendig lernen" und wird gezwungen, echte Muster zu lernen.

### 2. Modellkomplexität reduzieren

Vorher:
```python
# Polynom 10. Grades
h(x) = θ₀ + θ₁x + θ₂x² + ... + θ₁₀x¹⁰
```

Nachher:
```python
# Polynom 2. Grades
h(x) = θ₀ + θ₁x + θ₂x²
```

### 3. Regularisierung (L1 oder L2)

Strafe für große Gewichte hinzufügen:

L2 Regularisierung (Ridge):
$$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^{n} \theta_j^2$$

```python
# λ kontrolliert, wie viel wir bestrafen
λ = 0.1   # Moderate Regularisierung
λ = 1.0   # Starke Regularisierung
λ = 10.0  # Sehr starke Regularisierung
```

L1 Regularisierung (Lasso):
$$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^{n} |\theta_j|$$

Effekt: Zwingt die Gewichte $\theta$ klein zu sein, macht das Modell einfacher.

### 4. Feature Selection (Features entfernen)

Vorher:
```python
# Viele Features (20)
X = [size, bedrooms, age, location, ..., feature_20]
```

Nachher:
```python
# Nur wichtige Features (5)
X = [size, bedrooms, location, age, bathrooms]
```

### 5. Cross-Validation

Daten in k-Folds zur Validierung aufteilen:

![k-folds](../Assets/bias_variance_tradeoff/4.png)

## 11. Zusammenfassung - Entscheidungstabelle

| Problem | Symptome | Lösungen |
|----------|----------|----------|
| Underfitting | Hoher Training Error<br>Hoher Test Error<br>Kleine Lücke | 1. Modellkomplexität erhöhen<br>2. Mehr Features hinzufügen<br>3. Feature Engineering<br>4. Regularisierung verringern (λ)<br>5. Länger trainieren |
| Overfitting | Niedriger Training Error<br>Hoher Test Error<br>Große Lücke | 1. Mehr Daten sammeln<br>2. Modellkomplexität reduzieren<br>3. Regularisierung hinzufügen (L1/L2)<br>4. Features entfernen<br>5. Cross-Validation |
| Just Right | Niedriger Training Error<br>Niedriger Test Error<br>Kleine Lücke | Weiter so! |

## 12. Vollständiges praktisches Beispiel

### Datensatz: Hauspreise vorhersagen

```python
# Daten
X_train: 80 Häuser
y_train: Preise

X_test: 20 Häuser
y_test: Preise
```

### Versuch 1: Einfache Linie

```python
model = LinearRegression()  # h(x) = θ₀ + θ₁x
```

Ergebnis:
- Training Error: 42%
- Test Error: 45%
- Diagnose: UNDERFITTING

Aktion: Komplexität erhöhen

### Versuch 2: Polynom 2. Grades

```python
model = PolynomialRegression(degree=2)  # h(x) = θ₀ + θ₁x + θ₂x²
```

Ergebnis:
- Training Error: 5%
- Test Error: 8%
- Diagnose: JUST RIGHT

Aktion: Erfolg! Ausgewogenes Modell.

### Versuch 3: Polynom 10. Grades

```python
model = PolynomialRegression(degree=10)
```

Ergebnis:
- Training Error: 0.5%
- Test Error: 45%
- Diagnose: OVERFITTING

Aktion: Regularisierung anwenden

### Versuch 4: Polynom 10. Grades + Regularisierung

```python
model = Ridge(degree=10, alpha=1.0)  # α = λ (Regularisierung)
```

Ergebnis:
- Training Error: 4%
- Test Error: 6%
- Diagnose: JUST RIGHT

Aktion: Erfolg! Regularisierung hat es gelöst.

## 13. Abschließende Tipps

### Best Practices

1. Immer Train/Test trennen (80/20 oder 70/30)
2. Cross-Validation verwenden, um Hyperparameter zu wählen
3. Einfach beginnen, Komplexität schrittweise hinzufügen
4. Beide Fehler überwachen (Training und Test)
5. Lernkurven plotten zur Visualisierung

### Häufige Fehler

1. Test Set nicht trennen (auf denselben Daten trainieren und testen)
2. Test Set zum Modell-Tuning verwenden (Data Leakage)
3. Übermäßige Komplexität von Anfang an
4. Training Error ignorieren (nur auf Test fokussieren)
5. Regularisierung nicht verwenden, wenn angebracht

---

Denken Sie daran:
_"Das beste Modell ist nicht das, das sich am besten an die Trainingsdaten anpasst, sondern das, das am besten auf neue Daten generalisiert."_