# Train, Validation und Test Split

## Einführung

Nach der Implementierung eines Machine-Learning-Modells stellt sich eine grundlegende Frage: **Woher wissen wir, ob unser Modell wirklich gut funktioniert?** Ein Modell zu trainieren und es mit denselben Daten zu testen, reicht nicht aus, da dies nicht garantiert, dass es bei neuen Daten, die es noch nie gesehen hat, gut funktionieren wird.

Die Aufteilung der Daten in **Trainings-**, **Validierungs-** und **Test-Sets** ist eine wesentliche Praxis zur ordnungsgemäßen Bewertung der Leistung von Machine-Learning-Modellen.

---

## Das Problem: Overfitting vs Underfitting

### Overfitting (Überanpassung)

**Overfitting** tritt auf, wenn das Modell die Trainingsdaten "auswendig lernt" und nicht nur die echten Muster erfasst, sondern auch das Rauschen und spezifische Besonderheiten dieser Daten.

**Merkmale:**
- ✅ **Ausgezeichnete** Leistung bei Trainingsdaten
- ❌ **Schlechte** Leistung bei neuen Daten
- Das Modell ist zu spezifisch und generalisiert nicht

**Analogie:** Es ist wie ein Schüler, der die Antworten alter Prüfungen auswendig lernt, aber die Konzepte nicht versteht. Er schneidet bei alten Prüfungen gut ab, scheitert aber bei neuen Fragen.

### Underfitting (Unteranpassung)

**Underfitting** tritt auf, wenn das Modell zu einfach ist und die in den Daten vorhandenen Muster nicht erfassen kann.

**Merkmale:**
- ❌ **Schlechte** Leistung bei Trainingsdaten
- ❌ **Schlechte** Leistung bei neuen Daten
- Das Modell ist zu einfach

**Analogie:** Es ist wie ein Schüler, der nicht genug gelernt hat und nicht einmal grundlegende Fragen beantworten kann.

### Das ideale Gleichgewicht

Das Ziel ist es, den **optimalen Punkt** zu finden, an dem das Modell:
- Die echten Muster in den Daten lernt
- Gut auf neue Daten generalisiert
- Keine spezifischen Besonderheiten auswendig lernt

---

## Train/Test Split (Grundlegende Aufteilung)

### Konzept

Die einfachste Aufteilung teilt die Daten in **zwei Sets**:

1. **Training Set (Trainingsmenge)**: ~70-80% der Daten
   - Wird zum Trainieren des Modells verwendet
   - Das Modell lernt hier die Muster

2. **Test Set (Testmenge)**: ~20-30% der Daten
   - Wird **nur** zur Bewertung des endgültigen Modells verwendet
   - Simuliert "reale" Daten, die das Modell nie gesehen hat

### Warum dies tun?

**Ohne Aufteilung:**
```
Training auf Dataset → Test auf demselben Dataset → R² = 0.99 ✅
```
Sieht großartig aus, ist aber **irreführend**! Das Modell könnte nur auswendig lernen.

**Mit Aufteilung:**
```
Training auf Trainingsset → Test auf Testset → R² = 0.95 ✅
```
Jetzt haben wir ein **echtes** Maß dafür, wie das Modell generalisiert.

### Typische Proportionen

| Datensatzgröße | Train | Test |
|-------------------|-------|------|
| Klein (< 1000) | 70% | 30% |
| Mittel (1k-100k) | 80% | 20% |
| Groß (> 100k) | 90% | 10% |

**Allgemeine Regel:** Je mehr Daten Sie haben, desto kleiner ist der Prozentsatz, der zum Testen benötigt wird.

---

## Train/Validation/Test Split (Vollständige Aufteilung)

### Konzept

Für robustere Projekte teilen wir die Daten in **drei Sets**:

1. **Training Set**: ~60-70% der Daten
   - Wird zum Trainieren des Modells verwendet
   - Passt Parameter an (w, b)

2. **Validation Set (Validierungsmenge)**: ~15-20% der Daten
   - Wird zum **Tuning von Hyperparametern** verwendet
   - Vergleich verschiedener Modelle
   - Erkennung von Overfitting während des Trainings
   - Wird **nicht** zum Training verwendet

3. **Test Set**: ~15-20% der Daten
   - Wird **nur einmal** am Ende verwendet
   - Endgültige und unvoreingenommene Bewertung
   - Simuliert die Produktionsleistung

### Warum drei Sets?

**Problem mit nur Train/Test:**
- Wenn wir das Testset zum Anpassen von Hyperparametern verwenden, "leckt" es Informationen (Data Leakage)
- Das Testset hört auf, unvoreingenommen zu sein
- Wir können auf dem Testset überanpassen!

**Lösung mit Train/Validation/Test:**
- **Validation** wird für Experimente und Anpassungen verwendet
- **Test** bleibt bis zum Ende "unberührt"
- Wir haben eine wirklich unvoreingenommene Bewertung

---

## Zufällige vs Stratifizierte Aufteilung

### Zufällige Aufteilung

Wählt zufällig Beispiele für jedes Set aus.

```python
np.random.shuffle(data)
train = data[:60%]
val = data[60%:80%]
test = data[80%:]
```

**Wann zu verwenden:**
- Ausgewogene Daten
- Regression (kontinuierliche Werte)
- Große Datensätze

### Stratifizierte Aufteilung

Behält die **gleiche Proportion der Klassen** in allen Sets bei.

**Wann zu verwenden:**
- Klassifikation mit unausgewogenen Klassen
- Bsp.: 95% Klasse A, 5% Klasse B
- Stellt sicher, dass Train, Val und Test ~95%/5% haben

---

## Best Practices

### ✅ Was zu tun ist

1. **Teilen VOR jeder Verarbeitung**
   - Normalisieren Sie nach der Aufteilung
   - Vermeidet "Data Leakage"

2. **Niemals mit Validierungs-/Testdaten trainieren**
   - Validierung dient nur der Bewertung
   - Test dient nur der Endbewertung

3. **Testset "heilig" halten**
   - Nur EINMAL am Ende verwenden
   - Passen Sie nichts danach an

4. **Daten mischen (Shuffle)**
   - Vermeidet Bias, wenn Daten geordnet sind

### ❌ Was NICHT zu tun ist

1. Vor dem Teilen normalisieren (verursacht Data Leakage)
2. Testset zum Anpassen von Hyperparametern verwenden
3. Mit Validierungs-/Testset trainieren
4. Mehrmals auf Testset bewerten
5. Zeitliche Daten zufällig aufteilen (zeitliche Aufteilung verwenden)

---

## Zeitliche Daten (Zeitreihen)

Bei Daten mit zeitlicher Komponente (Aktienkurse, Verkäufe im Zeitverlauf) **NICHT mischen**!

**Beispiel:**
- Train: Januar - August (8 Monate)
- Validation: September - Oktober (2 Monate)
- Test: November - Dezember (2 Monate)

**Warum?**
- In der Produktion sagen Sie immer die Zukunft basierend auf der Vergangenheit voraus
- Mischen erzeugt "zeitliches Leakage" (Modell sieht die Zukunft)

---

## Zusammenfassung

| Datentyp | Train Set | Validation Set | Test Set |
|---------|-----------|----------------|----------|
| **Verwendung** | Modell trainieren | Hyperparameter anpassen | Endbewertung |
| **Häufigkeit** | Mehrmals | Mehrmals | **Einmal** |
| **Größe** | 60-80% | 10-20% | 10-20% |
| **Kann trainieren?** | ✅ Ja | ❌ Nein | ❌ Nein |

In [None]:
# ============================================================
# IMPORTE
# ============================================================

# Bibliothek für numerische Berechnungen
import numpy as np

# Bibliothek für Visualisierung
import matplotlib.pyplot as plt

# Funktion zur Aufteilung der Daten in Trainings- und Testdaten
from sklearn.model_selection import train_test_split

# Lineares Regressionsmodell
from sklearn.linear_model import LinearRegression

# R²-Metrik (Bestimmtheitsmaß)
from sklearn.metrics import r2_score


In [None]:
# ============================================================
# DATENERZEUGUNG (SYNTHETISCHER DATENSATZ)
# ============================================================

# Fixiert den Zufalls-Seed für Reproduzierbarkeit
np.random.seed(42)

# Unabhängige Variable X (50 Punkte zwischen 0 und 10)
X = np.random.rand(50, 1) * 10

# Abhängige Variable y
# Lineare Beziehung: y = 2.5x + 5 + Rauschen
y = 2.5 * X.ravel() + 5 + np.random.randn(50) * 3

In [None]:
# ============================================================
# SZENARIO 1 — OHNE TRAIN/TEST-SPLIT (FALSCH)
# ============================================================

print("\n❌ SZENARIO 1: OHNE TRAIN/TEST-SPLIT")
print("-" * 70)

# Modell erstellen
model_no_split = LinearRegression()

# Modell mit ALLEN Daten trainieren
model_no_split.fit(X, y)

# Vorhersagen mit denselben Daten wie im Training
y_pred_no_split = model_no_split.predict(X)

# R² berechnen mit Training = Test (Problem!)
r2_no_split = r2_score(y, y_pred_no_split)

print(f"R² = {r2_no_split:.4f}")
print("⚠️  Irreführende Bewertung: Das Modell wurde mit den gleichen Daten getestet, mit denen es trainiert wurde!\n")


In [None]:
# ============================================================
# SZENARIO 2 — MIT TRAIN/TEST-SPLIT (KORREKT)
# ============================================================

print("=" * 70)
print("✅ SZENARIO 2: MIT TRAIN/TEST-SPLIT")
print("-" * 70)

# Aufteilung der Daten:
# 70% Training | 30% Test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"Training: {len(X_train)} Beispiele | Test: {len(X_test)} Beispiele\n")

# Modell erstellen
model_good = LinearRegression()

# Training NUR mit Trainingsdaten
model_good.fit(X_train, y_train)

# Vorhersagen auf Trainingsdaten
y_train_pred = model_good.predict(X_train)

# Vorhersagen auf NIE zuvor gesehenen Daten (Test)
y_test_pred = model_good.predict(X_test)

# Korrekte Bewertung
r2_train_good = r2_score(y_train, y_train_pred)
r2_test_good = r2_score(y_test, y_test_pred)

print(f"R² Training: {r2_train_good:.4f}")
print(f"R² Test:     {r2_test_good:.4f}")
print(f"Differenz:   {abs(r2_train_good - r2_test_good):.4f}")
print("✨ Das Modell generalisiert gut!\n")

In [None]:
# ============================================================
# VISUALISIERUNG — TRAIN vs TEST (SAUBERE VERSION)
# ============================================================

fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Kontinuierliche Linie für die Regression
X_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)

# Blaue Farbpalette
blue_light = "#7EC8E3"
blue_dark = "#1F4E79"
blue_mid = "#3A7CA5"


# ------------------------------------------------------------
# DIAGRAMM 1 — OHNE SPLIT
# ------------------------------------------------------------

axes[0].scatter(
    X, y,
    s=90,
    color=blue_light,
    alpha=0.8
)

axes[0].plot(
    X_line,
    model_no_split.predict(X_line),
    color=blue_dark,
    linewidth=3
)

axes[0].set_title(
    f"Ohne Train/Test-Split\nR² = {r2_no_split:.3f}",
    fontsize=13,
    fontweight="bold",
    color=blue_dark
)

axes[0].set_xlabel("X")
axes[0].set_ylabel("y")
axes[0].grid(True, alpha=0.25)


# ------------------------------------------------------------
# DIAGRAMM 2 — MIT SPLIT
# ------------------------------------------------------------

# Trainingsdaten
axes[1].scatter(
    X_train, y_train,
    s=90,
    color=blue_mid,
    alpha=0.75,
    label="Training"
)

# Testdaten
axes[1].scatter(
    X_test, y_test,
    s=90,
    color=blue_light,
    edgecolor=blue_dark,
    linewidth=1.5,
    label="Test"
)

# Modell, trainiert mit Trainingsdaten
axes[1].plot(
    X_line,
    model_good.predict(X_line),
    color=blue_dark,
    linewidth=3
)

axes[1].set_title(
    f"Mit Train/Test-Split\nTrain={r2_train_good:.2f} | Test={r2_test_good:.2f}",
    fontsize=13,
    fontweight="bold",
    color=blue_dark
)

axes[1].set_xlabel("X")
axes[1].set_ylabel("y")
axes[1].legend(frameon=False)
axes[1].grid(True, alpha=0.25)


plt.tight_layout()
plt.show()