**Testdatensätze** spielen beim maschinellen Lernen eine entscheidende Rolle bei der **Bewertung und Validierung von Modellen.**

Um die Bedeutung dieser Datensätze im Kontext des Modelltrainings zu verstehen, schauen wir uns die **typischen Phasen des maschinellen Lernens** an:

1. Datensammlung
2. Vorverarbeitung
3. Modelltraining
4. Modellvalidierung
5. Modellbewertung

https://datasolut.com/wiki/trainingsdaten-und-testdaten-machine-learning/

Er ermöglicht eine objektive Bewertung der Generalisierungsfähigkeit des Modells und schützt vor Overfitting sowie vor irreführenden Bewertungen durch Datenlecks. 

Die sorgfältige Verwendung von Testdaten ist daher ein zentraler Bestandteil der Entwicklung leistungsfähiger und robuster maschineller Lernmodelle.

# Syllabus

Understand the role of test datasets in validating the performance of machine learning models.

---
# Aufteilung der Daten: Trainings- und Testdatensätze


Beim maschinellen Lernen wird ein Datensatz in der Regel in zwei oder drei Teile aufgeteilt:


- **Trainingsdatensatz**:<br>
Wird verwendet, um das Modell zu trainieren.<br>
Hier lernt das Modell die Muster und Beziehungen zwischen den Eingabe- und Zielvariablen.
<br>

- **Validierungsdatensatz** (optional):<br>
Wird genutzt, um während des Trainings **Hyperparameter** wie die Lernrate oder die Modellarchitektur abzustimmen und eine Überanpassung (**Overfitting**) zu verhindern.<br>
Er wird während des Trainings zur Feinabstimmung des Modells verwendet.
<br>

- **Testdatensatz**:<br>
Wird vollständig vom Training und der Hyperparameteroptimierung getrennt gehalten und dient ausschließlich dazu, die endgültige Leistung des Modells zu bewerten.

---
# Warum braucht man einen Testdatensatz?


Der Testdatensatz wird benötigt, um die **Generalisierungsfähigkeit** des Modells zu beurteilen. 

Generalisierung bedeutet, wie gut das Modell auf unbekannte Daten reagiert, d.h. auf Daten, die es noch nicht gesehen hat.<br>
Ohne einen Testdatensatz könnte man das Modell nur auf den Trainingsdaten evaluieren, was jedoch zu überoptimistischen Ergebnissen führen würde.

- **Überanpassung vermeiden**:<br>
Wenn ein Modell zu stark auf den Trainingsdaten "lernt", also sehr spezifische Muster und Rauschen der Trainingsdaten erkennt, anstatt die zugrunde liegenden allgemeinen Muster, spricht man von **Overfitting**.<br>
Das Modell funktioniert dann auf den Trainingsdaten gut, versagt aber bei neuen, unbekannten Daten.<br>
Der Testdatensatz stellt sicher, dass das Modell nicht nur auf den Trainingsdaten, sondern auch auf neuen, ungesehenen Daten gute Leistungen erbringt.
  
- **Objektive Leistungsmessung**:<br>
Da der Testdatensatz während des Trainings unberührt bleibt, bietet er eine objektive Möglichkeit, die tatsächliche Leistung des Modells zu bewerten.<br>
Er spiegelt, wie das Modell in der realen Welt auf neue Daten reagieren würde.

---
# Leistungsmessung und -bewertung


Typischerweise werden für die Bewertung (Validierung) des Modells verschiedene Metriken auf dem Testdatensatz verwendet.<br>
 Die Wahl der Metrik hängt vom Problem ab, z. B.:
- **Für Regressionsprobleme**:<br>
Metriken wie der mittlere quadratische Fehler (MSE), der mittlere absolute Fehler (MAE) oder der R²-Wert.
<br>

- **Für Klassifikationsprobleme**:<br>
Genauigkeit (Accuracy), Präzision, Recall, F1-Score oder die ROC-AUC-Kurve.

Diese Metriken zeigen, wie gut das Modell neue Daten klassifiziert oder Vorhersagen macht. Da der Testdatensatz bisher unbekannt war, liefert dies eine faire Einschätzung der Modellleistung.

---
# Schutz vor Datenlecks
Ein weiteres wichtiges Konzept ist das sogenannte "Datenleck" (Data Leakage). Dies tritt auf, wenn Informationen aus dem Testdatensatz versehentlich in den Trainingsprozess gelangen, was zu unrealistisch guten Leistungen führt.

Ein sauberer Testdatensatz stellt sicher, dass keine solchen Lecks auftreten und die Bewertung des Modells nicht durch irreführende Daten beeinflusst wird.

---
# Train-Test-Split und Cross-Validation

**Train-Test-Split**:<br>
Eine gängige Methode zur Aufteilung der Daten, bei dem der Datensatz z.B. im Verhältnis 80:20 oder 70:30 aufgeteilt wirdy<br>
(80% für das Training, 20% für den Test). 

Um jedoch sicherzustellen, dass das Modell robust gegenüber verschiedenen Trainingsdaten ist und keine Abhängigkeit von einer bestimmten Datenaufteilung entsteht, wird oft **Cross-Validation** verwendet. 

Dabei wird der Datensatz in mehrere Teilmengen aufgeteilt, und das Modell wird mehrmals trainiert und getestet, wobei jedes Mal eine andere Teilmenge als Testdatensatz dient.

---
# Testdatensatz als Stellvertreter für reale Daten

Schließlich dient der Testdatensatz als Proxy für reale Daten, denen das Modell in Produktionsumgebungen begegnen wird. 

Er repräsentiert, wie das Modell auf Daten reagieren wird, die in der Praxis auftreten, und hilft dabei, sicherzustellen, dass das Modell nicht nur auf den Trainingsdaten gut abschneidet, sondern auch in der Realität nützliche und genaue Vorhersagen liefert.

---
# praktische Anwendung in Python

## Beispiel 1: Iris-Datensatz

Das folgende Beispiel soll zeigen, wie man Testdatensätze verwendet, um die Leistung eines Modells zu bewerten. 

In diesem Fall wird die Bibliothek **scikit-learn** verwendet, um ein einfaches Klassifikationsproblem mit einem **Train-Test-Split** zu implementieren. Dabei werden wir das Modell auf den Trainingsdaten trainieren und die Modellleistung auf den Testdaten bewerten.

Wir verwenden hier den **Iris-Datensatz**, der oft als Beispiel für Klassifikationsaufgaben verwendet wird.<br>
Das Modell wird ein **Logistic Regression**-Modell sein.

### Datenaufteilung und Modelltraining

In [2]:
# Bibliotheken importieren
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Den Iris-Datensatz laden
iris = load_iris()
X = iris.data  # Merkmale (Features)
y = iris.target  # Zielvariable (Target)

# Daten in Trainings- und Testdatensätze aufteilen
# Hier 80% Training und 20% Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modell erstellen und auf den Trainingsdaten trainieren
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Modell auf den Testdaten anwenden (Vorhersagen treffen)
y_pred = model.predict(X_test)

# Modellleistung bewerten (Genauigkeit und weitere Metriken)
accuracy = accuracy_score(y_test, y_pred)
print(f"Genauigkeit auf den Testdaten: {accuracy:.2f}")

# Detaillierterer Bericht über die Modellleistung
print("Klassifikationsbericht:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))


Genauigkeit auf den Testdaten: 1.00
Klassifikationsbericht:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



### Erläuterung des Codes


   
1. **Train-Test-Split**:<br>
Mit der Funktion `train_test_split()` wird der Datensatz in zwei Teile aufgeteilt:

   - `X_train`, `y_train`: Diese Daten werden für das Modelltraining verwendet (80% der Daten).<br>
   - `X_test`, `y_test`: Diese Daten werden für die Bewertung des Modells verwendet (20% der Daten).
<br>

2. **Modell erstellen und trainieren**:<br>
Hier verwenden wir die logistische Regression (`LogisticRegression`) und trainieren das Modell auf den Trainingsdaten mit der Methode `fit()`.

3. **Vorhersagen auf dem Testdatensatz**:<br>
Das trainierte Modell wird genutzt, um Vorhersagen auf den Testdaten zu treffen (`predict()`).

4. **Modellbewertung**:<br>

   - Die Genauigkeit wird mit der Funktion `accuracy_score()` berechnet.
   - Der detaillierte Klassifikationsbericht (`classification_report`) zeigt zusätzliche Metriken wie **Precision**, **Recall** und **F1-Score** an, um die Modellleistung für jede Klasse zu analysieren.



In diesem Beispiel erzielt das Modell auf den Testdaten eine Genauigkeit von 100%, was darauf hindeutet, dass das Modell die Daten gut generalisieren kann. Dies kann jedoch bei komplexeren Datensätzen oder Problemen seltener der Fall sein. Normalerweise erhält man Genauigkeiten, die weniger als 100% betragen, was dann eine genauere Analyse erfordert.

## Beispiel 2: Titanic-Datensatz

### Datenaufteilung und Modelltraining

In diesem Abschnitt werden wir einen Datensatz in Trainings- und Testdaten aufteilen, ein Modell trainieren und die Leistung auf den Testdaten bewerten.

<br>

**Abschnitt 1: Setup**

Zunächst importieren wir die notwendigen Bibliotheken und laden den Datensatz:

In [3]:
# Importieren der notwendigen Bibliotheken
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Beispiel: Laden eines Datensatzes (Titanic-Datensatz)
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# Datenaufbereitung: Auswahl der relevanten Features und Zielvariable
df = df[['Pclass', 'Age', 'Fare', 'Survived']].dropna()

# Features und Zielvariable definieren
X = df[['Pclass', 'Age', 'Fare']]
y = df['Survived']

# Anzeigen der ersten Zeilen des Datensatzes
df.head()


Unnamed: 0,Pclass,Age,Fare,Survived
0,3,22.0,7.25,0
1,1,38.0,71.2833,1
2,3,26.0,7.925,1
3,1,35.0,53.1,1
4,3,35.0,8.05,0


**Abschnitt 2: Aufteilen der Daten in Trainings- und Testsets**

Hier teilen wir den Datensatz in einen Trainingssatz und einen Testdatensatz auf. 

Typischerweise verwendet man 70-80% der Daten zum Training und 20-30% zum Testen.

Erklärung:<br>
Die `train_test_split-Methode` von sklearn wird verwendet, um den Datensatz in zufällig ausgewählte Trainings- und Testdaten zu unterteilen. Das `random_state` sorgt dafür, dass die Ergebnisse reproduzierbar sind.

In [4]:
# Aufteilen der Daten in Trainings- und Testsets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Anzeigen der Dimensionen der aufgeteilten Daten
print(f"Trainingsdaten: {X_train.shape}, Testdaten: {X_test.shape}")


Trainingsdaten: (571, 3), Testdaten: (143, 3)


**Abschnitt 3: Trainieren eines Machine-Learning-Modells**

Als Beispiel verwenden wir die Logistische Regression, um ein Modell zu trainieren, das vorhersagen soll, ob ein Passagier die Titanic-Katastrophe überlebt hat.

Erklärung:<br>
Hier trainieren wir das Modell auf den Trainingsdaten (X_train und y_train) und testen dann, wie gut das Modell auf den Testdaten (X_test) funktioniert.

In [5]:
# Erstellen und Trainieren eines Logistischen Regressionsmodells
model = LogisticRegression()
model.fit(X_train, y_train)

print(model.coef_)
# Vorhersagen auf den Testdaten
y_pred = model.predict(X_test)

# Berechnen der Genauigkeit des Modells
accuracy = accuracy_score(y_test, y_pred)
print(f"Testgenauigkeit des Modells: {accuracy * 100:.2f}%")


[[-1.09675973 -0.04794221  0.00373808]]
Testgenauigkeit des Modells: 67.13%


**Abschnitt 4: Bedeutung der Generalisierung und Vermeidung von Overfitting**

Ein Modell, das auf den Trainingsdaten sehr gut funktioniert, aber auf den Testdaten schlecht abschneidet, überanpasst möglicherweise die Trainingsdaten. Um dies zu verhindern, ist es wichtig, ein unvoreingenommenes Testset zu verwenden.

# Generalisierung und Overfitting
Ein Modell, das zu gut auf die Trainingsdaten abgestimmt ist, hat möglicherweise die spezifischen Muster in den Trainingsdaten gelernt, aber kann nicht auf neue Daten generalisieren.

Durch die Verwendung eines separaten Testdatensatzes können wir die **Generalisierungsfähigkeit** eines Modells bewerten. Eine hohe Genauigkeit auf den Trainingsdaten, aber eine schlechte Leistung auf den Testdaten, weist auf Overfitting hin.
