# Syllabus

Demonstrate knowledge of proper test dataset selection and usage to ensure unbiased and accurate model evaluation.

Um eine unvoreingenommene und genaue Modellevaluierung zu gewährleisten, ist die Auswahl und Verwendung eines geeigneten Testdatensatzes entscheidend. Hier sind die wichtigsten Schritte und Überlegungen, die man beachten sollte:

# Datensatz-Aufteilung:

   - **Trainingsdatensatz**:<br>
   wird verwendet, um das Modell zu trainieren. Das Modell die zugrunde liegenden Muster und Beziehungen in den Daten.

   - **Validierungsdatensatz**:<br>
   Optionaler Schritt, bei dem dieser Datensatz während des Trainings verwendet wird, um die Modellhyperparameter abzustimmen und Überanpassung (Overfitting) zu vermeiden.


   - **Testdatensatz**:<br>
   unabhängiger Datensatz, der ausschließlich zur finalen Bewertung des Modells verwendet wird. Es ist wichtig, dass das Modell diesen Datensatz während des Trainings nie gesehen hat.

# Unabhängigkeit des Testdatensatzes:

   Der Testdatensatz muss völlig unabhängig von den Trainings- und Validierungsdaten sein. Das bedeutet:
   
   - **Zeitliche Unabhängigkeit**:<br>
   Wenn es sich um zeitlich geordnete Daten handelt (z.B. Zeitreihen), dürfen Datenpunkte aus der Zukunft nicht zum Testen eines Modells verwendet werden, das auf Daten aus der Vergangenheit trainiert wurde.

   - **Vermeidung von Leckage**:<br>
   Es darf keine Informationen aus den Trainingsdaten in den Testdatensatz gelangen (z.B. durch Merkmale, die stark mit dem Zielwert korrelieren und aus den Trainingsdaten abgeleitet wurden).

# Ausgewogene Repräsentation (Testdatensatz)

Ein Testdatensatz sollte möglichst die Verteilung der Daten widerspiegeln, die in der realen Anwendung des Modells zu erwarten ist. Das bedeutet:

- **Ähnliche Verteilung der Merkmale und Zielvariablen:**<br>
Die Verteilungen der Features (Merkmale) und der Zielvariablen sollten im Testdatensatz repräsentativ für die echten Daten sein. Wenn ein Testdatensatz z.B. überwiegend Daten von einer bestimmten Gruppe enthält, obwohl die realen Daten eine größere Vielfalt aufweisen, könnte das Modell in der Praxis schlechter abschneiden.

- **Balancierte Zielvariablen** (bei Klassifikationsproblemen):<br>
Wenn du ein Modell für eine Klassifikationsaufgabe trainierst, solltest du sicherstellen, dass der Testdatensatz in etwa die gleiche Verteilung der Klassen aufweist wie die realen Daten.<br>
**Beispiel:** <br>
Bei einer binären Klassifikation (z.B. Krank oder Nicht Krank) wäre ein Testdatensatz, der zu 90 % aus Nicht-Kranken besteht, problematisch, wenn die realen Daten eine gleichmäßigere Verteilung haben. In diesem Fall könnte das Modell besonders gut bei Nicht-Kranken abschneiden, aber bei Kranken schwach sein, was durch die Verteilung im Testdatensatz maskiert wird.

Ein Testdatensatz, der eine verzerrte oder untypische Verteilung hat, kann dazu führen, dass die Modellevaluierung nicht die reale Modellleistung widerspiegelt. Das Modell könnte im Test hervorragend abschneiden, aber in der Praxis versagen, weil es auf Daten angewendet wird, die anders verteilt sind.

# Kreuzvalidierung (Cross-Validation)

Die Kreuzvalidierung ist eine Technik, die verwendet wird, um die Modellleistung robuster und verlässlicher zu bewerten, insbesondere wenn der verfügbare Datensatz klein ist. 

Die Idee dahinter ist, den gesamten Datensatz mehrfach zu verwenden, um sowohl das Training als auch das Testen durchzuführen. Ein klassisches Verfahren ist die k-fache Kreuzvalidierung (k-fold cross-validation).

- **Funktionsweise der k-fachen Kreuzvalidierung:** <br>
        Der Datensatz wird in k gleiche Teile (Folds) aufgeteilt.<br>

  **Beispiel:<br>**
  Bei einer 5-fachen Kreuzvalidierung wird der Datensatz in 5 Teile geteilt.


  Das Modell wird k-mal trainiert. Jedes Mal wird ein anderer Teil (ein **Fold**) als Testdatensatz verwendet, und die verbleibenden Teile werden zum Trainieren des Modells genutzt.
        Am Ende hat das Modell k verschiedene Testergebnisse, da es k-mal auf verschiedenen Testdatensätzen getestet wurde.
        Der finale Leistungswert des Modells ist der Durchschnitt der k Ergebnisse. Dies gibt eine verlässlichere Schätzung der Modellleistung, weil das Modell auf verschiedenen Teilmengen getestet wurde.

- **Vorteile der Kreuzvalidierung:** <br>
        Vermeidung von Zufallsfehlern:<br>
        Wenn du das Modell nur auf einem einzigen Testdatensatz bewertest, kann es passieren, dass du zufällig auf eine besonders günstige oder ungünstige Teilmenge der Daten stößt. Die Kreuzvalidierung mindert diesen Zufallseffekt.
        Effiziente Nutzung kleiner Datensätze:<br>
        Besonders bei kleinen Datensätzen vermeidest du es, Daten "zu verschwenden", indem du immer wieder einen Teil der Daten für das Testen und nicht nur für das Training nutzt.

**Ein einfaches Beispiel**:<br>
Wenn du nur eine einfache Aufteilung in Trainings- und Testdatensatz machst, könntest du zufällig einen Testdatensatz haben, der schwerer oder leichter zu klassifizieren ist, was die Ergebnisse verzerrt. Durch die Kreuzvalidierung wird dieser Zufallseffekt geglättet, weil du mehrere Testdatensätze verwendest und so einen Durchschnittswert erhältst, der repräsentativer ist.

# Metriken der Modellevaluierung:

   - **Genauigkeit allein reicht nicht**:<br>
   Je nach Anwendungsfall kann die Genauigkeit irreführend sein.<br>
   Besonders bei unbalancierten Datensätzen sollte man andere Metriken wie **Precision**, **Recall**, **F1-Score** oder **AUC-ROC** berücksichtigen, um die wahre Leistungsfähigkeit des Modells zu bewerten.

   - **Mehrere Metriken nutzen**:<br>
   Um eine umfassendere Vorstellung von der Modellleistung zu bekommen, ist es oft sinnvoll, verschiedene Metriken zu verwenden, je nach Art des Problems (z.B. Klassifikation vs. Regression).

# Umgang mit Datenverzerrungen (Biases):

   Es ist wichtig sicherzustellen, dass der Testdatensatz keine systematischen Verzerrungen enthält. 
   
   Ein unrepräsentativer Testdatensatz kann zu irreführenden Schlussfolgerungen führen, z.B. wenn er eine Untergruppe der Bevölkerung überrepräsentiert.

# Stetige Überprüfung und Anpassung:

   Selbst nach der Modellentwicklung sollte man den Testdatensatz regelmäßig überprüfen und anpassen, insbesondere wenn sich die realen Bedingungen ändern oder neue Daten hinzukommen. Dies stellt sicher, dass das Modell auch bei veränderten Umständen gut funktioniert.
