# Phase 3: Prototype Testing & Demo

## Ziel der Phase
In dieser Phase testen wir das entwickelte Modell als Prototyp in einem realitätsnahen Ablauf.  
Der Fokus liegt auf einer verständlichen Demo, die zeigt, wie das Modell im Projektkontext genutzt wird: Fahrer bewerten, priorisieren und Ergebnisse erklären.

Das Ziel ist nicht ein produktionsreifes System, sondern ein glaubwürdiger, nachvollziehbarer Proof of Concept.

---

## Eingangsdaten und Artefakte aus Phase 2

### Eingabedaten
- Modellinput Datei  
  `data/model_input/f2_f3_features_with_f1_label.csv`  
  Diese Datei ist stabil und wird nicht mehr verändert.

### Train Test Split
Wir verwenden den zeitbasierten Split aus Phase 2.
- Training: bis Saison 2021
- Test: 2022 bis 2023

### Modellartefakte
- Baseline Modell: Logistische Regression Pipeline
- Optional: Vergleichsmodell Random Forest

---

## Teststrategie: Was bedeutet Prototyp Testing?

### 1. Funktionaler Test
- Kann das Modell zuverlässig trainiert werden?
- Werden Wahrscheinlichkeiten korrekt ausgegeben?
- Läuft die Pipeline ohne Datenleckage?

### 2. Qualitätstest
- ROC AUC und PR AUC im Testset
- Top k Analyse als anwendungsnahe Bewertung
- Confusion Matrix nur als Referenz für bestimmte Schwellen

### 3. Plausibilitätstest
- Stimmen Top Kandidaten fachlich grob mit Erwartungen überein?
- Sind die wichtigsten Features plausibel?
- Gibt es offensichtliche Ausreisser, die auf Datenprobleme hindeuten?

---

## Demo Konzept: Wie zeigen wir das im Vortrag?

### Ziel der Demo
Wir zeigen nicht nur Zahlen, sondern einen Ablauf, der wie ein echtes Scouting oder Investment Tool wirkt.

Die Demo beantwortet drei Fragen:
1. Welche Fahrer sind die Top Kandidaten im Testjahr?
2. Wie gut ist die Abdeckung bei Top k Prozent?
3. Warum wurden diese Fahrer hoch gerankt? (Erklärung über Features)

---

## Prototyp Output

### Output Tabelle für die Demo
Wir erzeugen eine Tabelle mit:
- driver_name
- driver_code
- year
- series
- predicted_probability
- optional: tatsächliches Label (nur zur Validierung)

Ziel ist eine klare Ranking Liste.

---

## Visualisierungen für den Prototyp

Empfohlene Visualisierungen für den Vortrag
- Recall vs. k Prozent Kurve
- Confusion Matrix als Grafik (nur als Ergänzung)
- Feature Einfluss Plot (LogReg Koeffizienten oder RF Feature Importance)

---

## Minimaler Prototyp Ablauf im Notebook

Der Prototyp kann vollständig im Notebook laufen und folgende Schritte enthalten:
1. Daten laden
2. Split anwenden
3. Modell trainieren
4. Wahrscheinlichkeiten auf Testset berechnen
5. Top k Fahrer anzeigen
6. Visualisierung zeigen
7. Kurze Interpretation

---

## Optional: Mini UI oder Export für Demo

### Option A: Notebook Demo
Vorteile
- Schnell
- Stabil
- Gut nachvollziehbar für den Dozenten

### Option B: HTML Export
Wir exportieren eine Ranking Tabelle als HTML Datei mit einfacher Formatierung, zum Beispiel:
- Top 20 Fahrer
- sortiert nach Wahrscheinlichkeit
- farbliche Hervorhebung

Das ist keine Web App, wirkt aber wie ein Mini Produkt.

---

## Abnahmekriterien für Phase 3

Wir betrachten Phase 3 als erfolgreich, wenn:
- das Modell reproduzierbar trainiert werden kann
- eine Ranking Liste mit Wahrscheinlichkeiten erstellt wird
- Top k Analyse im Vortrag verständlich erklärt werden kann
- mindestens eine klare Visualisierung zur Modellleistung gezeigt wird
- das Resultat als Demo für Nicht Techniker nachvollziehbar ist

---

## Output der Phase

Artefakte dieser Phase
- Prototyp Notebook  
  `notebooks/phase_3_prototype_testing.ipynb`
- Optional: HTML Ranking Export  
  `plots` oder `exports` Ordner, z. B. `exports/top_candidates_2023.html`

Diese Phase übersetzt Modellleistung in eine verständliche Demonstration.
