In [4]:
import matplotlib.pyplot as plt


# Phase 3 – Prototype Testing & Demo (Präsi-Notizen)

Dieses Notebook ist ein persönlicher Spickzettel für die Präsentation.

Ziel:
- schnell die richtigen Resultate finden
- nichts zusammensuchen müssen
- klar wissen, **was gezeigt** und **was gesagt** wird

Dieses Notebook enthält:
- die wichtigsten Zahlen
- die relevanten Visualisierungen
- kurze Sprechnotizen


## Kontext

- Ziel des Projekts: Vorhersage bzw. Priorisierung von F2/F3 Fahrern mit F1-Potenzial
- Fokus ist **kein Ja/Nein**, sondern ein **Ranking**
- Training: Daten bis Saison 2021
- Test: Saison 2022–2023
- Starke Klassenimbalance (~5–6 % Positive im Testset)


## Wichtige methodische Entscheidung: Datenleckage

- Die Variable `first_f1_year` enthält implizit Zukunftsinformation
- Sie kodiert das Ziel indirekt
- Verwendung hätte zu unrealistisch guten Resultaten geführt

Konsequenz:
- `first_f1_year` wurde **konsequent aus dem Modell entfernt**
- Modellresultate sind dadurch ehrlicher und realitätsnah


## Modellperformance (Testset 2022–2023)

Baseline Modell: Logistische Regression

Kennzahlen:
- ROC AUC ≈ 0.76
- PR AUC ≈ 0.28

Einordnung:
- deutlich besser als Zufall
- realistisch bei starker Klassenimbalance
- ausreichend für einen Proof of Concept


## Top-k Analyse (zentral für die Demo)

Recall im Testset:
- Top 5 % der Fahrer → ~29 % aller späteren F1-Einsteiger
- Top 10 % der Fahrer → ~29 %
- Top 20 % der Fahrer → ~43 %

Interpretation:
- Schon eine starke Vorauswahl reduziert den Suchraum massiv
- Modell eignet sich als Scouting- oder Priorisierungstool


![image.png](attachment:image.png)

### Demo: Top-20 Fahrer Ranking

Die folgende Tabelle wird live aus dem Phase-3-Notebook gezeigt.

Sie enthält:
- Fahrername
- Serie und Saison
- vorhergesagte Wahrscheinlichkeit
- tatsächliches Label (nur zur Validierung)

Ziel:
- zeigen, wie das Modell priorisiert
- nicht Perfektion, sondern Nutzen demonstrieren


## Was wir bewusst nicht in den Fokus stellen

- Accuracy (irrelevant bei Klassenimbalance)
- reine Confusion Matrix
- komplexe Modellvergleiche
- Hyperparameter-Optimierung

Begründung:
- Fokus liegt auf Anwendung und Nutzen
- nicht auf maximaler Kennzahl


## Sprechhilfe (frei formulieren)

- Unser Modell priorisiert Fahrer statt Ja/Nein-Entscheide zu treffen
- Top-k Analyse zeigt den praktischen Nutzen
- Ergebnisse sind bewusst realistisch gehalten
- Datenleckage wurde aktiv erkannt und entfernt
- Resultat ist ein glaubwürdiger Prototyp


## Fazit

- Modell ist kein Produkt, sondern ein Proof of Concept
- Methodisch sauber, reproduzierbar und erklärbar
- Eignet sich als Entscheidungsunterstützung im Scouting-Kontext


1 Minute Demo Skript
0:00 bis 0:10 Einstieg

Wir zeigen jetzt den Prototyp so, wie er in einem Scouting oder Investment Kontext eingesetzt würde.
Das Modell trifft keinen Ja Nein Entscheid, sondern priorisiert Fahrer nach Wahrscheinlichkeit für einen F1 Einstieg.

0:10 bis 0:25 Leistung kurz einordnen

Wir trainieren auf Daten bis Saison 2021 und testen auf 2022 bis 2023.
Im Testset ist der F1 Einstieg selten, nur rund 5 bis 6 Prozent.
Darum bewerten wir das Modell primär über Ranking und Top k statt über Accuracy.

0:25 bis 0:40 Top k Kurve zeigen

Hier sieht man die Recall versus Top k Kurve.
Wenn wir nur die Top 20 Prozent der Fahrer anschauen, finden wir rund 43 Prozent der späteren F1 Einsteiger.
Das reduziert den Suchraum deutlich und ist genau der Nutzen eines Priorisierungstools.

0:40 bis 0:55 Ranking Tabelle zeigen

Jetzt die Top 20 Kandidaten im Testzeitraum, sortiert nach vorhergesagter Wahrscheinlichkeit.
Man sieht reale Namen und Saisons und auch eine Mischung aus Treffern und Fehlalarmen, was realistisch ist.
Das Tool sagt nicht perfekt voraus, aber es hilft, die Aufmerksamkeit auf die richtigen Kandidaten zu lenken.

0:55 bis 1:00 Methodische Qualität und Abschluss

Ein wichtiger Punkt war die Vermeidung von Datenleckage. Eine Spalte wie first_f1_year wurde bewusst entfernt, weil sie Zukunftsinformation enthält.
Damit ist der Prototyp nachvollziehbar, reproduzierbar und als Proof of Concept glaubwürdig.