CRISP-DM Vorlesungsbeispiel – FOM Digitales Live-Studium SS26 Autoren: Daniel H. Prost, Andreas Höpfel, Robert Müller
mise muss installiert sein. Das war's.
# mise installieren (falls noch nicht vorhanden)
curl https://mise.run | sh# Python 3.12 + uv einrichten
mise install
# Abhängigkeiten installieren
uv syncuv run jupyter labÖffnet JupyterLab im Browser. Notebooks liegen unter notebooks/.
Die Notebooks bauen aufeinander auf und sollten in dieser Reihenfolge ausgeführt werden:
| Notebook | Phase |
|---|---|
01_business_understanding.ipynb |
Forschungsfragen, Hypothesen |
02_data_understanding.ipynb |
EDA, Datenqualität |
03_data_preparation.ipynb |
Bereinigung, Feature Engineering → erzeugt data/features.parquet |
04_modeling.ipynb |
Modelltraining → erzeugt data/models/ |
05_evaluation.ipynb |
Hypothesen H1–H4, Kalibrierung |
06_deployment.ipynb |
Dashboard-Konzept, Ampel-Score |
sbahn_only_dedup.parquet und stations.parquet müssen im Projektroot liegen (nicht im Repo).
Das Projekt ist als vollständiger CRISP-DM-Durchlauf angelegt und deckt den geforderten Präsentationsaufbau direkt ab.
Einleitung
- Hintergrund, Forschungsfragen und Methodik:
01_business_understanding.ipynb
Theorie
- Wirtschaftlicher Hintergrund: Stammstrecke als Engpass, Kaskadeneffekte → Notebook 01
- KI/ML-Verfahren: Logistische Regression, Random Forest, HistGradientBoosting, Probability Calibration → Notebook 04/05
- Einordnung Periodensystem der KI: muss in der Präsentation noch ergänzt werden – die eingesetzten Verfahren sind Supervised Learning / Klassifikation (kein generatives KI)
Praxis
- Alle 6 CRISP-DM-Phasen als ausführbare Notebooks vorhanden
- Vorführung live in JupyterLab möglich (interaktive Plotly-Heatmaps in Notebook 06)
- Ergebnisse: H1–H4 alle bestätigt, HGB ROC-AUC 0.705, kalibrierter Risiko-Score
Abschluss
- Fazit und Hypothesenergebnisse:
05_evaluation.ipynb, Abschnitt 5.6 - Lessons Learned: muss in der Präsentation noch ergänzt werden (z.B. ID-Wechsel München Hbf, Bedeutung der Probability Calibration)
- Literatur/Abgabe: Präsentation + dieses Repo (Code) +
thesis_main.pdfals Referenz
Formales
- Gruppe: 3 Personen ✓ (Mindestgröße erfüllt)
- Themenmeldung: Research Canvas vom 12.03.2026, Deadline war 19./21.03.2026 ✓
- Präsentationsdauer: 30 Minuten – 6 Phasen à ~4 Minuten + Demo ist realistisch
- Phase 4 dauert beim ersten Ausführen ~5 Minuten (Random Forest auf 3.7M Zeilen)
- Phase 5 und 6 setzen voraus, dass Phase 4 vollständig durchgelaufen ist (speichert Modelle nach
data/models/)