Skip to content

Flipez/crispy-sbahn

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Verspätungsrisiko S-Bahn-Stammstrecke München

CRISP-DM Vorlesungsbeispiel – FOM Digitales Live-Studium SS26 Autoren: Daniel H. Prost, Andreas Höpfel, Robert Müller

Voraussetzungen

mise muss installiert sein. Das war's.

# mise installieren (falls noch nicht vorhanden)
curl https://mise.run | sh

Setup

# Python 3.12 + uv einrichten
mise install

# Abhängigkeiten installieren
uv sync

Starten

uv run jupyter lab

Öffnet JupyterLab im Browser. Notebooks liegen unter notebooks/.

Notebooks

Die Notebooks bauen aufeinander auf und sollten in dieser Reihenfolge ausgeführt werden:

Notebook Phase
01_business_understanding.ipynb Forschungsfragen, Hypothesen
02_data_understanding.ipynb EDA, Datenqualität
03_data_preparation.ipynb Bereinigung, Feature Engineering → erzeugt data/features.parquet
04_modeling.ipynb Modelltraining → erzeugt data/models/
05_evaluation.ipynb Hypothesen H1–H4, Kalibrierung
06_deployment.ipynb Dashboard-Konzept, Ampel-Score

Datensätze

sbahn_only_dedup.parquet und stations.parquet müssen im Projektroot liegen (nicht im Repo).

Bezug zur Prüfungsleistung

Das Projekt ist als vollständiger CRISP-DM-Durchlauf angelegt und deckt den geforderten Präsentationsaufbau direkt ab.

Einleitung

  • Hintergrund, Forschungsfragen und Methodik: 01_business_understanding.ipynb

Theorie

  • Wirtschaftlicher Hintergrund: Stammstrecke als Engpass, Kaskadeneffekte → Notebook 01
  • KI/ML-Verfahren: Logistische Regression, Random Forest, HistGradientBoosting, Probability Calibration → Notebook 04/05
  • Einordnung Periodensystem der KI: muss in der Präsentation noch ergänzt werden – die eingesetzten Verfahren sind Supervised Learning / Klassifikation (kein generatives KI)

Praxis

  • Alle 6 CRISP-DM-Phasen als ausführbare Notebooks vorhanden
  • Vorführung live in JupyterLab möglich (interaktive Plotly-Heatmaps in Notebook 06)
  • Ergebnisse: H1–H4 alle bestätigt, HGB ROC-AUC 0.705, kalibrierter Risiko-Score

Abschluss

  • Fazit und Hypothesenergebnisse: 05_evaluation.ipynb, Abschnitt 5.6
  • Lessons Learned: muss in der Präsentation noch ergänzt werden (z.B. ID-Wechsel München Hbf, Bedeutung der Probability Calibration)
  • Literatur/Abgabe: Präsentation + dieses Repo (Code) + thesis_main.pdf als Referenz

Formales

  • Gruppe: 3 Personen ✓ (Mindestgröße erfüllt)
  • Themenmeldung: Research Canvas vom 12.03.2026, Deadline war 19./21.03.2026 ✓
  • Präsentationsdauer: 30 Minuten – 6 Phasen à ~4 Minuten + Demo ist realistisch

Hinweise

  • Phase 4 dauert beim ersten Ausführen ~5 Minuten (Random Forest auf 3.7M Zeilen)
  • Phase 5 und 6 setzen voraus, dass Phase 4 vollständig durchgelaufen ist (speichert Modelle nach data/models/)

About

CRISP-DM Vorlesungsbeispiel – FOM Digitales Live-Studium SS26

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors