# Analyse Störliste – Blatt „Aufschreibung“

Dieses Notebook:
1. lädt die Excel-Datei,
2. entfernt alle **leeren Zeilen**, die **ab der Spalte „Dauer Org-Mangel“** (und alle folgenden Spalten) **keine Daten** enthalten,
3. bereitet Zeit-/Dauerfelder auf und
4. analysiert **Stoßzeiten**, **Maschinen/Stationen** und **Fehlerursachen** inkl. Auffälligkeiten bei der **Ausfalldauer**.


In [None]:
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Datei-Pfad (im gleichen Ordner wie das Notebook oder anpassen)
FILE_PATH = "Stoerliste_Heckrungenanlage_2023_NEU.xlsx"
SHEET_NAME = "Aufschreibung"

pd.set_option("display.max_columns", 200)
pd.set_option("display.width", 200)



In [None]:
# --- Laden ---
df_raw = pd.read_excel(FILE_PATH, sheet_name=SHEET_NAME)

print("Rohdaten:", df_raw.shape)
display(df_raw.head(3))


In [None]:
# --- Spaltennamen normalisieren (Zeilenumbrüche/Mehrfachspaces entfernen) ---
df = df_raw.copy()
df.columns = [re.sub(r"\s+", " ", str(c).strip()) for c in df.columns]

# Zielspalte finden (robust, falls in Excel Zeilenumbrüche/Spaces anders sind)
target_pattern = re.compile(r"^Dauer\s*Org-?Mangel$", re.IGNORECASE)
start_col = None
for c in df.columns:
    if target_pattern.match(c):
        start_col = c
        break

if start_col is None:
    # Fallback: suche nach beiden Wörtern
    candidates = [c for c in df.columns if ("Dauer" in c) and ("Org" in c) and ("Mangel" in c)]
    if candidates:
        start_col = candidates[0]

if start_col is None:
    raise ValueError("Spalte 'Dauer Org-Mangel' konnte nicht gefunden werden. Bitte Spaltennamen prüfen.")

start_idx = list(df.columns).index(start_col)
cols_from = list(df.columns)[start_idx:]

print("Startspalte:", start_col)
print("Spalten ab Startspalte:", cols_from)


In [None]:
# --- Leere Zeilen entfernen: wenn ab Startspalte (inkl.) ALLES leer ist ---
df_clean = df.copy()

# Leere Strings -> NA (nur in object/string-Spalten)
for c in cols_from:
    if df_clean[c].dtype == object:
        df_clean[c] = df_clean[c].astype("string").str.strip()
        df_clean.loc[df_clean[c].isin(["", "nan", "NaN"]), c] = pd.NA

mask_keep = df_clean[cols_from].notna().any(axis=1)
df_clean = df_clean.loc[mask_keep].copy()

print("Nach dem Entfernen leerer Zeilen:", df_clean.shape)
display(df_clean.head(5))


In [None]:
# Optional: bereinigte Daten speichern
df_clean.to_csv("Aufschreibung_clean.csv", index=False)
df_clean.to_excel("Aufschreibung_clean.xlsx", index=False)

print("Gespeichert als: Aufschreibung_clean.csv / Aufschreibung_clean.xlsx")


In [None]:
# --- Aufbereitung: Zeitspalten, Ausfalldauer (min) ---
# Dauer-Spalten (in Minuten) – ggf. anpassen, falls andere Namen vorkommen
duration_cols = [
    "Dauer Org-Mangel",
    "Dauer Anlagen-Ausfall",
    "Dauer Anlagen-Ausfall intern",
    "Dauer Logistik- Defizite",
]
for c in duration_cols:
    if c in df_clean.columns:
        df_clean[c] = pd.to_numeric(df_clean[c], errors="coerce")

df_clean["Downtime_min"] = df_clean[duration_cols].sum(axis=1, skipna=True)

# Zeit robust in Sekunden umwandeln (Zeit-Objekte oder Strings)
import datetime as dt
def safe_time_to_seconds(x):
    if pd.isna(x):
        return np.nan
    if isinstance(x, dt.time):
        return x.hour*3600 + x.minute*60 + x.second
    s = str(x).strip()
    # 'HH:MM' oder 'HH:MM:SS'
    if re.match(r"^\d{1,2}:\d{2}(:\d{2})?$", s):
        parts = s.split(":")
        h = int(parts[0]); m = int(parts[1]); sec = int(parts[2]) if len(parts) > 2 else 0
        return h*3600 + m*60 + sec
    # Excel kann Zeiten als Tagesbruchteil speichern
    if re.match(r"^\d+(\.\d+)?$", s):
        frac = float(s)
        return int(round(frac*24*3600))
    return np.nan

date_norm = pd.to_datetime(df_clean["Datum"], errors="coerce").dt.normalize()

start_seconds = df_clean["Zeit von"].apply(safe_time_to_seconds)
end_seconds   = df_clean["Zeit bis"].apply(safe_time_to_seconds)

df_clean["Start"] = date_norm + pd.to_timedelta(start_seconds, unit="s")
df_clean["End"]   = date_norm + pd.to_timedelta(end_seconds, unit="s")
df_clean.loc[df_clean["End"] < df_clean["Start"], "End"] += pd.Timedelta(days=1)

# Outage-Events: alle Zeilen mit Downtime > 0
df_out = df_clean[df_clean["Downtime_min"] > 0].copy()

print("Events (Downtime>0):", df_out.shape[0])
print("Zeitraum:", df_out["Datum"].min(), "bis", df_out["Datum"].max())
df_out[["Datum","Schicht","Zeit von","Zeit bis","Downtime_min"]].head()


## 1) Überblick / KPIs

In [None]:
kpi = {
    "Events (Downtime>0)": int(df_out.shape[0]),
    "Gesamte Downtime (min)": float(df_out["Downtime_min"].sum()),
    "Ø Downtime je Event (min)": float(df_out["Downtime_min"].mean()),
    "Median Downtime (min)": float(df_out["Downtime_min"].median()),
}
pd.DataFrame([kpi])


## 2) Stoßzeiten (wann passieren Ausfälle?)

In [None]:
df_out["Start_hour"] = df_out["Start"].dt.hour
hour_stats = (df_out.dropna(subset=["Start_hour"])
              .groupby("Start_hour")
              .agg(events=("Downtime_min","size"),
                   downtime_min=("Downtime_min","sum"),
                   avg_downtime=("Downtime_min","mean"))
              .reset_index()
              .sort_values("Start_hour"))

display(hour_stats)

plt.figure(figsize=(10,4))
plt.bar(hour_stats["Start_hour"], hour_stats["events"])
plt.title("Anzahl Ausfälle nach Start-Stunde")
plt.xlabel("Stunde (0-23)")
plt.ylabel("Anzahl Events")
plt.xticks(range(0,24,1))
plt.show()

plt.figure(figsize=(10,4))
plt.bar(hour_stats["Start_hour"], hour_stats["downtime_min"])
plt.title("Gesamte Downtime (min) nach Start-Stunde")
plt.xlabel("Stunde (0-23)")
plt.ylabel("Downtime (min)")
plt.xticks(range(0,24,1))
plt.show()


In [None]:
# Heatmap: Wochentag x Stunde (Event-Anzahl)
df_out["DayName"] = df_out["Datum"].dt.day_name()
order = ["Monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday"]

heat = (df_out.pivot_table(index="DayName", columns="Start_hour", values="Downtime_min",
                           aggfunc="size", fill_value=0)
        .reindex(order))

plt.figure(figsize=(12,4))
plt.imshow(heat.values, aspect="auto")
plt.title("Heatmap: Anzahl Ausfälle (Wochentag x Stunde)")
plt.yticks(range(len(heat.index)), heat.index)
plt.xticks(range(0,24,1), range(0,24,1))
plt.xlabel("Stunde")
plt.colorbar(label="Anzahl Events")
plt.show()

display(heat)


## 3) Welche Maschinen/Stationen haben die meisten Fehler?

In [None]:
df_out["Station_norm"] = (df_out["Station/ OP"].astype("string")
                          .str.upper()
                          .str.replace(r"\s+", " ", regex=True)
                          .str.strip())

station_stats = (df_out.groupby("Station_norm")
                 .agg(events=("Downtime_min","size"),
                      downtime_min=("Downtime_min","sum"),
                      avg_downtime=("Downtime_min","mean"))
                 .sort_values(["events","downtime_min"], ascending=False))

display(station_stats.head(20))

top10 = station_stats.head(10).reset_index()

plt.figure(figsize=(10,4))
plt.bar(top10["Station_norm"], top10["events"])
plt.title("Top 10 Stationen nach Anzahl Events")
plt.xlabel("Station")
plt.ylabel("Events")
plt.xticks(rotation=45, ha="right")
plt.show()

plt.figure(figsize=(10,4))
plt.bar(top10["Station_norm"], top10["downtime_min"])
plt.title("Top 10 Stationen nach gesamter Downtime")
plt.xlabel("Station")
plt.ylabel("Downtime (min)")
plt.xticks(rotation=45, ha="right")
plt.show()


## 4) Welche Fehler/Ursachen wie oft? (Unterbrechungsursache)

In [None]:
cause_stats = (df_out.groupby("Unterbrechungsursache")
               .agg(events=("Downtime_min","size"),
                    total_downtime=("Downtime_min","sum"),
                    avg_downtime=("Downtime_min","mean"),
                    median_downtime=("Downtime_min","median"))
               .sort_values("events", ascending=False))

display(cause_stats.head(20))

top_causes = cause_stats.head(12).reset_index()

plt.figure(figsize=(12,4))
plt.bar(top_causes["Unterbrechungsursache"].astype(str), top_causes["events"])
plt.title("Top Ursachen nach Häufigkeit")
plt.xlabel("Unterbrechungsursache")
plt.ylabel("Events")
plt.xticks(rotation=60, ha="right")
plt.show()

top_causes_downtime = cause_stats.sort_values("total_downtime", ascending=False).head(12).reset_index()

plt.figure(figsize=(12,4))
plt.bar(top_causes_downtime["Unterbrechungsursache"].astype(str), top_causes_downtime["total_downtime"])
plt.title("Top Ursachen nach gesamter Downtime")
plt.xlabel("Unterbrechungsursache")
plt.ylabel("Downtime (min)")
plt.xticks(rotation=60, ha="right")
plt.show()


## 5) Auffälligkeiten bei der Ausfalldauer (Kombinationen, Ausreißer)

In [None]:
# Verteilung der Downtime
plt.figure(figsize=(8,4))
plt.hist(df_out["Downtime_min"].dropna(), bins=30)
plt.title("Verteilung: Downtime je Event (min)")
plt.xlabel("Downtime (min)")
plt.ylabel("Anzahl Events")
plt.show()

# Downtime nach Schicht (Boxplot)
plt.figure(figsize=(8,4))
data = [df_out.loc[df_out["Schicht"]==s, "Downtime_min"].dropna() for s in sorted(df_out["Schicht"].dropna().unique())]
labels = [s for s in sorted(df_out["Schicht"].dropna().unique())]
plt.boxplot(data, labels=labels, showfliers=False)
plt.title("Downtime je Event nach Schicht (ohne Ausreißer)")
plt.xlabel("Schicht")
plt.ylabel("Downtime (min)")
plt.show()

# Ausreißer: Top 20 längste Events
top_long = (df_out.sort_values("Downtime_min", ascending=False)
            .loc[:, ["Datum","Start","End","Schicht","Station_norm","Unterbrechungsursache","Downtime_min","Bemerkung"]]
            .head(20))
display(top_long)


In [None]:
# Zusammenhang mit Output / Personal (wenn vorhanden)
num_cols = ["Downtime_min", "Dauer Arbeits-zeit", "Anzahl MA", "Menge N.i. O.", "Profi", "AHV", "Menge Gesamt (Stück)"]
corr = df_out[num_cols].corr(method="spearman", numeric_only=True)
display(corr)

# Scatter: Downtime vs Menge Gesamt
plt.figure(figsize=(6,4))
x = df_out["Menge Gesamt (Stück)"]
y = df_out["Downtime_min"]
plt.scatter(x, y, s=10)
plt.title("Downtime vs. Menge Gesamt (Stück)")
plt.xlabel("Menge Gesamt (Stück)")
plt.ylabel("Downtime (min)")
plt.show()

# Scatter: Downtime vs Anzahl MA
plt.figure(figsize=(6,4))
x = df_out["Anzahl MA"]
y = df_out["Downtime_min"]
plt.scatter(x, y, s=10)
plt.title("Downtime vs. Anzahl MA")
plt.xlabel("Anzahl MA")
plt.ylabel("Downtime (min)")
plt.show()

# Aggregation nach Anzahl MA
ma_stats = (df_out.groupby("Anzahl MA")
            .agg(events=("Downtime_min","size"),
                 avg_downtime=("Downtime_min","mean"),
                 total_downtime=("Downtime_min","sum"))
            .sort_index())
display(ma_stats)


## 6) Ideen für nächste Schritte

- **Freitext reduzieren:** „Freitext“ ist sehr häufig – ideal wäre eine standardisierte Fehlerklassifikation (Dropdown).
- **Stationen konsolidieren:** z.B. `R 06` vs. `R06` (falls vorhanden) vereinheitlichen.
- **Ausfälle nach Priorität:** Fokus auf Kombination aus **hoher Downtime** + **hoher Häufigkeit** (Pareto).
- **Geplante vs. ungeplante Stops:** Ursachen wie „Wartungsplan“/„Reinigung“ ggf. separat betrachten.


## 7) Zusammenhänge: Schicht × Zeit × MA × Downtime × Ursache

Die folgenden Blöcke zeigen dir die wichtigsten Kombinationen aus **Schicht**, **Uhrzeit**, **Anzahl MA**, **Ausfalldauer** und **Ursache** – als Tabellen und Visualisierungen.

> Tipp: Wenn du sehr viele Ursachen hast, nutze die *Top-N*-Filter in den Zellen, damit die Plots lesbar bleiben.


In [None]:
# --- Feature Engineering für Zusammenhangsanalysen ---
df = df_clean.copy()

# Robustheit / Standardisierung
df["Ursache"] = df.get("Unterbrechungsursache", pd.Series(index=df.index)).fillna("Unbekannt").astype(str).str.strip()
df["Station"] = df.get("Station/ OP", pd.Series(index=df.index)).fillna("Unbekannt").astype(str).str.strip()

# Schicht-Label (Codes aus deinen Daten: f/s/n/t)
shift_map = {"f": "Früh", "s": "Spät", "n": "Nacht", "t": "Tag"}
df["Schicht_label"] = df.get("Schicht", pd.Series(index=df.index)).map(shift_map)
df["Schicht_label"] = df["Schicht_label"].fillna(df.get("Schicht", pd.Series(index=df.index)).fillna("Unbekannt").astype(str))

# Zeit-Features
df["Start_ts"] = pd.to_datetime(df.get("Start", pd.Series(index=df.index)), errors="coerce")
df["Start_date"] = df["Start_ts"].dt.date
df["Start_hour"] = df["Start_ts"].dt.hour

weekday_de = {0:"Mo", 1:"Di", 2:"Mi", 3:"Do", 4:"Fr", 5:"Sa", 6:"So"}
df["Wochentag_de"] = df["Start_ts"].dt.dayofweek.map(weekday_de)

# Anzahl MA (numerisch) + Bins
df["MA"] = pd.to_numeric(df.get("Anzahl MA", pd.Series(index=df.index)), errors="coerce")
df["MA_bin"] = pd.cut(
    df["MA"],
    bins=[-0.1, 2, 3, 4, 5, 6, 99],
    labels=["<=2", "3", "4", "5", "6", ">=7"]
)

# Downtime (numerisch) + Bins
df["Downtime_min"] = pd.to_numeric(df.get("Downtime_min", pd.Series(index=df.index)), errors="coerce")
df["Downtime_bin"] = pd.cut(
    df["Downtime_min"],
    bins=[-0.1, 0, 5, 15, 30, 60, 999999],
    labels=["0", "1-5", "6-15", "16-30", "31-60", ">60"]
)

# Time-Blocks (optional)
df["Tagesblock"] = pd.cut(
    df["Start_hour"],
    bins=[-0.1, 5, 11, 17, 23],
    labels=["Nacht(0-5)", "Vormittag(6-11)", "Nachmittag(12-17)", "Abend(18-23)"]
)

# Quick-Checks
print("Zeilen:", len(df))
print("Schichten:", df["Schicht_label"].value_counts(dropna=False).to_dict())
print("Top Ursachen:", df["Ursache"].value_counts().head(10).to_dict())


In [None]:
# --- Hilfsfunktionen (Heatmap + Top-Kombinationen) ---
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

def plot_heatmap(pivot: pd.DataFrame, title: str, xlabel: str = "", ylabel: str = "", annotate: bool = False):
    # pivot: index=y, columns=x, values=z (numeric)
    if pivot.empty:
        print("Pivot ist leer – nichts zu plotten.")
        return

    data = pivot.values.astype(float)
    fig, ax = plt.subplots(figsize=(max(8, 0.45*len(pivot.columns)), max(3, 0.45*len(pivot.index))))
    im = ax.imshow(data, aspect="auto")
    ax.set_title(title)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)

    ax.set_xticks(np.arange(len(pivot.columns)))
    ax.set_xticklabels(pivot.columns, rotation=90)
    ax.set_yticks(np.arange(len(pivot.index)))
    ax.set_yticklabels(pivot.index)

    fig.colorbar(im, ax=ax, fraction=0.046, pad=0.04)

    if annotate and data.size <= 600:  # nur kleine Heatmaps annotieren
        for i in range(data.shape[0]):
            for j in range(data.shape[1]):
                v = data[i, j]
                if np.isfinite(v):
                    ax.text(j, i, f"{v:.0f}", ha="center", va="center", fontsize=8)

    plt.tight_layout()
    plt.show()

def top_combos(df_in: pd.DataFrame, group_cols, n=20, sort_by="downtime_sum"):
    g = (df_in
         .groupby(group_cols, dropna=False)
         .agg(events=("Downtime_min", "size"),
              downtime_sum=("Downtime_min", "sum"),
              downtime_avg=("Downtime_min", "mean"),
              downtime_median=("Downtime_min", "median"))
         .reset_index()
        )
    return g.sort_values(sort_by, ascending=False).head(n)


### 7.1 Schicht × Uhrzeit (Stoßzeiten je Schicht)

- **Heatmap Events** zeigt, wann in welcher Schicht die meisten Ereignisse starten.
- **Heatmap Downtime-Summe** zeigt, wann die teuersten Zeitfenster sind.


In [None]:
# --- Schicht × Stunde: Events & Downtime ---
pivot_events = pd.pivot_table(
    df, index="Schicht_label", columns="Start_hour",
    values="Downtime_min", aggfunc="size", fill_value=0
).reindex(columns=list(range(24)), fill_value=0)

pivot_downtime = pd.pivot_table(
    df, index="Schicht_label", columns="Start_hour",
    values="Downtime_min", aggfunc="sum", fill_value=0
).reindex(columns=list(range(24)), fill_value=0)

plot_heatmap(pivot_events, "Events nach Schicht und Start-Stunde", xlabel="Stunde", ylabel="Schicht", annotate=False)
plot_heatmap(pivot_downtime, "Downtime-Summe (min) nach Schicht und Start-Stunde", xlabel="Stunde", ylabel="Schicht", annotate=False)

# Top-Stunden je Schicht (nach Events)
pivot_events.apply(lambda s: s.sort_values(ascending=False).head(5), axis=1)


### 7.2 Ursache × Schicht (welche Ursachen dominieren in welcher Schicht?)

- **Top-N Ursachen** filtern, damit die Darstellung übersichtlich bleibt.
- Tabellen zeigen **Events**, **Downtime-Summe** und **Ø-Downtime**.


In [None]:
# --- Ursache × Schicht (Top-N) ---
TOP_N = 12  # anpassen
top_causes = df["Ursache"].value_counts().head(TOP_N).index
df_top = df[df["Ursache"].isin(top_causes)].copy()

tbl_shift_cause = (df_top
    .groupby(["Schicht_label", "Ursache"], dropna=False)
    .agg(events=("Downtime_min","size"),
         downtime_sum=("Downtime_min","sum"),
         downtime_avg=("Downtime_min","mean"))
    .reset_index()
    .sort_values(["Schicht_label","events"], ascending=[True,False])
)
display(tbl_shift_cause)

pivot_sc_events = tbl_shift_cause.pivot(index="Schicht_label", columns="Ursache", values="events").fillna(0)
pivot_sc_sum   = tbl_shift_cause.pivot(index="Schicht_label", columns="Ursache", values="downtime_sum").fillna(0)
pivot_sc_avg   = tbl_shift_cause.pivot(index="Schicht_label", columns="Ursache", values="downtime_avg").fillna(0)

plot_heatmap(pivot_sc_events, f"Events: Schicht × Ursache (Top {TOP_N})", xlabel="Ursache", ylabel="Schicht", annotate=False)
plot_heatmap(pivot_sc_sum,   f"Downtime-Summe: Schicht × Ursache (Top {TOP_N})", xlabel="Ursache", ylabel="Schicht", annotate=False)
plot_heatmap(pivot_sc_avg,   f"Ø Downtime: Schicht × Ursache (Top {TOP_N})", xlabel="Ursache", ylabel="Schicht", annotate=False)


### 7.3 Ursache × Uhrzeit (wann tritt welche Ursache auf?)

Hier siehst du, ob bestimmte Ursachen **zu bestimmten Uhrzeiten** gehäuft auftreten.


In [None]:
# --- Ursache × Stunde (Top-N nach Häufigkeit) ---
TOP_N = 12  # anpassen
top_causes = df["Ursache"].value_counts().head(TOP_N).index
df_top = df[df["Ursache"].isin(top_causes)].copy()

pivot_cause_hour_cnt = pd.pivot_table(
    df_top, index="Ursache", columns="Start_hour",
    values="Downtime_min", aggfunc="size", fill_value=0
).reindex(columns=list(range(24)), fill_value=0)

pivot_cause_hour_avg = pd.pivot_table(
    df_top, index="Ursache", columns="Start_hour",
    values="Downtime_min", aggfunc="mean", fill_value=0
).reindex(columns=list(range(24)), fill_value=np.nan)

plot_heatmap(pivot_cause_hour_cnt, f"Events: Ursache × Start-Stunde (Top {TOP_N})", xlabel="Stunde", ylabel="Ursache", annotate=False)
plot_heatmap(pivot_cause_hour_avg, f"Ø Downtime: Ursache × Start-Stunde (Top {TOP_N})", xlabel="Stunde", ylabel="Ursache", annotate=False)


### 7.4 Anzahl MA × Downtime (und Interaktion mit Schicht/Ursache)

Diese Blöcke zeigen:
- ob mehr/weniger Personal mit **längerer/kürzerer Downtime** zusammenhängt,
- ob der Zusammenhang **je Schicht** oder **je Ursache** unterschiedlich ist.


In [None]:
# --- MA × Downtime: Überblick ---
tmp = df.dropna(subset=["MA", "Downtime_min"]).copy()

# Korrelationen (robust: Spearman)
spearman = tmp[["MA","Downtime_min"]].corr(method="spearman").iloc[0,1]
pearson  = tmp[["MA","Downtime_min"]].corr(method="pearson").iloc[0,1]
print("Korrelation MA ↔ Downtime (Spearman):", round(float(spearman), 3))
print("Korrelation MA ↔ Downtime (Pearson): ", round(float(pearson), 3))

# Scatter (MA vs Downtime)
plt.figure(figsize=(9,5))
plt.scatter(tmp["MA"], tmp["Downtime_min"], alpha=0.25)
plt.title("Scatter: Anzahl MA vs Downtime (min)")
plt.xlabel("Anzahl MA")
plt.ylabel("Downtime (min)")
plt.tight_layout()
plt.show()

# Gruppiert: Schicht × MA (Events / Ø / Summe)
tbl_shift_ma = (tmp
    .groupby(["Schicht_label","MA"], dropna=False)
    .agg(events=("Downtime_min","size"),
         downtime_sum=("Downtime_min","sum"),
         downtime_avg=("Downtime_min","mean"))
    .reset_index()
    .sort_values(["Schicht_label","MA"])
)
display(tbl_shift_ma)

# Plot: Ø Downtime je MA und Schicht
for sh in sorted(tbl_shift_ma["Schicht_label"].dropna().unique()):
    sub = tbl_shift_ma[tbl_shift_ma["Schicht_label"]==sh]
    plt.figure(figsize=(8,4))
    plt.plot(sub["MA"], sub["downtime_avg"], marker="o")
    plt.title(f"Ø Downtime je Anzahl MA – Schicht: {sh}")
    plt.xlabel("Anzahl MA")
    plt.ylabel("Ø Downtime (min)")
    plt.tight_layout()
    plt.show()


In [None]:
# --- MA × Downtime × Ursache (Top-N Ursachen) ---
TOP_N = 10
top_causes = df["Ursache"].value_counts().head(TOP_N).index
tmp = df[df["Ursache"].isin(top_causes)].dropna(subset=["MA","Downtime_min"]).copy()

tbl_cause_ma = (tmp
    .groupby(["Ursache","MA"], dropna=False)
    .agg(events=("Downtime_min","size"),
         downtime_sum=("Downtime_min","sum"),
         downtime_avg=("Downtime_min","mean"))
    .reset_index()
    .sort_values(["Ursache","MA"])
)
display(tbl_cause_ma)

pivot = tbl_cause_ma.pivot(index="Ursache", columns="MA", values="downtime_avg").fillna(0)
plot_heatmap(pivot, f"Ø Downtime: Ursache × Anzahl MA (Top {TOP_N})", xlabel="Anzahl MA", ylabel="Ursache", annotate=False)


### 7.5 Dreifach-Kombinationen (Schicht × Station × Ursache)

Damit findest du die **teuersten** und **häufigsten** Problemkombinationen.


In [None]:
# --- Top Kombinationen nach Downtime-Summe ---
top_by_sum = top_combos(df, ["Schicht_label", "Station", "Ursache"], n=25, sort_by="downtime_sum")
display(top_by_sum)

# --- Top Kombinationen nach Häufigkeit (Events) ---
top_by_events = top_combos(df, ["Schicht_label", "Station", "Ursache"], n=25, sort_by="events")
display(top_by_events)

# Optional: nur ungeplante Ursachen (simple Heuristik – anpassen!)
planned_patterns = r"(wartung|reinigung|geplant|plan|service)"
df_unplanned = df[~df["Ursache"].str.contains(planned_patterns, case=False, na=False)].copy()

top_unplanned_sum = top_combos(df_unplanned, ["Schicht_label","Station","Ursache"], n=25, sort_by="downtime_sum")
display(top_unplanned_sum)


### 7.6 Auffällige lange Ausfälle: wer/wann/warum?

- Zeigt die **Top-Langläufer** und deren Kombinationen.
- Hilft, Ausreißer zu verstehen (z.B. 60-min-Blockungen, Wiederholungen, Sonderfälle).


In [None]:
# --- Long-Stop Outlier Analyse ---
q95 = df["Downtime_min"].quantile(0.95)
q99 = df["Downtime_min"].quantile(0.99)
print("P95 Downtime:", q95, "min")
print("P99 Downtime:", q99, "min")

long_df = df[df["Downtime_min"] >= q95].copy()
print("Anzahl Events >= P95:", len(long_df))

top_long = long_df.sort_values("Downtime_min", ascending=False).head(30)[
    ["Start_ts","Schicht_label","Start_hour","MA","Station","Ursache","Downtime_min","Bemerkung"]
]
display(top_long)

display(long_df["Schicht_label"].value_counts())
display(long_df["Ursache"].value_counts().head(15))
display(top_combos(long_df, ["Schicht_label","Station","Ursache"], n=20, sort_by="events"))


### 7.7 Zusammenhangsstärke zwischen Kategorien (Chi² / Cramér's V)

Cramér's V gibt grob an, wie stark zwei kategoriale Variablen zusammenhängen (0 = kein Zusammenhang, 1 = sehr stark).


In [None]:
# --- Cramér's V (kategoriale Zusammenhänge) ---
def cramers_v(confusion_matrix: pd.DataFrame) -> float:
    obs = confusion_matrix.values.astype(float)
    if obs.size == 0:
        return np.nan
    n = obs.sum()
    if n == 0:
        return np.nan
    row_sums = obs.sum(axis=1, keepdims=True)
    col_sums = obs.sum(axis=0, keepdims=True)
    expected = row_sums @ col_sums / n
    mask = expected > 0
    chi2 = ((obs[mask] - expected[mask])**2 / expected[mask]).sum()
    r, k = obs.shape
    phi2 = chi2 / n
    denom = max(1e-9, min(k-1, r-1))
    return float(np.sqrt(phi2 / denom))

def show_cramers_v(var_a: str, var_b: str, top_b=None):
    d = df[[var_a, var_b]].dropna().copy()
    if top_b is not None:
        top_vals = d[var_b].value_counts().head(top_b).index
        d = d[d[var_b].isin(top_vals)]
    cm = pd.crosstab(d[var_a], d[var_b])
    v = cramers_v(cm)
    print(f"Cramér's V({var_a} vs {var_b}) =", round(v, 3), "| shape:", cm.shape)
    display(cm.head(20))

show_cramers_v("Schicht_label", "Ursache", top_b=12)
show_cramers_v("Tagesblock", "Ursache", top_b=12)
show_cramers_v("Schicht_label", "MA_bin")


### Bonus: Mini-Modell (optional) – welche Faktoren erklären Downtime am stärksten?

Das ist kein „fertiges“ Predictive-Model, aber hilfreich, um schnell zu sehen, ob z.B. **Ursache** oder **Station** sehr dominant ist.


In [None]:
# --- Optional: RandomForest zur Feature-Importance (wenn sklearn installiert ist) ---
try:
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.compose import ColumnTransformer
    from sklearn.preprocessing import OneHotEncoder
    from sklearn.pipeline import Pipeline
    from sklearn.metrics import mean_absolute_error, r2_score

    model_df = df.dropna(subset=["Downtime_min","Start_hour"]).copy()
    model_df = model_df[model_df["Downtime_min"] >= 0]

    feature_cols_cat = ["Schicht_label","Station","Ursache","Tagesblock","Wochentag_de"]
    feature_cols_num = ["Start_hour","MA"]

    X = model_df[feature_cols_cat + feature_cols_num].copy()
    y = model_df["Downtime_min"].astype(float)

    pre = ColumnTransformer(
        transformers=[
            ("cat", OneHotEncoder(handle_unknown="ignore"), feature_cols_cat),
            ("num", "passthrough", feature_cols_num),
        ]
    )

    rf = RandomForestRegressor(
        n_estimators=300,
        random_state=42,
        n_jobs=-1,
        min_samples_leaf=3
    )

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    pipe = Pipeline(steps=[("pre", pre), ("rf", rf)])
    pipe.fit(X_train, y_train)

    pred = pipe.predict(X_test)
    print("MAE:", round(mean_absolute_error(y_test, pred), 2), "min")
    print("R²:", round(r2_score(y_test, pred), 3))

    ohe = pipe.named_steps["pre"].named_transformers_["cat"]
    cat_names = ohe.get_feature_names_out(feature_cols_cat)
    feature_names = np.concatenate([cat_names, np.array(feature_cols_num, dtype=object)])

    importances = pipe.named_steps["rf"].feature_importances_
    imp = pd.DataFrame({"feature": feature_names, "importance": importances}).sort_values("importance", ascending=False).head(25)
    display(imp)

except Exception as e:
    print("sklearn nicht verfügbar oder Fehler beim Modelllauf:", repr(e))
