# Analyse Störliste – Blatt „Aufschreibung“

Dieses Notebook:
1. lädt die Excel-Datei,
2. entfernt alle **leeren Zeilen**, die **ab der Spalte „Dauer Org-Mangel“** (und alle folgenden Spalten) **keine Daten** enthalten,
3. bereitet Zeit-/Dauerfelder auf und
4. analysiert **Stoßzeiten**, **Maschinen/Stationen** und **Fehlerursachen** inkl. Auffälligkeiten bei der **Ausfalldauer**.


In [None]:
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Datei-Pfad (im gleichen Ordner wie das Notebook oder anpassen)
FILE_PATH = "Stoerliste_Heckrungenanlage_2023_NEU.xlsx"
SHEET_NAME = "Aufschreibung"

pd.set_option("display.max_columns", 200)
pd.set_option("display.width", 200)



In [None]:
# --- Laden ---
df_raw = pd.read_excel(FILE_PATH, sheet_name=SHEET_NAME)

print("Rohdaten:", df_raw.shape)
display(df_raw.head(3))


In [None]:
# --- Spaltennamen normalisieren (Zeilenumbrüche/Mehrfachspaces entfernen) ---
df = df_raw.copy()
df.columns = [re.sub(r"\s+", " ", str(c).strip()) for c in df.columns]

# Zielspalte finden (robust, falls in Excel Zeilenumbrüche/Spaces anders sind)
target_pattern = re.compile(r"^Dauer\s*Org-?Mangel$", re.IGNORECASE)
start_col = None
for c in df.columns:
    if target_pattern.match(c):
        start_col = c
        break

if start_col is None:
    # Fallback: suche nach beiden Wörtern
    candidates = [c for c in df.columns if ("Dauer" in c) and ("Org" in c) and ("Mangel" in c)]
    if candidates:
        start_col = candidates[0]

if start_col is None:
    raise ValueError("Spalte 'Dauer Org-Mangel' konnte nicht gefunden werden. Bitte Spaltennamen prüfen.")

start_idx = list(df.columns).index(start_col)
cols_from = list(df.columns)[start_idx:]

print("Startspalte:", start_col)
print("Spalten ab Startspalte:", cols_from)


In [None]:
# --- Leere Zeilen entfernen: wenn ab Startspalte (inkl.) ALLES leer ist ---
df_clean = df.copy()

# Leere Strings -> NA (nur in object/string-Spalten)
for c in cols_from:
    if df_clean[c].dtype == object:
        df_clean[c] = df_clean[c].astype("string").str.strip()
        df_clean.loc[df_clean[c].isin(["", "nan", "NaN"]), c] = pd.NA

mask_keep = df_clean[cols_from].notna().any(axis=1)
df_clean = df_clean.loc[mask_keep].copy()

print("Nach dem Entfernen leerer Zeilen:", df_clean.shape)
display(df_clean.head(5))


In [None]:
# Optional: bereinigte Daten speichern
df_clean.to_csv("Aufschreibung_clean.csv", index=False)
df_clean.to_excel("Aufschreibung_clean.xlsx", index=False)

print("Gespeichert als: Aufschreibung_clean.csv / Aufschreibung_clean.xlsx")


In [None]:
# --- Aufbereitung: Zeitspalten, Ausfalldauer (min) ---
# Dauer-Spalten (in Minuten) – ggf. anpassen, falls andere Namen vorkommen
duration_cols = [
    "Dauer Org-Mangel",
    "Dauer Anlagen-Ausfall",
    "Dauer Anlagen-Ausfall intern",
    "Dauer Logistik- Defizite",
]
for c in duration_cols:
    if c in df_clean.columns:
        df_clean[c] = pd.to_numeric(df_clean[c], errors="coerce")

df_clean["Downtime_min"] = df_clean[duration_cols].sum(axis=1, skipna=True)

# Zeit robust in Sekunden umwandeln (Zeit-Objekte oder Strings)
import datetime as dt
def safe_time_to_seconds(x):
    if pd.isna(x):
        return np.nan
    if isinstance(x, dt.time):
        return x.hour*3600 + x.minute*60 + x.second
    s = str(x).strip()
    # 'HH:MM' oder 'HH:MM:SS'
    if re.match(r"^\d{1,2}:\d{2}(:\d{2})?$", s):
        parts = s.split(":")
        h = int(parts[0]); m = int(parts[1]); sec = int(parts[2]) if len(parts) > 2 else 0
        return h*3600 + m*60 + sec
    # Excel kann Zeiten als Tagesbruchteil speichern
    if re.match(r"^\d+(\.\d+)?$", s):
        frac = float(s)
        return int(round(frac*24*3600))
    return np.nan

date_norm = pd.to_datetime(df_clean["Datum"], errors="coerce").dt.normalize()

start_seconds = df_clean["Zeit von"].apply(safe_time_to_seconds)
end_seconds   = df_clean["Zeit bis"].apply(safe_time_to_seconds)

df_clean["Start"] = date_norm + pd.to_timedelta(start_seconds, unit="s")
df_clean["End"]   = date_norm + pd.to_timedelta(end_seconds, unit="s")
df_clean.loc[df_clean["End"] < df_clean["Start"], "End"] += pd.Timedelta(days=1)

# Outage-Events: alle Zeilen mit Downtime > 0
df_out = df_clean[df_clean["Downtime_min"] > 0].copy()

print("Events (Downtime>0):", df_out.shape[0])
print("Zeitraum:", df_out["Datum"].min(), "bis", df_out["Datum"].max())
df_out[["Datum","Schicht","Zeit von","Zeit bis","Downtime_min"]].head()


## 1) Überblick / KPIs

In [None]:
kpi = {
    "Events (Downtime>0)": int(df_out.shape[0]),
    "Gesamte Downtime (min)": float(df_out["Downtime_min"].sum()),
    "Ø Downtime je Event (min)": float(df_out["Downtime_min"].mean()),
    "Median Downtime (min)": float(df_out["Downtime_min"].median()),
}
pd.DataFrame([kpi])


## 2) Stoßzeiten (wann passieren Ausfälle?)

In [None]:
df_out["Start_hour"] = df_out["Start"].dt.hour
hour_stats = (df_out.dropna(subset=["Start_hour"])
              .groupby("Start_hour")
              .agg(events=("Downtime_min","size"),
                   downtime_min=("Downtime_min","sum"),
                   avg_downtime=("Downtime_min","mean"))
              .reset_index()
              .sort_values("Start_hour"))

display(hour_stats)

plt.figure(figsize=(10,4))
plt.bar(hour_stats["Start_hour"], hour_stats["events"])
plt.title("Anzahl Ausfälle nach Start-Stunde")
plt.xlabel("Stunde (0-23)")
plt.ylabel("Anzahl Events")
plt.xticks(range(0,24,1))
plt.show()

plt.figure(figsize=(10,4))
plt.bar(hour_stats["Start_hour"], hour_stats["downtime_min"])
plt.title("Gesamte Downtime (min) nach Start-Stunde")
plt.xlabel("Stunde (0-23)")
plt.ylabel("Downtime (min)")
plt.xticks(range(0,24,1))
plt.show()


In [None]:
# Heatmap: Wochentag x Stunde (Event-Anzahl)
df_out["DayName"] = df_out["Datum"].dt.day_name()
order = ["Monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday"]

heat = (df_out.pivot_table(index="DayName", columns="Start_hour", values="Downtime_min",
                           aggfunc="size", fill_value=0)
        .reindex(order))

plt.figure(figsize=(12,4))
plt.imshow(heat.values, aspect="auto")
plt.title("Heatmap: Anzahl Ausfälle (Wochentag x Stunde)")
plt.yticks(range(len(heat.index)), heat.index)
plt.xticks(range(0,24,1), range(0,24,1))
plt.xlabel("Stunde")
plt.colorbar(label="Anzahl Events")
plt.show()

display(heat)


## 3) Welche Maschinen/Stationen haben die meisten Fehler?

In [None]:
df_out["Station_norm"] = (df_out["Station/ OP"].astype("string")
                          .str.upper()
                          .str.replace(r"\s+", " ", regex=True)
                          .str.strip())

station_stats = (df_out.groupby("Station_norm")
                 .agg(events=("Downtime_min","size"),
                      downtime_min=("Downtime_min","sum"),
                      avg_downtime=("Downtime_min","mean"))
                 .sort_values(["events","downtime_min"], ascending=False))

display(station_stats.head(20))

top10 = station_stats.head(10).reset_index()

plt.figure(figsize=(10,4))
plt.bar(top10["Station_norm"], top10["events"])
plt.title("Top 10 Stationen nach Anzahl Events")
plt.xlabel("Station")
plt.ylabel("Events")
plt.xticks(rotation=45, ha="right")
plt.show()

plt.figure(figsize=(10,4))
plt.bar(top10["Station_norm"], top10["downtime_min"])
plt.title("Top 10 Stationen nach gesamter Downtime")
plt.xlabel("Station")
plt.ylabel("Downtime (min)")
plt.xticks(rotation=45, ha="right")
plt.show()


## 4) Welche Fehler/Ursachen wie oft? (Unterbrechungsursache)

In [None]:
cause_stats = (df_out.groupby("Unterbrechungsursache")
               .agg(events=("Downtime_min","size"),
                    total_downtime=("Downtime_min","sum"),
                    avg_downtime=("Downtime_min","mean"),
                    median_downtime=("Downtime_min","median"))
               .sort_values("events", ascending=False))

display(cause_stats.head(20))

top_causes = cause_stats.head(12).reset_index()

plt.figure(figsize=(12,4))
plt.bar(top_causes["Unterbrechungsursache"].astype(str), top_causes["events"])
plt.title("Top Ursachen nach Häufigkeit")
plt.xlabel("Unterbrechungsursache")
plt.ylabel("Events")
plt.xticks(rotation=60, ha="right")
plt.show()

top_causes_downtime = cause_stats.sort_values("total_downtime", ascending=False).head(12).reset_index()

plt.figure(figsize=(12,4))
plt.bar(top_causes_downtime["Unterbrechungsursache"].astype(str), top_causes_downtime["total_downtime"])
plt.title("Top Ursachen nach gesamter Downtime")
plt.xlabel("Unterbrechungsursache")
plt.ylabel("Downtime (min)")
plt.xticks(rotation=60, ha="right")
plt.show()


## 5) Auffälligkeiten bei der Ausfalldauer (Kombinationen, Ausreißer)

In [None]:
# Verteilung der Downtime
plt.figure(figsize=(8,4))
plt.hist(df_out["Downtime_min"].dropna(), bins=30)
plt.title("Verteilung: Downtime je Event (min)")
plt.xlabel("Downtime (min)")
plt.ylabel("Anzahl Events")
plt.show()

# Downtime nach Schicht (Boxplot)
plt.figure(figsize=(8,4))
data = [df_out.loc[df_out["Schicht"]==s, "Downtime_min"].dropna() for s in sorted(df_out["Schicht"].dropna().unique())]
labels = [s for s in sorted(df_out["Schicht"].dropna().unique())]
plt.boxplot(data, labels=labels, showfliers=False)
plt.title("Downtime je Event nach Schicht (ohne Ausreißer)")
plt.xlabel("Schicht")
plt.ylabel("Downtime (min)")
plt.show()

# Ausreißer: Top 20 längste Events
top_long = (df_out.sort_values("Downtime_min", ascending=False)
            .loc[:, ["Datum","Start","End","Schicht","Station_norm","Unterbrechungsursache","Downtime_min","Bemerkung"]]
            .head(20))
display(top_long)


In [None]:
# Zusammenhang mit Output / Personal (wenn vorhanden)
num_cols = ["Downtime_min", "Dauer Arbeits-zeit", "Anzahl MA", "Menge N.i. O.", "Profi", "AHV", "Menge Gesamt (Stück)"]
corr = df_out[num_cols].corr(method="spearman", numeric_only=True)
display(corr)

# Scatter: Downtime vs Menge Gesamt
plt.figure(figsize=(6,4))
x = df_out["Menge Gesamt (Stück)"]
y = df_out["Downtime_min"]
plt.scatter(x, y, s=10)
plt.title("Downtime vs. Menge Gesamt (Stück)")
plt.xlabel("Menge Gesamt (Stück)")
plt.ylabel("Downtime (min)")
plt.show()

# Scatter: Downtime vs Anzahl MA
plt.figure(figsize=(6,4))
x = df_out["Anzahl MA"]
y = df_out["Downtime_min"]
plt.scatter(x, y, s=10)
plt.title("Downtime vs. Anzahl MA")
plt.xlabel("Anzahl MA")
plt.ylabel("Downtime (min)")
plt.show()

# Aggregation nach Anzahl MA
ma_stats = (df_out.groupby("Anzahl MA")
            .agg(events=("Downtime_min","size"),
                 avg_downtime=("Downtime_min","mean"),
                 total_downtime=("Downtime_min","sum"))
            .sort_index())
display(ma_stats)


## 6) Ideen für nächste Schritte

- **Freitext reduzieren:** „Freitext“ ist sehr häufig – ideal wäre eine standardisierte Fehlerklassifikation (Dropdown).
- **Stationen konsolidieren:** z.B. `R 06` vs. `R06` (falls vorhanden) vereinheitlichen.
- **Ausfälle nach Priorität:** Fokus auf Kombination aus **hoher Downtime** + **hoher Häufigkeit** (Pareto).
- **Geplante vs. ungeplante Stops:** Ursachen wie „Wartungsplan“/„Reinigung“ ggf. separat betrachten.
