# Kapitel 4: Pandas für Datenanalyse - Bystronic Tutorial

Willkommen zum umfassenden Pandas-Tutorial für Bystronic-Entwickler! 🐼📊

Dieses interaktive Jupyter Notebook führt Sie durch alle wichtigen Pandas-Konzepte mit praktischen Beispielen aus der Fertigungstechnik.

## 📚 Was Sie in diesem Tutorial lernen:

1. **Pandas-Grundlagen**: DataFrames und Series verstehen
2. **Datenimport/-export**: CSV, Excel, JSON und andere Formate
3. **Datenbereinigung**: Fehlende Werte und Duplikate behandeln
4. **Datenanalyse**: Statistische Auswertungen und Aggregationen
5. **Pivot-Tabellen**: Daten zusammenfassen und strukturieren
6. **Zeitreihenanalyse**: Datum/Zeit-basierte Daten analysieren
7. **JOIN-Operationen**: Mehrere DataFrames kombinieren
8. **Praktische Übungen**: Reale Produktionsdaten analysieren

---

💡 **Für Excel/VBA-Entwickler**: Pandas ist wie Excel auf Steroiden - viel mächtiger und programmatisch steuerbar!


## 🚀 Setup und Bibliotheken importieren

In [None]:
# Wichtige Bibliotheken importieren
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Einstellungen für bessere Darstellung
pd.set_option("display.max_columns", 10)
pd.set_option("display.float_format", "{:.2f}".format)
warnings.filterwarnings("ignore")
plt.style.use("default")

print("🐼 Pandas Version:", pd.__version__)
print("🔢 NumPy Version:", np.__version__)
print("\n✅ Setup abgeschlossen! Bereit für Datenanalyse.")

---

# 1️⃣ DataFrame-Grundlagen mit Maschinendaten

DataFrames sind das Herzstück von Pandas - vergleichbar mit Excel-Arbeitsblättern, aber viel mächtiger!

## 1.1 Erstellung eines DataFrames aus Maschinendaten

In [None]:
# Typische Bystronic Maschinendaten
maschinendaten = {
    "Maschine": [
        "ByStar_Fiber_4020",
        "ByStar_Fiber_6020",
        "Xpert_320",
        "Xpert_400",
        "ByTrans_6535",
        "ByTrans_8040",
        "BendMaster_240",
        "BendMaster_320",
    ],
    "Typ": [
        "Laser",
        "Laser",
        "Plasma",
        "Plasma",
        "Stanzen",
        "Stanzen",
        "Biegen",
        "Biegen",
    ],
    "Baujahr": [2020, 2019, 2021, 2018, 2022, 2017, 2020, 2019],
    "Max_Leistung_kW": [4.0, 6.0, 32.0, 40.0, None, None, 240.0, 320.0],
    "Produktionszeit_h": [
        2450.5,
        3890.2,
        1200.8,
        2250.4,
        1890.1,
        2670.3,
        1450.7,
        2100.9,
    ],
    "Wartung_fällig": [True, False, True, False, True, False, False, True],
    "Standort": [
        "Halle_A",
        "Halle_A",
        "Halle_B",
        "Halle_B",
        "Halle_C",
        "Halle_C",
        "Halle_D",
        "Halle_D",
    ],
}

df_maschinen = pd.DataFrame(maschinendaten)
print("🏭 Bystronic Maschinendaten DataFrame:")
print("=" * 50)
display(df_maschinen)

## 1.2 DataFrame-Eigenschaften erkunden

In [None]:
print("📊 DATAFRAME-EIGENSCHAFTEN")
print("=" * 40)

print(
    f"📏 Dimensionen: {df_maschinen.shape} (Zeilen: {df_maschinen.shape[0]}, Spalten: {df_maschinen.shape[1]})"
)
print(f"📝 Spalten: {list(df_maschinen.columns)}")
print(f"🔢 Index: {list(df_maschinen.index)}")

print("\n📋 Datentypen:")
display(df_maschinen.dtypes)

print("\n📊 Statistische Übersicht (nur numerische Spalten):")
display(df_maschinen.describe())

## 1.3 Schnelle Inspektion der Daten

In [None]:
print("🔍 DATENINSPEKTION")
print("=" * 30)

print("📋 Erste 3 Zeilen:")
display(df_maschinen.head(3))

print("\n📋 Letzte 2 Zeilen:")
display(df_maschinen.tail(2))

print("\n📊 Detaillierte Informationen:")
df_maschinen.info()

---

# 2️⃣ Datenauswahl und -filterung

Lernen Sie, wie Sie gezielt auf Ihre Daten zugreifen - viel flexibler als Excel!

## 2.1 Spalten auswählen

In [None]:
print("🎯 SPALTENAUSWAHL")
print("=" * 25)

print("📝 Eine Spalte (Series):")
print(df_maschinen["Maschine"])

print("\n📝 Mehrere Spalten (DataFrame):")
display(df_maschinen[["Maschine", "Typ", "Produktionszeit_h"]])

print("\n📊 Numerische Spalten für Berechnungen:")
numerische_spalten = df_maschinen.select_dtypes(include=[np.number])
display(numerische_spalten)

## 2.2 Zeilen auswählen mit .loc und .iloc

In [None]:
print("🎯 ZEILENAUSWAHL")
print("=" * 25)

print("📍 .loc - Label-basiert (erste Zeile):")
display(df_maschinen.loc[0])

print("\n📍 .loc - Zeilen- und Spaltenbereich:")
display(df_maschinen.loc[1:3, ["Maschine", "Typ", "Standort"]])

print("\n📍 .iloc - Index-basiert (erste 2 Zeilen, erste 4 Spalten):")
display(df_maschinen.iloc[0:2, 0:4])

print("\n📍 .iloc - Letzte Zeile, alle Spalten:")
display(df_maschinen.iloc[-1, :])

## 2.3 Datenfilterung mit Boolean Indexing

In [None]:
print("🔍 BOOLEAN INDEXING - FILTERUNG")
print("=" * 35)

# Einfache Filter
print("🔧 Maschinen mit fälliger Wartung:")
wartung_filter = df_maschinen["Wartung_fällig"]
display(df_maschinen[wartung_filter])

print("\n⚡ Nur Laser-Maschinen:")
laser_filter = df_maschinen["Typ"] == "Laser"
display(df_maschinen[laser_filter])

print("\n📊 Hohe Produktionszeit (>2000h):")
hohe_produktion = df_maschinen["Produktionszeit_h"] > 2000
display(df_maschinen[hohe_produktion])

# Kombinierte Filter
print("\n🔧⚡ Laser-Maschinen mit fälliger Wartung:")
kombiniert = (df_maschinen["Typ"] == "Laser") & (df_maschinen["Wartung_fällig"])
display(df_maschinen[kombiniert])

# String-Operationen
print("\n🔤 Maschinen mit 'By' im Namen:")
by_maschinen = df_maschinen["Maschine"].str.contains("By")
display(df_maschinen[by_maschinen])

---

# 3️⃣ Datenimport und -export

Arbeiten Sie mit verschiedenen Datenformaten - CSV, Excel, JSON und mehr!

## 3.1 Beispieldaten erstellen und exportieren

In [None]:
# Erweiterte Produktionsdaten erstellen
np.random.seed(42)  # Für reproduzierbare Ergebnisse

# Simuliere tägliche Produktionsdaten für 30 Tage
start_datum = pd.date_range("2024-01-01", periods=30, freq="D")
maschinen_liste = [
    "ByStar_Fiber_4020",
    "ByStar_Fiber_6020",
    "Xpert_320",
    "ByTrans_6535",
]

produktionsdaten = []
for datum in start_datum:
    for maschine in maschinen_liste:
        # Simuliere realistische Produktionsdaten
        laufzeit = np.random.uniform(6, 10)  # Stunden pro Tag
        teile_produziert = int(np.random.uniform(50, 200))
        ausschuss_rate = np.random.uniform(0.01, 0.05)  # 1-5% Ausschuss
        energieverbrauch = laufzeit * np.random.uniform(15, 25)  # kWh

        produktionsdaten.append(
            {
                "Datum": datum,
                "Maschine": maschine,
                "Laufzeit_h": round(laufzeit, 2),
                "Teile_produziert": teile_produziert,
                "Ausschuss_Stück": int(teile_produziert * ausschuss_rate),
                "Ausschuss_Rate": round(ausschuss_rate, 3),
                "Energieverbrauch_kWh": round(energieverbrauch, 1),
                "Schicht": np.random.choice(["Früh", "Spät", "Nacht"]),
            }
        )

df_produktion = pd.DataFrame(produktionsdaten)
print(f"📊 Produktionsdaten erstellt: {len(df_produktion)} Datensätze")
display(df_produktion.head(10))

## 3.2 CSV Export und Import

In [None]:
print("💾 CSV EXPORT UND IMPORT")
print("=" * 30)

# CSV exportieren
csv_datei = "produktionsdaten.csv"
df_produktion.to_csv(csv_datei, index=False, encoding="utf-8", sep=";")
print(f"✅ Daten exportiert: {csv_datei}")

# CSV importieren
df_geladen = pd.read_csv(csv_datei, sep=";", parse_dates=["Datum"])
print(f"✅ Daten geladen: {len(df_geladen)} Zeilen")

# Datentypen prüfen
print("\n📋 Datentypen nach Import:")
print(df_geladen.dtypes)

display(df_geladen.head(3))

## 3.3 Excel Export und Import

In [None]:
print("📊 EXCEL EXPORT UND IMPORT")
print("=" * 35)

try:
    # Excel-Datei mit mehreren Arbeitsblättern erstellen
    excel_datei = "bystronic_daten.xlsx"

    with pd.ExcelWriter(excel_datei, engine="openpyxl") as writer:
        df_maschinen.to_excel(writer, sheet_name="Maschinenstamm", index=False)
        df_produktion.to_excel(writer, sheet_name="Produktionsdaten", index=False)

    print(f"✅ Excel-Datei erstellt: {excel_datei}")

    # Excel-Daten lesen
    df_maschinen_excel = pd.read_excel(excel_datei, sheet_name="Maschinenstamm")
    df_produktion_excel = pd.read_excel(excel_datei, sheet_name="Produktionsdaten")

    print(f"✅ Maschinenstamm geladen: {len(df_maschinen_excel)} Zeilen")
    print(f"✅ Produktionsdaten geladen: {len(df_produktion_excel)} Zeilen")

    # Arbeitsblatt-Namen anzeigen
    excel_info = pd.ExcelFile(excel_datei)
    print(f"📋 Arbeitsblätter: {excel_info.sheet_names}")

except ImportError:
    print("⚠️ Für Excel-Support installieren Sie: pip install openpyxl")
except Exception as e:
    print(f"❌ Fehler beim Excel-Handling: {e}")

---

# 4️⃣ Datenbereinigung

Reale Daten sind oft unvollständig oder fehlerhaft. Lernen Sie, wie Sie Ihre Daten bereinigen!

## 4.1 Fehlende Werte identifizieren und behandeln

In [None]:
print("🧹 FEHLENDE WERTE BEHANDELN")
print("=" * 35)

# Fehlende Werte im Maschinendataset anzeigen
print("📊 Fehlende Werte pro Spalte:")
fehlende_werte = df_maschinen.isnull().sum()
print(fehlende_werte[fehlende_werte > 0])

print("\n🔍 Zeilen mit fehlenden Werten:")
zeilen_mit_na = df_maschinen[df_maschinen.isnull().any(axis=1)]
display(zeilen_mit_na)

# Verschiedene Methoden für fehlende Werte
print("\n💡 BEHANDLUNGSSTRATEGIEN:")
print("-" * 30)

# 1. Zeilen mit NaN entfernen
df_ohne_na = df_maschinen.dropna()
print(f"1️⃣ Nach dropna(): {len(df_ohne_na)} Zeilen (vorher: {len(df_maschinen)})")

# 2. Mit Durchschnitt füllen (nur für numerische Spalten sinnvoll)
df_filled_mean = df_maschinen.copy()
df_filled_mean["Max_Leistung_kW"] = df_filled_mean["Max_Leistung_kW"].fillna(
    df_filled_mean["Max_Leistung_kW"].mean()
)
print(f"2️⃣ Mit Durchschnitt gefüllt: {df_filled_mean['Max_Leistung_kW'].mean():.1f} kW")

# 3. Mit spezifischem Wert füllen
df_filled_value = df_maschinen.copy()
df_filled_value["Max_Leistung_kW"] = df_filled_value["Max_Leistung_kW"].fillna(0)
print("3️⃣ Mit 0 gefüllt (für Maschinen ohne Leistungsangabe)")

display(df_filled_value)

## 4.2 Duplikate erkennen und entfernen

In [None]:
print("🔄 DUPLIKATE BEHANDELN")
print("=" * 25)

# Künstlich Duplikate erstellen für Demo
df_mit_duplikaten = pd.concat(
    [df_produktion, df_produktion.iloc[:5]], ignore_index=True
)
print(f"📊 DataFrame mit Duplikaten: {len(df_mit_duplikaten)} Zeilen")

# Duplikate identifizieren
duplikate = df_mit_duplikaten.duplicated()
print(f"🔄 Anzahl Duplikate: {duplikate.sum()}")

# Duplikate anzeigen
if duplikate.sum() > 0:
    print("\n🔍 Duplikate Zeilen:")
    display(df_mit_duplikaten[duplikate])

# Duplikate entfernen
df_ohne_duplikate = df_mit_duplikaten.drop_duplicates()
print(f"\n✅ Nach Duplikat-Entfernung: {len(df_ohne_duplikate)} Zeilen")

# Duplikate basierend auf bestimmten Spalten
df_ohne_duplikate_spalten = df_mit_duplikaten.drop_duplicates(
    subset=["Datum", "Maschine"], keep="first"
)
print(f"✅ Duplikate nur nach Datum+Maschine: {len(df_ohne_duplikate_spalten)} Zeilen")

## 4.3 Datentypen korrigieren und validieren

In [None]:
print("🔧 DATENTYPEN KORRIGIEREN")
print("=" * 30)

# Aktueller Zustand
print("📋 Aktuelle Datentypen:")
print(df_produktion.dtypes)

# Datentypen konvertieren
df_korrigiert = df_produktion.copy()

# Kategorische Daten
df_korrigiert["Maschine"] = df_korrigiert["Maschine"].astype("category")
df_korrigiert["Schicht"] = df_korrigiert["Schicht"].astype("category")

# Speicher-effiziente numerische Typen
df_korrigiert["Teile_produziert"] = df_korrigiert["Teile_produziert"].astype("int16")
df_korrigiert["Ausschuss_Stück"] = df_korrigiert["Ausschuss_Stück"].astype("int8")

print("\n📋 Korrigierte Datentypen:")
print(df_korrigiert.dtypes)

# Speicher-Vergleich
original_memory = df_produktion.memory_usage(deep=True).sum() / 1024
korrigiert_memory = df_korrigiert.memory_usage(deep=True).sum() / 1024
print("\n💾 Speicherverbrauch:")
print(f"   Original: {original_memory:.1f} KB")
print(f"   Korrigiert: {korrigiert_memory:.1f} KB")
print(f"   Ersparnis: {(1 - korrigiert_memory / original_memory) * 100:.1f}%")

---

# 5️⃣ Datenanalyse und Aggregationen

Jetzt wird's interessant! Lernen Sie, wie Sie Erkenntnisse aus Ihren Daten gewinnen.

## 5.1 Grundlegende Statistiken

In [None]:
print("📊 GRUNDLEGENDE STATISTIKEN")
print("=" * 35)

# Gesamtübersicht der Produktionsdaten
print("📈 Statistische Kennzahlen:")
display(df_produktion.describe())

# Einzelne Kennzahlen
print("\n🎯 SCHLÜSSELKENNZAHLEN:")
print("-" * 25)
print(f"📊 Gesamte Laufzeit: {df_produktion['Laufzeit_h'].sum():.1f} Stunden")
print(
    f"🔧 Durchschnittliche Laufzeit/Tag: {df_produktion['Laufzeit_h'].mean():.2f} Stunden"
)
print(f"⚙️ Gesamte Teileproduktion: {df_produktion['Teile_produziert'].sum():,} Stück")
print(
    f"❌ Durchschnittliche Ausschussrate: {df_produktion['Ausschuss_Rate'].mean():.3f} ({df_produktion['Ausschuss_Rate'].mean() * 100:.1f}%)"
)
print(
    f"⚡ Gesamter Energieverbrauch: {df_produktion['Energieverbrauch_kWh'].sum():.1f} kWh"
)

# Extreme Werte
print("\n🔍 EXTREME WERTE:")
print("-" * 20)
beste_produktion = df_produktion.loc[df_produktion["Teile_produziert"].idxmax()]
schlechteste_produktion = df_produktion.loc[df_produktion["Teile_produziert"].idxmin()]

print(f"🏆 Beste Tagesproduktion: {beste_produktion['Teile_produziert']} Teile")
print(
    f"   → Maschine: {beste_produktion['Maschine']} am {beste_produktion['Datum'].strftime('%d.%m.%Y')}"
)
print(
    f"📉 Niedrigste Tagesproduktion: {schlechteste_produktion['Teile_produziert']} Teile"
)
print(
    f"   → Maschine: {schlechteste_produktion['Maschine']} am {schlechteste_produktion['Datum'].strftime('%d.%m.%Y')}"
)

## 5.2 Gruppierung und Aggregation

In [None]:
print("🏷️ GRUPPIERUNG UND AGGREGATION")
print("=" * 40)

# Gruppierung nach Maschine
print("🤖 Leistung pro Maschine:")
maschinen_stats = (
    df_produktion.groupby("Maschine")
    .agg(
        {
            "Laufzeit_h": ["sum", "mean", "count"],
            "Teile_produziert": ["sum", "mean"],
            "Ausschuss_Rate": "mean",
            "Energieverbrauch_kWh": ["sum", "mean"],
        }
    )
    .round(2)
)

# Spalten-Namen vereinfachen
maschinen_stats.columns = ["_".join(col).strip() for col in maschinen_stats.columns]
display(maschinen_stats)

# Gruppierung nach Schicht
print("\n🕐 Leistung pro Schicht:")
schicht_stats = (
    df_produktion.groupby("Schicht")
    .agg(
        {
            "Laufzeit_h": "mean",
            "Teile_produziert": "mean",
            "Ausschuss_Rate": "mean",
            "Energieverbrauch_kWh": "mean",
        }
    )
    .round(2)
)
display(schicht_stats)

# Ranking erstellen
print("\n🏆 MASCHINEN-RANKING:")
print("-" * 25)
ranking = (
    df_produktion.groupby("Maschine")
    .agg({"Teile_produziert": "sum", "Ausschuss_Rate": "mean"})
    .round(3)
)

ranking["Effizienz_Score"] = (
    ranking["Teile_produziert"] * (1 - ranking["Ausschuss_Rate"])
).round(0)

ranking_sortiert = ranking.sort_values("Effizienz_Score", ascending=False)
display(ranking_sortiert)

## 5.3 Erweiterte Aggregationen mit transform und apply

In [None]:
print("🔄 ERWEITERTE AGGREGATIONEN")
print("=" * 35)

# Transform: Berechnung innerhalb der Gruppen
df_erweitert = df_produktion.copy()

# Durchschnitt pro Maschine hinzufügen
df_erweitert["Durchschnitt_Teile_Maschine"] = df_erweitert.groupby("Maschine")[
    "Teile_produziert"
].transform("mean")

# Abweichung vom Maschinendurchschnitt
df_erweitert["Abweichung_vom_Durchschnitt"] = (
    df_erweitert["Teile_produziert"] - df_erweitert["Durchschnitt_Teile_Maschine"]
)

# Prozentuale Abweichung
df_erweitert["Abweichung_Prozent"] = (
    df_erweitert["Abweichung_vom_Durchschnitt"]
    / df_erweitert["Durchschnitt_Teile_Maschine"]
    * 100
).round(1)

print("📊 Daten mit Durchschnitts-Vergleich:")
display(
    df_erweitert[
        [
            "Datum",
            "Maschine",
            "Teile_produziert",
            "Durchschnitt_Teile_Maschine",
            "Abweichung_Prozent",
        ]
    ].head(10)
)


# Custom Aggregation Function
def produktions_analyse(gruppe):
    return pd.Series(
        {
            "Tage_aktiv": len(gruppe),
            "Max_Tagesproduktion": gruppe["Teile_produziert"].max(),
            "Min_Tagesproduktion": gruppe["Teile_produziert"].min(),
            "Variabilität": gruppe["Teile_produziert"].std(),
            "Beste_Ausschuss": gruppe["Ausschuss_Rate"].min(),
            "Schlechteste_Ausschuss": gruppe["Ausschuss_Rate"].max(),
        }
    )


print("\n🔍 Detaillierte Maschinen-Analyse:")
detailanalyse = df_produktion.groupby("Maschine").apply(produktions_analyse).round(3)
display(detailanalyse)

---

# 6️⃣ Pivot-Tabellen

Excel-Nutzer aufgepasst! Pivot-Tabellen in Pandas sind noch mächtiger als in Excel!

## 6.1 Einfache Pivot-Tabellen

In [None]:
print("📊 PIVOT-TABELLEN")
print("=" * 20)

# Einfache Pivot-Tabelle: Durchschnittliche Produktion pro Maschine und Schicht
pivot_produktion = df_produktion.pivot_table(
    values="Teile_produziert",
    index="Maschine",
    columns="Schicht",
    aggfunc="mean",
    fill_value=0,
).round(1)

print("🔄 Durchschnittliche Teileproduktion pro Maschine und Schicht:")
display(pivot_produktion)

# Mehrere Werte in einer Pivot-Tabelle
pivot_multi = df_produktion.pivot_table(
    values=["Teile_produziert", "Laufzeit_h", "Ausschuss_Rate"],
    index="Maschine",
    columns="Schicht",
    aggfunc={
        "Teile_produziert": "mean",
        "Laufzeit_h": "mean",
        "Ausschuss_Rate": "mean",
    },
    fill_value=0,
).round(3)

print("\n📈 Multi-Value Pivot-Tabelle:")
display(pivot_multi)

## 6.2 Erweiterte Pivot-Tabellen mit Totals

In [None]:
print("📊 PIVOT-TABELLEN MIT TOTALS")
print("=" * 35)

# Pivot mit Summen (margins=True)
pivot_mit_summen = df_produktion.pivot_table(
    values="Teile_produziert",
    index="Maschine",
    columns="Schicht",
    aggfunc="sum",
    margins=True,  # Fügt Zeilen- und Spaltensummen hinzu
    margins_name="Gesamt",
)

print("🔢 Gesamtproduktion mit Zeilen- und Spaltensummen:")
display(pivot_mit_summen)

# Komplexere Pivot mit mehreren Index-Ebenen
# Erst Wochentage zu den Produktionsdaten hinzufügen
df_produktion["Wochentag"] = df_produktion["Datum"].dt.day_name()
df_produktion["Kalenderwoche"] = df_produktion["Datum"].dt.isocalendar().week

pivot_komplex = df_produktion.pivot_table(
    values="Energieverbrauch_kWh",
    index=["Maschine", "Schicht"],
    columns="Wochentag",
    aggfunc="mean",
    fill_value=0,
).round(1)

print("\n⚡ Energieverbrauch pro Maschine, Schicht und Wochentag:")
display(pivot_komplex.head(10))  # Nur ersten 10 Zeilen anzeigen

## 6.3 Cross-Tab für Häufigkeitsanalysen

In [None]:
print("📊 CROSSTAB - HÄUFIGKEITSANALYSE")
print("=" * 40)

# Einfache Kreuztabelle
crosstab_einfach = pd.crosstab(
    df_produktion["Maschine"], df_produktion["Schicht"], margins=True
)

print("🔄 Anzahl Produktionstage pro Maschine und Schicht:")
display(crosstab_einfach)

# Kreuztabelle mit Werten (statt nur Häufigkeiten)
crosstab_werte = pd.crosstab(
    df_produktion["Maschine"],
    df_produktion["Schicht"],
    values=df_produktion["Teile_produziert"],
    aggfunc="mean",
    margins=True,
).round(1)

print("\n📈 Durchschnittliche Produktion pro Maschine und Schicht:")
display(crosstab_werte)

# Prozentuale Verteilung
crosstab_prozent = (
    pd.crosstab(
        df_produktion["Maschine"],
        df_produktion["Schicht"],
        normalize="index",  # Prozent pro Zeile
    )
    * 100
)

print("\n📊 Prozentuale Verteilung der Schichten pro Maschine:")
display(crosstab_prozent.round(1))

---

# 7️⃣ Zeitreihenanalyse

Arbeiten Sie professionell mit Datums- und Zeitdaten - ein häufiges Thema in der Produktion!

## 7.1 Datum/Zeit-Operationen

In [None]:
print("📅 DATUM/ZEIT-OPERATIONEN")
print("=" * 30)

# Datum-Features extrahieren
df_zeit = df_produktion.copy()
df_zeit["Jahr"] = df_zeit["Datum"].dt.year
df_zeit["Monat"] = df_zeit["Datum"].dt.month
df_zeit["Tag"] = df_zeit["Datum"].dt.day
df_zeit["Wochentag"] = df_zeit["Datum"].dt.day_name()
df_zeit["Kalenderwoche"] = df_zeit["Datum"].dt.isocalendar().week
df_zeit["Quartal"] = df_zeit["Datum"].dt.quarter

print("📊 Datum mit extrahierten Features:")
display(
    df_zeit[
        ["Datum", "Jahr", "Monat", "Tag", "Wochentag", "Kalenderwoche", "Quartal"]
    ].head(10)
)

# Wochentag-Analyse
print("\n📈 Produktivität nach Wochentagen:")
wochentag_stats = (
    df_zeit.groupby("Wochentag")
    .agg({"Teile_produziert": "mean", "Laufzeit_h": "mean", "Ausschuss_Rate": "mean"})
    .round(2)
)

# Richtige Reihenfolge der Wochentage
wochentag_reihenfolge = [
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday",
    "Saturday",
    "Sunday",
]
wochentag_stats = wochentag_stats.reindex(wochentag_reihenfolge)
display(wochentag_stats.dropna())

## 7.2 Zeitbasierte Gruppierungen und Resampling

In [None]:
print("📊 ZEITBASIERTE GRUPPIERUNGEN")
print("=" * 35)

# DataFrame mit Datum als Index setzen
df_zeitindex = df_produktion.set_index("Datum").copy()

# Wöchentliche Aggregation
print("📅 Wöchentliche Produktionsübersicht:")
woechentlich = (
    df_zeitindex.resample("W")
    .agg(
        {
            "Teile_produziert": "sum",
            "Laufzeit_h": "sum",
            "Ausschuss_Rate": "mean",
            "Energieverbrauch_kWh": "sum",
        }
    )
    .round(2)
)
display(woechentlich)

# Gleitende Durchschnitte (Moving Averages)
print("\n📈 Gleitende Durchschnitte (7-Tage-Fenster):")
df_ma = df_produktion.set_index("Datum")[["Teile_produziert", "Ausschuss_Rate"]].copy()

# Sortieren nach Datum für korrekte gleitende Durchschnitte
df_ma = df_ma.sort_index()

df_ma["Teile_MA7"] = df_ma["Teile_produziert"].rolling(window=7).mean().round(1)
df_ma["Ausschuss_MA7"] = df_ma["Ausschuss_Rate"].rolling(window=7).mean().round(3)

print("Beispiel - gleitender Durchschnitt:")
display(df_ma.tail(10))

# Trend-Analyse
print("\n📊 Trend-Indikatoren:")
erste_woche = woechentlich.iloc[0]["Teile_produziert"]
letzte_woche = woechentlich.iloc[-1]["Teile_produziert"]
trend_prozent = ((letzte_woche - erste_woche) / erste_woche) * 100

print(f"📈 Produktionstrend: {trend_prozent:+.1f}% über den Zeitraum")
print(f"📊 Erste Woche: {erste_woche:.0f} Teile")
print(f"📊 Letzte Woche: {letzte_woche:.0f} Teile")

## 7.3 Arbeitstage und Schichtplanung

In [None]:
print("🏭 SCHICHTPLANUNG UND ARBEITSTAGE")
print("=" * 40)

# Business Days (Arbeitstage)
start_datum = pd.Timestamp("2024-01-01")
end_datum = pd.Timestamp("2024-01-31")

# Alle Tage vs. Arbeitstage
alle_tage = pd.date_range(start_datum, end_datum, freq="D")
arbeitstage = pd.bdate_range(start_datum, end_datum, freq="B")

print(f"📅 Alle Tage im Januar 2024: {len(alle_tage)}")
print(f"🏭 Arbeitstage im Januar 2024: {len(arbeitstage)}")
print(f"🎯 Wochenend-/Feiertage: {len(alle_tage) - len(arbeitstage)}")

# Schichtzeiten simulieren
schichtzeiten = pd.DataFrame(
    {
        "Schicht": ["Früh", "Spät", "Nacht"],
        "Start": ["06:00", "14:00", "22:00"],
        "Ende": ["14:00", "22:00", "06:00"],
        "Dauer_h": [8, 8, 8],
    }
)

print("\n🕐 Schichtzeiten:")
display(schichtzeiten)

# Produktionsplanung für Arbeitstage
produktionsplan = []
for datum in arbeitstage[:10]:  # Erste 10 Arbeitstage
    for schicht in schichtzeiten["Schicht"]:
        produktionsplan.append(
            {
                "Datum": datum,
                "Schicht": schicht,
                "Geplante_Produktion": np.random.randint(80, 150),
                "Verfügbare_Maschinen": 4,
            }
        )

df_plan = pd.DataFrame(produktionsplan)
print("\n📋 Produktionsplan (erste 10 Arbeitstage):")
display(df_plan.head(15))

# Wochenübersicht
print("\n📊 Geplante Produktion pro Woche:")
wochen_plan = df_plan.set_index("Datum").resample("W")["Geplante_Produktion"].sum()
display(wochen_plan)

---

# 8️⃣ JOIN-Operationen (Merge)

Kombinieren Sie Daten aus verschiedenen Quellen - wie VLOOKUP in Excel, aber viel mächtiger!

## 8.1 Vorbereitung: Zusätzliche Datentabellen erstellen

In [None]:
print("🗄️ ZUSÄTZLICHE DATENTABELLEN")
print("=" * 35)

# Maschinenstammdaten (erweitert)
maschinen_stamm = pd.DataFrame(
    {
        "Maschine": [
            "ByStar_Fiber_4020",
            "ByStar_Fiber_6020",
            "Xpert_320",
            "ByTrans_6535",
        ],
        "Hersteller": ["Bystronic", "Bystronic", "Bystronic", "Bystronic"],
        "Technologie": ["Faserlaser", "Faserlaser", "Plasma", "Stanzen"],
        "Max_Blechdicke_mm": [25, 30, 150, 6],
        "Arbeitsbereich_X": [4000, 6000, 3200, 6500],
        "Arbeitsbereich_Y": [2000, 2000, 1500, 3500],
        "Anschaffungsjahr": [2020, 2019, 2021, 2022],
        "Wartungsintervall_h": [500, 500, 800, 400],
    }
)

print("🏭 Maschinenstammdaten:")
display(maschinen_stamm)

# Material-Kosten
material_kosten = pd.DataFrame(
    {
        "Datum": pd.date_range("2024-01-01", periods=30, freq="D"),
        "Stahl_EUR_kg": np.random.uniform(0.80, 1.20, 30),
        "Edelstahl_EUR_kg": np.random.uniform(2.50, 3.50, 30),
        "Aluminium_EUR_kg": np.random.uniform(1.80, 2.20, 30),
    }
)

print("\n💰 Material-Kostenentwicklung (erste 5 Tage):")
display(material_kosten.head().round(2))

# Wartungshistorie
wartungen = pd.DataFrame(
    {
        "Wartungs_ID": ["W001", "W002", "W003", "W004", "W005"],
        "Maschine": [
            "ByStar_Fiber_4020",
            "Xpert_320",
            "ByStar_Fiber_6020",
            "ByTrans_6535",
            "ByStar_Fiber_4020",
        ],
        "Wartungsdatum": [
            "2024-01-15",
            "2024-01-08",
            "2024-01-22",
            "2024-01-12",
            "2024-01-29",
        ],
        "Wartungstyp": [
            "Präventiv",
            "Reparatur",
            "Präventiv",
            "Präventiv",
            "Reparatur",
        ],
        "Dauer_h": [4, 8, 3, 2, 6],
        "Kosten_EUR": [1200, 2800, 900, 600, 1800],
    }
)

wartungen["Wartungsdatum"] = pd.to_datetime(wartungen["Wartungsdatum"])
print("\n🔧 Wartungshistorie:")
display(wartungen)

## 8.2 Inner Join - Übereinstimmende Datensätze

In [None]:
print("🔗 INNER JOIN")
print("=" * 15)

# Inner Join: Produktionsdaten mit Maschinenstamm
df_inner = df_produktion.merge(maschinen_stamm, on="Maschine", how="inner")

print(f"📊 Produktionsdaten: {len(df_produktion)} Zeilen")
print(f"🏭 Maschinenstamm: {len(maschinen_stamm)} Zeilen")
print(f"🔗 Nach Inner Join: {len(df_inner)} Zeilen")

print("\n📋 Kombinierte Daten (Beispiel):")
display(
    df_inner[
        ["Datum", "Maschine", "Teile_produziert", "Technologie", "Max_Blechdicke_mm"]
    ].head(10)
)

# Analyse mit kombinierten Daten
print("\n📊 Produktivität nach Technologie:")
tech_stats = (
    df_inner.groupby("Technologie")
    .agg(
        {
            "Teile_produziert": ["mean", "sum"],
            "Laufzeit_h": "mean",
            "Ausschuss_Rate": "mean",
        }
    )
    .round(2)
)
display(tech_stats)

## 8.3 Left Join - Alle Datensätze der linken Tabelle behalten

In [None]:
print("⬅️ LEFT JOIN")
print("=" * 12)

# Left Join: Alle Produktionsdaten + Maschinenstamm (falls vorhanden)
df_left = df_produktion.merge(maschinen_stamm, on="Maschine", how="left")

print(f"📊 Produktionsdaten: {len(df_produktion)} Zeilen")
print(f"⬅️ Nach Left Join: {len(df_left)} Zeilen")

# Prüfen auf fehlende Stammdaten
fehlende_stammdaten = df_left[df_left["Technologie"].isna()]
print(f"❌ Produktionsdaten ohne Stammdaten: {len(fehlende_stammdaten)}")

if len(fehlende_stammdaten) > 0:
    print("\n🔍 Maschinen ohne Stammdaten:")
    display(fehlende_stammdaten[["Maschine"]].drop_duplicates())

# Wartungsdaten hinzufügen (mit Datum-basiertem Join)
print("\n🔧 Wartungsdaten hinzufügen:")
df_mit_wartung = df_produktion.merge(
    wartungen[["Maschine", "Wartungsdatum", "Wartungstyp", "Kosten_EUR"]],
    left_on=["Maschine", "Datum"],
    right_on=["Maschine", "Wartungsdatum"],
    how="left",
)

wartungstage = df_mit_wartung[df_mit_wartung["Wartungstyp"].notna()]
print(f"🔧 Produktionstage mit Wartung: {len(wartungstage)}")
display(
    wartungstage[["Datum", "Maschine", "Teile_produziert", "Wartungstyp", "Kosten_EUR"]]
)

## 8.4 Komplexere Join-Operationen

In [None]:
print("🔗 KOMPLEXERE JOIN-OPERATIONEN")
print("=" * 40)

# Merge mit unterschiedlichen Spaltennamen
# Annahme: Wir haben eine Kostentabelle mit anderen Spaltennamen
kosten_tabelle = pd.DataFrame(
    {
        "MaschinenID": [
            "ByStar_Fiber_4020",
            "ByStar_Fiber_6020",
            "Xpert_320",
            "ByTrans_6535",
        ],
        "Stundensatz_EUR": [85, 95, 70, 60],
        "Wartungskosten_Jahr_EUR": [5000, 6000, 4000, 3500],
    }
)

# Join mit unterschiedlichen Spaltennamen
df_kosten = df_produktion.merge(
    kosten_tabelle, left_on="Maschine", right_on="MaschinenID", how="left"
)

# Kostenberechnung
df_kosten["Betriebskosten_EUR"] = (
    df_kosten["Laufzeit_h"] * df_kosten["Stundensatz_EUR"]
).round(2)

print("💰 Produktionsdaten mit Kostenberechnung:")
display(
    df_kosten[
        ["Datum", "Maschine", "Laufzeit_h", "Stundensatz_EUR", "Betriebskosten_EUR"]
    ].head(10)
)

# Mehrfach-Merge (Chain)
df_vollständig = df_produktion.merge(maschinen_stamm, on="Maschine", how="left").merge(
    kosten_tabelle, left_on="Maschine", right_on="MaschinenID", how="left"
)

# Erweiterte Analyse
df_vollständig["Betriebskosten_EUR"] = (
    df_vollständig["Laufzeit_h"] * df_vollständig["Stundensatz_EUR"]
)
df_vollständig["Kosten_pro_Teil"] = (
    df_vollständig["Betriebskosten_EUR"] / df_vollständig["Teile_produziert"]
).round(3)

print("\n📊 Kosten-Effizienz-Analyse:")
effizienz_analyse = (
    df_vollständig.groupby("Technologie")
    .agg(
        {
            "Betriebskosten_EUR": "mean",
            "Kosten_pro_Teil": "mean",
            "Teile_produziert": "mean",
        }
    )
    .round(3)
)
display(effizienz_analyse)

---

# 9️⃣ Praktische Übungen mit Produktionsdaten

Wenden Sie Ihr Wissen an realistischen Bystronic-Szenarien an!

## 9.1 Übung: Maschinenverfügbarkeit und OEE

In [None]:
print("🎯 ÜBUNG 1: MASCHINENVERFÜGBARKEIT UND OEE")
print("=" * 50)
print("Overall Equipment Effectiveness (OEE) = Verfügbarkeit × Leistung × Qualität")
print()

# OEE-Berechnung für jede Maschine
# Annahmen:
# - Geplante Produktionszeit: 8h pro Tag
# - Theoretische max. Teile/Stunde: abhängig von Maschine

theoretische_leistung = {
    "ByStar_Fiber_4020": 25,  # Teile pro Stunde
    "ByStar_Fiber_6020": 20,
    "Xpert_320": 30,
    "ByTrans_6535": 35,
}

# OEE-Berechnung
df_oee = df_produktion.copy()
df_oee["Theoretische_Leistung_h"] = df_oee["Maschine"].map(theoretische_leistung)
df_oee["Geplante_Zeit_h"] = 8.0  # 8 Stunden pro Tag geplant

# OEE-Komponenten berechnen
df_oee["Verfügbarkeit"] = df_oee["Laufzeit_h"] / df_oee["Geplante_Zeit_h"]
df_oee["Theoretische_Teile"] = df_oee["Laufzeit_h"] * df_oee["Theoretische_Leistung_h"]
df_oee["Leistung"] = df_oee["Teile_produziert"] / df_oee["Theoretische_Teile"]
df_oee["Qualität"] = 1 - df_oee["Ausschuss_Rate"]

# OEE berechnen
df_oee["OEE"] = df_oee["Verfügbarkeit"] * df_oee["Leistung"] * df_oee["Qualität"]

# Durchschnittliche OEE pro Maschine
oee_stats = (
    df_oee.groupby("Maschine")
    .agg(
        {"Verfügbarkeit": "mean", "Leistung": "mean", "Qualität": "mean", "OEE": "mean"}
    )
    .round(3)
)

print("📊 OEE-Analyse pro Maschine:")
display(oee_stats)

# Bewertung der OEE-Werte
print("\n🏆 OEE-Bewertung:")
print("-" * 20)
for maschine, oee_wert in oee_stats["OEE"].items():
    if oee_wert >= 0.85:
        bewertung = "🟢 Weltklasse"
    elif oee_wert >= 0.70:
        bewertung = "🟡 Gut"
    elif oee_wert >= 0.60:
        bewertung = "🟠 Durchschnitt"
    else:
        bewertung = "🔴 Verbesserung nötig"

    print(f"{maschine}: {oee_wert:.1%} - {bewertung}")

## 9.2 Übung: Qualitätstrend-Analyse

In [None]:
print("🎯 ÜBUNG 2: QUALITÄTSTREND-ANALYSE")
print("=" * 40)

# Statistische Prozesskontrolle (SPC) - Control Charts
df_qualität = df_produktion.set_index("Datum").copy()

# Kontrollgrenzen berechnen (3-Sigma-Regel)
print("📊 Statistische Prozesskontrolle - Kontrollgrenzen:")
print("-" * 55)

for maschine in df_qualität["Maschine"].unique():
    maschinen_daten = df_qualität[df_qualität["Maschine"] == maschine]["Ausschuss_Rate"]

    mittelwert = maschinen_daten.mean()
    std_abw = maschinen_daten.std()

    ucl = mittelwert + 3 * std_abw  # Upper Control Limit
    lcl = max(0, mittelwert - 3 * std_abw)  # Lower Control Limit (nicht negativ)

    # Prozesse außer Kontrolle identifizieren
    außer_kontrolle = maschinen_daten[(maschinen_daten > ucl) | (maschinen_daten < lcl)]

    print(f"\n🤖 {maschine}:")
    print(f"   📊 Durchschnitt: {mittelwert:.3f} ({mittelwert * 100:.1f}%)")
    print(f"   📈 UCL: {ucl:.3f} ({ucl * 100:.1f}%)")
    print(f"   📉 LCL: {lcl:.3f} ({lcl * 100:.1f}%)")
    print(f"   🚨 Außer Kontrolle: {len(außer_kontrolle)} Tage")

    if len(außer_kontrolle) > 0:
        print(
            f"   ⚠️ Kritische Tage: {', '.join([d.strftime('%d.%m') for d in außer_kontrolle.index])}"
        )

# Trend-Analyse mit Rolling Statistics
print("\n\n📈 TREND-ANALYSE")
print("-" * 20)

df_trend = df_produktion.copy()
df_trend = df_trend.sort_values("Datum")

# 7-Tage gleitender Durchschnitt der Ausschussrate
for maschine in df_trend["Maschine"].unique():
    mask = df_trend["Maschine"] == maschine
    df_trend.loc[mask, "Ausschuss_MA7"] = (
        df_trend.loc[mask, "Ausschuss_Rate"].rolling(window=7, min_periods=3).mean()
    )

# Trend-Richtung bestimmen
trend_analyse = []
for maschine in df_trend["Maschine"].unique():
    maschinen_daten = df_trend[df_trend["Maschine"] == maschine].dropna()
    if len(maschinen_daten) > 7:
        erste_woche = maschinen_daten["Ausschuss_MA7"].iloc[:7].mean()
        letzte_woche = maschinen_daten["Ausschuss_MA7"].iloc[-7:].mean()
        trend_prozent = ((letzte_woche - erste_woche) / erste_woche) * 100

        trend_analyse.append(
            {
                "Maschine": maschine,
                "Erste_Woche_%": erste_woche * 100,
                "Letzte_Woche_%": letzte_woche * 100,
                "Trend_%": trend_prozent,
            }
        )

df_trend_summary = pd.DataFrame(trend_analyse).round(2)
print("📊 Qualitätstrend (Ausschussrate):")
display(df_trend_summary)

## 9.3 Übung: Wartungsoptimierung

In [None]:
print("🎯 ÜBUNG 3: WARTUNGSOPTIMIERUNG")
print("=" * 35)

# Wartungsintervalle basierend auf Betriebsstunden optimieren
# Daten aus Maschinenstamm verwenden

# Kumulative Betriebsstunden berechnen
df_wartung = df_produktion.merge(
    maschinen_stamm[["Maschine", "Wartungsintervall_h"]], on="Maschine", how="left"
)
df_wartung = df_wartung.sort_values(["Maschine", "Datum"])

# Kumulative Stunden pro Maschine
df_wartung["Kumulative_Stunden"] = df_wartung.groupby("Maschine")["Laufzeit_h"].cumsum()

print("🔧 Wartungsplanung basierend auf Betriebsstunden:")
print("-" * 50)

wartungsplan = []
for maschine in df_wartung["Maschine"].unique():
    maschinen_daten = df_wartung[df_wartung["Maschine"] == maschine]
    wartungsintervall = maschinen_daten["Wartungsintervall_h"].iloc[0]
    aktuelle_stunden = maschinen_daten["Kumulative_Stunden"].iloc[-1]

    # Wann ist nächste Wartung fällig?
    stunden_bis_wartung = wartungsintervall - (aktuelle_stunden % wartungsintervall)

    # Bei aktueller durchschnittlicher Laufzeit, wann wird das erreicht?
    avg_stunden_tag = maschinen_daten["Laufzeit_h"].mean()
    tage_bis_wartung = (
        stunden_bis_wartung / avg_stunden_tag if avg_stunden_tag > 0 else float("inf")
    )

    wartungsplan.append(
        {
            "Maschine": maschine,
            "Kumulative_Stunden": aktuelle_stunden,
            "Wartungsintervall_h": wartungsintervall,
            "Stunden_bis_Wartung": stunden_bis_wartung,
            "Tage_bis_Wartung": tage_bis_wartung,
            "Wartung_fällig_am": (
                pd.Timestamp.now() + pd.Timedelta(days=tage_bis_wartung)
            ).strftime("%d.%m.%Y")
            if tage_bis_wartung != float("inf")
            else "Unbekannt",
        }
    )

df_wartungsplan = pd.DataFrame(wartungsplan).round(1)
print("📅 Wartungsplan:")
display(df_wartungsplan)

# Prioritätsliste für Wartungen
print("\n🚨 WARTUNGSPRIORITÄT (nach Dringlichkeit):")
print("-" * 45)
wartung_sortiert = df_wartungsplan.sort_values("Tage_bis_Wartung")
for _i, row in wartung_sortiert.iterrows():
    if row["Tage_bis_Wartung"] <= 7:
        priorität = "🔴 DRINGEND"
    elif row["Tage_bis_Wartung"] <= 14:
        priorität = "🟡 BALD"
    else:
        priorität = "🟢 OK"

    print(
        f"{priorität} {row['Maschine']}: in {row['Tage_bis_Wartung']:.1f} Tagen ({row['Wartung_fällig_am']})"
    )

# Kostenanalyse: Präventiv vs. Reaktiv
print("\n\n💰 WARTUNGSKOSTEN-ANALYSE")
print("-" * 30)

# Annahmen für Kostenvergleich
kosten_präventiv = 800  # EUR pro präventiver Wartung
kosten_reaktiv = 2500  # EUR pro Reparatur (inkl. Stillstand)
ausfallwahrscheinlichkeit = 0.15  # 15% Chance auf Ausfall bei überfälliger Wartung

for _i, row in wartung_sortiert.iterrows():
    if row["Tage_bis_Wartung"] <= 0:
        erwartete_kosten = kosten_reaktiv * ausfallwahrscheinlichkeit + kosten_präventiv
        status = "⚠️ ÜBERFÄLLIG"
    else:
        erwartete_kosten = kosten_präventiv
        status = "✅ PLANBAR"

    print(f"{row['Maschine']}: {status} - Erwartete Kosten: {erwartete_kosten:.0f} EUR")

---

# 🎓 Zusammenfassung und nächste Schritte

Herzlichen Glückwunsch! Sie haben die wichtigsten Pandas-Konzepte für die Datenanalyse in der Fertigung gelernt.

## ✅ Was Sie gelernt haben:

In [None]:
print("🎓 PANDAS-TUTORIAL ABGESCHLOSSEN!")
print("=" * 40)
print("\n✅ GELERNTE KONZEPTE:")
print("-" * 25)
print("📊 DataFrame-Erstellung und -Manipulation")
print("🔍 Datenfilterung und Boolean Indexing")
print("📁 Import/Export (CSV, Excel, JSON)")
print("🧹 Datenbereinigung (NaN, Duplikate, Datentypen)")
print("📈 Statistische Analysen und Aggregationen")
print("🔄 Pivot-Tabellen und Cross-Tabulations")
print("📅 Zeitreihenanalyse und Resampling")
print("🔗 JOIN-Operationen (merge)")
print("🏭 Praktische Fertigungsanalysen (OEE, SPC, Wartung)")

print("\n🎯 BYSTRONIC-SPEZIFISCHE ANWENDUNGEN:")
print("-" * 40)
print("⚙️ Maschinendaten-Analyse")
print("📊 Produktionseffizienz-Bewertung")
print("🔧 Wartungsplanung und -optimierung")
print("📈 Qualitätstrend-Analyse")
print("💰 Kosten-Nutzen-Rechnungen")
print("⏰ Schichtplanung und Kapazitätsanalyse")

print("\n➡️ NÄCHSTE SCHRITTE:")
print("-" * 20)
print("📊 Kapitel 5: Datenvisualisierung mit Matplotlib/Seaborn")
print("🔗 Kapitel 6: Datenimport aus APIs und Datenbanken")
print("🤖 Kapitel 7: Automatisierung mit Pandas")
print("🎨 Kapitel 8: Dashboard-Erstellung mit Streamlit")

print("\n💡 TIPPS FÜR DEN PRAXISEINSATZ:")
print("-" * 35)
print("1. Beginnen Sie mit kleinen, realen Datensätzen aus Ihrer Abteilung")
print("2. Automatisieren Sie wiederkehrende Analysen mit Jupyter Notebooks")
print("3. Teilen Sie Erkenntnisse durch interaktive Dashboards")
print("4. Nutzen Sie Pandas für Excel-Ersatz bei großen Datenmengen")
print("5. Kombinieren Sie Pandas mit Visualisierungen für bessere Kommunikation")

print("\n🔥 Sie sind jetzt bereit für fortgeschrittene Datenanalyse!")
print("📞 Bei Fragen: Nutzen Sie die Bystronic Python Community")
print("📚 Weiterführende Ressourcen in der README.md")

---

## 🚀 Bonus: Pandas Cheat Sheet für Bystronic

### Häufigste Operationen im Arbeitsalltag:

```python
# 📁 DATEN LADEN
df = pd.read_csv('produktionsdaten.csv', sep=';', parse_dates=['Datum'])
df = pd.read_excel('maschinendaten.xlsx', sheet_name='Produktion')

# 🔍 SCHNELLE INSPEKTION
df.head(10)          # Erste 10 Zeilen
df.info()            # Überblick über Datentypen
df.describe()        # Statistische Kennzahlen
df.shape             # Dimensionen (Zeilen, Spalten)

# 🎯 FILTERN
df[df['Ausschuss_Rate'] > 0.05]                    # Hohe Ausschussrate
df[df['Maschine'].str.contains('Laser')]           # Laser-Maschinen
df[(df['Datum'] >= '2024-01-01') & 
   (df['Schicht'] == 'Früh')]                      # Datum und Schicht

# 📊 GRUPPIERUNG UND AGGREGATION
df.groupby('Maschine')['Teile_produziert'].sum()   # Summe pro Maschine
df.groupby(['Maschine', 'Schicht']).mean()         # Mehrfach-Gruppierung
df.pivot_table(values='Laufzeit_h', 
               index='Maschine', 
               columns='Schicht')                   # Pivot-Tabelle

# 📅 ZEITREIHEN
df.set_index('Datum').resample('W').mean()         # Wöchentliche Durchschnitte
df['Datum'].dt.month                               # Monat extrahieren
df['Datum'].dt.dayname()                           # Wochentag

# 🔗 DATEN VERBINDEN
df.merge(stammdaten, on='Maschine', how='left')    # LEFT JOIN
pd.concat([df1, df2], ignore_index=True)           # Vertikal verbinden

# 💾 EXPORTIEREN
df.to_csv('ergebnis.csv', index=False, sep=';')    # CSV
df.to_excel('bericht.xlsx', sheet_name='Analyse')  # Excel
```

### 🎯 Typische Bystronic-Analysen:

```python
# OEE-Berechnung
df['OEE'] = df['Verfügbarkeit'] * df['Leistung'] * df['Qualität']

# Tagesproduktion
tagesproduktion = df.groupby('Datum')['Teile_produziert'].sum()

# Maschinenverfügbarkeit
verfügbarkeit = df.groupby('Maschine')['Laufzeit_h'].sum() / (df.groupby('Maschine').size() * 8)

# Qualitätstrend (7-Tage gleitender Durchschnitt)
df['Qualität_Trend'] = df.groupby('Maschine')['Ausschuss_Rate'].rolling(7).mean().reset_index(drop=True)
```

---

**🎓 Herzlichen Glückwunsch - Sie sind jetzt ein Pandas-Profi für Fertigungsdaten!**

*Dieses Tutorial ist Teil des Python Grundkurses für Bystronic-Entwickler.*