# EDA mit Manufacturing Process Data Set
Dieses Notebook zeigt Beispiele für deskriptive Statistik und Visualisierung mit einem simulierten industriellen Datensatz.

## Beschreibung des simulierten Datensatzes
Der Datensatz simuliert Produktdaten aus einer industriellen Fertigung. Jede Zeile steht für ein einzelnes Produkt.

**Merkmale:**
- **ProductID:** Eindeutige Kennung für jedes Produkt.
- **Temperature:** Temperaturmessung beim Produkt (z. B. während der Herstellung oder Prüfung).
- **Pressure:** Druckmessung beim Produkt.
- **Defects:** Gibt an, ob das Produkt einen Defekt hat (1 = Defekt, 0 = kein Defekt). Etwa 2 % der Produkte sind defekt.
- **Energy:** Energieverbrauch, der für die Herstellung des Produkts angefallen ist.
- **Supplier:** Zugeordneter Lieferant für Material oder Komponenten des Produkts.

**Interpretation:**
Der Datensatz ist typisch für die Analyse von Fertigungs- und Qualitätsdaten, bei denen für jedes Produkt verschiedene Merkmale und Prüfwerte erfasst werden.
So lassen sich Muster, Ausreißer und Zusammenhänge erkennen, z. B. wie Temperatur und Druck die Defektrate beeinflussen oder wie der Energieverbrauch je Lieferant variiert.

**Typische Anwendungen:**
- Qualitätskontrolle und Fehleranalyse auf Produktebene
- Lieferantenvergleich und Prozessoptimierung
- Analyse von Einflussfaktoren auf Defekte

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Beispiel: Datensatz laden (hier: synthetisch)
np.random.seed(42)
n = 500
suppliers = np.random.choice(['X', 'Y', 'Z'], n)
energy_means = {'X': 95, 'Y': 170, 'Z': 120}
energy = np.array([np.random.normal(energy_means[s], 12, 1)[0] for s in suppliers])
defects = np.random.choice([0, 1], n, p=[0.98, 0.02])
pressure = np.random.normal(30, 2, n) + defects * 2.5
df = pd.DataFrame({
    'ProductID': np.arange(1, n+1),
    'Temperature': np.random.normal(70, 5, n),
    'Pressure': pressure,
    'Defects': defects,
    'Energy': energy,
    'Supplier': suppliers
})
df = df.sort_values('Supplier').reset_index(drop=True)
df.head()

## Histogramm: Temperaturverteilung

In [None]:
plt.figure(figsize=(6,4))
sns.histplot(df['Temperature'], bins=20, kde=True, color='steelblue')
plt.title('Histogramm der Temperatur')
plt.xlabel('Temperatur [°C]')
plt.ylabel('Anzahl')
plt.tight_layout()
plt.savefig('../figures/hist_temperature.png')
plt.show()

## Boxplot: Qualitätsvergleich je Lieferant

In [None]:
plt.figure(figsize=(6,4))
sns.boxplot(x='Supplier', y='Energy', data=df, palette='Set2')
plt.title('Boxplot: Energieverbrauch je Lieferant')
plt.xlabel('Lieferant')
plt.ylabel('Energieverbrauch [kWh]')
plt.tight_layout()
plt.savefig('../figures/boxplot_energy_supplier.png')
plt.show()

## Scatterplot: Temperatur vs. Druck

In [None]:
plt.figure(figsize=(6,4))
sns.scatterplot(x='Temperature', y='Pressure', hue='Defects', data=df, alpha=0.7)
plt.title('Scatterplot: Temperatur vs. Druck')
plt.xlabel('Temperatur [°C]')
plt.ylabel('Druck [bar]')
plt.tight_layout()
plt.savefig('../figures/scatter_temp_pressure.png')
plt.show()

## Korrelationsmatrix: numerische Merkmale

In [None]:
plt.figure(figsize=(5,4))
corr = df[['Temperature','Pressure','Defects','Energy']].corr()
sns.heatmap(corr, annot=True, cmap='Blues', fmt='.2f')
plt.title('Korrelationsmatrix')
plt.tight_layout()
plt.savefig('../figures/corr_matrix.png')
plt.show()

## Zeitreihe: Energieverbrauch (synthetisch)

In [None]:
df['Timestamp'] = pd.date_range('2025-01-01', periods=n, freq='H')
plt.figure(figsize=(8,3))
plt.plot(df['Timestamp'], df['Energy'], color='darkorange', alpha=0.7)
plt.title('Zeitreihe: Energieverbrauch')
plt.xlabel('Zeit')
plt.ylabel('Energieverbrauch [kWh]')
plt.tight_layout()
plt.savefig('../figures/timeseries_energy.png')
plt.show()