# EDA-Beispiele: Statistik und Visualisierung
Dieses Notebook enthält verschiedene Beispiel-Diagramme für Statistik und Visualisierung in der EDA.

In [None]:
# Bibliotheken importieren - das sind die "Werkzeugkästen" für Datenanalyse
import numpy as np        # numpy: Rechnen mit Arrays und Matrizen
import pandas as pd       # pandas: Arbeiten mit Tabellen (DataFrames)
import matplotlib.pyplot as plt  # matplotlib: Grundlegende Diagramme erstellen
import seaborn as sns     # seaborn: Schönere statistische Diagramme
sns.set(style='whitegrid')  # Diagramm-Stil setzen (weißer Hintergrund mit Gitter)

## Histogramm mit Mittelwert und Median (Gehälter)

In [None]:
# Zufallsgenerator auf festen Wert setzen → reproduzierbare Ergebnisse
np.random.seed(1)

# Gehaltsdaten simulieren: 100 normale Gehälter um 2500€ mit Streuung 400€
salaries = np.random.normal(2500, 400, 100) # normal(mittelwert, standardabweichung, anzahl)

# 5 "Manager-Gehälter" hinzufügen → Ausreißer für realistisches Beispiel
salaries = np.append(salaries, np.random.normal(10000, 400, 5))

# Diagramm erstellen
plt.figure(figsize=(6,4))  # Größe der Grafik festlegen (Breite, Höhe)
sns.histplot(salaries, bins=50, color='skyblue')  # Histogramm mit 50 Balken

# Vertikale Linien für Mittelwert und Median einzeichnen
plt.axvline(np.mean(salaries), color='red', linestyle='--', label='Mittelwert')
plt.axvline(np.median(salaries), color='green', linestyle='-', label='Median')

plt.legend()  # Legende anzeigen
plt.title('Histogramm Gehälter mit Mittelwert und Median')  # Titel setzen
plt.xlabel('Gehalt [EUR]')  # x-Achse beschriften
plt.tight_layout()  # Layout optimieren

# Werte als Text in die Grafik schreiben
plt.text(4000, 15, f'Mittelwert: {np.mean(salaries):.2f}', color='red')
plt.text(4000, 13, f'Median: {np.median(salaries):.2f}', color='green')

#plt.savefig('../figures/hist_salaries.png')  # Grafik als PNG speichern
plt.show()  # Grafik anzeigen

## Beispiel: Verteilung mit Interquartilsabstand (IQR) und Standardabweichung
Das folgende Beispiel zeigt eine normalverteilte Variable mit eingezeichnetem Mittelwert, Standardabweichung und den Quartilen (Q1, Q3) zur Veranschaulichung des IQR.

Im Diagramm sind der Mittelwert (rot), die Standardabweichung (orange) und die Quartile Q1/Q3 (grün) eingezeichnet. Der Interquartilsabstand (IQR) ist der Bereich zwischen Q1 und Q3 und zeigt, wo die mittleren 50% der Werte liegen. Die Standardabweichung misst die typische Streuung um den Mittelwert.

In [None]:
# Zufallsgenerator setzen für reproduzierbare Ergebnisse
np.random.seed(10)

# Normalverteilte Daten generieren: 200 Werte um 50 mit Standardabweichung 10
data = np.random.normal(50, 10, 200)

# Kennzahlen berechnen
mean = np.mean(data)  # Mittelwert
std = np.std(data)   # Standardabweichung
q1 = np.percentile(data, 25)  # 1. Quartil (25%-Wert)
q3 = np.percentile(data, 75)  # 3. Quartil (75%-Wert)

# Histogramm erstellen
plt.figure(figsize=(6,4))
sns.histplot(data, bins=20, color='lightblue')

# Verschiedene Kennlinien einzeichnen
plt.axvline(mean, color='red', linestyle='--', label='Mittelwert')
plt.axvline(mean+std, color='orange', linestyle=':', label='Mittelwert + 1 SD')
plt.axvline(mean-std, color='orange', linestyle=':', label='Mittelwert - 1 SD')
plt.axvline(q1, color='green', linestyle='-', label='Q1 (25%)')  # Quartil = 25% der Werte sind kleiner
plt.axvline(q3, color='green', linestyle='-', label='Q3 (75%)')  # 75% der Werte sind kleiner

plt.legend()
plt.title('Verteilung mit IQR und Standardabweichung')
plt.xlabel('Wert')
plt.tight_layout()
#plt.savefig('../figures/hist_iqr_std.png')
plt.show()

## Die Standard-Normalverteilung
Die Standard-Normalverteilung ist ein Spezialfall der Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Sie ist die Basis für viele statistische Tests und Tabellen. Werte werden oft so transformiert (z-Transformation), um sie vergleichbar zu machen.

Die Normalverteilung ist so wichtig, weil viele statistische Methoden und Tests auf ihr basieren. Sie beschreibt, wie sich Werte typischerweise um einen Mittelwert streuen. Die Standardabweichung gibt an, wie breit die Verteilung ist: Etwa 68% aller Werte liegen innerhalb einer Standardabweichung um den Mittelwert, ca. 95% innerhalb von zwei Standardabweichungen.

Das folgende Diagramm zeigt die Standard-Normalverteilung mit Mittelwert 0 und den Bereichen für eine und zwei Standardabweichungen.

In [None]:
# scipy.stats importieren für mathematische Verteilungen
from scipy.stats import norm

# x-Werte für die Kurve erstellen (von -4 bis 4 in 500 Schritten)
x = np.linspace(-4, 4, 500)  # linspace = gleichmäßig verteilte Werte

# Parameter der Standard-Normalverteilung
mu, sigma = 0, 1  # Mittelwert = 0, Standardabweichung = 1

# Dichtefunktion der Normalverteilung berechnen
y = norm.pdf(x, mu, sigma)  # pdf = probability density function (Dichtefunktion)

# Diagramm erstellen
plt.figure(figsize=(7,4))
plt.plot(x, y, color='navy', label='Standard-Normalverteilung')  # Hauptkurve zeichnen

# Mittelwert als rote Linie
plt.axvline(mu, color='red', linestyle='--', label='Mittelwert (0)')

# Bereiche unter der Kurve einfärben
# fill_between färbt den Bereich zwischen der Kurve und der x-Achse
plt.fill_between(x, y, where=(x > mu-sigma) & (x < mu+sigma), 
                 color='orange', alpha=0.3, label='±1 SD')  # alpha = Transparenz
plt.fill_between(x, y, where=(x > mu-2*sigma) & (x < mu+2*sigma), 
                 color='yellow', alpha=0.2, label='±2 SD')

plt.title('Standard-Normalverteilung mit Mittelwert und Standardabweichung')
plt.xlabel('Wert')
plt.ylabel('Dichte')  # y-Achse zeigt Wahrscheinlichkeitsdichte
plt.legend()
plt.tight_layout()
#plt.savefig('../figures/standard_normalverteilung.png')
plt.show()

Im Diagramm sieht man die typische Glockenkurve der Standard-Normalverteilung. Der Mittelwert (rot) liegt bei 0. Der orange Bereich zeigt die Werte innerhalb einer Standardabweichung (ca. 68% aller Werte), der gelbe Bereich umfasst zwei Standardabweichungen (ca. 95%).
Die Standard-Normalverteilung ist ein Grundpfeiler der Statistik, weil sie viele reale Prozesse gut beschreibt und die Basis für viele statistische Tests und Methoden bildet. Viele Tabellen und Wahrscheinlichkeiten in der Statistik beziehen sich auf diese Verteilung.

## Beispiele für verschiedene Verteilungsformen
Im Folgenden werden typische Verteilungsformen gezeigt, die in der Praxis häufig auftreten: rechtsschief, linksschief und mehrgipflig.

In [None]:
# Rechtsschiefe Verteilung erzeugen (Exponentialverteilung)
# Exponentialverteilung: viele kleine Werte, wenige große (wie Wartezeiten)
right_skew = np.random.exponential(2, 200)  # Parameter 2 = Mittelwert
plt.figure(figsize=(6,4))
sns.histplot(right_skew, bins=20, color='orange', label='rechtsschief', alpha=0.7)
plt.title('Rechtsschiefe Verteilung')
plt.xlabel('Wert')
plt.legend()
plt.tight_layout()
#plt.savefig('../figures/hist_rechtschief.png')
plt.show()

# Linksschiefe Verteilung (gespiegelte Exponentialverteilung)
# Trick: Exponentialverteilung umdrehen und verschieben
left_skew = -np.random.exponential(2, 200) + 10  # negieren und um 10 verschieben
plt.figure(figsize=(6,4))
sns.histplot(left_skew, bins=20, color='blue', label='linksschief', alpha=0.7)
plt.title('Linksschiefe Verteilung')
plt.xlabel('Wert')
plt.legend()
plt.tight_layout()
#plt.savefig('../figures/hist_linksschief.png')
plt.show()

# Mehrgipflige Verteilung durch Mischung mehrerer Normalverteilungen
# np.concatenate = mehrere Arrays zusammenfügen
multi_peak = np.concatenate([
    np.random.normal(10, 2, 100),  # 1. Gipfel bei 10
    np.random.normal(20, 2, 100),  # 2. Gipfel bei 20  
    np.random.normal(30, 2, 100)   # 3. Gipfel bei 30
])
plt.figure(figsize=(6,4))
sns.histplot(multi_peak, bins=30, color='teal')
plt.title('Mehrgipflige Verteilung')
plt.xlabel('Wert')
plt.tight_layout()
#plt.savefig('../figures/hist_mehrgipflig.png')
plt.show()

Die Diagramme zeigen typische Verteilungsformen:
- **Rechtsschief**: Viele kleine Werte, wenige große Werte (z.B. Einkommen, Wartezeiten).
- **Linksschief**: Viele große Werte, wenige kleine Werte (z.B. Restlaufzeiten, Klausurpunkte).
- **Mehrgipflig**: Mischung verschiedener Gruppen oder Prozesse, z.B. Produktionslinien mit unterschiedlichen Mittelwerten.
Solche Verteilungen sind in der Praxis wichtig, weil sie die Wahl der Kennzahlen und statistischen Methoden beeinflussen.

## Boxplot mit Ausreißern (Lieferantenqualität)
Der Boxplot zeigt die Verteilung, den Median, die Quartile und mögliche Ausreißer einer numerischen Variable für verschiedene Gruppen. Ausreißer werden als einzelne Punkte außerhalb der "Whisker" dargestellt.

Im Beispiel sieht man, wie sich die Qualitätswerte zwischen Lieferanten unterscheiden und ob es Ausreißer gibt. Boxplots sind besonders hilfreich, um Gruppen zu vergleichen und ungewöhnliche Werte schnell zu erkennen.

In [None]:
# Qualitätsdaten für zwei Lieferanten simulieren
# Lieferant A: bessere Qualität (Mittelwert 80, niedrige Streuung)
# Lieferant B: schlechtere Qualität (Mittelwert 70, höhere Streuung)
quality = np.concatenate([
    np.random.normal(80, 5, 50),   # 50 Werte für Lieferant A
    np.random.normal(70, 7, 50),   # 50 Werte für Lieferant B
    [50, 120]                      # 2 extreme Ausreißer hinzufügen
])

# Entsprechende Lieferanten-Labels erstellen
supplier = ['A']*50 + ['B']*50 + ['A','B']  # Liste mit Lieferanten-Namen

# DataFrame erstellen (= Tabelle mit Spalten)
dfq = pd.DataFrame({'Qualität': quality, 'Lieferant': supplier})

# Boxplot erstellen
plt.figure(figsize=(6,4))
sns.boxplot(x='Lieferant', y='Qualität', data=dfq, palette='Set1')
# Boxplot zeigt: Median (Linie), Quartile (Box), Whisker, Ausreißer (Punkte)
plt.title('Boxplot Lieferantenqualität mit Ausreißern')
plt.tight_layout()
#plt.savefig('../figures/boxplot_quality_supplier.png')
plt.show()

## Scatterplot mit Trendlinie (Lieferdauer vs. Pünktlichkeit)

In [None]:
# Zufallsgenerator setzen
np.random.seed(2)

# Lieferdauer simulieren (normalverteilt um 5 Tage)
delivery = np.random.normal(5, 1, 100)

# Pünktlichkeit simulieren: längere Lieferung → schlechtere Pünktlichkeit
# Formel: 100 - delivery*10 + Rauschen
punctuality = 100 - delivery*10 + np.random.normal(0, 5, 100)

# Scatterplot mit Regressionslinie
plt.figure(figsize=(6,4))
sns.regplot(x=delivery, y=punctuality, scatter_kws={'alpha':0.7})
# regplot = Scatterplot + automatische Trendlinie
# scatter_kws = zusätzliche Parameter für die Punkte (alpha = Transparenz)
plt.title('Scatterplot Lieferdauer vs. Pünktlichkeit mit Trendlinie')
plt.xlabel('Lieferdauer [Tage]')
plt.ylabel('Pünktlichkeit [%]')
plt.tight_layout()
#plt.savefig('../figures/scatter_delivery_punctuality.png')
plt.show()

## Dichtekurve (Kernel Density Estimate) für eine numerische Variable

In [None]:
# Bibliotheken erneut importieren (falls Zelle einzeln ausgeführt wird)
import matplotlib.pyplot as plt
import seaborn as sns

# Dichtekurve (KDE = Kernel Density Estimate) für Gehälter erstellen
plt.figure(figsize=(6,4))
sns.kdeplot(salaries, fill=True, color='purple')
# kdeplot = glatte Kurve statt diskrete Balken wie beim Histogramm
# fill=True füllt die Fläche unter der Kurve aus
plt.title('Dichtekurve Gehälter')
plt.xlabel('Gehalt [EUR]')
plt.tight_layout()
#plt.savefig('../figures/kde_salaries.png')
plt.show()

## Violinplot: Verteilung und Dichte je Gruppe
Der Violinplot kombiniert die Vorteile von Boxplot und Dichteplot: Er zeigt die Verteilung, Dichte und typische Kennzahlen (Median, Quartile) einer numerischen Variable für verschiedene Gruppen.

Im Gegensatz zum Boxplot sieht man beim Violinplot nicht nur die Lage und Streuung, sondern auch die Form der Verteilung – z. B. ob sie symmetrisch, schief oder mehrgipflig ist. Die Breite der "Violine" zeigt, wie häufig Werte in einem Bereich vorkommen.

Violinplots sind besonders hilfreich, um Unterschiede zwischen Gruppen zu erkennen, die im Boxplot verborgen bleiben könnten.

In [None]:
# Bibliotheken importieren
import matplotlib.pyplot as plt
import seaborn as sns

# Violinplot erstellen: zeigt sowohl Boxplot-Info als auch Dichteverteilung
plt.figure(figsize=(6,4))
sns.violinplot(x='Lieferant', y='Qualität', data=dfq, palette='Set2')
# Violinplot = Boxplot + Dichteplot kombiniert
# Die "Breite" der Violine zeigt, wo viele Datenpunkte liegen
plt.title('Violinplot: Qualität je Lieferant')
plt.xlabel('Lieferant')
plt.ylabel('Qualität')
plt.tight_layout()
#plt.savefig('../figures/violinplot_quality_supplier.png')
plt.show()

## Korrelationsmatrix (Heatmap)
Die Korrelationsmatrix zeigt, wie stark numerische Variablen miteinander zusammenhängen. Werte nahe +1 bedeuten einen starken positiven Zusammenhang, Werte nahe -1 einen starken negativen Zusammenhang. Die Heatmap visualisiert diese Zusammenhänge farblich und hilft, Muster und Beziehungen zwischen Variablen schnell zu erkennen.

In [None]:
# Zufällige Daten für Korrelationsmatrix erstellen
data = np.random.normal(size=(100,4))  # 100 Zeilen, 4 Spalten mit Normalverteilung

# DataFrame mit Spaltennamen erstellen
df_corr = pd.DataFrame(data, columns=['A','B','C','D'])

# Korrelationsmatrix als Heatmap visualisieren
plt.figure(figsize=(5,4))
sns.heatmap(df_corr.corr(), annot=True, cmap='coolwarm', fmt='.2f')
# .corr() berechnet alle paarweisen Korrelationen
# annot=True zeigt die Zahlenwerte in den Zellen
# cmap='coolwarm' = Farbschema (blau=negativ, rot=positiv)  
# fmt='.2f' = Format auf 2 Dezimalstellen
plt.title('Korrelationsmatrix (Heatmap)')
plt.tight_layout()
#plt.savefig('../figures/heatmap_corr.png')
plt.show()

## Overplotting und Dichteplot
Wenn sehr viele Datenpunkte in einem Scatterplot dargestellt werden, können sich die Punkte stark überlagern (Overplotting). Dadurch werden Muster und Strukturen schwer erkennbar. Eine Lösung ist der Dichteplot (2D-KDE), der die Verteilung der Daten als Farbflächen zeigt und so auch bei großen Datenmengen die Strukturen sichtbar macht. Dichteplots sind besonders hilfreich, um Cluster, Häufungen oder Ausreißer in großen Datensätzen zu erkennen.

In [None]:
# 1000 Datenpunkte für Overplotting-Beispiel erstellen
x = np.random.normal(0, 1, 1000)  # 1000 normalverteilte x-Werte
y = np.random.normal(0, 1, 1000)  # 1000 normalverteilte y-Werte

# Problem: Overplotting - viele Punkte überlagern sich
plt.figure(figsize=(6,4))
plt.scatter(x, y, alpha=0.2)  # alpha=0.2 macht Punkte durchsichtig
plt.title('Overplotting Beispiel')
plt.tight_layout()
#plt.savefig('../figures/overplotting.png')
plt.show()

# Lösung: Dichteplot (2D-KDE) zeigt Häufungen als Farbflächen
plt.figure(figsize=(6,4))
sns.kdeplot(x=x, y=y, fill=True, cmap='Blues')
# 2D-KDE: dunkle Bereiche = viele Datenpunkte, helle Bereiche = wenige
# fill=True füllt die Konturen aus
# cmap='Blues' = Farbschema von hell zu dunkelblau
plt.title('Dichteplot als Lösung für Overplotting')
plt.tight_layout()
#plt.savefig('../figures/densityplot.png')
plt.show()

## Zeitreihe mit gleitendem Mittelwert (Energieverbrauch)
Zeitreihen zeigen, wie sich Messwerte über die Zeit verändern. Oft sind die Daten verrauscht oder schwanken stark. Ein gleitender Mittelwert (Moving Average) glättet die Zeitreihe, indem er jeweils den Durchschnitt über ein Zeitfenster berechnet. So werden Trends und Muster besser sichtbar, kurzfristige Schwankungen treten in den Hintergrund. Das ist besonders nützlich, um saisonale Effekte, Trends oder Ausreißer im zeitlichen Verlauf zu erkennen.

In [None]:
# Zufallsgenerator setzen
np.random.seed(3)

# Energieverbrauch simulieren: 200 Zeitpunkte mit Grundrauschen
energy = np.random.normal(100, 10, 200)  # Mittelwert 100, Streuung 10

# Pandas Series erstellen (= eindimensionale Tabelle mit Index)
ts = pd.Series(energy)

# Gleitenden Mittelwert berechnen (Moving Average)
rolling = ts.rolling(window=10).mean()
# window=10: Durchschnitt über die letzten 10 Werte
# Das glättet kurzfristige Schwankungen

# Zeitreihendiagramm erstellen
plt.figure(figsize=(8,3))
plt.plot(ts, color='gray', alpha=0.5, label='Energieverbrauch')  # Originaldaten
plt.plot(rolling, color='red', label='Gleitender Mittelwert')     # Geglättete Linie
plt.title('Zeitreihe Energieverbrauch mit gleitendem Mittelwert')
plt.xlabel('Zeit')
plt.ylabel('Energieverbrauch [kWh]')
plt.legend()
plt.tight_layout()
#plt.savefig('../figures/timeseries_rolling.png')
plt.show()

## Zusammenhang zwischen Variablen: Kovarianz und Korrelation
Im Folgenden werden die wichtigsten Maße zur Beschreibung von Zusammenhängen zwischen zwei numerischen Variablen anschaulich dargestellt: Kovarianz, Pearson-Korrelation und Spearman-Korrelation.

In [None]:
# Beispieldaten für Zusammenhang Größe-Gewicht erstellen
np.random.seed(42)

# Größe normalverteilt um 170cm mit Streuung 10cm
groesse = np.random.normal(170, 10, 100)

# Gewicht abhängig von Größe + Zufallsrauschen
# Formel: Gewicht = Größe * 0.5 + Rauschen (vereinfachtes Modell)
gewicht = groesse * 0.5 + np.random.normal(0, 5, 100)

# Scatterplot erstellen
plt.figure(figsize=(6,4))
sns.scatterplot(x=groesse, y=gewicht)
plt.title('Scatterplot: Größe vs. Gewicht')
plt.xlabel('Größe [cm]')
plt.ylabel('Gewicht [kg]')
plt.tight_layout()
#plt.savefig('../figures/scatter_groesse_gewicht.png')
plt.show()

# Verschiedene Zusammenhangsmaße berechnen

# 1. Kovarianz: Maß für gemeinsame Variation (einheitenabhängig)
cov = np.cov(groesse, gewicht)[0,1]  # [0,1] wählt das Kovarianzelement aus

# 2. Pearson-Korrelation: standardisierte Kovarianz (-1 bis +1)
pearson = np.corrcoef(groesse, gewicht)[0,1]  # linearer Zusammenhang

print(f'Kovarianz: {cov:.2f}')
print(f'Pearson-Korrelation: {pearson:.2f}')

# 3. Spearman-Korrelation: basiert auf Rangfolgen (robust gegen Ausreißer)
from scipy.stats import spearmanr
spearman = spearmanr(groesse, gewicht).correlation  # monotoner Zusammenhang
print(f'Spearman-Korrelation: {spearman:.2f}')

Im Scatterplot sieht man, dass größere Personen tendenziell auch schwerer sind – die Punkte steigen gemeinsam an. Die Kovarianz ist positiv, die Pearson-Korrelation zeigt einen starken linearen Zusammenhang. Die Spearman-Korrelation bestätigt, dass auch die Rangfolge der Werte ähnlich ist. So lassen sich Zusammenhänge zwischen Variablen anschaulich und quantitativ beschreiben.