# EDA-Beispiele: Statistik und Visualisierung
Dieses Notebook enthält verschiedene Beispiel-Diagramme für Statistik und Visualisierung in der EDA.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

## Histogramm mit Mittelwert und Median (Gehälter)

In [None]:
np.random.seed(1)
salaries = np.random.normal(2500, 400, 100) # normalverteilte Gehälter
salaries = np.append(salaries, np.random.normal(10000, 400, 5))  # "Ausreißer" hinzufügen
plt.figure(figsize=(6,4))
sns.histplot(salaries, bins=50, color='skyblue')
plt.axvline(np.mean(salaries), color='red', linestyle='--', label='Mittelwert')
plt.axvline(np.median(salaries), color='green', linestyle='-', label='Median')
plt.legend()
plt.title('Histogramm Gehälter mit Mittelwert und Median')
plt.xlabel('Gehalt [EUR]')
plt.tight_layout()
# schreibe mean und median in die Grafik
plt.text(4000, 15, f'Mittelwert: {np.mean(salaries):.2f}', color='red')
plt.text(4000, 13, f'Median: {np.median(salaries):.2f}', color='green')
plt.savefig('../figures/hist_salaries.png')
plt.show()

## Beispiel: Verteilung mit Interquartilsabstand (IQR) und Standardabweichung
Das folgende Beispiel zeigt eine normalverteilte Variable mit eingezeichnetem Mittelwert, Standardabweichung und den Quartilen (Q1, Q3) zur Veranschaulichung des IQR.

Im Diagramm sind der Mittelwert (rot), die Standardabweichung (orange) und die Quartile Q1/Q3 (grün) eingezeichnet. Der Interquartilsabstand (IQR) ist der Bereich zwischen Q1 und Q3 und zeigt, wo die mittleren 50% der Werte liegen. Die Standardabweichung misst die typische Streuung um den Mittelwert.

In [None]:
np.random.seed(10)
data = np.random.normal(50, 10, 200)
mean = np.mean(data)
std = np.std(data)
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
plt.figure(figsize=(6,4))
sns.histplot(data, bins=20, color='lightblue')
plt.axvline(mean, color='red', linestyle='--', label='Mittelwert')
plt.axvline(mean+std, color='orange', linestyle=':', label='Mittelwert + 1 SD')
plt.axvline(mean-std, color='orange', linestyle=':', label='Mittelwert - 1 SD')
plt.axvline(q1, color='green', linestyle='-', label='Q1 (25%)')
plt.axvline(q3, color='green', linestyle='-', label='Q3 (75%)')
plt.legend()
plt.title('Verteilung mit IQR und Standardabweichung')
plt.xlabel('Wert')
plt.tight_layout()
plt.savefig('../figures/hist_iqr_std.png')
plt.show()

## Die Standard-Normalverteilung
Die Standard-Normalverteilung ist ein Spezialfall der Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Sie ist die Basis für viele statistische Tests und Tabellen. Werte werden oft so transformiert (z-Transformation), um sie vergleichbar zu machen.

Die Normalverteilung ist so wichtig, weil viele statistische Methoden und Tests auf ihr basieren. Sie beschreibt, wie sich Werte typischerweise um einen Mittelwert streuen. Die Standardabweichung gibt an, wie breit die Verteilung ist: Etwa 68% aller Werte liegen innerhalb einer Standardabweichung um den Mittelwert, ca. 95% innerhalb von zwei Standardabweichungen.

Das folgende Diagramm zeigt die Standard-Normalverteilung mit Mittelwert 0 und den Bereichen für eine und zwei Standardabweichungen.

In [None]:
from scipy.stats import norm
x = np.linspace(-4, 4, 500)
mu, sigma = 0, 1
y = norm.pdf(x, mu, sigma)
plt.figure(figsize=(7,4))
plt.plot(x, y, color='navy', label='Standard-Normalverteilung')
plt.axvline(mu, color='red', linestyle='--', label='Mittelwert (0)')
plt.fill_between(x, y, where=(x > mu-sigma) & (x < mu+sigma), color='orange', alpha=0.3, label='±1 SD')
plt.fill_between(x, y, where=(x > mu-2*sigma) & (x < mu+2*sigma), color='yellow', alpha=0.2, label='±2 SD')
plt.title('Standard-Normalverteilung mit Mittelwert und Standardabweichung')
plt.xlabel('Wert')
plt.ylabel('Dichte')
plt.legend()
plt.tight_layout()
plt.savefig('../figures/standard_normalverteilung.png')
plt.show()

Im Diagramm sieht man die typische Glockenkurve der Standard-Normalverteilung. Der Mittelwert (rot) liegt bei 0. Der orange Bereich zeigt die Werte innerhalb einer Standardabweichung (ca. 68% aller Werte), der gelbe Bereich umfasst zwei Standardabweichungen (ca. 95%).
Die Standard-Normalverteilung ist ein Grundpfeiler der Statistik, weil sie viele reale Prozesse gut beschreibt und die Basis für viele statistische Tests und Methoden bildet. Viele Tabellen und Wahrscheinlichkeiten in der Statistik beziehen sich auf diese Verteilung.

## Beispiele für verschiedene Verteilungsformen
Im Folgenden werden typische Verteilungsformen gezeigt, die in der Praxis häufig auftreten: rechtsschief, linksschief und mehrgipflig.

In [None]:
# Rechtsschiefe Verteilung (Exponentialverteilung)
right_skew = np.random.exponential(2, 200)
plt.figure(figsize=(6,4))
sns.histplot(right_skew, bins=20, color='orange', label='rechtsschief', alpha=0.7)
plt.title('Rechtsschiefe Verteilung')
plt.xlabel('Wert')
plt.legend()
plt.tight_layout()
plt.savefig('../figures/hist_rechtschief.png')
plt.show()

# Linksschiefe Verteilung (negierte Exponentialverteilung)
left_skew = -np.random.exponential(2, 200) + 10
plt.figure(figsize=(6,4))
sns.histplot(left_skew, bins=20, color='blue', label='linksschief', alpha=0.7)
plt.title('Linksschiefe Verteilung')
plt.xlabel('Wert')
plt.legend()
plt.tight_layout()
plt.savefig('../figures/hist_linksschief.png')
plt.show()

# Mehrgipflige Verteilung (Mischung mehrerer Normalverteilungen)
multi_peak = np.concatenate([np.random.normal(10, 2, 100), np.random.normal(20, 2, 100), np.random.normal(30, 2, 100)])
plt.figure(figsize=(6,4))
sns.histplot(multi_peak, bins=30, color='teal')
plt.title('Mehrgipflige Verteilung')
plt.xlabel('Wert')
plt.tight_layout()
plt.savefig('../figures/hist_mehrgipflig.png')
plt.show()

Die Diagramme zeigen typische Verteilungsformen:
- **Rechtsschief**: Viele kleine Werte, wenige große Werte (z.B. Einkommen, Wartezeiten).
- **Linksschief**: Viele große Werte, wenige kleine Werte (z.B. Restlaufzeiten, Klausurpunkte).
- **Mehrgipflig**: Mischung verschiedener Gruppen oder Prozesse, z.B. Produktionslinien mit unterschiedlichen Mittelwerten.
Solche Verteilungen sind in der Praxis wichtig, weil sie die Wahl der Kennzahlen und statistischen Methoden beeinflussen.

## Boxplot mit Ausreißern (Lieferantenqualität)
Der Boxplot zeigt die Verteilung, den Median, die Quartile und mögliche Ausreißer einer numerischen Variable für verschiedene Gruppen. Ausreißer werden als einzelne Punkte außerhalb der "Whisker" dargestellt.

Im Beispiel sieht man, wie sich die Qualitätswerte zwischen Lieferanten unterscheiden und ob es Ausreißer gibt. Boxplots sind besonders hilfreich, um Gruppen zu vergleichen und ungewöhnliche Werte schnell zu erkennen.

In [None]:
quality = np.concatenate([np.random.normal(80, 5, 50), np.random.normal(70, 7, 50), [50, 120]])
supplier = ['A']*50 + ['B']*50 + ['A','B']
dfq = pd.DataFrame({'Qualität': quality, 'Lieferant': supplier})
plt.figure(figsize=(6,4))
sns.boxplot(x='Lieferant', y='Qualität', data=dfq, palette='Set1')
plt.title('Boxplot Lieferantenqualität mit Ausreißern')
plt.tight_layout()
plt.savefig('../figures/boxplot_quality_supplier.png')
plt.show()

## Scatterplot mit Trendlinie (Lieferdauer vs. Pünktlichkeit)

In [None]:
np.random.seed(2)
delivery = np.random.normal(5, 1, 100)
punctuality = 100 - delivery*10 + np.random.normal(0, 5, 100)
plt.figure(figsize=(6,4))
sns.regplot(x=delivery, y=punctuality, scatter_kws={'alpha':0.7})
plt.title('Scatterplot Lieferdauer vs. Pünktlichkeit mit Trendlinie')
plt.xlabel('Lieferdauer [Tage]')
plt.ylabel('Pünktlichkeit [%]')
plt.tight_layout()
plt.savefig('../figures/scatter_delivery_punctuality.png')
plt.show()

## Dichtekurve (Kernel Density Estimate) für eine numerische Variable

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Dichtekurve für Gehälter
plt.figure(figsize=(6,4))
sns.kdeplot(salaries, fill=True, color='purple')
plt.title('Dichtekurve Gehälter')
plt.xlabel('Gehalt [EUR]')
plt.tight_layout()
plt.savefig('../figures/kde_salaries.png')
plt.show()

## Violinplot: Verteilung und Dichte je Gruppe
Der Violinplot kombiniert die Vorteile von Boxplot und Dichteplot: Er zeigt die Verteilung, Dichte und typische Kennzahlen (Median, Quartile) einer numerischen Variable für verschiedene Gruppen.

Im Gegensatz zum Boxplot sieht man beim Violinplot nicht nur die Lage und Streuung, sondern auch die Form der Verteilung – z. B. ob sie symmetrisch, schief oder mehrgipflig ist. Die Breite der "Violine" zeigt, wie häufig Werte in einem Bereich vorkommen.

Violinplots sind besonders hilfreich, um Unterschiede zwischen Gruppen zu erkennen, die im Boxplot verborgen bleiben könnten.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Violinplot: Qualitätsverteilung je Lieferant
plt.figure(figsize=(6,4))
sns.violinplot(x='Lieferant', y='Qualität', data=dfq, palette='Set2')
plt.title('Violinplot: Qualität je Lieferant')
plt.xlabel('Lieferant')
plt.ylabel('Qualität')
plt.tight_layout()
plt.savefig('../figures/violinplot_quality_supplier.png')
plt.show()

## Korrelationsmatrix (Heatmap)
Die Korrelationsmatrix zeigt, wie stark numerische Variablen miteinander zusammenhängen. Werte nahe +1 bedeuten einen starken positiven Zusammenhang, Werte nahe -1 einen starken negativen Zusammenhang. Die Heatmap visualisiert diese Zusammenhänge farblich und hilft, Muster und Beziehungen zwischen Variablen schnell zu erkennen.

In [None]:
data = np.random.normal(size=(100,4))
df_corr = pd.DataFrame(data, columns=['A','B','C','D'])
plt.figure(figsize=(5,4))
sns.heatmap(df_corr.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Korrelationsmatrix (Heatmap)')
plt.tight_layout()
plt.savefig('../figures/heatmap_corr.png')
plt.show()

## Overplotting und Dichteplot
Wenn sehr viele Datenpunkte in einem Scatterplot dargestellt werden, können sich die Punkte stark überlagern (Overplotting). Dadurch werden Muster und Strukturen schwer erkennbar. Eine Lösung ist der Dichteplot (2D-KDE), der die Verteilung der Daten als Farbflächen zeigt und so auch bei großen Datenmengen die Strukturen sichtbar macht. Dichteplots sind besonders hilfreich, um Cluster, Häufungen oder Ausreißer in großen Datensätzen zu erkennen.

In [None]:
x = np.random.normal(0, 1, 1000)
y = np.random.normal(0, 1, 1000)
plt.figure(figsize=(6,4))
plt.scatter(x, y, alpha=0.2)
plt.title('Overplotting Beispiel')
plt.tight_layout()
plt.savefig('../figures/overplotting.png')
plt.show()
plt.figure(figsize=(6,4))
sns.kdeplot(x=x, y=y, fill=True, cmap='Blues')
plt.title('Dichteplot als Lösung für Overplotting')
plt.tight_layout()
plt.savefig('../figures/densityplot.png')
plt.show()

## Zeitreihe mit gleitendem Mittelwert (Energieverbrauch)
Zeitreihen zeigen, wie sich Messwerte über die Zeit verändern. Oft sind die Daten verrauscht oder schwanken stark. Ein gleitender Mittelwert (Moving Average) glättet die Zeitreihe, indem er jeweils den Durchschnitt über ein Zeitfenster berechnet. So werden Trends und Muster besser sichtbar, kurzfristige Schwankungen treten in den Hintergrund. Das ist besonders nützlich, um saisonale Effekte, Trends oder Ausreißer im zeitlichen Verlauf zu erkennen.

In [None]:
np.random.seed(3)
energy = np.random.normal(100, 10, 200)
ts = pd.Series(energy)
rolling = ts.rolling(window=10).mean()
plt.figure(figsize=(8,3))
plt.plot(ts, color='gray', alpha=0.5, label='Energieverbrauch')
plt.plot(rolling, color='red', label='Gleitender Mittelwert')
plt.title('Zeitreihe Energieverbrauch mit gleitendem Mittelwert')
plt.xlabel('Zeit')
plt.ylabel('Energieverbrauch [kWh]')
plt.legend()
plt.tight_layout()
plt.savefig('../figures/timeseries_rolling.png')
plt.show()

## Zusammenhang zwischen Variablen: Kovarianz und Korrelation
Im Folgenden werden die wichtigsten Maße zur Beschreibung von Zusammenhängen zwischen zwei numerischen Variablen anschaulich dargestellt: Kovarianz, Pearson-Korrelation und Spearman-Korrelation.

In [None]:
# Beispiel: Zusammenhang zwischen Größe und Gewicht (synthetisch)
np.random.seed(42)
groesse = np.random.normal(170, 10, 100)
gewicht = groesse * 0.5 + np.random.normal(0, 5, 100)
plt.figure(figsize=(6,4))
sns.scatterplot(x=groesse, y=gewicht)
plt.title('Scatterplot: Größe vs. Gewicht')
plt.xlabel('Größe [cm]')
plt.ylabel('Gewicht [kg]')
plt.tight_layout()
plt.savefig('../figures/scatter_groesse_gewicht.png')
plt.show()

# Kovarianz und Pearson-Korrelation berechnen
cov = np.cov(groesse, gewicht)[0,1]
pearson = np.corrcoef(groesse, gewicht)[0,1]
print(f'Kovarianz: {cov:.2f}')
print(f'Pearson-Korrelation: {pearson:.2f}')

# Spearman-Korrelation berechnen
from scipy.stats import spearmanr
spearman = spearmanr(groesse, gewicht).correlation
print(f'Spearman-Korrelation: {spearman:.2f}')

Im Scatterplot sieht man, dass größere Personen tendenziell auch schwerer sind – die Punkte steigen gemeinsam an. Die Kovarianz ist positiv, die Pearson-Korrelation zeigt einen starken linearen Zusammenhang. Die Spearman-Korrelation bestätigt, dass auch die Rangfolge der Werte ähnlich ist. So lassen sich Zusammenhänge zwischen Variablen anschaulich und quantitativ beschreiben.