# Kapitel 2: Übungsbeispiele

Dieses Kapitel behandelt praktische Rechenbeispiele zu den statistischen Grundlagen mit Fokus auf:
- Absolute, relative und kumulative Häufigkeiten
- Klassifizierung und Histogramminterpretation
- Empirische Verteilungsfunktion

**Lernziele:**
- Häufigkeitsverteilungen berechnen und interpretieren
- Daten klassifizieren und visualisieren
- Empirische Verteilungsfunktionen verstehen und anwenden


## Imports und Setup


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

# Optional: Seaborn (falls vorhanden). Wenn nicht installiert, ist es nicht kritisch.
try:
    import seaborn as sns
    sns.set_palette("husl")
except Exception:
    sns = None

%matplotlib inline

print("Alle Bibliotheken erfolgreich importiert!")


---
## 1. Absolute, relative und kumulative Häufigkeiten


### 1.1 Beispieldaten: Kundenzufriedenheit

Ein Unternehmen hat 50 Kunden befragt und ihre Zufriedenheit auf einer Skala von 1–5 bewertet:
- 1 = Sehr unzufrieden
- 2 = Unzufrieden
- 3 = Neutral
- 4 = Zufrieden
- 5 = Sehr zufrieden


In [None]:
# Beispieldaten: Kundenzufriedenheit (50 Kunden)
np.random.seed(42)
zufriedenheit = np.random.choice([1, 2, 3, 4, 5], size=50, p=[0.08, 0.12, 0.20, 0.40, 0.20])

print("Rohdaten (Kundenzufriedenheit):")
print(zufriedenheit)
print(f"\nStichprobengröße: n = {len(zufriedenheit)}")


### 1.2 Berechnung von Häufigkeitsverteilungen


In [None]:
# Häufigkeitsverteilung berechnen
n = len(zufriedenheit)
values = sorted(np.unique(zufriedenheit))

# Absolute Häufigkeiten
absolute_freq = pd.Series(zufriedenheit).value_counts().sort_index()

# Relative Häufigkeiten
relative_freq = absolute_freq / n

# Kumulative Häufigkeiten (absolut)
cumulative_abs = absolute_freq.cumsum()

# Kumulative Häufigkeiten (relativ)
cumulative_rel = relative_freq.cumsum()

# Häufigkeitstabelle erstellen
frequency_table = pd.DataFrame({
    'Zufriedenheit': values,
    'Absolute Häufigkeit (f)': absolute_freq.values,
    'Relative Häufigkeit (h)': relative_freq.values.round(4),
    'Relative Häufigkeit %': (relative_freq * 100).values.round(2),
    'Kumulativ Absolut (F)': cumulative_abs.values,
    'Kumulativ Relativ (H)': cumulative_rel.values.round(4)
})

print("Häufigkeitstabelle:")
print(frequency_table.to_string(index=False))
print(f"\nSumme absolute Häufigkeiten: {absolute_freq.sum()}")
print(f"Summe relative Häufigkeiten: {relative_freq.sum():.4f}")


### 1.3 Visualisierung: Häufigkeitsverteilungen


In [None]:
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Absolute Häufigkeiten (Balkendiagramm)
axes[0, 0].bar(values, absolute_freq.values, alpha=0.7, edgecolor='black')
axes[0, 0].set_xlabel('Zufriedenheit')
axes[0, 0].set_ylabel('Absolute Häufigkeit (f)')
axes[0, 0].set_title('Absolute Häufigkeiten')
axes[0, 0].grid(axis='y', alpha=0.3)
axes[0, 0].set_xticks(values)

# 2. Relative Häufigkeiten (Balkendiagramm)
axes[0, 1].bar(values, relative_freq.values, alpha=0.7, edgecolor='black')
axes[0, 1].set_xlabel('Zufriedenheit')
axes[0, 1].set_ylabel('Relative Häufigkeit (h)')
axes[0, 1].set_title('Relative Häufigkeiten')
axes[0, 1].grid(axis='y', alpha=0.3)
axes[0, 1].set_xticks(values)

# 3. Kumulative Häufigkeiten (Absolut)
axes[1, 0].step(values, cumulative_abs.values, where='mid', marker='o')
axes[1, 0].set_xlabel('Zufriedenheit')
axes[1, 0].set_ylabel('Kumulative absolute Häufigkeit (F)')
axes[1, 0].set_title('Kumulative absolute Häufigkeitsverteilung')
axes[1, 0].grid(alpha=0.3)
axes[1, 0].set_xticks(values)

# 4. Kumulative Häufigkeiten (Relativ)
axes[1, 1].step(values, cumulative_rel.values, where='mid', marker='o')
axes[1, 1].set_xlabel('Zufriedenheit')
axes[1, 1].set_ylabel('Kumulative relative Häufigkeit (H)')
axes[1, 1].set_title('Kumulative relative Häufigkeitsverteilung')
axes[1, 1].grid(alpha=0.3)
axes[1, 1].set_xticks(values)
axes[1, 1].set_ylim([0, 1.1])

plt.tight_layout()
plt.show()

print("Visualisierungen erstellt!")


---
## 2. Klassifizierung und Histogramm-Interpretation


### 2.1 Beispieldaten: Körpergrößen

Körpergrößen von 100 Personen (in cm)


In [None]:
# Körpergrößen erzeugen (normalverteilt)
np.random.seed(42)
korpergroessen = np.random.normal(loc=172, scale=8, size=100)
korpergroessen = np.round(korpergroessen, 1)

print(f"Körpergrößen (Auszug): {korpergroessen[:10]}")
print("\nDeskriptive Statistik:")
print(f"  Minimum: {korpergroessen.min():.1f} cm")
print(f"  Maximum: {korpergroessen.max():.1f} cm")
print(f"  Mittelwert: {korpergroessen.mean():.2f} cm")
print(f"  Standardabweichung: {korpergroessen.std():.2f} cm")
print(f"  Stichprobengröße: n = {len(korpergroessen)}")


### 2.2 Klasseneinteilung

Die Daten werden in Klassen eingeteilt. Es wird folgende Regel verwendet:
- Anzahl der Klassen: $k \approx \sqrt{n}$


In [None]:
# Klasseneinteilung nach Wurzel-Regel
n = len(korpergroessen)
k = int(np.ceil(np.sqrt(n)))
print(f"Empfohlene Anzahl der Klassen: k = √{n} ≈ {k}")

# Klassenbreite berechnen
range_data = korpergroessen.max() - korpergroessen.min()
class_width = range_data / k
print(f"\nSpannweite: {range_data:.1f} cm")
print(f"Klassenbreite (theoretisch): {class_width:.2f} cm")

# Für bessere Interpretierbarkeit: Klassenbreite fest auf 5 cm
class_width = 5
k_actual = int(np.ceil(range_data / class_width))
print(f"\nVerwendete Klassenbreite: {class_width} cm")
print(f"Tatsächliche Anzahl Klassen: {k_actual}")

# Klassengrenzen definieren
min_val = int(np.floor(korpergroessen.min() / class_width) * class_width)
max_val = int(np.ceil(korpergroessen.max() / class_width) * class_width)
bins = np.arange(min_val, max_val + class_width, class_width)

print(f"\nKlassengrenzen: {bins}")


### 2.3 Häufigkeitsverteilung nach Klassen


In [None]:
# Häufigkeitsverteilung für Klassen
class_counts, bin_edges = np.histogram(korpergroessen, bins=bins)
class_centers = (bin_edges[:-1] + bin_edges[1:]) / 2

class_table = pd.DataFrame({
    'Klasse': [f'[{bin_edges[i]:.0f}, {bin_edges[i+1]:.0f})' for i in range(len(bin_edges)-1)],
    'Klassenmitte': class_centers,
    'Absolute Häufigkeit': class_counts,
    'Relative Häufigkeit': (class_counts / n).round(4),
    'Relative Häufigkeit %': (class_counts / n * 100).round(2),
    'Häufigkeitsdichte': (class_counts / (n * class_width)).round(4)
})

print("Häufigkeitsverteilung nach Klassen:")
print(class_table.to_string(index=False))
print(f"\nSumme: {class_counts.sum()}")


### 2.4 Histogramm und Histogramminterpretation


In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15, 11))

# 1. Histogramm (absolute Häufigkeiten)
axes[0, 0].hist(korpergroessen, bins=bins, edgecolor='black', alpha=0.7)
axes[0, 0].set_xlabel('Körpergröße (cm)')
axes[0, 0].set_ylabel('Absolute Häufigkeit')
axes[0, 0].set_title('Histogramm: Körpergrößen (absolute Häufigkeiten)')
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Histogramm (Häufigkeitsdichten)
axes[0, 1].hist(korpergroessen, bins=bins, density=True, edgecolor='black', alpha=0.7)
axes[0, 1].set_xlabel('Körpergröße (cm)')
axes[0, 1].set_ylabel('Häufigkeitsdichte')
axes[0, 1].set_title('Histogramm: Körpergrößen (Dichte)')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Histogramm mit theoretischer Normalverteilung
axes[1, 0].hist(korpergroessen, bins=bins, density=True, edgecolor='black', alpha=0.7, label='Daten')
mu, sigma = korpergroessen.mean(), korpergroessen.std()
x = np.linspace(korpergroessen.min(), korpergroessen.max(), 200)
axes[1, 0].plot(x, stats.norm.pdf(x, mu, sigma), linewidth=2.5, label='Normalverteilung')
axes[1, 0].set_xlabel('Körpergröße (cm)')
axes[1, 0].set_ylabel('Dichte')
axes[1, 0].set_title('Histogramm mit Normalverteilung')
axes[1, 0].legend()
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Kumulatives Histogramm (kumulierte Häufigkeiten)
cumulative_counts = np.cumsum(class_counts)
axes[1, 1].bar(class_centers, cumulative_counts, width=class_width*0.8, edgecolor='black', alpha=0.7)
axes[1, 1].set_xlabel('Körpergröße (cm)')
axes[1, 1].set_ylabel('Kumulative Häufigkeit')
axes[1, 1].set_title('Kumulatives Histogramm')
axes[1, 1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("Histogramme erstellt!")


### 2.5 Histogramminterpretation

**Beobachtungen:**
1. **Form der Verteilung**: Die Körpergrößen folgen einer ungefähr normalverteilten Form
2. **Zentraler Bereich**: Die meisten Werte konzentrieren sich um 170–175 cm
3. **Schiefe**: Die Verteilung ist annähernd symmetrisch
4. **Ausreißer**: Es gibt wenige extreme Werte


In [None]:
from scipy.stats import skew, kurtosis

print("Verteilungscharakteristiken:")
s = skew(korpergroessen)
kex = kurtosis(korpergroessen)
print(f"  Schiefe (Skewness): {s:.4f}")
if s > 0.5:
    interp = "Rechtsschief"
elif abs(s) <= 0.5:
    interp = "Annähernd symmetrisch"
else:
    interp = "Linksschief"
print(f"    → Interpretation: {interp}")
print(f"  Exzess (Kurtosis): {kex:.4f}")
print(f"  Modalklasse: [{bin_edges[np.argmax(class_counts)]:.0f}, {bin_edges[np.argmax(class_counts)+1]:.0f})")
print(f"  Häufigster Klassenmittelwert: {class_centers[np.argmax(class_counts)]:.1f} cm")


---
## 3. Empirische Verteilungsfunktion


### 3.1 Definition und Berechnung

Die **empirische Verteilungsfunktion (EDF)** $\hat{F}_n(x)$ wird definiert als:

$$\hat{F}_n(x) = \frac{\text{Anzahl der Beobachtungen} \leq x}{n}$$

Sie ist eine Treppenfunktion, die bei jeder Beobachtung um $1/n$ ansteigt.


In [None]:
# Empirische Verteilungsfunktion für Körpergrößen berechnen
sorted_data = np.sort(korpergroessen)
empf = np.arange(1, len(sorted_data) + 1) / len(sorted_data)

print("Empirische Verteilungsfunktion (Auszug):")
print("\nKörpergröße (cm) | F_n(x)")
print("-" * 30)
step = max(1, len(sorted_data)//10)
for i in range(0, len(sorted_data), step):
    print(f"{sorted_data[i]:15.1f} | {empf[i]:.4f}")
print("...")
print(f"{sorted_data[-1]:15.1f} | {empf[-1]:.4f}")


### 3.2 Visualisierung der empirischen Verteilungsfunktion


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 1. Empirische Verteilungsfunktion (Treppenfunktion)
axes[0].step(sorted_data, empf, where='post', linewidth=2.5, label=r'$\hat{F}_n(x)$')
axes[0].scatter(sorted_data[::5], empf[::5], s=25)
axes[0].set_xlabel('Körpergröße (cm)')
axes[0].set_ylabel(r'$\hat{F}_n(x)$')
axes[0].set_title('Empirische Verteilungsfunktion (EDF)')
axes[0].grid(alpha=0.3)
axes[0].legend()
axes[0].set_ylim([-0.05, 1.05])

# 2. EDF mit theoretischer Normalverteilung
axes[1].step(sorted_data, empf, where='post', linewidth=2, label='Empirisch', alpha=0.8)
theo_dist = stats.norm.cdf(sorted_data, mu, sigma)
axes[1].plot(sorted_data, theo_dist, linewidth=2.5, linestyle='--', label='Theoretisch (Normal)')
axes[1].set_xlabel('Körpergröße (cm)')
axes[1].set_ylabel('F(x)')
axes[1].set_title('Vergleich: Empirische vs. theoretische Verteilung')
axes[1].grid(alpha=0.3)
axes[1].legend()
axes[1].set_ylim([-0.05, 1.05])

plt.tight_layout()
plt.show()

print("Empirische Verteilungsfunktionen visualisiert!")


### 3.3 Quantile und Perzentile aus der EDF


In [None]:
# Quantile berechnen
percentiles = [10, 25, 50, 75, 90]
quantile_values = np.percentile(korpergroessen, percentiles)

print("Quantile und Perzentile:")
print("\nPerzentil | Quantil | Wert (cm) | Interpretation")
print("-" * 60)
for pct, val in zip(percentiles, quantile_values):
    if pct == 50:
        interp = "Median (P50)"
    elif pct == 25:
        interp = "Unteres Quartil (Q1)"
    elif pct == 75:
        interp = "Oberes Quartil (Q3)"
    else:
        interp = f"P{pct}"
    print(f"{pct:8d}  | {pct/100:8.2f}  | {val:9.2f}  | {interp}")

q1 = np.percentile(korpergroessen, 25)
q2 = np.percentile(korpergroessen, 50)
q3 = np.percentile(korpergroessen, 75)
iqr = q3 - q1

print("\nInterkvartilenbereich (IQR):")
print(f"  Q1 (25. Perzentil): {q1:.2f} cm")
print(f"  Q2 (Median):        {q2:.2f} cm")
print(f"  Q3 (75. Perzentil): {q3:.2f} cm")
print(f"  IQR = Q3 - Q1:      {iqr:.2f} cm")


### 3.4 Quantil-Quantil (Q-Q) Plot


In [None]:
from scipy.stats import probplot

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 1. Q-Q Plot gegen Normalverteilung
probplot(korpergroessen, dist="norm", plot=axes[0])
axes[0].set_title('Q-Q Plot: Vergleich mit Normalverteilung')
axes[0].grid(alpha=0.3)

# 2. Box-Plot
axes[1].boxplot(korpergroessen, vert=True)
axes[1].set_ylabel('Körpergröße (cm)')
axes[1].set_title('Box-Plot')
axes[1].grid(axis='y', alpha=0.3)
axes[1].set_xticklabels(['Körpergrößen'])

plt.tight_layout()
plt.show()

print("Q-Q Plot und Box-Plot erstellt!")


### 3.5 Test auf Normalverteilung


In [None]:
from scipy.stats import shapiro, kstest, anderson

print("Tests auf Normalverteilung:\n")

# Shapiro-Wilk Test
stat_sw, p_sw = shapiro(korpergroessen)
print("1. Shapiro-Wilk Test:")
print(f"   Teststatistik: {stat_sw:.6f}")
print(f"   p-Wert: {p_sw:.6f}")
print(f"   Ergebnis: {'Normalverteilung kann angenommen werden (p > 0.05)' if p_sw > 0.05 else 'Keine Normalverteilung (p < 0.05)'}")

# Anderson-Darling Test
result_ad = anderson(korpergroessen, dist='norm')
print("\n2. Anderson-Darling Test:")
print(f"   Teststatistik: {result_ad.statistic:.6f}")
print(f"   Kritische Werte: {result_ad.critical_values}")
print(f"   Signifikanzniveaus: {result_ad.significance_level}%")

# Kolmogorov-Smirnov Test (Parameter geschätzt aus Daten)
stat_ks, p_ks = kstest(korpergroessen, 'norm', args=(mu, sigma))
print("\n3. Kolmogorov-Smirnov Test:")
print(f"   Teststatistik: {stat_ks:.6f}")
print(f"   p-Wert: {p_ks:.6f}")
print(f"   Ergebnis: {'Normalverteilung kann angenommen werden (p > 0.05)' if p_ks > 0.05 else 'Keine Normalverteilung (p < 0.05)'}")


---
## 4. Zusammenfassung und Kontrollaufgaben


### 4.1 Zusammenfassung der Konzepte

| Konzept | Definition | Python-Funktion |
|---------|-----------|------------------|
| Absolute Häufigkeit | Anzahl der Beobachtungen in einer Kategorie | `value_counts()` |
| Relative Häufigkeit | Anteil einer Kategorie an der Gesamtheit | `value_counts() / n` |
| Kumulative Häufigkeit | Summe aller Häufigkeiten bis zu einem Punkt | `cumsum()` |
| Klasseneinteilung | Gruppierung kontinuierlicher Daten | `np.histogram()` |
| Histogramm | Grafische Darstellung einer Häufigkeitsverteilung | `plt.hist()` |
| Empirische Verteilungsfunktion | Anteil der Beobachtungen ≤ x | `np.sort()` + `np.arange()/n` |
| Quantile | Werte, die die Daten in Teile aufteilen | `np.percentile()` |


### 4.2 Kontrollaufgaben


**Aufgabe 1:** Gegeben sind die folgenden Messwerte: 3, 1, 4, 1, 5, 9, 2, 6, 5

Berechnen Sie:
1. Die absolute Häufigkeitsverteilung
2. Die relative Häufigkeitsverteilung
3. Die kumulativen Häufigkeiten


In [None]:
# Lösung Aufgabe 1
messwerte = np.array([3, 1, 4, 1, 5, 9, 2, 6, 5])
n = len(messwerte)

print("Aufgabe 1 - Lösung:")
print(f"\nRohdaten: {messwerte}")
print(f"n = {n}\n")

abs_freq = pd.Series(messwerte).value_counts().sort_index()
rel_freq = abs_freq / n
cum_abs = abs_freq.cumsum()
cum_rel = rel_freq.cumsum()

tabelle = pd.DataFrame({
    'Wert': abs_freq.index,
    'Absolute Häufigkeit': abs_freq.values,
    'Relative Häufigkeit': rel_freq.values.round(4),
    'Kumulativ absolut': cum_abs.values,
    'Kumulativ relativ': cum_rel.values.round(4)
})

print(tabelle.to_string(index=False))


**Aufgabe 2:** Klassifizieren Sie die Körpergrößendaten in 3 Klassen und berechnen Sie die Häufigkeitsdichten.


In [None]:
# Lösung Aufgabe 2
print("Aufgabe 2 - Lösung:")
print(f"\nKörpergröße von {len(korpergroessen)} Personen")
print(f"Range: {korpergroessen.min():.1f} - {korpergroessen.max():.1f} cm\n")

k_custom = 3
width_custom = (korpergroessen.max() - korpergroessen.min()) / k_custom
bins_custom = np.arange(korpergroessen.min(), korpergroessen.max() + width_custom, width_custom)

print(f"Klasseneinteilung mit k = {k_custom} Klassen:")
print(f"Klassenbreite: {width_custom:.1f} cm\n")

counts_custom, edges_custom = np.histogram(korpergroessen, bins=bins_custom)

tabelle_custom = pd.DataFrame({
    'Klasse': [f'[{edges_custom[i]:.1f}, {edges_custom[i+1]:.1f})' for i in range(len(edges_custom)-1)],
    'Häufigkeit': counts_custom,
    'Relative Häufigkeit': (counts_custom / len(korpergroessen)).round(4),
    'Häufigkeitsdichte': (counts_custom / (len(korpergroessen) * width_custom)).round(4)
})

print(tabelle_custom.to_string(index=False))


**Aufgabe 3:** Berechnen Sie das 30. und 70. Perzentil der Körpergrößendaten und interpretieren Sie die Ergebnisse.


In [None]:
# Lösung Aufgabe 3
print("Aufgabe 3 - Lösung:\n")

p30 = np.percentile(korpergroessen, 30)
p70 = np.percentile(korpergroessen, 70)

print(f"30. Perzentil (P30): {p30:.2f} cm")
print(f"  → Interpretation: 30% der Personen sind kleiner oder gleich {p30:.2f} cm")
print(f"  → Umgekehrt: 70% der Personen sind größer als {p30:.2f} cm\n")

print(f"70. Perzentil (P70): {p70:.2f} cm")
print(f"  → Interpretation: 70% der Personen sind kleiner oder gleich {p70:.2f} cm")
print(f"  → Umgekehrt: 30% der Personen sind größer als {p70:.2f} cm\n")

print("Bereich zwischen P30 und P70:")
print(f"  Breite: {p70 - p30:.2f} cm")
print("  → 40% der Daten liegen in diesem Bereich")


---
## 5. Weiterführende Ressourcen und Literatur

### Empfehlenswerte Literatur:
- **Fahrmeir, L., Künstler, R., Pigeot, I., & Tutz, G.** (2016). *Statistik: Der Weg zur Datenanalyse*. Springer Spektrum.
- **Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K.** (2016). *Probability & Statistics for Engineers & Scientists*. Pearson.
- **Field, A.** (2013). *Discovering Statistics Using IBM SPSS Statistics*. SAGE Publications.

### Python-Dokumentation:
- NumPy: https://numpy.org/doc/
- Pandas: https://pandas.pydata.org/docs/
- Matplotlib: https://matplotlib.org/stable/contents.html
- SciPy: https://docs.scipy.org/
