# Analyse einer rechtsschiefen Verteilung

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/klar74/WS2025_lecture/blob/main/Vorlesung_04/rechtsschiefe_verteilung_analyse.ipynb)

In diesem Notebook werden 50 ganzzahlige Werte aus einer rechtsschiefen Verteilung erzeugt. Die Studierenden sollen mit Papier und Stift prüfen, ob die Werte normalverteilt sind. Anschließend werden Histogramm und ein Gauss-Fit gezeigt.

## 1. Importiere benötigte Bibliotheken

Wir verwenden numpy, matplotlib und scipy.stats für die Datenanalyse und Visualisierung.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)  # Für Reproduzierbarkeit

## 2. Generiere 50 ganzzahlige Werte aus einer rechtsschiefen Verteilung

Wir verwenden eine Exponentialverteilung, runden die Werte und speichern sie als Liste.

In [None]:
werte = np.random.exponential(scale=10, size=50)
werte = np.round(werte).astype(int)
werte_liste = [int(x) for x in werte]

## 3. Die Werte als Liste

Hier sind die 50 Werte. Analysiere sie mit Papier und Stift: Schätze Mittelwert, Median, Modus, Streuung und prüfe, ob sie normalverteilt sein könnten.

In [None]:
print(werte_liste)

## 4. Vergleich von Mittelwert, Median und Modus

Vergleiche die Lageparameter. Bei einer Normalverteilung sind sie ähnlich, bei Schiefe unterscheiden sie sich deutlich.

In [None]:
mittelwert = np.mean(werte)
median = np.median(werte)
modus = stats.mode(werte, keepdims=True)[0][0]
print(f"Mittelwert: {mittelwert:.2f}")
print(f"Median:    {median}")
print(f"Modus:     {modus}")

## 4. Histogramm der Werte

Das Histogramm zeigt die Verteilung der Werte. Ist sie symmetrisch?

In [None]:
plt.figure(figsize=(8,5))
plt.hist(werte, bins=10, color='skyblue', edgecolor='black', alpha=0.8, density=True)
plt.xlabel('Wert')
plt.ylabel('Relative Häufigkeit')
plt.title('Histogramm der 50 Werte')
plt.grid(alpha=0.3)
plt.show()

## 5. Statistische Tests auf Normalverteilung

Wir führen zwei gängige Tests durch:
- **Shapiro-Wilk-Test:** Sehr gut für kleine Stichproben, prüft explizit auf Normalverteilung.
- **Kolmogorov-Smirnov-Test:** Vergleicht die Verteilung mit einer Normalverteilung.

Ein p-Wert < 0.05 spricht gegen Normalverteilung.

**Hinweis zu Statistik und p-Wert:**

- Die **Teststatistik** ist ein Maß, das der jeweilige Test aus den Daten berechnet. Sie gibt an, wie gut die Daten einer Normalverteilung entsprechen.
- Der **p-Wert** ist die Wahrscheinlichkeit, unter der Annahme einer Normalverteilung mindestens so extreme Daten zu beobachten wie die gemessenen. Ist der p-Wert kleiner als 0,05, spricht das gegen Normalverteilung (man lehnt die Nullhypothese ab). Ein großer p-Wert bedeutet, dass die Daten mit einer Normalverteilung vereinbar sind.

Die Teststatistik ist der aus den Daten berechnete Wert, der die Grundlage für die Berechnung des p-Werts bildet. Sie zeigt, wie stark die Daten von der erwarteten Verteilung abweichen. Der p-Wert ergibt sich aus der Teststatistik und beschreibt, wie wahrscheinlich ein mindestens so extremer Wert unter der Nullhypothese ist.

- Die Teststatistik ist das „Roh-Ergebnis“ des Tests.
- Der p-Wert ist die daraus abgeleitete Wahrscheinlichkeit.

Die Teststatistik ermöglicht außerdem Vergleiche zwischen verschiedenen Stichproben oder Tests.

**Was bedeutet der p-Wert anschaulich?**

Stell dir vor, die Daten wären wirklich normalverteilt. Der p-Wert gibt dann an, wie wahrscheinlich es ist, dass man durch Zufall Daten bekommt, die mindestens so ungewöhnlich/extrem sind wie die, die man tatsächlich gemessen hat.

- Ist der p-Wert klein (z.B. < 0.05), dann wären so extreme Daten bei einer Normalverteilung sehr unwahrscheinlich. Das spricht gegen Normalverteilung.
- Ist der p-Wert groß, dann sind die Daten für eine Normalverteilung typisch – man kann die Normalverteilung also nicht widerlegen.

**Merke:**
Der p-Wert ist KEINE Wahrscheinlichkeit, dass die Daten normalverteilt sind! Er sagt nur, wie ungewöhnlich die Daten unter der Annahme einer Normalverteilung wären.

Der Shapiro-Wilk-Test ist kein Beweis für Normalität. Ein großes p heißt nur: keine Abweichung von Normalverteilung nachweisbar, nicht „beweist normal“.

In [None]:
# Shapiro-Wilk-Test
shapiro_stat, shapiro_p = stats.shapiro(werte)
print(f"Shapiro-Wilk-Test: Statistik = {shapiro_stat:.3f}, p-Wert = {shapiro_p:.3f}")
if shapiro_p < 0.05:
    print("→ Die Nullhypothese 'Normalverteilung' wird abgelehnt.")
else:
    print("→ Keine Evidenz gegen Normalverteilung.")

# Kolmogorov-Smirnov-Test
mu, sigma = stats.norm.fit(werte)
ks_stat, ks_p = stats.kstest(werte, 'norm', args=(mu, sigma))
print(f"Kolmogorov-Smirnov-Test: Statistik = {ks_stat:.3f}, p-Wert = {ks_p:.3f}")
if ks_p < 0.05:
    print("→ Die Nullhypothese 'Normalverteilung' wird abgelehnt.")
else:
    print("→ Keine Evidenz gegen Normalverteilung.")

## 5. Gauss-Fit (Normalverteilung) über das Histogramm

Wir fitten eine Normalverteilung auf die Werte und zeichnen die Dichtefunktion über das Histogramm.

**Wichtiger Hinweis:** Man kann **immer** eine Normalverteilung an beliebige Daten fitten - auch wenn sie gar nicht normalverteilt sind! Der Fit-Algorithmus berechnet einfach Mittelwert und Standardabweichung und zeichnet die entsprechende Gauss-Kurve. 

Ob der Fit **sinnvoll** ist, sieht man erst im Plot: Wenn die rote Kurve schlecht zu den Histogramm-Balken passt (wie bei unseren rechtsschiefen Daten), dann ist die Normalverteilung kein gutes Modell für die Daten.

In [None]:
# Fit einer Normalverteilung
mu, sigma = stats.norm.fit(werte)
x = np.linspace(min(werte), max(werte), 100)
pdf = stats.norm.pdf(x, mu, sigma)

plt.figure(figsize=(8,5))
plt.hist(werte, bins=10, color='skyblue', edgecolor='black', alpha=0.8, density=True, label='Histogramm')
plt.plot(x, pdf, 'r-', lw=2, label=f'Normalverteilung\n$\mu$={mu:.2f}, $\sigma$={sigma:.2f}')
plt.xlabel('Wert')
plt.ylabel('Relative Häufigkeit / Dichte')
plt.title('Histogramm mit Gauss-Fit')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

print(f"Geschätzter Mittelwert: {mu:.2f}")
print(f"Geschätzte Standardabweichung: {sigma:.2f}")