# Skript: Statistische Verteilungen

<hr>

Das Paket `scipy`, im speziellen `scipy.stats`, liefert uns Verteilungsfunktionen und Wahrscheinlichkeitsfunktionen (uvm.) für jede statistische Verteilung. 

In [None]:
# Modulimporte
import numpy as np
import random
from scipy.stats import binom, norm
import pandas as pd
import plotly.express as px

### 0. Vorspiel: Münzen werfen, werfen und werfen

In [None]:
# Ein Münzwurf mit random (ungezinkte Münze):
random.choices(population=['Kopf', 'Zahl'], weights=[0.5, 0.5])

In [None]:
# Eine Wurfreihe
random.choices(population=['Kopf', 'Zahl'], weights=[0.5, 0.5], k=10)

In [None]:
thousand_coin_tosses = random.choices(population=['Kopf', 'Zahl'], weights=[0.5, 0.5], k=1000)
thousand_coin_tosses

In [None]:
thousand_coin_tosses.count('Kopf')

In [None]:
len(thousand_coin_tosses) - thousand_coin_tosses.count('Kopf')

In [None]:
z_gen = np.random.default_rng(seed=42)

In [None]:
# Ergebnisse von jeweils einem Wurf:
z_gen.binomial(n=1, p=0.5, size=100)

In [None]:
# 100 Ergebnisse von jeweils 10 Würfen (bei jedem Wurf kann 0 oder 1 rauskommen):
ten_flips = z_gen.binomial(n=10, p=0.5, size=100)
ten_flips

In [None]:
# Kurze Häufigkeitsanalyse:
freqs = np.unique(ten_flips, return_counts=True)
freqs

In [None]:
freqs_df = pd.DataFrame({'value': freqs[0], 'count': freqs[1]})
freqs_df

In [None]:
# Darstellung der Verteilung:
freqs_df.set_index('value').plot(kind='bar')

In [None]:
three_flips = z_gen.binomial(n=3, p=0.5, size=1000)
three_flips

In [None]:
freqs = np.unique(three_flips, return_counts=True)
freqs_df = pd.DataFrame({'value': freqs[0], 'count': freqs[1]})
freqs_df['count'] = freqs_df['count'].apply(lambda x: x/sum(freqs_df['count']))
freqs_df

In [None]:
sum(freqs_df['count'])

In [None]:
freqs_df.set_index('value').plot(kind='bar');

# 1. Binomialverteilung

Die Bernoulliverteilung wird durch den Wahrscheinlichkeitsparameter **$p$** bestimmt.

Die Binomialverteilung braucht zusätzlich $n$ und $k$.

## Wahrscheinlichkeitsrechnung

Probability Mass Function (pmf) -> Wahrscheinlichkeit, genau k Erfolge zu erhalten

*Beispiele:*

1. Wahrscheinlichkeit, 2 Kopf bei 3 x Werfen zu bekommen (Wahrscheinlichkeit einer Münze 1/2)
2. Wahrscheinlichkeit 4 Sechsen bei 10 x Werfen eines sechsseitigen Würfels zu bekommen

1. Beispiel:

n = 3 (Würfe)

k = 2 (Kopf)

p = 1/2 (Wahrscheinlichkeit für Erfolg)


$$ p_k = {n \choose k} * p^k  * \left ( 1-p \right )^{n-k}  = {3 \choose 2} * \left ( \frac{1}{2}\right ) ^2  * \left ( \frac{1}{2} \right )^{3-2} $$


In [None]:
# PMF = Probability Mass Function
# Doku: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html
p_twoheads = binom.pmf(n=3, k=2, p=0.5)
print(p_twoheads)
print(f'{p_twoheads:.2%}')
# [KKZ, KZK, ZKK]
# Der Baum enthält bei drei Würfen 8 Möglichkeiten (2^3), also gibt es jeweils Wahrscheinlichkeiten von 1/8 (8 Stück)
# 1/8 = 0,125
# Wir hatten gesehen, dass es insgesamt drei mögliche Kombinationen für zweimal Kopf gibt
# Also: 3*0,125 = 0,375

In [None]:
# Wahrscheinlichkeiten für alle Ausgänge
# des Münzwurfes ermitteln und darstellen
# (k nimmt dabei 0, 1, 2, 3 Mal Kopf an)
n = 3
probs = [binom.pmf(n=n, k=k, p=0.5) for k in range(n + 1)]
print(probs)

px.bar(probs)

In [None]:
# Quizfrage: Wir hatten vorhin etwas Ähnliches mit 1000 Würfen erreicht.
# Worin unterscheidet sich diese Grafik von unserer obigen?


In [None]:
# Wahrscheinlichkeiten für alle Ausgänge
# bei 100 Würfen
# Binomialverteilung nähert sich Normalverteilung an
n = 100
probs = [binom.pmf(n=n, k=k, p=0.5) for k in range(n + 1)]
px.bar(probs)

Cumulative distribution function(cdf) -> Wahrscheinlichkeit kleiner oder gleich einem Wert

1. Wahrscheinlichkeit für höchstens 2 Wappen bei 3x Werfen
2. Wahrscheinlichkeit, mindestens 3 Mal die 5 zu werfen bei 10 Würfen mit einem 
sechsseitigen Würfel
3. Wahrscheinlichkeit, 2 bis 4 Sechser bei 10x Würfen

In [None]:
# 0. Vorspiel mit pmf:
bis_zwei = binom.pmf(n=3, k=0, p=0.5) + binom.pmf(n=3, k=1, p=0.5) + binom.pmf(n=3, k=2, p=0.5)
bis_zwei

In [None]:
# 1. Beispiel
# Höchstens 2x Wappen bei drei Münzwürfen
binom.cdf(n=3, k=2, p=0.5)

# Im Grunde alle Möglichkeiten mit Ausnahme von [WWW]
# Also 1 - 0,125 = 0,875
# Bzw. 7 * 0,125 = 0,875

In [None]:
# 2. Beispiel
# Mindestens 3x Fünf werfen bei 10 Würfelwürfen
# Berechnet über Gegenwahrscheinlichkeit (1-p)
1 - binom.cdf(n=10, k=2, p=1/6)

In [None]:
# Alternativ auch mit sf (survival function) möglich
# sf macht 1 - cdf für uns
binom.sf(n=10, k=2, p=1/6)

In [None]:
# 3. Beispiel
# Mindestens 2, aber maximal 4 Mal eine Sechs werfen
# bei 10 Würfelwürfen
binom.cdf(n=10, k=4, p=1/6) - binom.cdf(n=10, k=1, p=1/6)

In [None]:
n = 10
probs = [binom.pmf(n=n, k=k, p=1/6) for k in range(n + 1)]
px.bar(probs)

# 2. Normalverteilung

Bei immer größer werdenden Stichprobenumfang $n$ nähert sich die Binomial-Verteilung der Normalverteilung an. Die Normalverteilung beschreibt eine stetige Zufallsvariable (anders als bei der Binomialverteilung).

Die Normalverteilung wird über den Mittelwert µ und die Standardabweichung $σ$ beschrieben. Von einer Standardnormalverteilung spricht man bei µ=0 und $σ$ = 1.

In [None]:
# Angenommen, die mittlere Körpergröße aller Deutschen beträgt 1.74 m
# mit einer Standardabweichung von 0.23 m.
# Wie hoch ist die Wahrscheinlichkeit, wenn ich auf eine neue Person treffe, dass sie 
# höchstens 1,60 m groß ist?
p_max_160 = norm.cdf(x=1.60, loc=1.74, scale=0.23)

p_max_160

In [None]:
# Wie hoch ist die Wahrscheinlichkeit, dass eine Person mindestens 1.80 m groß ist?

# Wir müssen 1 - p benutzen, da die cdf die Wahrscheinlichkeit für "höchstens" berechnet
# Bei der Normalverteilung muss man nicht k-1 rechnen. Es spielt keine Rolle, ob die 1.80m
# inklusive oder exklusive sind, da die Wahrscheinlichkeit für einen Einzelwert immer = 0 ist.
p_min_180 = 1 - norm.cdf(x=1.799, loc=1.74, scale=0.23)
p_min_180

#### Erzeugen einer Normalverteilung

In [None]:
# Erstellen eines Zufallsgenerators
z_gen = np.random.default_rng(seed=42)

In [None]:
# Wie sieht eine Verteilung mit n=30 aus?
n = 30
normal_vert = z_gen.normal(loc=0, scale=1, size=n)
px.histogram(normal_vert)

In [None]:
# Und n=1000?
n = 1000
normal_vert = z_gen.normal(loc=0, scale=1, size=n)
px.histogram(normal_vert)

In [None]:
# Erzeugen von Zufallsdaten
# Mit Mittelwert = 0
# Standardabweichung = 1
n = 100_000
normal_vert = z_gen.normal(loc=0, scale=1, size=n)
px.histogram(normal_vert)

In [None]:
# Nur ausführen, wenn genug Zeit vorhanden ;)
n = 1_000_000
normal_vert = z_gen.normal(loc=0, scale=1, size=n)
px.histogram(normal_vert)