# Grundlagen Statistik
In dieser Lektion wollen wir einige grundlegende statitische Größen wiederholen bzw. einführen. Das meiste dürfte bereits bekannt sein. Wir wollen aber neben dem theoretischen Grundlagen auch zeigen, wie wir diese Statistiken in der Programmiersprache Python berechnen können.

Wir greifen hierfür auf den Datensatz *heights* zurück. Der Datensatz steht auf GitHub in einem öffentlichen Repository zur Verfügung. Das folgende Python-Programm verwendet für das Laden des Datensatzes die Methode *read_csv* aus dem Package *Pandas*. Nach dem Laden des Datensatzes geben wir die ersten 5 Zeilen aus.

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/troescherw/datasets/master/heights.csv"
daten = pd.read_csv(url, delimiter=";")
daten.head()

*heights* besteht aus zwei Spalten (sog. Features): 

* sex: Dem Geschlecht der untersuchten Person
* height: Die Größe in inches

Basierend auf diesen Daten wollen wir nun einige häufig benutzte Statistiken erstellen. Diese wollen wir einerseits aufgrund der mathematischen Definition berechnen bzw. etwaig bereits in Python vorhandene Funktionen nutzen.

## Maximum und Minimum
Zuerst geben wir die maximale und minimale Größe aus. Hierfür nutzen wir die Pandas-Funktionen *min* bzw. *max*. Damit können wir auch die Spannweite berechnen:



In [None]:
print("Minimalwert:", daten.height.min())
print("Maximalwert:", daten.height.max())
print("Spannweite: ",  daten.height.max()-daten.height.min())

# Mittelwert
Der Mittelwert ist der Quotient aus der Summe der Einzelwerte und der Anzahl der Werte:

$
\bar{x} = \frac{1}{n}\sum _{i=1}^{n}x_{i}
$

Wir verwenden hierfür die Funktion *mean*, um den Mittelwert aller Körpergrößen zu ermitteln:

In [None]:
daten.height.mean()

Wollen wir den Mittelwert der Körpergrößen der Männer ermitteln, müssen wir zuerst die entsprechenden Werte selektieren:

In [None]:
daten[daten.sex=="Male"].height.mean()

**Übung:** Ermitteln Sie die durchschnittliche Körpergröße der Frauen!

In [None]:
# Hier den Code eingeben:


## Varianz und Standardabweichung (Stichprobe)
De Varianz und die Standardabweichung sind Kennzahlen für die Streuung der Daten. Alle diese Kennzahlen werden umso größer, je größer die Streuung in einer Datenreihe ist. Sie sind wie folgt definiert:

$ s^2 = \frac{1}{n-1}\sum _{i=1}^{n}(x_{i} - \bar{x})^2$

Die Standardabweichung ist die Wurzel der Varianz:

$ s = \sqrt{\frac{1}{n-1}\sum _{i=1}^{n}(x_{i} - \bar{x})^2} $

Wir teilen hier jeweis durch (n-1), da wir meist nicht die Daten der Grundgesamtheit zur Verfügung haben. In unserem Beispiel müssten wir die Größen **aller** Männer und Frauen haben! Unser Datensatz ist aber nur eine Stichprobe, sodass wir die Standardabweichung bzw. Varianz nur schätzen können. Meist wird die Standardabweichung der Stichprobe mit einem s bezeichnet, für die Grundgesamtheit mit einem $\sigma$, die Varianz analog mit $s^2$ mbzw. $\sigma^2$

In Pandas stehen hierfür die Funktionen *var* und *sd* zur Verfügung, die sich jeweils auf die Stichprobe beziehen:

In [None]:
print("Standardabweichung: " , daten.height.std())

In [None]:
print("Varianz: " , daten.height.var())

## Verteilungen
### Binomialverteilung

Merkmale:

* Typ der Verteilung: Diskret
* Merkmal: Ziehen mit Zurücklegen
* Klassische Beispiele: Würfeln, Münzwurf

Definition:
$
B(k\mid p,n)=\begin{cases}
  \binom nk p^k (1-p)^{n-k} &\text{falls} \quad k\in\left\{0,1,\dots,n\right\}\\
  0            & \text{sonst.}\end{cases}
$

**Beispiel 1:**
Wie hoch ist die Wahrscheinlichkeit, dass beim 10-maligen Würfeln exakt 3 mal eine 6 gewürfelt wird?

Gegeben:

* n = 10
* k = 3
* p = 1/6

\begin{eqnarray*}
B(k \mid p,n) &=& \binom nk p^k (1-p)^{n-k} \\
&=& {10\choose 3} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
&=& \frac{10!}{(10-3)! \cdot 3!} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
&=& \underline{0,155}
\end{eqnarray*}

Berechnung mit Hilfe der Funktion *pmf* aus dem Package *binom*:

In [None]:
from scipy.stats import binom
binom.pmf(3, 10, 1/6)

Wir erstellen mit Hilfe von Matplotlib ein Diagramm, das die Wahrscheinlichkeiten für oben angegebenes Beispiel zeigt: Wahrscheinlichkeiten beim 10-maligen Würfeln für 0, 1, 2, ... 10 mal die 6:

In [None]:
%matplotlib inline
import pandas as pd
from scipy.stats import binom
import matplotlib.pyplot as plt

# Wir erstellen ein Dataframe (eine Tabelle) mit 2 Spalten:
# den x-Werten von 0 bis 10 und den zugehörigen p-Werten

ergebnisse = pd.DataFrame({"x":[0,1,2,3,4,5,6,7,8,9,10],
                          "y":binom.pmf([0,1,2,3,4,5,6,7,8,9,10],10,1/6)})

plt.bar(ergebnisse.x, ergebnisse.y)
plt.title("Wahrscheinlichkeiten der Binomialverteilung")
plt.xlabel("Anzahl Treffer")
plt.ylabel("Wahrscheinlichkeit")
plt.show()

**Beispiel 2:** Kumulierte Häufigkeit

Wie hoch ist die Wahrscheinlichkeit, dass beim 10-maligen Würfeln 1, 2 oder 3 Mal die 6 gewürfelt wird? Dazu müssen die Einzelwahrscheinlichkeiten für X=1, X=2 und X=3 addiert werden.

\begin{eqnarray*}
= {10\choose 1} \cdot \left( \frac{1}{6}\right)^{1} \cdot \left(\frac{5}{6}\right)^{9} 
	+   {10\choose 2} \cdot \left( \frac{1}{6}\right)^{2} \cdot \left(\frac{5}{6}\right)^{8} 
  + 	{10\choose 3} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
  = 0,323 + 0,291 + 0,155 \\
	= \underline{0,769}
\end{eqnarray*}

Die Aufgabe lässt sich mit Python wie folgt lösen:

In [None]:
from scipy.stats import binom

binom.pmf([1,2,3], 10, 1/6).sum()

Mit Hilfe der Funktion *cdf* kann auch die kummulierte Wahrscheinlichkeit (von 0 .. k) berechnet werden, müssen dann aber die Wahrscheinlichkeit für k=0 wieder abziehen!

In [None]:
binom.cdf(3, 10, 1/6) - binom.pmf(0,10,1/6)

**Übung:**
Aus einer Urne mit (theoretisch unendlich) vielen roten und blauen Kugeln werden 20 Kugeln gezogen. Nach jedem Ziehen wird die Kugel wieder zurückgelegt. 

Wie groß ist die Wahrscheinlichkeit, dass 8 dieser Kugeln blau sind, wenn die Wahrscheinlichkeit, eine blaue Kugel zu ziehen, 35% beträgt?


Eingesetzt in die Formel für die Binomialverteilung:

$ P(X=8)=\binom{20}{8}0,35^{8}\cdot(1-0,35)^{20-8}=1,161 $

Geben Sie den Python-Code, der die gesuchte Wahrscheinlichkeit ermittelt, in folgende Zeile ein:

In [None]:
 # Hier den Code eingeben!


**Übung:**
Wie groß ist die Wahrscheinlichkeit, *höchstens* 8 blaue Kugeln zu ziehen? (Ergebnis: 0.762)

Geben Sie auch hier wieder den gesuchten Python-Code ein:

In [None]:
# Hier den Code eingeben!


### Normalverteilung
Die wohl wichtigste Verteilung, siehe auch "Zentraler Grenzwertsatz (ZGW)"

Merkmale:
* Typ: Stetige Verteilung
* Bekannt auch als "Gaußkurve" oder auch "Glockenkurve"
* Beispiele: Unendlich viele ("Schweizer Taschenmesser der Statistik")

Der *Zentrale Grenzwertsatz* besagt, dass die Stichprobenverteilung der Mittelwerte asymptotisch normalverteilt sein wird, unabhängig von der Form der zugrunde liegenden Verteilung der Daten, vorausgesetzt die Daten sind unabhängig und identisch verteilt. Häufig wird die Normalverteilung auch dazu verwendet, die Binomialverteilung einfacher zu berechnen. Dazu muss die Laplace-Bedingung erfüllt sein: Die Standardabweichung $\sigma$ muss mindestens 3 ergeben:


$ \sigma = \sqrt{n \cdot p \cdot (1-p)} > 3 $
 
Funktion der Normalverteilung:

$ f(x) = \frac {1}{\sigma\sqrt{2\pi}} e^{-\frac {1}{2} \left(\frac{x-\mu}{\sigma}\right)^2} $

Dabei gilt:

- $\sigma$: Standardabweichung der Grundgesamtheit
- $\mu$: Erwartungswert der Grundgesamtheit

Wir erstellen mit folgendem Code einen Plot, der die bekannte Glockenkurve zeigt:

In [None]:
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

x = np.arange(-4,4,.01)
y = norm.pdf(x)

plt.plot(x,y)
plt.title("Normalverteilung")
plt.show()


### Standardnormalverteilung
Bei der Standardnormalverteilung beträgt die Standardabweichung $\sigma$ immer eins, der Erwartungswert $\mu$ immer 0. In der Praxis wird häufig die Standardnormalverteilung verwendet. Dazu müssen alle x-Werte in standardisierte z-Werte umgewandelt werden:

$ z_{i} = \frac{x_{i}-\mu}{\sigma} $

**Beispiel:**
Die Körpergröße sei normalverteilt. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann zwischen 70 und 72 inches groß ist?

Wir lösen diese Aufgabe mit Python, und zwar auf 2 Wegen:
* Zuerst die Schritt-für-Schritt-Lösung (wie in der Schule ;-)
* Dann mit einem einzigen Python-Befehl!

In [None]:
from scipy.stats import stats
# Schritt-für-Schritt - Lösung

# Wir ermitteln den Mittelwert der Körpergrößen der Männer
x_quer = daten[daten.sex=="Male"].height.mean()
print("Mittelwert: " , x_quer)

# Wir ermitteln die Standardabweichung der Körpergrößen der Männer
s = daten[daten.sex=="Male"].height.std()
print("Standardabweichung" , s)

# Wier bestimmen die Z-Werte für die beiden Grenzen
z_links = (70-x_quer) / s
z_rechts = (72-x_quer) / s
print("z links:", z_links, ", z rechts:", z_rechts)

# Wir schauen in eine Tabelle für Normalverteilungen (siehe Internet oder auch im Skript).
# Die gesuchte Wahrscheinlichkeit ist die Fläche unter der Kurve zwischen den beiden Z-Werten.

# Für z.links finden wir einen Wert von 0,5753, für z.rechts einen Wert von 0,7704
# Somit ergibt sich die Lösung

p = 0.7704 - 0.5753
print("Ergebnis:" , p)

# Nun die Lösung mit Hilfe der Python-Funktion dnorm:
norm.cdf(72, x_quer, s) - norm.cdf(70, x_quer, s)

Das folgende Diagramm visualisiert diese Aufgabe. Der rot markierte Bereich unter der Kurve entspricht der gesuchten Wahrscheinlichkeit:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
x = np.arange(-4,4,.01)
y = norm.pdf(x)
plt.fill_between(x,y,0, color="green")
plt.fill_between(x,y,0, x>0.19 ,  color="red")
plt.fill_between(x,y,0, x>0.74 ,  color="green")
plt.show()

## Hypothesentest und p-Wert
*Beispiel:* Bei einem neuen Medikament wird behauptet, dass eine Nebenwirkung mit einer Wahrscheinlichkeit von bis zu 10% auftritt.
Diese Information soll auf den Beipackzettel des Medikaments gedruckt werden. Bei einer klinischen Studie  wurde bei 10 von 50 Patienten diese
Nebenwirkungen festgestellt. Ist die Angabe auf dem Beipackzettel haltbar?

Als Signifikanzniveau soll 5% verwendet werden.

$H_0$ lautet: P(Nebenwirkung) <= 10%

$H_1$ lautet: P(Nebenwirkung) > 10%

Falls $H_0$ richtig ist, beträgt die Wahrscheinlichkeit,
dass von 50 Patienten bei 10 ODER MEHR Patienten Nebenwirkungen
auftreten:


In [None]:
import numpy as np
from scipy.stats import binom_test

p = binom_test(10, 50, 0.1, alternative="greater")
print(p)

p < 0,05 $\Rightarrow$ Wir können $H_0$ **nicht** beibehalten, somit ist die Angabe auf dem Beipackzettel nicht haltbar!
Man beachte: Hätten wir ein Signifikanzniveau von 0,1 gewählt, so hätten wir $H_0$ beibehalten!!! Deshalb ist es im Sinne der Wissenschaft wichtig, das Signifikanzniveau **VOR** dem Ziehen der Stichprobe zu wählen!

Die folgende Grafik zeigt die Binomialverteilung für die Anzahl der Patienten mit Nebenwirkung. Da ab ca. 15 Patienten die Wahrscheinlichkeit fast 0 ist, werden nur die ersten 20 Wahrscheinlichkeiten angezeigt.

In [None]:
#wahrscheinlichkeiten <- data.frame(x=0:20, p=dbinom(0:20, 50, .1))

#bp <- barplot(wahrscheinlichkeiten$p, xlim=c(0,20), col=c(rep("blue",10), rep("red",10)), 
#        names.arg = wahrscheinlichkeiten$x,
#        main = "Wahrscheinlichkeitsverteilung",
#        xlab = "Anzahl Patienten mit Nebenwirkungen",
#        ylab = "Wahrscheinlichkeit der Nebenwirkung",
#        ylim=c(0,.2))
#
#text(bp, wahrscheinlichkeiten$p, labels=round(wahrscheinlichkeiten$p*1000)/1000,
#     col="red", pos=3, cex=.8)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import binom
x = np.arange(20)
p = binom.pmf(x, 50, .1)

plt.bar(x[0:11],p[0:11], color="r")
plt.bar(x[11:],p[11:], color="g")

Allgemein formuliert: Der p-Wert gibt die Wahrscheinlichkeit an, dass unter der Annahme, dass die 0-Hypothese gültig ist, ein Ergebnis wie das ermittelte oder noch extremer auftritt.

# $\chi^2$-Test
Als weiteren Hypothesentest wollen wir noch den χ2 - Unabhängigkeitstest behandeln. Bei dieser Testvariante wird geprüft, ob zwei beliebig skalierte (also auch nominal skalierte) Merkmale voneinander unabhängig sind. Man kann diesen Test zum Beispiel einsetzen um zu prüfen, ob die unabhängigen Variablen für eine lineare Regression auch wirklich unabhängig sind. Die 0-Hypothese $H_0$ geht davon aus, dass dies der Fall ist.

Die Beobachtungen werden hierzu in Kategorien eingeteilt und man trägt die Anzahl der jeweiligen Beobachten (Observations) in eine Matrix ein. Zudem erstellt man eine Matrix mit den zu erwartenden (expected) Häuﬁgkeiten,
die eintreten würden, falls die Merkmale tatsächlich voneinander unabhängig wären. Der $\chi^2$ -Wert wird dann wie folgt berechnet:

$\chi^2 = \frac{(n_0-n_e)^2}{n_e}$

wobei gilt: $n_o$ sind die beobachteten Häufigkeiten (o für observed), $n_e$ die erwarteten Häufigkeiten (e für exptected), sollten die Merkmale voneinander tatsächlich unabhängig sein. Der hiermit berechnete Wert wird mit einem Wert einer $\chi^2$ - Tabelle verglichen. Ist der berechnete Wert größer als der Wert aus der Tabelle, so wird die 0-Hypothese verworfen, ist sie kleiner, so wird sie beibehalten.

**Beispiel:**
Es wird untersucht, ob die Art der Erwerbstätigkeit (voll erwerbstätig, teilzeit beschäftigt, geringfügig beschäftigt, nicht erwerbstätig) vom Geschlecht abhängt. Eine Umfrage unter 1.000 Personen ergab folgende Werte, zusammengefasst in der folgenden Kontingenztabelle:

|Beschäftigungsart | weiblich | männlich | $\Sigma$|
|:-----------------|:--------:|:--------:|:-------:|
|voll erwerbstätig | 100      | 335      | **435** |
|teilzeit besch.   | 50       | 55       | **105** |
|geringfügig besch.| 20       | 50       | **70**  |
|nicht erwerbstätig| 300      | 90       | **390** |
|$\Sigma$          | **470**  | **530**  | **1000**|

Die 0-Hypothese lautet: Es gibt *keinen* Unterschied zwischen den Geschlechtern.

Angenommen die Merkmale wären völlig unabhängig voneinander, dann kann man die erwarteten Häuﬁgkeiten wie folgt berechnen: Man multipliziert die Randhäuﬁgkeiten (die Summen der jeweiligen Zeile und Spalte) und dividiert dieses Produkt durch die Gesamtsumme (die Zahl unten rechts in der Tabelle, hier also 1.000). Im Beispiel würden sich folgende erwarteten Häufigkeiten ergeben:

|Beschäftigungsart | weiblich | männlich | $\Sigma$|
|:-----------------|:--------:|:--------:|:-------:|
|voll erwerbstätig | 204,45   | 230,55   | **435** |
|teilzeit besch.   | 49,35    | 55,65    | **105** |
|geringfügig besch.| 32,9     | 37,1     | **70**  |
|nicht erwerbstätig| 183,3    | 206,7    | **390** |
|$\Sigma$          | **470**  | **530**  | **1000**|

Die erwarteten ersten zwei Werte in der ersten Zeile errechnen sich exemplarisch durch:

$e_{1,1} = \frac{470 \cdot 435}{1000} = 204,45$

$e_{1,2} = \frac{530 \cdot 435}{1000} = 230,55$

Nun kann nach obiger Formel der $\chi^2$ - Wert (empirisch) ermittelt werden, also:

$
\chi^2 = \frac{(100-204,45)^2}{204,45} + \frac{(50-49,35)^2}{49,35} + ... + \frac{(90-206,7)^2}{206,7} = 250,43
$


Mit Hilfe einer $\chi^2$-Tabelle (siehe Skript oder im Internet) können wir nun den kritischen Wert für $\chi^2$ ermitteln. Dazu benötigen wir noch die Freiheitsgrade. Diese errechnet sich durch (Anzahl Zeilen - 1) * (Anzahl Spalten - 1), hier also (4-1) * (2-1) = 3. Laut $\chi^2$-Tabelle beträgt der kritische Wert für df=3 und einem angenommen Konfidenzniveau von 0,95 = 7,81. Da der empirische Wert deutlich darüber liegt, können wir die 0-Hypothese nicht beibehalten, d.h. es gibt einen signifkanten Unterschied bzgl. der Beschäftigungsarten zwischen den Geschlechtern.

Wir prüfen dieses Ergebnis noch mit Hilfe von Python und verwenden hierfür die Python-Funktion *chi2_contingency*:

In [None]:
from scipy.stats import chi2_contingency
import pandas as pd
import numpy as np

cols = ["Männlich", "Weiblich"]
ind  = ["Voll erwerbstätig", "Teilzeit", "geringfügig besch.", "nicht erwerbstätig"]

beobachtet = pd.DataFrame([
    [100, 335],
    [50, 55],
    [20, 50],
    [300, 90]
], columns= cols, index = ind)

ergebnis = chi2_contingency(beobachtet)
print("Chi2-Wert:", ergebnis[0])
print("p-Wert:", ergebnis[1])

# Wir geben noch die erwarteten Werte aus:
print("Erwartete Werte:")
print(pd.DataFrame(ergebnis[3], columns=cols, index=ind))