# Grundlagen Statistik
In diesem Lektion wollen wir einige grundlegende statitische Größen wiederholen bzw. einführen. Das meiste dürfte bereits bekannt sein. Wir wollen aber neben dem theoretischen Grundlagen auch zeigen, wie wir diese Größen in der Programmiersprache R erstellen können.

Wir greifen hierfür auf den Datensatz *heights* zurück. Der Datensatz ist Bestandteil des Packages *dslabs*. Das folgende R-Skript installiert zuerst das Package *dslabs*, gibt dann den grundlegenden Aufbau des Datensatzes sowie die ersten 6 Zeilen aus:

In [None]:
if(!require("dslabs")) install.packages("dslabs", quiet=TRUE)

str(heights)
head(heights)

*heights* besteht aus zwei Spalten (sog. Features): 

* sex: Dem Geschlecht der untersuchten Person
* height: Die Größe in inches

Basierend auf diesen Daten wollen wir nun einige häufig benutzte Statistiken erstellen. Diese wollen wir einerseits aufgrund der mathematischen Definition berechnen bzw. etwaig bereits in R vorhandene Funktionen nutzen.

## Maximum und Minimum
Zuerst geben wir die maximale und minimale Größe aus. Hierfür nutzen wir die R-Funktionen *min* bzw. *max*:



In [None]:
# Minimum
min(heights$height)

# Maximum
max(heights$height)

# Die Funktion range liefert beides in einem Vektor:
range(heights$height)

## Spannweite
Die Spannweite ist die Differenz aus dem Maximal- und Minimalwert:

In [None]:
# Spannweite
max(heights$height) - min(heights$height)

# Durch Kombinieren  der Funktion diff und range

diff(range(heights$height ))

# Mittelwert
Der Mittelwert ist der Quotient aus der Summe der Einzelwerte und der Anzahl der Werte:

$
\bar{x} = \frac{1}{n}\sum _{i=1}^{n}x_{i}
$

Wir verwenden hierfür die R-Funktion *mean*:

In [None]:
# Mittelwert
mean(heights$height)

## Varianz und Standardabweichung (Stichprobe)
De Varianz und die Standardabweichung sind Kennzahlen für die Streuung der Daten. Alle diese Kennzahlen werden umso größer, je größer die Streuung in einer Datenreihe ist. Sie sind wie folgt definiert:

$ s^2 = \frac{1}{n-1}\sum _{i=1}^{n}(x_{i} - \bar{x})^2$

Die Standardabweichung ist die Wurzel der Varianz:

$ s = \sqrt{\frac{1}{n-1}\sum _{i=1}^{n}(x_{i} - \bar{x})^2} $

Wir teilen hier jeweis durch (n-1), da wir meist nicht die Daten der Grundgesamtheit zur Verfügung haben. In unserem Beispiel müssten wir die Größen **aller** Männer und Frauen haben! Unser Datensatz ist aber nur eine Stichprobe, sodass wir die Standardabweichung bzw. Varianz nur schätzen können.

In R stehen hierfür die Funktionen *var* und *sd* zur Verfügung:

In [None]:
# Varianz
var(heights$height)

# Standardabweichung
sd(heights$height)

## Verteilungen
### Binomialverteilung

Merkmale:

* Typ der Verteilung: Diskret
* Merkmal: Ziehen mit Zurücklegen
* Klassische Beispiele: Würfeln, Münzwurf

Definition:
$
B(k\mid p,n)=\begin{cases}
  \binom nk p^k (1-p)^{n-k} &\text{falls} \quad k\in\left\{0,1,\dots,n\right\}\\
  0            & \text{sonst.}\end{cases}
$

**Beispiel 1:**
Wie hoch ist die Wahrscheinlichkeit, dass beim 10-maligen Würfeln exakt 3 mal eine 6 gewürfelt wird?

Gegeben:

* n = 10
* k = 3
* p = 1/6

\begin{eqnarray*}
B(k \mid p,n) &=& \binom nk p^k (1-p)^{n-k} \\
&=& {10\choose 3} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
&=& \frac{10!}{(10-3)! \cdot 3!} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
&=& \underline{0,155}
\end{eqnarray*}

Berechnung mit Hilfe von R:

In [None]:
dbinom(x=3, size=10, prob=1/6)

Wir erstellen mit Hilfe von R ein Diagramm, das die Wahrscheinlichkeiten für oben angegebenes Beispiel zeigt: Wahrscheinlichkeiten beim 10-maligen Würfeln für 0, 1, 2, ... 10 mal die 6:

In [None]:
# Wir erstellen ein Dataframe (eine Tabelle) mit 2 Spalten: den x-Werten von 0 bis 10 und den zugehörigen p-Werten
ergebnisse <- data.frame(x=0:10, p=dbinom(0:10, size=10, p=1/6))

# Wir geben die Ergebnistabelle aus:


# Ausgabe der Ergebnisse:
print(ergebnisse)

# Wir erstellen ein Balkendiagramm mit den Wahrscheinlickeiten
barplot(ergebnisse$p)

**Beispiel 2:** Kumulierte Häufigkeit

Wie hoch ist die Wahrscheinlichkeit, dass beim 10-maligen Würfeln 1, 2 oder 3 Mal die 6 gewürfelt wird? Dazu müssen die Einzelwahrscheinlichkeiten für X=1, X=2 und X=3 addiert werden.

\begin{eqnarray*}
= {10\choose 1} \cdot \left( \frac{1}{6}\right)^{1} \cdot \left(\frac{5}{6}\right)^{9} 
	+   {10\choose 2} \cdot \left( \frac{1}{6}\right)^{2} \cdot \left(\frac{5}{6}\right)^{8} 
  + 	{10\choose 3} \cdot \left( \frac{1}{6}\right)^{3} \cdot \left(\frac{5}{6}\right)^{7} \\
  = 0,323 + 0,291 + 0,155 \\
	= \underline{0,769}
\end{eqnarray*}

Die Aufgabe lässt sich in R wie folgt lösen:

In [None]:
sum(dbinom(x=1:3, size=10, prob=1/6))

**Übung 1:**
Aus einer Urne mit (theoretisch unendlich) vielen roten und blauen Kugeln werden 20 Kugeln gezogen. Nach jedem Ziehen wird die Kugel wieder zurückgelegt. 

Wie groß ist die Wahrscheinlichkeit, dass 8 dieser Kugeln blau sind, wenn 35% der Kugeln blau sind?


Eingesetzt in die Formel für die Binomialverteilung:

$ P(X=8)=\binom{20}{8}0,35^{8}\cdot(1-0,35)^{20-8}=1,161 $

Geben Sie den R-Code, der die gesuchte Wahrscheinlichkeit ermittelt, in folgende Zeile ein:

In [None]:
# Hier den R-Code eingeben:



**Übung 2:**
Wie groß ist die Wahrscheinlichkeit, *höchstens* 8 blaue Kugeln zu ziehen?

Geben Sie auch hier wieder den gesuchten R-Code ein:

In [None]:
# Hier den R-Code eingeben:


### Normalverteilung
Die wohl wichtigste Verteilung, siehe auch "Zentraler Grenzwertsatz (ZGW)"
Merkmale:
* Typ: Stetige Verteilung
* Bekannt auch als "Gaußkurve" oder auch "Glockenkurve"
* Beispiele: Unendlich viele ("Schweizer Taschenmesser der Statistik")

Der *Zentrale Grenzwertsatz* besagt, dass die Stichprobenverteilung der Mittelwerte asymptotisch normalverteilt sein wird, unabhängig von der Form der zugrunde liegenden Verteilung der Daten, vorausgesetzt die Daten sind unabhängig und identisch verteilt. Häufig wird die Normalverteilung auch dazu verwendet, die Binomialverteilung einfacher zu berechnen. Dazu muss die Laplace-Bedingung erfüllt sein: Die Standardabweichung $\sigma$ muss mindestens 3 ergeben (die sog. Laplace-Bedingung):


$ \sigma = \sqrt{n \cdot p \cdot (1-p)} > 3 $
 
Funktion der Normalverteilung:

$ f(x) = \frac {1}{\sigma\sqrt{2\pi}} e^{-\frac {1}{2} \left(\frac{x-\mu}{\sigma}\right)^2} $

Dabei gilt:

- $\sigma$: Standardabweichung der Grundgesamtheit
- $\mu$: Erwartungswert der Grundgesamtheit

In [None]:
if(!require("ggplot2")) install.packages("ggplot2", quiet=TRUE)
if(!require("dplyr")) install.packages("dplyr", quiet=TRUE)

x <- seq(-3.5, 3.5, by=.1)
y <- dnorm(x)

daten <- data.frame(x,y)
daten %>% ggplot(aes(x,y)) + geom_area( size=2,
                                        alpha=.3,
                                        fill="red") +
  ggtitle("Funktion der Normalverteilung")

### Standardnormalverteilung
Bei der Standardnormalverteilung beträgt die Standardabweichung $\sigma$ immer eins, der Erwartungswert $\mu$ immer 0. In der Praxis wird häufig die Standardnormalverteilung verwendet. Dazu müssen alle x-Werte in standardisierte z-Werte umgewandelt werden:

$ z_{i} = \frac{x_{i}-\mu}{\sigma} $

**Beispiel:**
Die Körpergröße sei normalverteilt. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann zwischen 70 und 72 inches groß ist?

Wir lösen diese Aufgabe mit R, und zwar auf 2 Wegen:
* Zuerst die Schritt-für-Schritt-Lösung (wie in der Schule ;-)
* Dann mit einem einzigen R-Befehl!

In [None]:
if(!require("dslabs")) install.packages("dslabs", quiet=TRUE)

# Zuerst die Schritt-für-Schritt-Lösung

# Ermittle Mittelwert der Körpergrößen der Männer:
xq <- mean(heights[heights$sex=='Male', 2])
print(xq)

# Ermittle die Standardabweichung der Körpergrößen der Männer:
s <- sd(heights[heights$sex=='Male', 2])
print(s)

# Ermittle die z-Werte:
z.links <-  (70-xq) / s
z.rechts <- (72-xq) / s

print("Z-Werte:")
print(z.links)
print(z.rechts)

# Wir schauen in eine Tabelle für Normalverteilungen (siehe Internet oder auch im Skript). Die gesuchte Wahrscheinlichkeit
# ist die Fläche unter der Kurve zwischen den beiden Z-Werten.

# Für z.links finden wir einen Wert von 0,5753, für z.rechts einen Wert von 0,7704
# Somit ergibt sich die Lösung

p <- 0.7704 - 0.5753
print(p)

# Nun die Lösung mit Hilfe der R-Funktion dnorm:
pnorm(72, xq, s) - pnorm(70, xq, s)


Das folgende Diagramm visualisiert diese Aufgabe. Der rot markierte Bereich unter der Kurve entspricht der gesuchten Wahrscheinlichkeit:

In [None]:
x <- seq(60,80, by=.2)
y <- dnorm(x, mean = xq, sd = s)
daten <- data.frame(x,y)
fill <- data.frame(x=daten$x[daten$x>=70 & daten$x <= 72], y=daten$y[daten$x>=70 & daten$x <= 72])

daten %>% ggplot(aes(x,y)) + geom_line() +
  geom_area(data=fill, aes(x,y), size=2, alpha=.3, fill="red") +
  ggtitle("Lösung der Aufgabe") +
  xlab("Körpergröße")

Ob eine (Zufalls-)Variable normalverteilt ist, kann u.a. mit einem sog. qq-plot visuell überprüft werden. Der folgende R-Code erstellt einen solchen qq-Plot mit den Körpergrößen der Frauen. Wir verwenden die Funktion *qqnorm* und *qqline*, um die "optimale" Gerade einzufügen. Je näher die Punkte an der Geraden liegen, desto "normalverteilter" sind die Daten. In unserem Beispiel sind die Körpergrößen der Frauen recht gut normalverteilt, aber insbesondere bei den kleinen Körpergrößen gibt es einige Ausreißer.

In [None]:
library(dplyr)
dat <- heights %>% filter(sex=="Male")
qqnorm(dat$height)
qqline(dat$height)