# Grundlagen der Wahrscheinlichkeitsrechnung und Statistik

Dieser Abschnitt befasst sich mit den Grundlagen der Wahrscheinlichkeitstheorie in Hinblick auf die Zeitreihenanalyse. Zufallsvariablen sind darin Platzhalter für Messwerte eines Experiments.  Wahrscheinlichkeitsdichteverteilungen beschreibt die theoretische Verteilungsfunktion. Realisierungen eines Experimentes werden als Stichproben bezeichnet. Aus einer Anzahl von Realisierungen ergibt sich die empirische Häufigkeitsverteilung. 

## Zufallsvariable

Sei $x(k)$ eine Menge von Zufallsvariablen. Die Zählvariable $k$ bezeichnet ein bestimmtes Ereignis. Die Zufallsvariable $x(k)$ beschreibt eine Messung mit einem zufälligen Ergebnis. Der Ausgang eines $N$-mal wiederholten Experiments ist eine Reihe von Punkten bzw. Messwerten. Die Messwerte werden Stichproben (Samples) bzw. Realisierungen genannt. Die Anzahl der Stichproben wird hier mit $N$ bezeichnet.



## Wahrscheinlichkeitsverteilungs- und dichtefunktion

Die Wahrscheinlichkeitsverteilungsfunktion $P(x)$ wird definiert als die Wahrscheinlichkeit dafür, dass ein Ereignis $x(k)$ den Wert $x(k)\le x$ annimmt.

$$P(x)=\operatorname{Prob}(x(k)\le x)$$

Es gilt

$$P(a)\le P(b)$$

wenn $a\le b$.

Der Wertebereich von $P$ ist $[0,1]$ weil gilt 

$$P(-\infty)=0, P(+\infty)=1$$

Wenn der Wertebereich der Zufallsvariable $x(k)$ kontinuierlich ist, dann wird die  Wahrscheinlichkeitsdichtefunktion $p(x)$  wie folgt definiert

$$p(x)=\lim_{\Delta x\to 0}=\left(\frac{\operatorname{Prob}(x<x(k)\le x+\Delta x)}{\Delta x}\right)$$

Es gilt

$$p(x)\ge0$$

$$\int_{-\infty}^{\infty} p(x)dx=1$$

$$P(x)=\int_{-\infty}^{x} p(\zeta)d\zeta$$ 

$$\frac{dP(x)}{dx}=p(x)$$

Die Wahrscheinlichkeitsdichtefunktionen diskreter Zufallsvariablen, wie z.B. der Würfelfunktion, müssen mit Hilfe von Delta-Funktionen $\delta(x)$ oder als Summe beschrieben werden.

$$\operatorname{Prob}(x<x(k)\le x+\Delta x)=\sum_x^{x+\Delta x} p_k(x)$$

mit $p_k=\operatorname{Prob}(x(k)=x_k)$.

Die Wahrscheinlichkeitsverteilungsfunktion $P(x)$ wird auch kumulative Verteilungsfunktion genannt. Sie ist definiert als das Integral über die Wahrscheinlichkeitsdichtefunktionen  $p(x)$. Oft genutzte Abkürzungen sind PDF und CDF für Probability Density Function $p(x)$ und Cumulative (Probability) Density Function $P(x)$.

## Erwartungswert

Der Erwartungswert einer Zufallsvariablen entspricht dem Mittelwert $\mu_x$ bei unendlicher Wiederholung eines Experiments. Der Erwartungswert errechnet sich aus der Zufallsvariablen mittels Gewichtung mit der  Wahrscheinlichkeit 

$$\operatorname{E}(x(k))=\int_{-\infty}^{\infty} xp(x)dx=\mu_x$$

Für diskrete Zufallsvariablen ist das Integral durch eine Summe zu ersetzen. 

$$\operatorname{E}(x)=\sum_{k} x p_k(x) $$

Die Varianz ist definiert als

$$\operatorname{E}(x(k)-\operatorname{E}(x(k))^2)=\sigma_x^2$$

### Regeln

Der Erwartungswert ist ein linearer Operator

$$\operatorname{E}(aX_1+bX_2 )=a\operatorname{E}(X_1)+b\operatorname{E}(X_2)$$



### Beispiel Zufallsvariable Würfel

Sei die Zufallsvariable $x(k)$ der Ausgang eines Würfelexperimentes. 

Beim idealen Würfel sind alle sechs Seiten gleichwahrscheinlich.

$$P(x=1)=P(x=2)=P(x=3)=P(x=4)=P(x=5)=P(x=6)=\frac{1}{6}$$

Damit ergibt sich für den Erwartungswert 

$$\operatorname{E}(x)=\sum_{k=1}^{6} x_k p_k(x_k) $$

mit $p_k(x)=\frac{1}{6}$ für alle $x=1,2,..,6$

$$\operatorname{E}(x)=\frac{1}{6}(1+2+3+4+5+6)=3.5$$

### Übung

Berechnen Sie Mittelwert und Varianz der Zufallsvariable $x(k)$ "Würfel" theoretisch und experimentell mit einem Zufallsgenerator. Skizzieren Sie die kumulative Wahrscheinlichkeitsverteilungsfunktion und $P(x_k)$ Wahrscheinlichkeitsdichtefunktionen $p(x_k)$.




# Kovarianz und Korrelation

Der Korrelationskoeffizient $r$ beschreibt, wie eng zwei Zufallsvariablen in Raum oder Zeit zusammenhängen. Für zwei Zufallsvariablen $x=(x_1,x_2,...,x_n)$ und $y=(y_1,y_2,...,y_n)$ berechnet sich der Korrelationskoeffizient als

$$r=\frac{1}{N-1}\sum_{i=1}^{N}\frac{(x_i-\bar{x})(y_i-\bar{y})}{s_x s_y}$$

oder ausgedrückt durch die Kovarianz $C_{xy}$

$$r=\frac{C_{xy}}{s_x s_y}$$

dabei gilt

$$C_{xy}=\operatorname{cov}(x,y)=\sigma_{x,y}^2\frac{1}{N-1}\sum_{i=1}^{N} (x_i-\bar{x})(y_i-\bar{y})$$

Der Korrelationskoeffizient errechnet sich aus der Kovarianz durch Normierung mit den Standardabweichungen $s_x$ und $s_y$ definiert durch

$$\sigma_x^2=s_x^2=\frac{1}{N-1}\sum_{i=1}^{N} (x_i-\bar{x})^2$$

Äquivalent ist die Definition der Kovarianz durch den Erwartungswert
$$\operatorname{cov}(x,y) := \operatorname E\bigl[(x - \operatorname E(x)) \cdot (y - \operatorname E(y))\bigr]$$


# Normalverteilung (z-Verteilung)

<img src='Normalverteilung_plot.png'>


Die Gaußverteilung ist gegeben durch

$$p(x)=\frac{1}{\sigma_x\sqrt{2\pi}}e^{-\frac{(x-\mu_x)^2}{2\sigma_x^2}}$$

Es gilt

$$E[x]=\mu_x$$ 

und

$$E[(x-\mu_x)^2]=\sigma_x^2$$

Substitution von $z=\frac{x-\mu_x}{\sigma_x}$ liefert die standardisierte Normalverteilung

$$p(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}$$

für die gilt $E[x]=\mu_z=0$ und  $E[(x-\mu_z)^2]=\sigma_z^2=1$

Die Wahrscheinlichkeit $P$ berechnet sich aus dem Integral

$$P(z_\alpha)=\int_{-\infty}^{z_\alpha} p(z)dz=Prob[z\lt z_\alpha]=1-\alpha$$

bzw. 

$$1-P(z_\alpha)=\int_{z_\alpha}^{\infty} p(z)dz=Prob[z \gt z_\alpha]=\alpha$$



## Gaußsche Fehlerfunktion

Als Fehlerfunktion oder [gaußsche Fehlerfunktion](http://de.wikipedia.org/wiki/Fehlerfunktion) bezeichnet man in der Theorie der Speziellen Funktionen das Integral

$$\operatorname{erf}(x) = \frac 2{\sqrt\pi} \int_0^x e^{-\tau^2}\,\mathrm d\tau$$

Aus der Fehlerfunktion errechnet sich, wieviele Werte bei einer gegebenen Normalverteilung innerhalb eines Wertebereichs, z.B. $\pm 1\sigma$ zu erwarten sind.


In [9]:
erf(1/sqrt(2)) # Octave/Matlab

0.68268949213708585

In [10]:
%pylab
from scipy.special import erf
erf(1/sqrt(2))

Using matplotlib backend: Qt4Agg
Populating the interactive namespace from numpy and matplotlib


0.68268949213708585