## Die Standard-Normalverteilung
----------------------------------------

In [1]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

Die <a href="https://de.wikipedia.org/wiki/Normalverteilung">Standardnormalverteilung</a> ist ein Spezialfall der Normalverteilung. Bei der Standardnormalverteilung ist der Wert des Mittelwerts gleich Null $(\mu=0)$ und der Wert der Standardabweichung gleich $1$ $(\sigma=1)$.

Wenn man also $\mu =0$ und $\sigma =1$ in die PDF der Normalverteilung einsetzt, vereinfacht sich die Gleichung zu

$$ \begin{align}
f(x)& = \frac{1}{\sigma \sqrt{2 \pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \\
 & =\frac{1}{1 \times  \sqrt{2 \pi}}e^{-\frac{1}{2}\left(\frac{x-0}{1}\right)^2} \\
 & = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2} 
\end{align} $$

Die Zufallsvariable, die die Standardnormalverteilung erfüllt, wird mit $z$ bezeichnet. Folglich werden die Einheiten für die Kurve der Standardnormalverteilung mit $z$ bezeichnet und als $z$-**Werte**, $z$-**Scores** oder $z$-**Statistik** bezeichnet.

Die **kumulative Verteilungsfunktion (CDF)** der Standardnormalverteilung, die der Fläche unter der Kurve für das Intervall $]-\infty \ $,$ \ z]$ entspricht und gewöhnlich mit dem griechischen Großbuchstaben *$\phi$* bezeichnet wird, ist gegeben durch

$$F(x<z) = \phi (z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z}e^{-\frac{1}{2}x^2}dx$$

wobei $e \approx 2,71828$ und $\pi \approx 3,14159$.

### Grundlegende Eigenschaften der Standardnormalkurve

Die Standardnormalkurve ist ein Spezialfall der Normalverteilung und damit auch eine Wahrscheinlichkeitsverteilungskurve. Daher gelten die grundlegenden Eigenschaften der Normalverteilung auch für die Standardnormalkurve ({cite:p}`fahrmeirstatistik` s.85).

1) Die Gesamtfläche unter der Standardnormalkurve ist $1$ (diese Eigenschaft ist allen Dichtekurven gemeinsam).
2) Die Standardnormalkurve erstreckt sich unendlich in beide Richtungen und nähert sich dabei der horizontalen Achse, berührt sie aber nie.
3) Die Standardnormalkurve ist glockenförmig, ihr Mittelpunkt liegt bei $z=0$. Fast die gesamte Fläche unter der Standardnormalkurve liegt zwischen $z=-3$ und $z=3$.

![Alt-Text](normalpdfstand.png)

Die $z$-Werte auf der rechten Seite des Mittelwerts sind positiv und die auf der linken Seite sind negativ. Der $z$-Wert für einen Punkt auf der horizontalen Achse gibt den Abstand zwischen dem Mittelwert $(z=0)$ und diesem Punkt in Form der Standardabweichung an. Ein Punkt mit einem Wert von $z=2$ liegt zum Beispiel zwei Standardabweichungen rechts vom Mittelwert. Ebenso liegt ein Punkt mit einem Wert von $z=-2$ zwei Standardabweichungen links vom Mittelwert.

![Alt-Text](normalcdfstand.png)

Das Methode die Wahrscheinlichkeiten durch Berechnung der Fläche unter der Standardnormalkurve zu bestimmen, kommt häufig zur Anwendung. Aus diesem Grund gibt es <a href="https://de.wikipedia.org/wiki/Standardnormalverteilungstabelle">Wahrscheinlichkeitstabellen</a>, um die Fläche für einen bestimmten $z$-Wert zu ermitteln. Python ist jedoch ein so leistungsfähiges Werkzeug, dass wir die Fläche unter der Kurve für einen bestimmten $z$-Wert berechnen können.

Um die Fläche unter der Kurve für eine Standardnormalverteilung zu berechnen, verwenden wir zunächst die Funktion `norm` aus dem `scipy.stats` Paket um eine Standardnormalverteilung zu generieren und wenden darauf die Methode `cdf` an um die kumulative Wahrscheinlichkeit zu berechnen. Die Funktion `norm` ist definiert als `norm(loc = Mittelwert , scale = Standardabweichung)`. Um die Standardwerte zu Erhalten setzen wir den Mittelwert und die Standardabweichung jeweils auf $0$ und $1$ sind. Wenden wir die Methode `cdf` an bekommen wir die kumulative Wahrscheinlichkeit bis zum angegebenen Punkt. Wir berechnen die Fläche unter der Kurve für $z=-3,-2,-1,0,1,2,3$ oder formeller geschrieben:

$$P(x\le z) \qquad \forall \  z \in  (-3, -2, -1, 0, 1, 2, 3)$$

In [4]:
z_values.cdf(-3)

0.0013498980316300933

In [5]:
z_values.cdf(-2)

0.022750131948179195

In [37]:
z_values.cdf(-1)

0.15865525393145707

In [38]:
z_values.cdf(0)

0.5

In [39]:
z_values.cdf(1)

0.8413447460685429

In [40]:
z_values.cdf(2)

0.9772498680518208

In [41]:
z_values.cdf(3)

0.9986501019683699

Perfekt! Wir haben einige der oben genannten Eigenschaften einer Standardnormalkurve bestätigt. Wir erinnern uns, dass wir die Fläche unter der Kurve für das Intervall $]-\infty \ $,$ \ z]$ berechnet haben. Der Aufruf von `norm.cdf(-3)` ergibt eine sehr geringe Zahl. Nur etwa $0,1 \%$ der gesamten Fläche unter der Kurve befinden sich links von $z=-3$, was dem Abstand der dreifachen Standardabweichung vom Mittelwert entspricht. Außerdem ergibt `norm.cdf(0)`  $50 \%$. Fantastisch! Daraus schließen wir, dass die Fläche unter der Kurve für das Intervall $]-\infty \ $,$ \ 0]$ die gleiche ist wie die Fläche unter der Kurve für das Intervall $[0 \ $,$ \ \infty[$ und dass die Fläche unter der Kurve sich zu $1$ aufsummiert. Auch hier haben wir eine der oben genannten Eigenschaften einer Standardnormalkurve bestätigt. Und schließlich ergibt der Aufruf von `norm.cdf(3)`  eine hohe Zahl nahe bei $1$. Somit sind etwa $99,9 \%$ der Fläche unter der Kurve im Intervall $]-\infty \ $,$ \ 3]$ zu finden. Für den Bereich jenseits von $z=3$ bleibt nur wenig übrig.

Es sei daran erinnert, dass wir die Fläche unter der Kurve für jedes beliebige Intervall explizit berechnen können

$ \begin{align}
P(a \le z \le b) & = P(z \le b) - P(z \le a)  \\
 & =\int_{a}^{b}f(z)dz \\
 & = \int_{-\infty}^{b}f(z)dz - \int_{-\infty}^{a}f(z)dz 
\end{align}$

Berechnen wir die Fläche unter der Kurve für die folgenden Intervalle: $[−1 \ $,$ \ 1],[−2 \ $,$ \ 2],[−3 \ $,$ \ 3]$. Oder in Worten: Bestimmen wir die Fläche unter der Kurve für $±1$ Standardabweichung, für $±2$ Standardabweichungen und für $±3$ Standardabweichungen.

In [42]:
z_values.cdf(1)-z_values.cdf(-1)

0.6826894921370859

In [43]:
z_values.cdf(2)-z_values.cdf(-2)

0.9544997361036416

In [44]:
z_values.cdf(3)-z_values.cdf(-3)

0.9973002039367398

Toll, wir haben soeben die Empirische Regel ({cite:p}`fahrmeirstatistik` s.86), auch bekannt als **$68-95-99,7$-Regel**, bestätigt, die sich auf den <a href="https://de.wikipedia.org/wiki/Tschebyscheffsche_Ungleichung">Tschebyscheffsche Ungleichung</a> bezieht. Für eine glockenförmige Verteilung sind die $3$ Regeln dass ungefähr


 1)  $68 \%$ der Beobachtungen liegen innerhalb einer Standardabweichung des Mittelwerts,
 2)  $95 \%$ der Beobachtungen liegen innerhalb von zwei Standardabweichungen des Mittelwerts, und
 3)  $99,7 \%$ der Beobachtungen liegen innerhalb von drei Standardabweichungen des Mittelwerts.

Um unsere Intuition zu stärken, wird die empirische Regel im Folgenden veranschaulicht.

![Alt-Text](intervalz11.png)

![Alt-Text](intervalz22.png)

![Alt-Text](intervalz33.png)