## Schätzung des Mittelwerts einer Grundgesamtheit - Die $t$-Verteilung
----------------------------------------

In [1]:
from scipy.stats import t
import matplotlib.pyplot as plt
import numpy as np

Bisher haben wir uns auf $\sigma$, die Standardabweichung der Grundgesamtheit, gestützt, um auf den Mittelwert der Grundgesamtheit zu schließen. Der Populationsparameter $\sigma$ wird zur Berechnung des Standardfehlers ($SF=\frac{\sigma}{\sqrt{n}}$) verwendet, der ein Bestandteil der Fehlermarge ist. Was aber, wenn man die Standardabweichung der Grundgesamtheit nicht kennt, was in der Regel der Fall ist? Man kann die Standardabweichung der Stichprobe, die mit $s$ bezeichnet wird, als Schätzwert für die Standardabweichung der Grundgesamtheit verwenden.

$$\text{wenn } \  s \approx \sigma \  \text{ dann } \  SF = \frac{s}{\sqrt{n}}$$

Es ist jedoch zu beachten, dass im Gegensatz zu $\sigma$ die Standardabweichung der Stichprobe, $s$, von Stichprobe zu Stichprobe variiert und dass $s \lt \sigma$ ist. Man kann den Stichprobenumfang $n$ erhöhen, und damit wird $s$ zu einer besseren Schätzung für $\sigma$. Solange wir jedoch $\sigma$ nicht kennen, müssen wir bei der Durchführung des Inferenzverfahrens in jedem Fall zwei Größen schätzen: sowohl den Mittelwert $\mu$ als auch die Standardabweichung $\sigma$. Aus diesem Grund führt die Verwendung von $s$ als Schätzung für $\sigma$ zu einer größeren Unsicherheit bei der Schätzung des Mittelwerts $\mu$. Um dieser zusätzlichen Unsicherheit entgegenzuwirken, wenden wir die so genannte <a href="https://de.wikipedia.org/wiki/Studentsche_t-Verteilung">$t$-Verteilung</a> oder **Studentsche-Verteilung** an, um die Fehlermarge ($FM$) zu berechnen.

Das Verfahren zur Ermittlung eines Konfidenzintervalls für einen Grundgesamtheitsmittelwert, wenn die Standardabweichung $\sigma$ der Grundgesamtheit nicht bekannt ist, ist im Wesentlichen dasselbe wie bei bekannter Standardabweichung der Grundgesamtheit, mit der Ausnahme, dass jetzt die $t$-Verteilung und die Standardabweichung $s$ der Stichprobe anstelle der Standardnormalverteilung ($z$-Scores) bzw. der Standardabweichung $\sigma$ der Grundgesamtheit herangezogen werden.

Erinnern Sie sich an die Konstruktion eines Konfidenzintervalls

$$CI: \text{Punktschätzung} \pm FM$$

Die Fehlermarge ($FM$) besteht aus dem kritischen Wert und einem Maß für die Variabilität der Stichprobenverteilung. Der kritische Wert ist $t^*_{df,\,\alpha/2}$ für das gegebene Konfidenzniveau und die Freiheitsgrade. Sein Wert ergibt sich aus einer $t$-Verteilungstabelle für $n-1$ Freiheitsgrade oder wird in Python mit der Funktion `t.cdf()` berechnet. Das Maß für die Variabilität der Stichprobenverteilung ist der Standardfehler ($SF$). Da die Standardabweichung $\sigma$ der Grundgesamtheit nicht bekannt ist, wird sie durch die Standardabweichung $s$ der Stichprobe ersetzt, was zu $SF=\frac{s}{\sqrt{n}}$ führt.

Folglich ist das $100(1-α) \%$ige
Konfidenzintervall für $\mu$ gleich

$$CI: \bar x \pm t^*_{df,\, \alpha/2} \frac{s}{\sqrt{n}}$$

Lassen Sie uns zur Übung einige Konfidenzintervalle konstruieren. Für den Zweck dieser Übung wird $df$ auf $12$ gesetzt.

**Konfidenzniveau von** $90 \%$ ($\alpha=0,1$)

In [2]:
t.ppf(0.05,df=12)

-1.7822875556491593

In [3]:
t.ppf(0.95,df=12)

1.782287555649159

Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $90 \%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-1,78$ und $1,78$

Bei einem Konfidenzniveau von $90 \% (\alpha=0,1)$ ergibt sich aus der obigen Gleichung

$$CI_{90\%}: \text{Punktschätzung} \pm 1,78 \times \frac{s}{\sqrt{n}}$$

**Konfidenzniveau von** $95 \%$ ($\alpha=0,05$)

In [4]:
t.ppf(0.025,df=12)

-2.178812829663418

In [5]:
t.ppf(0.975,df=12)

2.1788128296634177

Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $95 \%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-2,18$ und $2,18$

Bei einem Konfidenzniveau von $95 \% (\alpha=0,05)$ ergibt sich aus der obigen Gleichung

$$CI_{95\%}: \text{Punktschätzung} \pm 2,18 \times \frac{s}{\sqrt{n}}$$

**Konfidenzniveau von** $99 \%$ ($\alpha=0,01$)

In [6]:
t.ppf(0.005,df=12)

-3.054539588336871

In [7]:
t.ppf(0.995,df=12)

3.0545395883368704

Die untere und obere Grenze des Intervalls (bei $df=12$), das einen Bereich von $99 \%$ um den Mittelwert abdeckt, entspricht den $t$-Werten $-3,05$ und $3,05$

Bei einem Konfidenzniveau von $99 \% (\alpha=0,01)$ ergibt sich aus der obigen Gleichung

$$CI_{99\%}: \text{Punktschätzung} \pm 3,05 \times \frac{s}{\sqrt{n}}$$