In [1]:
%matplotlib inline
# Load the "autoreload" extension
%load_ext autoreload
# always reload modules
%autoreload 2
# black formatter for jupyter notebooks
#%load_ext nb_black
# black formatter for jupyter lab
%load_ext lab_black

%run ../src/notebook_env.py


---------------------------------
Working on the host: Joachims-MacBook-Pro.local

---------------------------------
Python version: 3.10.2 | packaged by conda-forge | (main, Feb  1 2022, 19:30:18) [Clang 11.1.0 ]

---------------------------------
Python interpreter: /opt/miniconda3/envs/srh-poc/bin/python


# Die Grundgesamtheitsverteilung

**Importiere Module**

In [2]:
import numpy as np
import matplotlib.pyplot as plt

Die **Grundgesamtheitsverteilung** ist die Wahrscheinlichkeitsverteilung, die sich aus der Kenntnis aller Elemente einer Grundgesamtheit ergibt {cite:p}`mann2007introductory`. Wir wissen, dass die interessierende Zufallsvariable je nach der betrachteten Grundgesamtheit eine diskrete Variable sein kann, d. h. eine Variable, die zumindest im Prinzip abzählbar ist (abzählbar unendlich), oder die Zufallsvariable kann eine kontinuierliche Variable sein, d. h. eine Variable, die jeden Wert innerhalb eines bestimmten Intervalls annehmen kann (überabzählbar unendlich). Sowohl die diskrete als auch die kontinuierliche Wahrscheinlichkeitsverteilung kann durch statistische Parameter wie den Mittelwert, die Standardabweichung, den Median, den Modalwert und andere beschrieben werden. Diese Parameter, die die Grundgesamtheit beschreiben, sind jedoch **immer konstant**, da die Grundgesamtheit die Menge aller Elemente ist und sich somit die Grundgesamtheitsstatistik nicht ändert. So gibt es beispielsweise für jeden Populationsdatensatz **nur einen Wert** für den Populationsmittelwert, **einen Wert** für die Standardabweichung usw.

## Grundgesamtheitsstatistiken und Stichprobenstatistiken

Betrachten wir ein einfaches Beispiel für eine kleine diskrete Grundgesamtheit, die aus den ersten zehn ganzen Zahlen $\{1,2,3,4,5,6,7,8,9,10\}$ besteht.

In [3]:
population = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
mean = np.mean(population)
std = np.std(population)

print(f"Mittelwert (Grundgesamtheit):         {mean}")
print(f"Standartabweichung (Grundgesamtheit): {std}")

Mittelwert (Grundgesamtheit):         5.5
Standartabweichung (Grundgesamtheit): 2.8722813232690143


Der Populationsmittelwert $μ$, und die Populationsstandardabweichung $σ$ beträgt $5,5$ bzw. etwa $3,028$. Es ist wichtig zu erkennen, dass sich diese Parameter, die Populationsparameter, nicht ändern! Sie sind durch die Grundgesamtheit festgelegt.

Nehmen wir nun eine Zufallsstichprobe ohne Ersetzung mit dem Umfang $n=3$ aus dieser Grundgesamtheit. 

In [4]:
my_sample = np.random.choice(population, size=3, replace=False)
my_sample

array([2, 1, 4])

Nun berechnen wir den Mittelwert und die Standardabweichung der gegebenen Stichprobe. Da wir uns aber auf eine bestimmte Stichprobe beziehen, nennen wir den statistischen Parameter diesmal **Stichprobenstatistik** oder, wenn wir uns auf die Verteilung der Werte (Elemente) beziehen, **Stichprobenverteilung**. Um dies zu verdeutlichen, wird der Stichprobenmittelwert mit $\bar{x}$ und die Stichprobenstandardabweichung mit $s$ bezeichnet.

In [5]:
x_bar = np.mean(my_sample)
s = np.std(my_sample, ddof=1)

print(f"Mittelwert (Stichprobe):         {x_bar}")
print(f"Standartabweichung (Stichprobe): {s}")

Mittelwert (Stichprobe):         2.3333333333333335
Standartabweichung (Stichprobe): 1.5275252316519465


Bitte beachten Sie, dass sich die Stichprobenstatistiken je nach den tatsächlichen Elementen in der Stichprobe von Stichprobe zu Stichprobe ändern.

## Der Stichprobenfehler

Wir wiederholen die Stichprobe aus dem vorigen Abschnitt fünfmal und geben den Mittelwert $\bar{x}$ für jede einzelne Stichprobe aus.

In [6]:
for i in range(5):
    my_sample = np.random.choice(population, size=3, replace=False)
    mean = np.mean(my_sample)
    print(f"Die {i+1}. Stichprobe hat einen Mittelwert von {mean}")

Die 1. Stichprobe hat einen Mittelwert von 5.333333333333333
Die 2. Stichprobe hat einen Mittelwert von 6.333333333333333
Die 3. Stichprobe hat einen Mittelwert von 4.333333333333333
Die 4. Stichprobe hat einen Mittelwert von 7.666666666666667
Die 5. Stichprobe hat einen Mittelwert von 6.333333333333333


Es liegt auf der Hand, dass verschiedene Stichproben (mit derselben Länge), die aus derselben Grundgesamtheit ausgewählt wurden, unterschiedliche Stichprobenstatistiken ergeben, da sie unterschiedliche Elemente enthalten. Darüber hinaus unterscheidet sich jede aus einer Stichprobe gewonnene Stichprobenstatistik, z. B. der Stichprobenmittelwert $\bar{x}$, von dem Ergebnis, das aus der entsprechenden Grundgesamtheit, dem Grundgesamtheitsmittelwert $μ$, gewonnen wird. Die Differenz zwischen dem Wert einer aus einer Stichprobe gewonnenen Statistik und dem Wert des entsprechenden, aus der Grundgesamtheit gewonnenen Parameters wird als **<a href="https://en.wikipedia.org/wiki/Sampling_error">Stichprobenfehler</a>** bezeichnet. Im Fall des Mittelwerts kann der Stichprobenfehler wie folgt geschrieben werden

$$ \text{Sampling error} = \bar{x} - \mu$$

Aufgrund des Charakters von Zufallsstichproben und willkürlichen Ziehung einer Reihe von Werten aus der Grundgesamtheit ist der daraus resultierende Stichprobenfehler zufällig, oder anders gesagt, der Stichprobenfehler ist eine Zufallsvariable. Es ist jedoch zu beachten, dass es neben der beschriebenen Zufälligkeit noch andere Fehlerquellen gibt. Diese Fehler hängen oft mit dem Prozess der Datenerzeugung zusammen und werden unter dem Begriff <a href="https://en.wikipedia.org/wiki/Non-sampling_error">Nicht-Stichprobenfehler</a> zusammengefasst. Solche Fehler werden beispielsweise durch die menschliche Handhabung der Daten, Kalibrierungsfehler der Messgeräte etc. verursacht.

Um ein Gefühl für die Art des Stichprobenfehlers zu bekommen, führen wir ein Experiment durch. Bei diesem Experiment besteht die interessierende Grundgesamtheit aus den ersten $100$ ganzen Zahlen $\{1,2,3,...,100\}$. Wir wollen den Einfluss des Stichprobenumfangs $n$ auf den Stichprobenfehler untersuchen. Der Einfachheit halber wählen wir den Stichprobenmittelwert als die interessierende Statistik. Für eine ausreichend große Anzahl von Versuchen (z.B. 5000 Versuche) berechnen wir den Stichprobenfehler für Stichproben mit dem Umfang $n=10,25,50,75$.

In [7]:
TRIAL_SIZE = 5000  # 5000 Versuche
SAMPLE_SIZE = [10, 25, 50, 75]  # Stichprobenumfang
population = range(1, 101)
mean_pop = np.mean(population)
for n in SAMPLE_SIZE:
    error_sample = []
    for _ in range(TRIAL_SIZE):
        my_sample = np.random.choice(population, size=n, replace=False)
        mean = np.mean(my_sample)
        error_sample.append(abs(mean - mean_pop))
    print(f"Stichprobenfehler (n={n}):", np.round(np.mean(error_sample), 3))

Stichprobenfehler (n=10): 6.75
Stichprobenfehler (n=25): 4.014
Stichprobenfehler (n=50): 2.325
Stichprobenfehler (n=75): 1.354


Aus dem obigen Experiment können wir schließen, dass der Stichprobenfehler umso kleiner ist, je größer der Stichprobenumfang ist. Mit anderen Worten: Je größer der Stichprobenumfang ist, desto mehr nähert sich der Stichprobenmittelwert $\bar{x}$ dem Grundgesamtheitsmittelwert $μ$ an. Dies ist eine wichtige Erkenntnis, die im Abschnitt über die *Inferenzstatistik* ausführlicher behandelt werden wird.