## Hypothesentests für einen Grundgesamtheitsmittelwert bei bekannter Standardabweichung
----------------------------------------

In [3]:
import matplotlib.pyplot as plt
from scipy.stats import norm
import numpy as np
import pandas as pd
from random import sample
import statsmodels.api as smi
import pylab

%run ../src/notebook_env.py


---------------------------------
Working on the host: LAPTOP-9LETB4SJ

---------------------------------
Python version: 3.10.2 | packaged by conda-forge | (main, Mar  8 2022, 15:52:24) [MSC v.1929 64 bit (AMD64)]

---------------------------------
Python interpreter: C:\Users\zak\anaconda3\envs\srh\python.exe


Wenn die Standardabweichung ($\sigma$) der Grundgesamtheit bekannt ist, wird ein Hypothesentest, der für einen Mittelwert der Grundgesamtheit durchgeführt wird, als **$z$-Test für einen Mittelwert** oder einfach als **$z$-Test** bezeichnet.

Ein $z$-Test ist ein Hypothesentest zum Testen eines Mittelwerts der Grundgesamtheit, $\mu$, gegen einen angenommenen Mittelwert der Grundgesamtheit,$\mu_0$. Der $z$-Test setzt normalverteilte Variablen oder einen großen Stichprobenumfang voraus; dann garantiert der <a href="https://en.wikipedia.org/wiki/Central_limit_theorem">zentrale Grenzwertsatz</a> eine normalverteilte <a href="https://en.wikipedia.org/wiki/Sampling_distribution">Stichprobenverteilung</a>. Darüber hinaus muss $\sigma$, die Standardabweichung der Grundgesamtheit, bekannt sein. In der Praxis ist diese Annahme fast nie erfüllt, so dass der $z$-Test nur selten angewendet wird. Er ist jedoch der einfachste Hypothesentest und daher ein guter Einstieg in das Thema.

Zur Durchführung des $z$-Tests gehen wir schrittweise vor, wie in der folgenden Tabelle dargestellt. Zunächst wird der **Ansatz des kritischen Werts** dargestellt, dann wird in einem zweiten Schritt die Analyse für den **Ansatz des $p$-Werts** wiederholt.

$$
\begin{array}{l}
\hline
\ \text{Schritt 1}  & \text{Geben Sie die Nullhypothese } H_0 \text{ und alternative Hypothese } H_A \text{ an.}\\
\ \text{Schritt 2}  & \text{Legen Sie das Signifikanzniveau, } \alpha\text{ fest.} \\
\ \text{Schritt 3}  & \text{Berechnen Sie den Wert der Teststatistik.} \\
\ \text{Schritt 4a} & \text{Ansatz des kritischen Wertes: Bestimmung des kritischen Wertes.}
\\
\ \text{Schritt 4b} &\text{P-Wert-Ansatz: Bestimmen Sie den p-Wert.} \\
\ \text{Schritt 5a} & \text{Ansatz des kritischen Werts: Wenn der Wert der Teststatistik in den Ablehnungsbereich fällt, ist } H_0 \text{ abzulehnen}   \text{; ansonsten } H_0 \text{ nicht ablehnen}  \text{.}
\\
\ \text{Schritt 5b} & \text{P-Wert-Ansatz: Wenn }p \le \alpha \text{, } H_0 \text{ ablehnen } \text{; ansonsten } H_0 \text{ nicht ablehnen} \text{.} \\
\ \text{Schritt 6} &\text{Interpretieren Sie das Ergebnis des Hypothesentests.} \\
\hline 
\end{array}
$$

### $z$-Test mit einem Mittelwert: Ein Beispiel

In diesem Abschnitt arbeiten wir mit dem `students` Datensatz. Sie können die Datei `students.csv` <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/students.csv">hier</a> herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen geeigneten Namen.

In [4]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
students = pd.read_csv('students.csv', index_col=0)

Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud.id, Name, Geschlecht, Alter, Größe, Gewicht, Religion, nc.score, Semester, Hauptfach, Nebenfach, score1, score2, online.tutorial, graduated, salary*.

Zur Veranschaulichung der Hypothesentests untersuchen wir das Durchschnittsgewicht der Studenten und vergleichen es mit dem Durchschnittsgewicht der erwachsenen Europäer. <a href="https://bmcpublichealth.biomedcentral.com/articles/10.1186/1471-2458-12-439">Walpole et al. (2012)</a> veröffentlichten Daten über das durchschnittliche Körpergewicht (kg) pro Region, einschließlich Europa. Sie geben die durchschnittliche Körpermasse für die europäische erwachsene Bevölkerung mit $70,8$ kg an. Wir setzen $\mu_0$, den Mittelwert der Bevölkerung, entsprechend fest, $\mu_0=70,8$. Aufgrund des methodischen Ansatzes von {cite:p}`Walpole2012` haben sie leider keine Standardabweichung ($\sigma$) der Gewichte europäischer Erwachsener angegeben. Zu Demonstrationszwecken gehen wir davon aus, dass die Gewichtsdaten aus dem Studentendatensatz eine gute Näherung für die interessierende Population darstellen. Daher setzen wir $\sigma$ auf die Standardabweichung der Gewichtsvariablen im `students` Datensatz.

In [5]:
mu0 = 70.8
sigma = np.std(students['weight'])
sigma

8.634637630634796

Außerdem nehmen wir eine Zufallsstichprobe mit einem Stichprobenumfang von $n=14$. Die Stichprobe besteht aus den Gewichten in kg von $14$ zufällig ausgewählten Studenten aus dem Studentendatensatz. Schließlich berechnen wir den Stichprobenmittelwert ($\bar{x}$), die Stichprobenstatistik unseres Interesses. Die Stichprobenstatistik wird der Variablen `x_bar` zugewiesen.

In [6]:
n = 14
x_weight = students['weight'].sample(n,random_state = 4)
x_bar = np.mean(x_weight)
x_bar

77.02857142857144

### Hypothesentests: Der Ansatz des kritischen Werts

**Schritt 1: Geben Sie die Nullhypothese ($H_0$) und die Alternativhypothese ($H_A$) an.**

Die Nullhypothese besagt, dass das Durchschnittsgewicht der Studenten ($\mu$
) gleich dem Durchschnittsgewicht europäischer Erwachsener von 70,8 kg ($\mu_0$) ist, wie von Walpole et al. (2012) berichtet. Mit anderen Worten: Es gibt keinen Unterschied zwischen dem Durchschnittsgewicht der Studenten und dem Durchschnittsgewicht der europäischen Erwachsenen.

$$H_0: \quad \mu = 70,8$$

Zur Veranschaulichung testen wir drei Alternativhypothesen.

**Alternativhypothese 1**: Das Durchschnittsgewicht der Studenten entspricht nicht dem Durchschnittsgewicht der europäischen Erwachsenen. Mit anderen Worten: Es gibt einen Unterschied zwischen dem Durchschnittsgewicht der Studenten und dem Durchschnittsgewicht der europäischen Erwachsenen. 

$$H_{A_1}: \quad \mu \ne 70,8$$

**Alternativhypothese 2**: Das Durchschnittsgewicht der Studenten ist geringer als das Durchschnittsgewicht der europäischen Erwachsenen.

$$H_{A_2}: \quad \mu  < 70,8$$

**Alternativhypothese 3**: Das Durchschnittsgewicht der Studenten ist höher als das Durchschnittsgewicht der europäischen Erwachsenen.

$$H_{A_3}: \quad \mu > 70,8$$

**Schritt 2: Legen Sie das Signifikanzniveau $\alpha$ fest.**

$$\alpha = 0,05$$

In [7]:
alpha = 0.05

**Schritt 3: Berechnen Sie den Wert der Teststatistik.**

Die folgende Gleichung wird zur Berechnung der Teststatistik $z$ verwendet.

$$z = \frac{\bar x-\mu_0}{\sigma/\sqrt{n}}$$

- Berechnen Sie den Wert der Teststatistik

$$z = \frac{\bar x-\mu_0}{\sigma/\sqrt{n}} =  \frac{77,02-70,8}{8,64/ \sqrt{14}} \approx 2,699$$

In [17]:
z = (x_bar-mu0)/sigma*np.sqrt(n)
z

2.699033971278552

**Schritt 4a: Bestimmen Sie den kritischen Wert.**

Um den kritischen Wert zu berechnen, wenden wir die Funktion `norm.ppf()` in Python an. Es sei daran erinnert, dass wir auf drei Alternativhypothesen ($H_{A_1}, H_ {A_2}$ und $H_{A_3}$) testen und daher auch drei kritische Werte berechnen müssen ($z_{A_1} = \pm z_{\alpha/2}, z_{A_2} = -z_\alpha$ und $z_{A_3} = +z_\alpha$).

In [18]:
z_HA_1 = norm.ppf(1-alpha/2)
z_HA_2 = norm.ppf(1-(1- alpha))
z_HA_3 = norm.ppf(1- alpha)

In [19]:
print('z_HA_1:',z_HA_1,'z_HA_2:',z_HA_2,'z_HA_3:',z_HA_3)

z_HA_1: 1.959963984540054 z_HA_2: -1.6448536269514722 z_HA_3: 1.6448536269514722


Die kritischen Werte sind $z_{A_1} \approx \pm 1,96$, $ z_{A_2} \approx-1,64$ und  $ z_{A_3} \approx 1,64$.

**Schritt 5a: Wenn der Wert der Teststatistik in den Verwerfungsbereich fällt, ist $H_0$ zu verwerfen; andernfalls ist $H_0$ nicht zu verwerfen.**

Der Wert der in Schritt 3 ermittelten Teststatistik ist $z \approx 2,699$. Es sei daran erinnert, dass wir drei Alternativhypothesen ($H_{A_1}, H_{A_2}$ und $H_{A_3}$) untersuchen. Daher bewerten wir den Ablehnungsbereich für jede einzelne Hypothese.

- **Alternativhypothese** $H_{A_1}:\quad \mu \ne 70,8$

Erinnern Sie sich an die kritischen Werte für $H_{A_1}$. 

$$z_{A_1} = \pm z_{\alpha/2} = \pm 1,96$$

Fällt die Teststatistik ($z \approx 2,699$) in den Ablehnungsbereich? Beachten Sie, dass es sich um einen zweiseitigen Test handelt, d. h. wir werten die obere und die untere Grenze aus.

- Obere Grenze

$$2,699 \gt 1,96$$

In [11]:
# upper limit
# Reject?
print(z > abs(z_HA_1))

True


- Untere Grenze

$$ 2,699 \lt -1,96$$

In [20]:
#lower limit
# Reject?
print(z < -abs(z_HA_1))

False


![Alt-Text](hypothesenstandard.png)

Aufgrund der numerischen und grafischen Auswertung fällt der Wert in den Verwerfungsbereich, so dass wir $H_0$ verwerfen. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant.

- **Alternativhypothese** $H_{A_2}:\quad \mu \lt 70,8$

Erinnern Sie sich an den kritischen Wert für $H_{A_2}$. 

$$z_{A_2} = -z_{\alpha} = -1,64$$

Fällt die Teststatistik ($z \approx 2,699$) in den Ablehnungsbereich?

$$2,699 < -1,64$$

In [21]:
# Reject?
print(z < z_HA_2)

False


![Alt-Text](hypothesenstandard3.png)

Aufgrund der numerischen und grafischen Auswertung fällt der Wert nicht in den Verwerfungsbereich, so dass wir $H_0$ nicht verwerfen. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant.

- **Alternativhypothese** $H_{A_3}:\quad \mu > 70,8$

Erinnern Sie sich an den kritischen Wert für $H_{A_3}$.

$$z_{A_3} = +z_{\alpha} = 1,64$$

Fällt die Teststatistik ($z \approx 2,699$) in den Ablehnungsbereich?

$$2,699 > 1,64$$

In [22]:
# Reject?
print(z > z_HA_3)

True


![Alt-Text](hypothesenstandard2.png)

Aufgrund der numerischen und grafischen Auswertung fällt der Wert in den Verwerfungsbereich, so dass wir $H_0$ verwerfen. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant.

**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests.**

- **Alternativhypothese** $H_{A_1}:\quad \mu \ne 70,8$

Bei einem Signifikanzniveau von $5 \%$ lassen die Daten den Schluss zu, dass sich das Durchschnittsgewicht der Studenten vom Durchschnittsgewicht der europäischen Erwachsenen unterscheidet.

- **Alternativhypothese** $H_{A_2}:\quad \mu \lt 70,8$

Bei einem Signifikanzniveau von $5 \%$ liefern die Daten keine ausreichenden Beweise für die Schlussfolgerung, dass das Durchschnittsgewicht der Studenten geringer ist als das Durchschnittsgewicht der europäischen Erwachsenen

- **Alternativhypothese** $H_{A_3}:\quad \mu > 70,8$

Bei einem Signifikanzniveau von $5 \%$ lassen die Daten den Schluss zu, dass sich das Durchschnittsgewicht der Studenten vom Durchschnittsgewicht der europäischen Erwachsenen unterscheidet.

### Hypothesentests: Der $p$-Wert-Ansatz

**Schritt 1: Geben Sie die Nullhypothese ($H_0$) und die Alternativhypothese ($H_A$) an.**

Die Nullhypothese besagt, dass das Durchschnittsgewicht der Studenten ($\mu$
) gleich dem Durchschnittsgewicht europäischer Erwachsener von 70,8 kg ($\mu_0$) ist, wie von Walpole et al. (2012) berichtet. Mit anderen Worten: Es gibt keinen Unterschied zwischen dem Durchschnittsgewicht der Studenten und dem Durchschnittsgewicht der europäischen Erwachsenen.

$$H_{A_1}: \quad \mu \ne 70,8$$

Zur Veranschaulichung testen wir drei Alternativhypothesen.

**Alternativhypothese 1**: Das Durchschnittsgewicht der Studenten entspricht nicht dem Durchschnittsgewicht der europäischen Erwachsenen. Mit anderen Worten: Es gibt einen Unterschied zwischen dem Durchschnittsgewicht der Studenten und dem Durchschnittsgewicht der europäischen Erwachsenen. 

$$H_{A_1}: \quad \mu \ne 70,8$$

**Alternativhypothese 2**: Das Durchschnittsgewicht der Studenten ist geringer als das Durchschnittsgewicht der europäischen Erwachsenen.

$$H_{A_2}: \quad \mu  < 70,8$$

**Alternativhypothese 3**: Das Durchschnittsgewicht der Studenten ist höher als das Durchschnittsgewicht der europäischen Erwachsenen.

$$H_{A_3}: \quad \mu > 70,8$$

**Schritt 2: Legen Sie das Signifikanzniveau $\alpha$ fest.**

$$\alpha = 0,05$$

In [23]:
alpha = 0.05

**Schritt 3: Berechnen Sie den Wert der Teststatistik.**

Die folgende Gleichung wird zur Berechnung der Teststatistik $z$ verwendet.

$$z = \frac{\bar x-\mu_0}{\sigma/\sqrt{n}}$$

- Berechnen Sie den Wert der Teststatistik

$$z = \frac{\bar x-\mu}{\sigma/\sqrt{n}} =  \frac{77,02-70,8}{8,64/ \sqrt{14}} \approx 2,699$$

In [24]:
#x_bar = 78.61429
z = (x_bar-mu0)/sigma*np.sqrt(n)
z

2.699033971278552

**Schritt 4b: Bestimmen Sie den $p$-Wert.**

Um den $p$-Wert zu berechnen, verwenden wir die Funktion `norm.cdf()` in Python. Erinnern Sie sich daran, dass wir auf drei Alternativhypothesen testen ($H_{A_1}, H_{A_1}$ und $H_{A_1}$), daher berechnen wir auch drei $p$-Werte ($(P(z_{A_1})$, $(P(z_{A_2})$ und $(P(z_{A_3})$).

- **Alternativhypothese** $H_{A_1}:\quad \mu \ne 70,8$

In [25]:
#the probability of observing any z-value greater or smaller in magnitude given the null hypothesis is true
upper = 1-norm.cdf(abs(z))
lower = norm.cdf(-abs(z))
p_z_1 = upper + lower
p_z_1

0.0069541077277850295

Aus Schritt $3$ ergibt sich der Wert der Teststatistik $z \approx 2,699$. Der Test ist zweiseitig, d. h. der $p$-Wert ist die Wahrscheinlichkeit, dass ein Wert $z$ in der Größenordnung von $2,699$ oder mehr oder ein Wert $z$ in der Größenordnung von $-2,699$ oder weniger beobachtet wird. Diese Wahrscheinlichkeit entspricht der farbigen Fläche in der Abbildung unten, die $0,006954$ beträgt. Also $p \approx 0,007$.

![Alt-Text](hypothesenstandard4.png)

- **Alternativhypothese** $H_{A_2}:\quad \mu \lt 70,8$

In [26]:
#the probability of observing a z-value or smaller in magnitude given the null hypothesis is true
p_z_2 = norm.cdf(z)
p_z_2

0.9965229461361075

Aus Schritt $3$ ergibt sich der Wert der Teststatistik $z \approx 2,699$. Der Test ist linksschief, d. h. der $p$-Wert ist die Wahrscheinlichkeit, einen Wert $z$ von $2,699$ oder weniger zu beobachten. Diese Wahrscheinlichkeit ist gleich der farbigen Fläche in der Abbildung unten, die ungefähr $1$ ist. $p \approx 1$.

![Alt-Text](hypothesenstandard5.png)

- **Alternativhypothese** $H_{A_3}:\quad \mu > 70,8$

In [27]:
#the probability of observing a z-value or greater in magnitude given the null hypothesis is true
p_z_3 = 1-norm.cdf(z)
p_z_3

0.003477053863892521

Aus Schritt $3$ ergibt sich der Wert der Teststatistik $z=2,699$. Der Test ist rechtsschief, d. h. der $p$-Wert ist die Wahrscheinlichkeit, einen Wert $z$ von $2,699$ oder mehr zu beobachten. Diese Wahrscheinlichkeit ist gleich der farbigen Fläche in der Abbildung unten, die ungefähr $0,003477$ entspricht. $p \approx 0,004$.

![Alt-Text](hypothesenstandard6.png)

**Schritt 5b: Wenn $p \le α$, wird $H_0$ verworfen; andernfalls wird $H_0$ nicht verworfen.**

Der $p$-Wert der in Schritt $4$ ermittelten Teststatistik wird mit dem benutzerdefinierten Signifikanzniveau $\alpha$ von $5 \%$ verglichen. Es sei daran erinnert, dass wir drei Alternativhypothesen ($H_{A_1}, H_{A_2}$ und $H_{A_3}$) untersuchen. Wir führen also Vergleiche für jede einzelne Hypothese durch.

- **Alternativhypothese** $H_{A_1}:\quad \mu \ne 70,8$

$$0,007 \le 0,05$$

In [29]:
#Reject?
p_z_1 <= alpha

True

Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,05$ und wir verwerfen $H_0$. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant und liefern einen sehr starken Beweis gegen die Nullhypothese.

- **Alternativhypothese** $H_{A_2}:\quad \mu \lt 70,8$

$$1 \le 0,05$$

In [30]:
#Reject?
p_z_2 <= alpha

False

Der $p$-Wert ist größer als das angegebene Signifikanzniveau von $0,05$ und wir verwerfen $H_0$ nicht. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant und liefern keinen ausreichenden Beweis gegen die Nullhypothese.

- **Alternativhypothese** $H_{A_3}:\quad \mu > 70,8$

$$0,004 \le 0,05$$

In [31]:
#Reject?
p_z_3 <= alpha

True

Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,05$ und wir verwerfen $H_0$. Die Testergebnisse sind auf dem $5 \%$-Niveau statistisch signifikant und liefern einen sehr starken Beweis gegen die Nullhypothese.

**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests.**

- **Alternativhypothese** $H_{A_1}:\quad \mu \ne 70,8$

$p \approx 0,007$. Bei einem Signifikanzniveau von $5 \%$ lassen die Daten den Schluss zu, dass sich das Durchschnittsgewicht der Studenten vom Durchschnittsgewicht der europäischen Erwachsenen unterscheidet.

- **Alternativhypothese** $H_{A_2}:\quad \mu \lt 70,8$

$p \approx 1$. Bei einem Signifikanzniveau von $5 \%$ liefern die Daten keine hinreichenden Anhaltspunkte für die Schlussfolgerung, dass das Durchschnittsgewicht der Studenten geringer ist als das Durchschnittsgewicht der europäischen Erwachsenen.

- **Alternativhypothese** $H_{A_3}:\quad \mu > 70,8$

$p \approx 0,004$. Bei einem Signifikanzniveau von $5 \%$ lassen die Daten den Schluss zu, dass das Durchschnittsgewicht der Studenten höher ist als das Durchschnittsgewicht der europäischen Erwachsenen.