## Beispiel 10.1.2
Wir betrachten zwei Datensätze, bei welchen zwei Methoden zur Bestimmung der latenten Schmelzwärme von Eis verglichen werden. Wiederholte Messungen der freigesetzten Wärme beim Übergang von Eis bei $-0.7^\circ$ C zu Wasser bei $0^\circ$ C ergaben mit Methode A die folgenden Werte in cal/g:

In [None]:
from pandas import Series, DataFrame

methodeA = Series([79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04,79.97, 80.05, 80.03, 80.02, 80.00, 80.02])

print(methodeA.mean())
print(methodeA.std())

## Beispiel 10.1.3
Wir wollen neue Messreihen simulieren, die ähnlich aussehen wie die Werte in Methode A. Dazu machen wir die Annahme, dass die Messwerte in Methode A normalverteilt sind mit den wahren Parametern $\mu = 80$ und $\sigma^2 = 0.022$. Dann generieren wir mit `norm.rvs()` aus `scipy.stats` 6 Zufallszahlen, die dieser Verteilung folgen. Wir runden die Resultate mit `round()` von `numpy` auf zwei Nachkommastellen.

In [None]:
import numpy as np
from scipy.stats import norm

methodeA_sim_array = norm.rvs(size=6, loc=80, scale=0.02)
methodeA_sim_ger = np.round(methodeA_sim1_array, 2)
methodeA_sim = Series(methodeA_sim1_ger)

print(methodeA_sim)
print(methodeA_sim.mean())
print(methodeA_sim.std())

Führen wir dies fünfmal durch, so sehen die Resultate wie folgt aus:

In [None]:
for i in range(5):
    methodeA_sim = Series(np.round(norm.rvs(size=6, loc=80, scale=0.02), 2))
    print('Mittelwert:', np.round(methodeA_sim.mean(), 3))
    print('Standardabw.:', np.round(methodeA_sim.std(), 3))
    print()

## Beispiel 10.1.8
Wir nehmen an, dass wir 6 Werte $X_1,\ldots,X_6$ haben, die derselben Verteilung $\mathcal{N}(\mu,0.02^2)$ folgen. Wir nehmen zusäzlich an, dass die Zufallsvariablen unabhängig sind. Sie sind also i.i.d. Angenommen, der Mittelwert der Messwerte ist
$$ \overline{X}_6=\frac{1}{6}(X_1+\cdots+X_6)=79.98$$
Unter der Annahme, dass der Erwartungswert $\mu=80$ ist, ist die Wahrscheinlichkeit, eine *extremere Abweichung* nach unten zu erhalten,

In [None]:
norm.cdf(x=79.98, loc=80, scale=0.02/np.sqrt(6))

## Verwerfungsbereich
Wir betrachten den zweiseitigen Hypothesentest
$$H_0: \mu=80$$
$$H_A: \mu\ne 80$$
Den Verwerfungsbereich auf dem $5\%$-Signifkanzniveau erhalten wir durch die beiden Quantile

In [None]:
q_025 = norm.ppf(q=0.025, loc=80, scale=0.02/np.sqrt(6))
q_975 = norm.ppf(q=0.975, loc=80, scale=0.02/np.sqrt(6))

print('Verwerfungsbereich: (-infinity,',np.round(q_025,3),']U[',np.round(q_975,3),',infinity)')

Da der Mittelwert $\overline{X}_6=79.98$ im Verwerfungsbereich liegt, also **verwerfen** wir die Nullhypothese

Wir können beide Quantile auch durch einen Funktionsaufruf berechnen (Vektorisierung):

In [None]:
q_025,q_975 = norm.ppf(q=[0.025,0.975], loc=80, scale=0.02/np.sqrt(6))

print('Verwerfungsbereich: (-infinity,',np.round(q_025,3),']U[',np.round(q_975,3),',infinity)')

Wir können der Verwerfungsbereich auch mit dem Befehl `interval` berechnen:

In [None]:
norm.interval(confidence=0.95, loc=80, scale=0.02/np.sqrt(6))

## Beispiel 10.1.15
Wir haben eine Stichprobe $x_1,\ldots,x_{20}$ vom Umfang 20 einer normalverteilten Zufallsvariablen $X\sim\mathcal{N}(5,\sigma_X^2)$. Wir kennen die Standardabweichung $\sigma_X$ nicht, also schätzen wir sie aus der Stichprobe:

In [None]:
x = Series([5.9, 3.4, 6.6, 6.3, 4.2, 2.0, 6.0, 4.8, 4.2, 2.1, 8.7, 4.4, 5.1, 2.7, 8.5, 5.8, 4.9, 5.3, 5.5, 7.9])
sigma_x = x.std()

print(sigma_x)

Der Mittelwert $\overline{x}_{20}$  unserer Stichprobe ist

In [None]:
mean_x = x.mean()

print(mean_x)

Die Wahrscheinlichkeit, dass der Mittelwert einer Stichprobe vom Umfang 20 kleiner ist als **unserer** Mittelwert $\overline{x}_{20}=5.215$, ist

In [None]:
from scipy.stats import t
n = x.size
print(t.cdf(x=mean_x, df=n-1, loc=5, scale=sigma_x/np.sqrt(n)))

Alternativ kann man $\overline{x}_{20}$ standardisieren und mit der Standard $t$-Verteilung (`loc=0` und `scale=1`) arbeiten:

In [None]:
t_x = (mean_x-5 ) / (sigma_x/np.sqrt(n))

print(t_x)
print(t.cdf(x=t_x, df=x.size-1))

Den Verwerfungsbereich für die standardisierte Teststatistik
$$ T = \frac{\overline{X}_n-\mu_0}{\hat{\sigma}_X/\sqrt{n}} $$
können wir mit dem $0.975$-Quantil der $t$-Verteilung berechnen:

In [None]:
q_975 = t.ppf(q=0.975, df=12)

print('Verwerfungsbereich: (-infinity,',-np.round(q_975,3),']U[',np.round(q_975,3),',infinity)')

Unser standardisierter Wert ist 
$$ t = \frac{\sqrt{6}(5.215-5)}{1.88}=0.51 $$
Er liegt also **nicht** im Verwerfungsbereich, daher wird die Nullhypothese $\mu=5$ **nicht** verworfen.

Wir können den Verwerfungsbereich aber auch direkt für $\overline{X}_n$ mit Python berechnen:

In [None]:
t.interval(confidence=0.95, df=n-1, loc=5, scale=sigma_x/np.sqrt(n))

Beachten Sie, dass der erste Werte die **obere** Grenze des unteren Intervalls und der zweite Wert die **untere** Grenze des oberen Intervalls des Verwerfungsbereichs ist. Unser Mittelwert $\overline{x}_{20}=5.215$ liegt also **nicht** im Verwerfungsbereich, daher wird die Nullhypothese $\mu=5$ **nicht** verworfen.

Oder wir berechnen den $p$-Wert (für den zweiseitigen Test) mit der kumulativen Verteilungsfunktion

In [None]:
p = 2*t.cdf(x=-t_x,df=n-1)

print(p)

Wir können den $t$-Test auch direkt mit dem Befehl `ttest_1samp()` von `scipy.stats` durchführen:

In [None]:
import scipy.stats as st

st.ttest_1samp(a=x, popmean=5)