# Beispiel Summe
W'keit, dass die Summe für 50 Tage 80 überschreitet

In [1]:
from scipy.stats import norm
import numpy as np
x = 80
n = 50 # Anzahl Tage
mu = 1.5 # Mittelwert
sigma = 0.3 # Standardabweichung

# Summe berechnen
norm.cdf(x=x, loc=n*mu, scale=np.sqrt(n)*sigma)

0.9907889372729505

# Beispiel Durchschnitt
Gesucht: W’keit, dass die Durchschnittliche Wartezeit für 36 Passagiere unter 10 ist 

In [2]:
from scipy.stats import norm
import numpy as np
x = 10
n = 36 # Anzahl Passagiere
mu = 8.2 # Mittelwert
sigma = 6 # Standardabweichung

# Durchschnitt berechnen
norm.cdf(x=x, loc=mu, scale=sigma/np.sqrt(n))

0.9640696808870742

# Vorgehen Null / alternativhypothese:

In [33]:
from scipy.stats import norm

# Annahme:
mu = 500    # Angenommener Mittelwert
sigma = 1   # Angenommene Standardabweichung


# Aus Messreihe:
n = 10      # Anzahl der Messungen  --> len(data)
x = 499.22  # gemessener Mittelwert --> data.mean()


norm.cdf(x=x, loc=mu, scale=sigma/np.sqrt(n)) # ausgabe P-Wert --> ist dieser kleiner als alpha, dann ist die Nullhypothese verworfen

0.0068205778974858985

In [35]:
# schön formatiert
print(f'{(norm.cdf(x=x, loc=mu, scale=sigma/np.sqrt(n)))*100:.4f}%')

0.6821%


# Verwerfungsbereich für signifikanzniveau alpha!

### Zweiseitig
Beispiel Bier, angenommener Mittelwert von mu=500 und Standardabweichung von sigma = 1 mit n=10

In [25]:
from scipy.stats import norm

# Verwerfungsbereich für signifikanzniveau alpha
alpha = 0.05        # Signifikanzniveau
q1 = alpha/2        # quantil 1
q2 = 1-alpha/2      # quantil 2


In [26]:
# Einzeln: 
norm.ppf(q=q1, loc=500, scale=1/np.sqrt(10)) 
norm.ppf(q=q2, loc=500, scale=1/np.sqrt(10))

500.6197950323046

In [21]:
# Gemeinsam
norm.ppf(q=[q1,q2], loc=500, scale=1/np.sqrt(10))

array([499.38020497, 500.61979503])

### Einseitig
Beispiel Körpergrösse mit mu=180, sigma = 1, n=10

In [27]:
from scipy.stats import norm

# Verwerfungsbereich für signifikanzniveau alpha
alpha = 0.05        # Signifikanzniveau
q = alpha           # Einseitig test nach unten
# q = 1-alpha         # Einseitig test nach oben

norm.ppf(q=q, loc=500, scale=1/np.sqrt(10)) 

499.47985161212443

# Z-Test
Bsp. Körpergrösse: Gegebene Stanardabweichung sigma = 8cm, Nullhypothese mu = 164, vermuting --> grösser (mu_dach Messreihe = 168)

In [40]:
# Annahme:
mu = 164    # Angenommener Mittelwert

# Bekannt:
sigma = 8   # Standardabweichung

# Aus Messreihe:
n = 150      # Anzahl der Messungen  --> len(data)
x = 168  # gemessener Mittelwert --> data.mean()

# P-Wert berechnen --> Einseitiger Test nach oben
1 - norm.cdf(x=x, loc=mu, scale=sigma/np.sqrt(n))

4.5706494145036913e-10

In [44]:
# scöhn formatiert
print(f'p-Wert: {(1 - norm.cdf(x=x, loc=mu, scale=sigma/np.sqrt(n)))*100:.10f}%')

p-Wert: 0.0000000457%


p-Wert < Signifikantsniveau von 5% --> Nullhypthese wird verworfen. Die Vermutung von 164 stimmt nicht

# t-test

In [45]:
from scipy.stats import t
import numpy as np
from pandas import Series

# Datensatz:
x = Series([5.9, 3.4, 6.6, 6.3, 4.2, 2.0, 6.0, 4.8, 4.2, 2.1,8.7, 4.4, 5.1, 2.7, 8.5, 5.8, 4.9, 5.3, 5.5, 7.9])

In [48]:
# Verwerungsbereich:
alpha = 0.05
q1 = alpha/2
q2 = 1-(alpha/2)

# Annahme Nullhypothese:
mu = 5

# t-Verteilung mit Freiheitsgrad n − 1 = 19
n = len(x)
t_n_1 = n -1

t.ppf(q=[q1, q2], loc=mu, scale=x.std()/np.sqrt(x.size), df=t_n_1)

array([4.11835346, 5.88164654])

Der Wert 5 "passt" zur Testreihe (liegt ausserhalb des Verwerfungsbereichs) und wird somit nicht verworfen 

### Berechnung "von hand"

In [49]:
# p-Wert berechnen, einseitig nach oben
1 - t.cdf(x=x.mean(), loc=mu, scale=x.std()/np.sqrt(x.size), df=t_n_1)


0.30782194321117506

In [50]:
# p-Wert berechnen, einseitig nach unten
t.cdf(x=x.mean(), loc=mu, scale=x.std()/np.sqrt(x.size), df=t_n_1)


0.6921780567888249

In [51]:
# p-Wert berechnen, zweiseitig
2 * (1 - t.cdf(x=x.mean(), loc=mu, scale=x.std()/np.sqrt(x.size), df=t_n_1))

0.6156438864223501

### Direkte implementation in python:

In [52]:
import scipy.stats as st
# x --> Datensatz
# mu --> Angenommener Mittelwert der Nullhypothese

st.ttest_1samp(a=x, popmean=mu)

TtestResult(statistic=0.510408819856927, pvalue=0.6156438864223502, df=19)

In [54]:
# nur den P-Wert: 
st.ttest_1samp(a=x, popmean=mu).pvalue

0.6156438864223502