# Hypothese toetsen (Z-toets)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
import scipy as sp

## Voorbeeld - leessnelheid: *Serif* vs. *Sans Serif*


#### 1. Stel hypothesen op

H0: er is geen verschil ($\mu_{sansserif} \le \mu_{populatie}$)

H1: er is een verschil ($\mu_{sansserif} > \mu_{populatie}$)

Er is sprake van een _rechtszijdige_ toets.

In [None]:
n = 100
print("Steekproefgrootte n = {}".format(n))
x_ = 246
print("Steekproefgemiddelde x = {:.2f}".format(x_))
s = 20
print("Standaardafwijking steekproef s = {:.2f}".format(s))

In [None]:
# populatie
mu = 240
print("gemiddelde populatie mu = {:.4f}".format(mu))

# sigma is onbekend


In [None]:
# Standaardfout
se = s/np.sqrt(n)
print("Standaardfout se = {:.2f}".format(se))

#### 3. Bepaal de foutmarge

Gegeven: $\alpha = 0.05$


In [None]:
# Bereken grens van de z-waarde bij alpha
alpha = 0.05

z_grens = stats.norm.ppf((1-alpha) )
print("De grens z_waarde is {:.2f}".format(z_grens))
grens = z_grens * se + mu
print("De grenswaarde is {:.2f}".format(grens))

#### 4. Bereken z-waarde en p-waarde (maak een schets)

In [None]:
# Schets de verdeling 
x = np.linspace(230,250,100)
nv = stats.norm(loc=mu, scale=s/np.sqrt(n))   
y = nv.pdf(x)

plt.figure(figsize=(12,6), dpi=80)
plt.plot(x,y)
plt.fill_between(x, y, where=(x>grens))

# plaats van het steekproefgemiddelde
plt.plot([x_,x_],[0,0.1])

In [None]:
# Bereken z-waarde
z = (x_ - mu)/se
print("De z-waarde (rechts) z = {:.2f}".format(z))

# Bereken p-waarde
p = 1-stats.norm.cdf(z)
print("De p-waarde p = {:.4f}".format(p))

#### 5. Conclusie

Er geldt dat $p = 0.0013 < \alpha = 0.05$.
Dat p = 0.0013 betekent dat deze uitkomst niet door toeval kan plaatsvinden, 
dus we verwerpen $H_0$ en aanvaarden $H_A$: er is dus een significant verschil in leessnelheid.

Alternatieve werkwijze: de z-grenswaarde is $1.64$, de bijbehorende grenswaarde in leessnelheid is $243.29$ secondes. Het steekproefgemiddelde van $\bar{x} = 246$ secondes ligt voorbij deze grenswaarde, dus we moeten $H_{0}$ verwerpen.


## Oefening - IQ

Het IQ van de moeders van 36 hoogbegaafde kinderen is gemeten met een IQ-test. Is er een significant (>1%) verschil in IQ met het gemiddelde IQ van de Nederlandse populatie (gemiddeld IQ is 100)? 

In [None]:
iq = np.array([101,
          106,108,109,
          111,112,113,113,114,114,114,
          115,116,116,117,117,118,118,
          118,119,119,119,119,119,119,
          120,123,123,123,123,124,124,
          127,129,130,
          131])
iq

#### 1. Stel hypothesen op

#### 2. Bereken de steekproefstatistieken

#### 3. Bepaal de foutmarge



#### 4. Bereken z-waarde en p-waarde (maak een schets)

#### 5. Conclusie


## Oefening - hematocriettest

Bij wielrenner wordt een startverbod opgelegd bij een te hoge hematocriet (HT) waarde. 
- De grens is 0.50. 
- De standaarddeviatie $\sigma$ is 0.05
- Betrouwbaarheid: 10%

In [None]:
ht = np.array([0.51, 0.51, 0.52, 0.50, 0.53, 0.50, 0.51, 0.50, 0.51, 0.52])
ht

#### 1. Stel hypothesen op



#### 2. Bereken de steekproefstatistieken

#### 3. Bepaal de foutmarge

#### 4. Bereken z-waarde en p-waarde (maak een schets)

#### 5. Conclusie


## Oefening - CITO

Halen de leerlingen een betere CITO score
- Populatie gemiddelde: 400
- Populatie standdaarddeviatie: 100


In [None]:
cito = np.array([434,694,457,534,720,400,484,478,610,641,425,636,454,514,563,370,499,640,501,625,612,471,598,509,531])
cito

#### 1. Stel hypothesen op

#### 2. Bereken de steekproefstatistieken

#### 3. Bepaal de foutmarge




#### 4. Bereken z-waarde en p-waarde (maak een schets)

#### 5. Conclusie
