# Z-toets wijnrecensies

In het afgelopen jaar was het bijzonder zonnig in Portugal. De verbouwers van wijn vragen zich af of dit de zuurgraad (pH) van heeft beïnvloed, met andere woorden: of de wijnen uit het afgelopen jaar een andere pH hebben dan ???. Ze doen daarom een steekproef en meten de zuurgraad in enkele rode wijnen van afgelopen jaar. Daar komen de volgende meetwaarden uit:

| Wijn | pH |
|------|---------------|
|Casa Santa Vitória| 3.41 | 
|Monte da Penha| 3.51 | 
|Real Companhia Velha| 3.39 | 
|Aveleda| 3.11 | 
|Companhia das Quintas| 3.21 | 
|J, Portugal Ramos| 3.50 | 
|Sogrape| 3.46 | 
|Casa Santos Lima| 3.37 | 
|Quinta de Ventozelo| 3.71 |

Bepaal of deze wijnen een significant andere zuurgraad hebben dan gemiddeld. Neem de dataset als populatie en kies als betrouwbaarheid 95%.

# Uitwerking

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math 
import scipy.stats as st

%matplotlib inline

#### 1. Stel hypothesen op

H0: de wijnen van vorig jaar hebben hetzelfde ph als gemiddeld

Ha: de wijnen van vorig jaar hebben een andere ph als gemiddeld

Er is sprake van een _dubbelzijdige_ toets

In [3]:
# Dataset inlezen 
df = pd.read_csv('redwine.csv',encoding  = "ansi", delimiter = ';')
populatie = df['pH'] # de pH kolom uithalen van onzen df 
populatie.head(10)

0    3.48
1    3.26
2    3.38
3    3.38
4    3.28
5    3.21
6    3.17
7    3.25
8    3.29
9    3.38
Name: pH, dtype: float64

In [4]:
#Steekproef
steekproef = pd.DataFrame()
steekproef['ph'] = [3.41  ,3.51,  3.39, 3.11, 3.21, 3.50, 3.46, 3.37, 3.71]
steekproefList =  [3.41  ,3.51,  3.39, 3.11, 3.21, 3.50, 3.46, 3.37, 3.71]
steekproef.head()

Unnamed: 0,ph
0,3.41
1,3.51
2,3.39
3,3.11
4,3.21


#### 3. Bepaal de foutmarge

Gegeven: $\alpha = 0.05$ of $0.025$

In [11]:
# ggemiddelde berekennen
u = populatie.mean() # gemidddelde populatie
s = populatie.std() # stdev populatie
x = steekproef.mean() # ggemiddelde steekproef
n = len(steekproef)
ox = s / math.sqrt(n) #staandaardfout(ox) = stdev populatie / wortel van n  (= grootte van populatie)
#print(ox)
print(u)
print(x)

3.311200811359032
ph    3.407778
dtype: float64


#### 4. Bereken z-waarde en p-waarde (maak een schets)

In [6]:
# de zscore van elke waarde in steekprroef
lst = []
for i in populatie:
      lst.append(  (i- u)   /   s  )

In [7]:
#z-toetstwaarde
z = (x - u)/ox
z

ph    1.882258
dtype: float64

In [12]:
#Uit de tabel halen we P(z>1.88)
p = 1 - 0.9699
print("De p-waarde p = {:.4f}".format(p))

De p-waarde p = 0.0301


p  >2.5% , dus Ha kan aangenomen worden en H0 moet  verworpen worden. 

In [20]:
#p waarde berekenen met behulp van stats.norm van scipy
p2 = 1 - st.norm.cdf(z)
print("De p-waarde p = {:.4f}".format(p2[0]))

[0.02990047]
De p-waarde p = 0.0299


#### 5. Conclusie
Ha wordt aangenome en H0  wordt verworpen .

Er geldt dat $p = 0.0299 < \alpha = 0.05$.
Dat p = 0.0299 betekent dat deze uitkomst niet door toeval kan plaatsvinden, 
dus we verwerpen $H_0$ en aanvaarden $H_A$: de wijnen van vorig jaar hebben een andere ph als gemiddeld
