In [267]:
import pandas as pd
import numpy as np

import nltk
from nltk.corpus import stopwords
# nltk.download()

import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.patches import Polygon

from scipy import stats

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

pd.set_option('display.max_columns', None)

In [268]:
wine = pd.read_csv('redwine.csv', delimiter=';')

# Z - Toets


Het was afgelopen jaren bijzonder zonnig in Portugal. De verbouwers van de wijn vragen zich af of dit de zuurgraad heeft beïnvloed, oftewel; of de wijnen van afgelopen jaren een andere pH waarde hebben dan voorgaande jaren. 

In [269]:
pHwaardes = {'Wijn' : ['Casa Santa Vitória', 'Monte da Penha', 'Real Companhia Velha', 'Aveleda', 'Companhia das Quintas', 'J. Portugal Ramos', 'Sogrape', 'Casa Santos Lima', 'Quinta de Ventozelo'], 'pH': [3.41, 3.51, 3.39, 3.11, 3.21, 3.50, 3.46, 3.37, 3.71]}

In [270]:
newpH = pd.DataFrame(pHwaardes) 

In [271]:
newpH

Unnamed: 0,Wijn,pH
0,Casa Santa Vitória,3.41
1,Monte da Penha,3.51
2,Real Companhia Velha,3.39
3,Aveleda,3.11
4,Companhia das Quintas,3.21
5,J. Portugal Ramos,3.5
6,Sogrape,3.46
7,Casa Santos Lima,3.37
8,Quinta de Ventozelo,3.71


In [272]:
oldpH = wine[['title', 'pH']]
oldpH.head()

Unnamed: 0,title,pH
0,Quinta dos Avidagos 2011 Avidagos Red (Douro),3.48
1,Casa Santa Vitória 2013 Grande Reserva Tinto R...,3.26
2,Adega Cooperativa de Borba 2012 Montes Claros ...,3.38
3,Quinta de Foz de Arouce 2013 Red (Beira Atlant...,3.38
4,Herdade Grande 2010 Gerações Colheita Seleccio...,3.28


## Hypothese opstellen

$H_0$: er is geen verschil in pH waardes ($\mu_{ditJaar} = \mu_{populatie}$)

$H_1$: er is een verschil in pH waardes ($\mu_{ditJaar} \neq  \mu_{populatie}$)

(tweezijdig toetsen)

## Populatiegrootte bepalen

We beschouwen de gehele dataset als de populatie, dit zijn dus de 2465 pH waardes uit de dataset. 

In [273]:
oldpH.count()

title    2465
pH       2465
dtype: int64

__Populatiegemiddelde $\mu$__

In [274]:
mu = oldpH.mean()
mu
print("Het populatiegemiddelde mu is {:.5f}".format(float(mu)))

Het populatiegemiddelde mu is 3.31120


## Steekproef


Als steekproef gebruiken we 100 willekeurige getallen uit de gehele wijnen dataset. 

In [275]:
n = 100

__Steekproefgemiddelde x___

In [276]:
steekpr = oldpH[:100]
x_ = steekpr.mean()
print("Het steekproefgemiddelde x_ is {:.5f}".format(float(x_)))

Het steekproefgemiddelde x_ is 3.34420


__Steekproef standaardafwijking s__

In [277]:
s = steekpr.std()
print("De standaardafwijking van de steekproef s is {:.5f}".format(float(s)))

De standaardafwijking van de steekproef s is 0.12866


__Standaardfout van de steekproef__

In [278]:
se = s/np.sqrt(n)
print("De standaardfout van de steekproef se is {:.5f}".format(float(se)))

De standaardfout van de steekproef se is 0.01287


## Foutmarge $\alpha$ bepalen

Als betrouwbaarheid nemen we 95%. Dit betekend dat in 5% van de gevallen we een onjuiste conclusie kunnen trekken.


In [279]:
alpha = 0.05

In [280]:
z_grens = stats.norm.ppf((1-alpha) )
print("De z_grens is {:.2f}".format(z_grens))
grens = z_grens * se + mu
print("De grenswaarde is {:.5f}".format(float(grens)))

De z_grens is 1.64
De grenswaarde is 3.33236


## Z-Waarde en P-Waarde berekenen

__Z-Waarde__

De z-waarde geeft aan hoeveel standaarddeviaties een score van het gemiddelde af zit. 

In [281]:
zrechts = (x_ - mu)/se
zlinks = (mu - x_)/se
print("De grenswaarde aan de rechterkant is {:.2f}".format(float(zrechts)))
print("De grenswaarde aan de linkerkant is {:.2f}".format(float(zlinks)))

De grenswaarde aan de rechterkant is 2.56
De grenswaarde aan de linkerkant is -2.56


__P-Waarde__

In [282]:
p = 1-stats.norm.cdf(z)
p

array([0.0051618])

## Conclusie

Er geldt dat $p = 0.0051618 < \alpha  = 0.05$. 

Dat p = 0.0051618 betekent dat deze uitkomst niet door toeval kan plaatsvinden. We verwerpen daardoor $H_0$ en nemen $H_1$ aan; er is wel een verschil tussen pH waarde van de wijnen uit voorgaande jaren en de pH waarden van de wijnen uit dit jaar.