# Z - Toets


Het was afgelopen jaren bijzonder zonnig in Portugal. De verbouwers van de wijn vragen zich af of dit de zuurgraad heeft beïnvloed, oftewel; of de wijnen van afgelopen jaren een andere pH waarde hebben dan voorgaande jaren. 

In [None]:
import pandas as pd
import numpy as np

import nltk
from nltk.corpus import stopwords
# nltk.download()

import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.patches import Polygon

from scipy import stats

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

pd.set_option('display.max_columns', None)

In [None]:
wine = pd.read_csv('redwine.csv', delimiter=';')

In [None]:
pHwaardes = {'Wijn' : ['Casa Santa Vitória', 'Monte da Penha', 'Real Companhia Velha', 'Aveleda', 'Companhia das Quintas', 'J. Portugal Ramos', 'Sogrape', 'Casa Santos Lima', 'Quinta de Ventozelo'], 'pH': [3.41, 3.51, 3.39, 3.11, 3.21, 3.50, 3.46, 3.37, 3.71]}

Hieronder zien we de wijnen en pH waardes van de wijnen van het afgelopen jaar. Deze gaan we dus vergelijken met onze gehele dataset "wine". 

In [None]:
newpH = pd.DataFrame(pHwaardes) 

In [None]:
newpH

Hieronder tonen we de eerste 5 records van onze dataset "wine". 

In [None]:
oldpH = wine[['title', 'pH']]
oldpH.head()

## Hypothese opstellen

$H_0$: er is geen verschil in pH waardes ($\mu_{ditJaar} = \mu_{populatie}$)

$H_1$: er is een verschil in pH waardes ($\mu_{ditJaar} \neq  \mu_{populatie}$)


## Populatiegrootte bepalen

We beschouwen de gehele dataset als de populatie, dit zijn dus de 2465 pH waardes uit de dataset. 

In [None]:
oldpH.count()

__Populatiegemiddelde $\mu$__

In [None]:
mu = oldpH.mean()
mu
print("Het populatiegemiddelde mu is {:.5f}".format(float(mu)))

## Steekproef


Als steekproef gebruiken we 100 willekeurige getallen uit de gehele wijnen dataset. 

In [None]:
n = 100

__Steekproefgemiddelde x___

In [None]:
steekpr = oldpH[:100]
x_ = steekpr.mean()
print("Het steekproefgemiddelde x_ is {:.5f}".format(float(x_)))

__Steekproef standaardafwijking s__

In [None]:
s = steekpr.std()
print("De standaardafwijking van de steekproef s is {:.5f}".format(float(s)))

__Standaardfout van de steekproef__

In [None]:
se = s/np.sqrt(n)
print("De standaardfout van de steekproef se is {:.5f}".format(float(se)))

## Foutmarge $\alpha$ bepalen

Als betrouwbaarheid nemen we 95%. Dit betekend dat in 5% van de gevallen we een onjuiste conclusie kunnen trekken.


In [None]:
alpha = 0.05

In [None]:
z_grens = stats.norm.ppf((1-alpha) )
print("De z_grens is {:.2f}".format(z_grens))
grens = z_grens * se + mu
print("De grenswaarde is {:.5f}".format(float(grens)))

## Z-Waarde en P-Waarde berekenen

__Z-Waarde__

De z-waarde geeft aan hoeveel standaarddeviaties een score van het gemiddelde af zit. 

In [None]:
z = (x_ - mu)/se
print("De Z-toetswaarde is {:.2f}".format(float(z)))


__P-Waarde__

In [None]:
p = 1-stats.norm.cdf(z)
p

## Conclusie

Er geldt dat $p = 0.0051618 < \alpha  = 0.05$. 

Dat p = 0.0051618 betekent dat deze uitkomst niet door toeval kan plaatsvinden. We verwerpen daardoor $H_0$ en nemen $H_1$ aan; er is wel een verschil tussen pH waarde van de wijnen uit voorgaande jaren en de pH waarden van de wijnen uit dit jaar.

De z_grens is 1.64 en de bijbehorende grenswaarde is 3.33236. Het steekproefgemiddelde ligt met 3.34420 voorbij deze grenswaarde. Hierdoor kun je ook zeggen dat we $H_0$ verwerpen. 