# Z-toets FIFA 19

<b>*Een voetbalcommentator beweert dat de potentie van de huidige generatie Engelse spelers sterk verschilt van spelers uit de rest van de wereld.*</b>

Onderzoek met de dataset of de commentator gelijk heeft. Neem een steekproef van 100 Engelse spelers en beschouw de hele dataset als populatie. Kies als betrouwbaarheid 95%.

In [None]:
# imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import scipy as sp

 Onze gekozen CSV-file dataset inladen: <br>
- fifa19.csv

De dataset bevat: <br>
1. Alle spelers uit FIFA 19.
2. Speelpositie en fysieke eigenschappen.
3. Persoonlijke spelersinformatie (bijv. nationaliteit, club, leeftijd, salaris etc.).

#### 1. Stel hypothesen op

H0: Er is geen verschil ($\mu_{potentieEng} = \mu_{populatie}$)

H1: Er is een verschil ($\mu_{potentieEng} \ne \mu_{populatie}$)

Er is sprake van een _tweezijdige_ toets.

In [None]:
fifa_source = pd.read_csv('source/fifa19.csv', index_col=0)

#### 2. Bereken de steekproefstatistieken

Alleen de <b>engelse</b> spelers uit de dataset filteren:

In [None]:
all_english_players = fifa_source.loc[fifa_source['Nationality'] == 'England']
all_english_players.head(10)

Onze gefilterde dataset:
- Bevat 1662 rijen (dus <b>1662 engelse spelers</b>)

In [None]:
all_english_players.shape[0]

Voor onze steekproef zijn <b>100 Engelse spelers</b> nodig:
- wordt gebruik gemaakt van .sample(), zodat er altijd random 100 spelers worden gekozen.

In [None]:
hundred_random_players = all_english_players.sample(100)

Berekenen van column <b>Potential</b>:
- steekproefgemiddelde <b>(x_)</b>
- steekproefstandaardafwijking <b>(s)</b>
- populatiegemiddelde <b>(s)</b>
- standaardfout <b>(se)</b>

In [None]:
n = hundred_random_players.shape[0]
print("Steekproefgrootte n = {}".format(n))
x_ = np.mean(hundred_random_players['Potential'])
print("Steekproefgemiddelde x_ = {:.2f}".format(x_))
s = hundred_random_players['Potential'].std()
print("Steekproefstandaardafwijking s = {:.2f}\n".format(s))

mu = np.mean(fifa_source['Potential'])
print("Populatiegemiddelde = {:.2f}".format(mu))

# n = fifa_source['ID'].size
# print("Populatiegrootte n = {}".format(n))
# sigma = np.std(fifa_source['Potential'])
# print("Standaardafwijking populatie = {:.2f}".format(sigma))
# mu = np.mean(fifa_source['Potential'])
# print("Gemiddelde populatie = {:.2f}".format(mu))



In [None]:
se = s/np.sqrt(n)
print("Standaardfout se = {:.2f}".format(se))

#### 3. Bepaal de foutmarge

Betrouwbaarheid moet 95% zijn

In [None]:
alpha = 0.05

z_grens = stats.norm.ppf(1-(alpha/2))
print("De grens z_waarde is {:.2f}".format(z_grens))


l_grens = mu - z_grens * se
r_grens = mu + z_grens * se
print("Het betrouwbaarheidsinterval is {:.2f} < IQ < {:.2f} ".format(l_grens, r_grens))


#### 4. Bereken z-waarde en p-waarde (maak een schets)

In [None]:
# Schets de verdeling 
x = np.linspace(60,80,500)
nv = stats.norm(loc=mu, scale=se)   
y = nv.pdf(x)

plt.figure(figsize=(12,6), dpi=80)
plt.plot(x,y)
# plt.fill_between(x, y, facecolor='blue', where=(x>r_grens))
# plt.fill_between(x, y, facecolor='green', where=(x<l_grens))
plt.fill_between(x, y, where=sp.logical_or(x<l_grens, x>r_grens))

# plaats van het steekproefgemiddelde
plt.plot([x_,x_],[0,0.5])

In [None]:
# Bereken z-waarde
z = (x_ - mu)/se
print("De z-waarde (rechts) z = {:.2f}".format(z))

# Bereken p-waarde
p = stats.norm.cdf(-z)*2
print("De p-waarde p = {:.2f}, (werkelijk {})".format(p,p))

<b>5. Conclusie</b>

In [None]:
print("Er geldt dat p = {:.2f} < {}. Dat betekend dat er geen significant verschil in potentie zit tussen de Engelse spelers en\nde rest van de wereld.".format(p,alpha))