# Objectifs

Les objectifs de la lecon sont les suivants:
* Enoncer H0 et H1 pour chaque test
* Calculer en Python les p-valeurs
* Interpréter les résultats

# Importer les librairies

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

# z-test

Nous savons que la taille moyenne des hommes est 1m78 et la taille moyenne des femmes est 1m63 en Suisse. Nous savons également que l'écart type de la population est de 6cm. La taille, que cela soit des hommes ou des femmes, suit une loi normale.

Q: Etes-vous de taille moyenne par rapport à la population Suisse ?

Rappel de la formule pour calculer le z-score:
$$ z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} $$

In [2]:
# Ma taille (please dont judge me)
height = np.array([1.72])

In [3]:
# Créer les variables dont nous avons besoin
sample_mean = np.mean(height) # la moyenne de l'échantillon
mu = 1.78 # la moyenne de la population
sigma = 0.06 # l'écart type de la population
n = len(height) # la taille de l'échantillon

In [4]:
# Calculons le z-score
z = (sample_mean - mu)/(sigma / np.sqrt(n))

print("Le score z est:", z)

Le score z est: -1.0000000000000009


In [5]:
# Calculons maintenant la p-valeur
p_valeur = stats.norm.cdf(-abs(z)) * 2
alpha = 0.05

print("La p-valeur est:", p_valeur)

# Si p-valeur < alpha, on rejète l'hypothèse nulle
if p_valeur < alpha:
    print("Avec un seuil alpha", str(alpha), "on rejète l'hypothèse nulle.")
    
# Si p-valeur > alpha, on ne rejète pas l'hypothèse nulle
else:
    print("Avec un seuil alpha", str(alpha), "on ne rejète pas l'hypothèse nulle.")
    print("Je suis dans la moyenne mais pas significativement différent de la moyenne.")

La p-valeur est: 0.3173105078629137
Avec un seuil alpha 0.05 on ne rejète pas l'hypothèse nulle.
Je suis dans la moyenne mais pas significativement différent de la moyenne.


# t-test

On va regarder si la moyenne des tailles de la classe est un échantillon statistiquement différent ou non de la moyenne de la population. Qu'en pensez-vous ? 

On réalise un t-test car l'écart type de la population globale hommes et femmes confondus est inconnu.

Rappel de la formule pour calculer la statistique t:
$$ t = \frac{\bar{X} - \mu}{s / \sqrt{n}} $$
et les *degrés de libertés* de la loi $t$ de Student sont de $n-1$

In [6]:
# On relève la taille des étudiants
heights = np.array([1.90, 1.74, 1.83, 1.82, 1.78, 1.78, 1.63, 1.75, 1.74, 1.75, 1.81])
heights

array([1.9 , 1.74, 1.83, 1.82, 1.78, 1.78, 1.63, 1.75, 1.74, 1.75, 1.81])

In [7]:
# Créer les variables dont nous avons besoin
sample_mean = np.mean(heights) # la moyenne de l'échantillon
sample_std = np.std(heights, ddof=1) # l'écart type de la population est inconnue
mu = (1.78 + 1.63)/2 # la moyenne de la population Suisse (hommes + femmes)
n = len(heights) # la taille de l'échantillon

In [8]:
print(sample_mean)

1.7754545454545452


In [9]:
print(mu)

1.705


In [10]:
print(sample_std)

0.06831744087180615


In [11]:
print("La taille moyenne de l'échantillon est de", str(sample_mean))
print("L'écart type de l'échantillon est de", str(sample_std))

La taille moyenne de l'échantillon est de 1.7754545454545452
L'écart type de l'échantillon est de 0.06831744087180615


In [12]:
# Calculons la statistique t
t = (sample_mean - mu)/(sample_std / np.sqrt(n))

print("La statistique t est:", t)

La statistique t est: 3.420375369244828


In [13]:
# Calculons maintenant la p-valeur
p_valeur = stats.t.cdf(-abs(t), df=n-1) * 2
alpha = 0.05

print("La p-valeur est:", p_valeur)

# Si p-valeur < alpha, on rejète l'hypothèse nulle
if p_valeur < alpha:
    print("Avec un seuil alpha", str(alpha), "on rejette l'hypothèse nulle.")
    print("Statistiquement parlant, les étudiants de la HE-Arc ont une taille moyenne qui n'est pas dans celle de la population.")
    
# Si p-valeur > alpha, on ne rejète pas l'hypothèse nulle
else:
    print("Avec un seuil alpha", str(alpha), "on ne rejette pas l'hypothèse nulle.")

La p-valeur est: 0.006543307647716706
Avec un seuil alpha 0.05 on rejette l'hypothèse nulle.
Statistiquement parlant, les étudiants de la HE-Arc ont une taille moyenne qui n'est pas dans celle de la population.


# Maintenant que l'on a compris...

La fonction [`stats.ttest_1samp`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html) de SciPy permet de faire ce t-test de façon automatique en une ligne.

In [14]:
t, p_valeur = stats.ttest_1samp(heights, popmean=mu)

print("La statistique t est de : " + str(t))
print("La p-valeur associée est de : " + str(p_valeur))

# Si p-valeur < alpha, on rejète l'hypothèse nulle
if p_valeur < alpha:
    print("Avec un seuil alpha", str(alpha), "on rejète l'hypothèse nulle.")
    
# Si p-valeur > alpha, on ne rejète pas l'hypothèse nulle
else:
    print("Avec un seuil alpha", str(alpha), "on ne rejète pas l'hypothèse nulle.")

La statistique t est de : 3.4203753692448275
La p-valeur associée est de : 0.0065433076477167205
Avec un seuil alpha 0.05 on rejète l'hypothèse nulle.
