# Objectifs

Les objectifs de la lecon sont les suivants:
* Enoncer H0 et H1 pour chaque test
* Calculer en Python les p-valeurs
* Interpréter les résultats

# Importer les librairies

In [1]:
from scipy import stats

# $\chi^2$ independence test

Un chercheur souhaite savoir s'il existe un lien entre le genre et le choix de marque de lait au seuil 0.05. 

Une étude est réalisée et l'on demande à 200 personnes aléatoires dans un supermarché leur marque de lait préférée parmi 4 proposées (A, B, C et D).

$H_0$: Le choix du type de lait est **indépendent** du genre. $H_1$: Le choix du type de lait n'est **pas indépendent** du genre.

In [2]:
# Voici les données récoltées, sous forme de tableau de contingence
observed = [
    [20, 10, 40, 30], # men
    [44, 6, 22, 28] # women
]

Parmi ceux qui ont répondu, il y a 100 hommes et 100 femmes. 20 hommes mentionnent la marque A, 10 la marque B, etc. 44 femmes mentionnent la marque A, 6 la marque B, etc.

Les assumptions sont-elles validées?
* Les variables sont bien catégoriques.
* Les variables sont indépendentes.
* L'échantillon est aléatoire.
* Il y au moins 5 valeurs pour chaque combinaison des variables.

On peut donc passer au test d'hypothèse.

La fonction [`chi2_contingency`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html) prend comme argument un tableau de contingence contenant les valeurs observées. Elle retourne 4 éléments:
* Le test statistique
* La p-valeur
* Les degrés de liberté
* Les valeurs attendues

In [3]:
# Utilisons la foncton chi2_contingency
chi2_stat, p_val, dof, ex = stats.chi2_contingency(observed)

print("The statistic is ", chi2_stat)
print("P-value is", p_val)
print("Degrees of Freedom:", dof)

The statistic is  15.294771968854281
P-value is 0.0015813113058002915
Degrees of Freedom: 3


Analysons les résultats:
* Le test statistique est 15.29.
* **p-valeur < seuil**.
* Les degrés de liberté sont 3 (3x1=3).
* Les valeurs attendues sont données (e.g., premier élément = 100x64/200 = 32)

In [5]:
print(ex)

[[32.  8. 31. 29.]
 [32.  8. 31. 29.]]


Puisque p-valeur < seuil, on **rejette l'hypothèse nulle**. Il y a assez de preuve pour rejetter l'idée selon laquelle le genre et le choix de marques de lait sont indépendents.

# $\chi^2$ homogeneity of proportions test

Un responsable des admissions à une université américaine s'inquiétait du fait que les hommes et les femmes étaient acceptés à des taux différents dans les quatres écoles (commerce, ingénierie, arts libéraux et sciences) de son université. Il demande donc à un chercheur de tester statistiquement si les répartitions des différents effectifs sont équivalentes. Le chercheur choisit le seuil 0.05.

$H_0$: Il n'y a pas de différences significatives dans la répartition. $H_1$: Il existe au moins une différence significative dans la répartition des groupes.

In [6]:
# Voici les données récoltées, sous forme de tableau de contingence
observed = [
    [300, 240, 300, 360], # men
    [200, 160, 200, 240], # women
]

300 hommes ont été acceptés en commerce, 240 en ingénierie, etc. 200 femmes ont été acceptées en commerce, 160 en ingénierie, etc.

In [7]:
# Utilisons la foncton chi2_contingency
chi2_stat, p_val, dof, ex = stats.chi2_contingency(observed)

print("The statistic is ", chi2_stat)
print("P-value is", p_val)
print("Degrees of Freedom:", dof)

The statistic is  0.0
P-value is 1.0
Degrees of Freedom: 3


In [8]:
# Checkons les valeurs attendues: celles-ci devraient être les mêmes 
# que celles observées puisque que la statistic est 0
print("Les valeurs attendues sont:\n", ex)

Les valeurs attendues sont:
 [[300. 240. 300. 360.]
 [200. 160. 200. 240.]]


Analysons les résultats:
* Le test statistique est 0.
* **p-valeur > seuil**.
* Les degrés de liberté sont 3 (3x1=3).
* Les valeurs attendues sont données (e.g., premier élément = 1200x500/2000 = 300)

Puisque p-valeur > seuil, on **ne rejette pas l'hypothèse nulle**. Il n'y a pas assez de preuve pour supporter l'idée selon laquelle il existe au moins une différence significative dans la répartition.