# Le test d’homogénéité du Chi<sup>2</sup>.

Le test d’homogénéité du Chi<sup>2</sup> teste si deux variables continues ou qualitatives (X1, X2) suivent la même loi de distribution.

- Hypothèse nulle : X1 et X2 suivent la même loi de distribution.

- Hypothèse alternative : X1 et X2 ne suivent pas la même loi de distribution.

*Dans un cas continue, il faut discrétiser les variables en les agrégeant par classes. On compare ensuite les effectifs de X1 aux effectifs de X2 pour les différentes classes.*


Nous prendrons ici l'exemple d'une [population de moustiques](https://ipfs.io/ipfs/Qmf3BaSr1ZC99E3rMG3yRqp5y1oXesMb4Fye25HW6Go3Kv). On souhaite determiner si cette population est à l'équilibre de HW.

X1 (effectifs observés) et X2 (effectifs théoriques) constituent 2 variables qualitatives à 3 modalités chacune (R//R , R//S, S//S)

**On construit un tableau croisé (matrice) entre nos variables X1 (effectifs observés) et X2 (effectifs théoriques) et leurs modalités**

<div align=center><table>

<tr>

<th></th><th>R//R</th><th>R//S</th><th>S//S</th>

</tr><tr>

<th>Observé</th><td>66</td><td>130</td><td>220</td>

</tr><tr>

<th>Théorique (HW)</th><td>41,25</td><td>179,5</td><td>195,25</td>

</tr></table></div>



**On calcule ensuite le Chi<sup>2</sup> local de chaque colonne.**

- Chi<sup>2</sup> local = (effectif observé - effectif théorique)<sup>2</sup> / effectif théorique.

- Dans le cas d’effectifs observés (n < 50) ou lorsque l’un des effectifs théoriques est trop faible (n < 10), il faut appliquer la correction de Yates: Chi<sup>2</sup> local = ( | effectif observé - effectif théorique | - 0,5 )<sup>2</sup> / effectif théorique.


<div align=center><table>

<tr>

<th></th><th>R//R</th><th>R//S</th><th>S//S</th>

</tr><tr>

<th>Observé</th><td>66</td><td>130</td><td>220</td>

</tr><tr>

<th>Théorique (HW)</th><td>41,25</td><td>179,5</td><td>195,25</td>


</tr><tr>

<th>Chi<sup>2</sup> local</th><td>14,84</td><td>13,64</td><td>3,13</td>

</tr></table></div> 

**On calcule le Chi<sup>2</sup> total observé.**

- Chi<sup>2</sup> observé = somme des Chi<sup>2</sup> locaux = 31,63

**On détermine le nombre de degré de liberté (ddl) de notre matrice.**

- z = (nombre de colonnes - 1) * (nombre de lignes -1) 

- z = (3 - 1) * (2 - 1) = 2 ddl

**On détermine le Chi<sup>2</sup> théorique au seuil α désiré grâce à la [table](https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/ana-donnees/chi-deux.pdf) du Chi<sup>2</sup> .**

- z = 2 ddl

- α = 5% = 0,05 (c’est le pourcentage de risque de se tromper que l’on accepte)

- Chi<sup>2</sup> (z, α)  = Chi<sup>2</sup> (2, 0,05) = 5,991 

**On compare le Chi<sup>2</sup> observé et le Chi<sup>2</sup> théorique.**

- Si  Chi<sup>2</sup> observé < Chi<sup>2</sup> théorique, on ne peut pas rejeter l’hypothèse nulle (X1 et X2 suivent la même loi de distribution)

- Si  Chi<sup>2</sup> observé > Chi<sup>2</sup> théorique, on rejete l’hypothèse nulle (X1 et X2 suivent la même loi de distribution) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative (X1 et X2 ne suivent pas la même loi de distribution).

Dans notre cas on constate que Chi<sup>2</sup> observé (31,63) > Chi<sup>2</sup> (2, 0,05) théorique (5,991) donc on rejete l’hypothèse nulle (X1 et X2 suivent la même loi de distribution) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative (X1 et X2 ne suivent pas la même loi de distribution). 

Une méthode alternative pour prendre la décision consiste à calculer la p_value et la comparer au seuil α:

- Si  p_value > α, on ne peut pas rejeter l’hypothèse nulle (X1 et X2 suivent la même loi de distribution)

- Si  p_value < α, on rejete l’hypothèse nulle (X1 et X2 suivent la même loi de distribution) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative (X1 et X2 ne suivent pas la même loi de distribution).


Nos deux variables ne suivent donc pas la même loi de distribution. La population n'est donc pas à l'équilibre de HW.

**On peut rechercher la cause de ce déséquilibre:**

Sachant que:

- le phénotype [resistant] conféré par l'allèle (R) est récessif par rapport au phénotype [sensible] conféré par l'allème (S)

- le phénotype [développement rapide] conféré par l'allèle (S) est récessif par rapport au phénotype [développement lent] conféré par l'allèle (R)

On en déduit que dans un milieu exposé aux insecticides:

- les (R//R) sont avantagés par leur résistance aux insecticides (bien qu'étant déavantagés par leur développement lent) ce qui explique l'excès de (R//R) par rapport à HW

- les (R//S) sont doublement désavantagés par leur sensibilité aux insecticides et par leur développement lent, ce qui explique le déficit de (R//S) par rapport à HW

- les (S//S) sont avantagés par leur développement rapide (bien qu'étant déavantagés par leur sensibilité aux insecticides) ce qui explique l'excès de (S//S) par rapport à HW





**Sources:**

- [Université de Lyon](http://mathsv-ressources.univ-lyon1.fr/cours/stats/chap7/c7p2/c7p2.html)
- [Lemakistatheux](https://lemakistatheux.wordpress.com/tag/test-dhomogeneite-du-chi2/)

### Avec python

In [1]:
%config Completer.use_jedi = False
%matplotlib inline 

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy.stats import chisquare

plt.style.use("seaborn-white")

In [2]:
df = pd.DataFrame({"R//R":(66,), "R//S":(130,), "S//S":(220,)}, index=("Observé",))

In [3]:
df

Unnamed: 0,R//R,R//S,S//S
Observé,66,130,220


In [4]:
obs = np.array(df.loc["Observé"])

s = sum(obs)

p = (66 + 130/2) / s
q = 1 - p

t = [((p**2) * s), (2*p*q*s), ((q**2) * s)]
t = pd.DataFrame([t], columns=("R//R","R//S","S//S"), index=["Théorique"])

df = pd.concat([df,t])

df

Unnamed: 0,R//R,R//S,S//S
Observé,66.0,130.0,220.0
Théorique,41.252404,179.495192,195.252404


In [5]:
chi2, p_value = chisquare(df.loc["Observé"], f_exp=df.loc["Théorique"])

In [6]:
chi2

31.631058197069734

In [7]:
p_value

1.3533277406650094e-07

On constate que la p_value est < au seuil α = 0,05 donc on rejete l'hypothèse nulle (X1 et X2 suivent la même loi de distribution) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative (X1 et X2 ne suivent pas la même loi de distribution). Nos deux variables ne suivent donc pas la même loi de distribution. La population n'est donc pas à l'équilibre de HW.