# Le test d’indépendance du Chi<sup>2</sup>.

Le test d’indépendance du Chi<sup>2</sup> teste la liaison entre deux variables qualitatives distinctes (X 1, X 2). 

- Hypothèse nulle : Indépendance entre les deux variables.

- Hypothèse alternative : Dépendance entre les deux variables.

Le test d’indépendance du Chi<sup>2</sup> peut être utilisé avec des variables qualitatives, quantitatives discrètes ou quantitatives continues. La ou les éventuelles variables quantitatives continues devront préalablement être discrétisées en les agrégeant par classes.


**On construit un tableau croisé (tableau de contingence ou matrice) dynamique entre X1 et X2**

<div align=center><table>

<tr>

<th></th><th>Médicament</th><th>Placébo</th>

</tr><tr>

<th>Survie</th><td>300</td><td>250</td>

</tr><tr>

<th>Mort</th><td>210</td><td>270</td>

</tr></table></div>


**Les effectifs théoriques attendus sous l’hypothèse nulle sont calculés en fonction de la distribution attendue si l’on est en présence d’une configuration aléatoire.**

- E11 = Total colonne 1 *  Total ligne 1 /  Total


<div align=center><table>

<tr>

<th></th><th>Médicament</th><th>Placébo</th><th>Total ligne</th>

</tr><tr>

<th>Survie</th><td>300 [272,33]</td><td>250 [277,66]</td><td>550</td>

</tr><tr>

<th>Mort</th><td>210 [237,66]</td><td>270 [242,33]</td><td>480</td>


</tr><tr>

<th>Total colonne</th><td>510</td><td>520</td><td>1030</td>

</tr></table></div>

**On calcule ensuite le Chi<sup>2</sup> local de chaque case.**

- Chi<sup>2</sup> local = (effectif observé - effectif théorique)<sup>2</sup> / effectif théorique.

- Dans le cas d’une matrice de 2 x 2, on applique la correction de Yates: Chi<sup>2</sup> local = ( | effectif observé - effectif théorique | - 0,5 )<sup>2</sup> / effectif théorique.

<div align=center><table>

<tr>

<th></th><th>Médicament</th><th>Placébo</th><th>Total ligne</th>

</tr><tr>

<th>Survie</th><td>300 [272,33] 2,71</td><td>250 [277,66] 2,65</td><td>550</td>

</tr><tr>

<th>Mort</th><td>210 [237,66] 3,10</td><td>270 [242,33] 3,04</td><td>480</td>


</tr><tr>

<th>Total colonne</th><td>510</td><td>520</td><td>1030</td>

</tr></table></div> 

**On calcule le Chi<sup>2</sup> total observé.**

- Chi<sup>2</sup> observé = somme des Chi<sup>2</sup> locaux = 11,5

**On détermine le nombre de degré de liberté (ddl) de notre tableau de contingence.**

- Z = (nombre de colonnes - 1) * (nombre de lignes -1) = 1

**On détermine le Chi<sup>2</sup> théorique au seuil α désiré grâce à la [table](https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/ana-donnees/chi-deux.pdf) du Chi<sup>2</sup> .**

- z = 1

- α = 5% = 0,05 (c’est le pourcentage de risque de se tromper que l’on accepte)

- Chi<sup>2</sup> (z, α)  = Chi<sup>2</sup> (1, 0,05) = 3,841 

**On compare le Chi<sup>2</sup> observé et le Chi<sup>2</sup> théorique.**

- Si  Chi<sup>2</sup> observé < Chi<sup>2</sup> théorique, on ne peut pas rejeter l’hypothèse nulle (indépendance)

- Si  Chi<sup>2</sup> observé > Chi<sup>2</sup> théorique, on rejete l’hypothèse nulle (indépendance) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative.

Dans notre cas on constate que Chi<sup>2</sup> observé (11,5) > Chi<sup>2</sup> (1, 0,05) théorique (3,841) donc on rejete l’hypothèse nulle (indépendance) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative. Nos deux variables sont dépendantes. Donc le traitement est éfficace.

Une méthode alternative pour prendre la décision consiste à calculer la p_value et la comparer au seuil α:

- Si  p_value > α, on ne peut pas rejeter l’hypothèse nulle (indépendance)

- Si  p_value < α, on rejete l’hypothèse nulle (indépendance) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative (dépendance).

**Sources:**

- [Université de Lyon](http://mathsv-ressources.univ-lyon1.fr/cours/stats/chap7/c7p2/c7p2.html)
- [Lemakistatheux](https://lemakistatheux.wordpress.com/tag/test-dhomogeneite-du-chi2/)

### Avec python

In [11]:
%config Completer.use_jedi = False
%matplotlib inline 

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import scipy.stats

plt.style.use("seaborn-white")

In [12]:
df = pd.DataFrame({"Médicament":(300,210), "Placébo":(250,270)}, index=("Survie","Mort"))

In [13]:
df

Unnamed: 0,Médicament,Placébo
Survie,300,250
Mort,210,270


In [14]:
chi2, p_value, ddl, matrice = scipy.stats.chi2_contingency(df, correction=True)

In [15]:
chi2

11.521536515465739

In [16]:
p_value

0.0006879450394528442

In [17]:
ddl

1

In [18]:
matrice

array([[272.33009709, 277.66990291],
       [237.66990291, 242.33009709]])

In [19]:
théorique = pd.DataFrame(matrice,columns=("Médicament","Placébo"),index=("Survie","Mort"))

In [None]:
théorique

On constate que la p_value est < au seuil α = 0,05 donc on rejete l'hypothèse nulle (indépendance) avec un risque d’erreur α = 5% de se tromper, et on accepte l’hypothèse alternative. Nos deux variables sont dépendantes. Donc le traitement est éfficace.