# TD7 : Test d'indépendance du $\chi ^2$ entre deux variables qualitatives

Christelle Gonindard

Test du $\chi^2$ : 
Ce test effectue une comparaison entre la répartition d'une série d'effectifs observée dans différentes catégories à une répartition d'effectifs attendue pour ces si l'hypothèse $H_0$ est vraie. <br>
Ce test est très flexible, car toute hypothèse relative a des effectifs, qui peut être formulée en termes d’effectifs attendus, peut être testée par ce test. <br>
La façon de calculer les effectifs attendus varie selon les hypothèses testées, et ceci impacte les degrés de liberté associés aux tests : <br>
La formule générale des degrés de liberté associés à un test du $\chi^2$ est <span style="color:red">$ddl=J-s-1$</span>, avec

- $J$ : Nombre de catégories possibles, <u>/!\\</u> inclure les 0, cet oubli des catégories non-observée, mais présente dans la distribution attendue, est une erreur classique.
- $s$ : Nombre de paramètres *indépendants les un des autres*, estimés à partir des données et utilisés pour calculer les attendus

**Objectif de la séance :
Tester l'existence d'une association entre deux variables <u>qualitatives<u/> $X$ et $Y$ via un test du $chi^2$**

## Contexte

Ce test permet de vérifier l’absence de lien statistique entre deux variables $X$ et $Y$ qui sont qualitatives.
$X$ et $Y$ sont dits indépendants lorsqu’il n’existe aucun lien statistique entre elles, dit autrement,
**la connaissance de $X$ ne permet en aucune manière de se prononcer sur $Y$**. <br>
Mathématiquement, cela donne $P(Y=y \vert X=x) = P(Y=y \vert X\neq x)$ <br>
L’hypothèse nulle ($H_0$) de ce test est donc la suivante : les deux variables $X$ et $Y$ sont indépendantes.

#### Degrés de liberté du <span style="color:red">$\chi^2$ générale</span>, et du <span style="color:green">$\chi^2$ d'indépendance entre variables</span>
Dans ce cadre, on a une catégorie, un effectif par combinaison de modalités de la variable $X$ et de la variable $Y$.

Pour le test d'indépendance entre $X$ et $Y$, 2 variables ayant chacune $n_X$ et $n_Y$ catégories, on a : <br>
- $J = n_X \times n_Y$ cellules *possibles* <br>
- $s = (n_X-1) + (n_Y-1) = n_X + n_Y - 2$ <br>
- <span style="color:red">$\Rightarrow ddl = J-s-1$</span> $= n_X \times n_Y - n_X - n_Y + 2 - 1$ <br>
$ ~~~~~~~~~~~ = n_X \times (n_Y-1) - n_Y + 1$ <br>
$ ~~~~~~~~~~~ = n_X \times (n_Y-1) - (n_Y - 1)$ <br>
$ ~~~~~~~~~~~ = $ <span style="color:green">$(n_X-1) \times (n_Y-1)$</span> <br>

#### Statistique observée
$$\chi_{obs}^2 = \sum_{i=1}^{J}{\frac{(obs_i-att_i)^2}{att_i}}$$

Si $H_0$ est vrai alors, $\chi_{obs}^2\sim\chi_{\nu=ddl}^2$ :

![](Figures/chi2.jpg)
 
## Méthodologie

Le fichier de données `data_etudiant_tabac` contient les réponses de 237 étudiants de statistique
de l’Université d’Adélaïde à un certain nombre de questions. Nous allons nous intéresser
aux variables :
1. Fumeur : enregistre les habitudes tabagiques des étudiants, les valeurs autorisées dans Fumeur sont "Heavy", "Regul" (régulièrement), "Occas" (occasionnellement) et "Never".
2. Exercice : enregistre leur niveau d’exercice, les valeurs autorisées sont "Freq" (fréquemment), "Some" et "None"
3. Sexe : Homme ou Femme

Ces trois variables sont qualitatives. 
Il est donc possible de tester grâce à un $\chi ^2$ d’indépendance le lien entre chacune des variables prises deux à deux. 
**Par exemple : nous pouvons vérifier s'il existe un lien entre les habitudes tabagiques des élèves et leur niveau d’exercice.**


## Présentation des données

1. Chargez les données

2. Considérons les variables *Fumeur* et *Exercice* : 
    - Afficher les effectifs observés
    - Représenter les sur un graphique

In [None]:
table(data_etudiant_tabac$Exercice,data_etudiant_tabac$Fumeur)

unique(data_etudiant_tabac$Exercice)[c(2,1,3)]
data_etudiant_tabac$Exercice_fac = factor(data_etudiant_tabac$Exercice, levels = unique(data_etudiant_tabac$Exercice)[c(2,1,3)])

unique(data_etudiant_tabac$Fumeur)[c(1,3,2,4)]
data_etudiant_tabac$Fumeur_fac   = factor(data_etudiant_tabac$Fumeur, levels = unique(data_etudiant_tabac$Fumeur)[c(1,3,2,4)])

table(data_etudiant_tabac$Exercice_fac,data_etudiant_tabac$Fumeur_fac)

In [None]:
data_etudiant_tabac$Exercice_num = as.numeric(data_etudiant_tabac$Exercice_fac)
data_etudiant_tabac$Fumeur_num   = as.numeric(data_etudiant_tabac$Fumeur_fac  )

In [None]:
plot(factor(data_etudiant_tabac$Exercice),factor(data_etudiant_tabac$Fumeur),xlab="Exercice",ylab="Fumeur")

sunflowerplot(data_etudiant_tabac$Fumeur_num ~ data_etudiant_tabac$Exercice_num)

## Hypothèses

$H_0$ : Indépendances entre le tabac et les exercices <br>
$H_1$ : Dépendance entre le tabac et les exercices <br>

## Vérification des conditions d'application
Toutes les classes doivent avoir un effectif attendu sous $H_0$ non nul, et 80 % des classes doivent avoir un effectif attendu supérieur ou égale à 5.

In [None]:
# Calcul des effectifs attendus sous HO
Att = chisq.test( data_etudiant_tabac$Exercice, data_etudiant_tabac$Fumeur )$expected
Att
mean(Att>5)

Donc, on ne respecte pas la règle des 5 éléments (0.666 < 0.8). Deux solutions s'offrent à nous :

1. On fusionne certaines catégories de faible effectif
2. Plutôt que de comparer le $\chi_{obs}^2$ à la distribution du $\chi^2$, on simule la distribution nulle (un peu comme pour le test de permutation étudié au TD3).

Pour la stratégie 1., on va regrouper les colonnes *None* et *Some* de la variable Exercice.


In [None]:
data_etudiant_tabac. = data_etudiant_tabac
# On remplace les None et Some par des Some_or_None
data_etudiant_tabac.$Exercice[ data_etudiant_tabac$Exercice=="None" | data_etudiant_tabac$Exercice=="Some" ] = "Some_or_None"

# Vérification
table(data_etudiant_tabac.$Exercice)

Vérifiez que les effectifs attendus sous $H_0$ associés à ce nouveau regroupement sont bien supérieurs à 5. 

Maintenant que les effectifs attendus sont bien supérieur à 5, nous allons pouvoir réaliser le test du $\chi^2$

#### Réalisation du test 

In [None]:
chisq.test( data_etudiant_tabac.$Exercice, data_etudiant_tabac.$Fumeur )

La sortie du test indique que le test a 3 degrés de liberté. <br>
Expliquez comment cette valeur a été obtenue.

Pour la stratégie 2., la simulation de la distribution nulle est implémentée par la fonction `chisq.test`

In [None]:
chisq.test( data_etudiant_tabac.$Exercice, data_etudiant_tabac$Fumeur, simulate.p.value = T , B = 1e4)

**Conclusion** : Au seuil 5%, il n’existe pas de lien significatif entre le fait de fumer et la pratique d’exercice

## Exercice d'application

Soit Jeu de données `tabac.txt`. Il s’agit d’une étude qui a été réalisée sur 100 patients
d’un service hospitalier afin de vérifier la relation entre le tabac et les problèmes pulmonaires.
Pour cela, nous avons demandé à chaque personne son âge, son sexe, sa situation (célibataire,
marié, ...), sa consommation de tabac (nombre de cigarettes par jour), la présence de tabagisme
passif, et la présence de problème pulmonaire (cancer du poumon, BPCO, ...) chez cette personne.
La variable fumeur est défini de la manière suivante : FALSE s'il ne fume pas de cigarette et
TRUE s'il fume au moins 1 cigarette par jour.

Répondez aux questions suivantes :

1. Les fumeurs ont-ils significativement plus de problèmes pulmonaires ?

2. Existe-il un lien entre le tabagisme passif et les problèmes pulmonaires ?