
# TD 4 : Test de comparaison de deux moyennes de deux échantillons non-appariés

Christelle Gonindard



**Objectifs de la séance :
Comprendre la notion de test pour la comparaison de deux échantillons non-appariés
<=>
1 variable quantitative et 1 variable qualitative (à deux modalités)**



Il est important de prendre conscience qu’en statistique, le choix du test est primordiale et répond
à des conditions. Nous allons donc vous présenter dans cette fiche, différents tests possibles
pour comparer les valeurs numériques (variable quantitative) de deux échantillons non-appariés
(qui représentent la variable qualitative)
1. si les effectifs des deux groupes sont $\geq 30$ : on applique le test de Student paramétrique
2. si l’effectif d’un des groupes, voir les deux est $< 30$, deux possibilités :
    - si les données suivent une loi normale et si les variances entre les groupes sont égales : test de Student
    - si l’une des conditions citées ci-dessus n’est pas vérifiée : test de Mann-Whitney (non paramétrique)

## 1. Test paramétrique de Student 

###  1.1. Présentation des données

Un clinicien évalue l’intensité de la dépression sur l’échelle d'Hamilton qui varie de 0 (non déprimé) à 56 (très déprimé), chez 100 patients souffrant d’un Episode Dépressif Majeur (EDM). On veut savoir si l’acupuncture améliore l’évolution de la dépression. Pour cela, 100 malades de même état dépressif (même score d'Hamilton) sont répartis en 2 groupes de 50 par tirage au sort. Le groupe I a reçu uniquement le traitement pharmacologique et le groupe II a reçu le traitement pharmacologique associé à de l’acuponcture. Le jeu de données contient les variables suivantes :

- Hamilton_G1 : Les scores d'Hamilton, après 8 mois de traitement pour le groupe 1
- Hamilton_G2 : Les scores d'Hamilton, après 8 mois de traitement pour le groupe 2
- Age_G1 : l’âge des patients du groupe 1
- Age_G2 : l’âge des patients du groupe 2
- poids_G1 : le poids des patients du groupe 1
- poids_G2 : le poids des patients du groupe 2
- sexe_G1 : le sexe des patients du groupe 1
- sexe_G2 : le sexe des patients du groupe 2
- Urbanisation_G1 : le niveau d’urbanisation dans lequel vivent les patients du groupe 1 (A : rural, B : urbanisation modérée, C : fortement urbanisé) 
- Urbanisation_G2 : le niveau d’urbanisation dans lequel vivent les patients du groupe 2 (A : rural, B : urbanisation modérée, C : fortement urbanisé)

Les données sont contenues dans le fichier texte : `data_Depression.txt`

La lecture des données 

**Objectif :**

On va s’intéresser la moyenne des scores d'Hamilton entre le groupe 1 des femmes
et le groupe 2 des femmes afin de déterminer si l’acupuncture améliore l’évolution
de la dépression

###  1.2. Principe du test de Student

On va donc faire un test de comparaison de moyennes pour données non-appariés, c’est-à-dire
un test de Student.

Le principe de ce test est simple : il va vérifier si l'écart entre les deux moyennes est
suffisamment éloigné de 0 avec un certain risque d’erreur $\alpha$ pour que les deux moyennes soient
considérées comme différentes.

Le test calcule donc la différence entre $\mu _1$ et $\mu _2$ et divise par son écart-type :

$$ statistique = \frac{\mu _1- \mu _2}{\sqrt{\frac{\hat{\sigma}_1 ^2}{n_1} + \frac{\hat{\sigma}_2 ^2}{n_2}}}$$


###  1.3. Description des données

Avant de commencer une analyse, il est important de présenter et vérifier les données :
- Extraction des deux échantillons
- taille de l'échantillon
- résumé statistique

En conclusion : d’après cette première analyse descriptive :
- les échantillons sont de petites tailles : 11 patientes pour le groupe 1 et 5 pour le groupe 2
- il semblerait que les femmes du groupe 1 aient un niveau dépressif plus élevé que les femmes du groupe 2 avec des moyennes respectives de 41.64 et 24.8 et des médianes respectives de 42 et 24. Il apparait également que le troisième quartile du groupe 2 (26) soit inférieur au premier quartile du groupe 1 (39), ce qui va dans le sens d’une différence importante observée entre les deux groupes


Ces résultats suggèrent que le niveau de dépression dans le groupe 2 est inférieur au niveau de dépression dans le groupe 1 ce qui impliquerait une efficacité de l’association traitement + acuponcture dans le traitement de la dépression. L'expérience a été faite pour tester cette hypothèse et nous allons maintenant nous y atteler.

**Conclusion** : ???

###  1.4. Conditions d'application

Avant d’appliquer le test de Student, il faut vérifier les conditions d’application :
- Si la taille des échantillons est grande ($n_1$ et $n_2 \geq 30$) : pas de condition d’application
- Si la taille d’au moins un des 2 échantillons est inférieur à 30, il faut que :
    - les données des deux échantillons suivent une loi normale
    - les variances des deux échantillons soient égales

Nous sommes dans le cas de petits échantillons, il faut donc vérifier ces conditions d’application.

####  1.4.1 Normalité des données

Nous les inspecter visuellement via un qqplot et appliquer le test de Shapiro : <br>
$H_0$ : la distribution suit une loi normale.<br>
$H_1$ : la distribution ne suit pas une loi normale.

Les quantiles des femmes du groupe 1 s’alignent bien avec les quantiles théoriques d’une
loi normale, en revanche, pour le groupe 2, c'est plus compliqué à vérifier du fait du faible
échantillonnage (seulement 5 patientes). On remarque des difficultés d’ajustement aux niveaux
des extrémités, ceci est notamment dû à la petite taille du jeu de données.

####  1.4.2 Égalité des variances

L’égalité des variances va être vérifiée par le test de Fisher-Snedecor de statistique F.
Le principe de ce test est simple : il suffit de vérifier si le rapport de la variance la plus grande sur la variance la plus petite est suffisamment supérieure à 1 avec un certain risque d’erreur $\alpha$ pour que les deux variances soient considérées comme différentes :

$$ F = \frac{\sigma ^2_{max}}{\sigma ^2_{min}}$$

$H_0$ : Les variances sont égales dans les deux groupes. <br>
$H_1$ : Les variances sont différentes entre les deux groupes.

**Conclusion** : 

###  1.5. Réalisation du test de Student

$H_0$ : Les moyennes sont égales dans les deux groupes.<br>
$H_1$ : la moyenne du score d'Hamilton du groupe 1 est supérieure à la moyenne du score d'Hamilton du groupe 2.

**Conclusion** : 

## 2. Test de comparaison de deux échantillons non-appariés lorsque les conditions d’application du test de Student ne sont pas vérifiées : Test de Mann-Whitney

### 2.1 Contexte : Pourquoi des tests non-paramétriques

Ces tests ne nécessitent pas d’hypothèses contraignantes sur les distributions et ne nécessitent
pas de conditions d’application, **autre que d'avoir des échantillons i.i.d.** :

- pas nécessaire de faire des hypothèses sur la forme des distributions (normalité, etc.)
- pas nécessaire non plus d’estimer les paramètres associés (ex. la moyenne, variance, etc.)

Leur champ d’application est par conséquent plus large que les tests paramétriques.

**Les tests non paramétriques sont également adaptés aux données ordinales**. Parfois, les données disponibles sont des ordres de grandeurs, il est difficile de donner une interprétation quantitative claire aux différentes valeurs. Dans ce cas, le plus important est la position relative des observations, leur ordonnancement.

*Exemple :*
1. lorsque les données s’expriment comme des degrés de préférence (par exemple : très insatisfait, insatisfait, indifférent, satisfait, très satisfait), avec peu de valeurs possibles
2. lorsque les données sont catégorielles


**Robustesse par rapport aux points aberrants** : la transformation des données en rangs introduit une propriété très appréciable, car les statistiques associées aux rangs sont bien moins sensibles aux points aberrants que les statistiques paramétriques.

*En effet, la présence d’un point atypique fausse très souvent la moyenne, qui joue un rôle central
dans les tests paramétriques. Si le point atypique correspond à une très grande valeur, s’écartant
fortement des autres, la moyenne est "tirée" vers le haut, biaisant tous les calculs subséquents.
Avec les rangs, seule l’information "le point correspond à la valeur la plus élevée", est considéré,
sans ordre de grandeur, le rôle néfaste de l’observation atypique est amoindri.*

La contrepartie est que ces tests ne tiennent pas compte de la taille des effets : un test comparant les échantillons $\{1; 2; 3\}$ et $\{4; 5; 6\}$ renverra exactement le même résultat qu'un test comparant les échantillons $\{1; 2; 3\}$ et $\{40; 50; 60\}$ ...

### 2.2 Principe du test 

Le test de Mann-Whitney utilise les RANGS des données et non les données elles-mêmes,
c’est-à-dire l’ordre dans lequel apparaissent les observations des deux échantillons réunis :

1. le test attribue un rang aux valeurs des deux échantillons.
2. À partir de cela, la moyenne des rangs pour chaque échantillon est calculée. Le principe étant que s'il n’y a pas de différence entre les deux échantillons ($H_0$) alors les rangs moyens devrait être similaire (Statistique U de Mann-Whitney).

<img src="Figures/Mann_Whitney.png" />

### 3.3 Exemple : Comparaison de 2 régimes alimentaires

Deux groupes de 10 lapins ont suivi un même régime enrichi en cholestérol et ont été soumis à 2 traitements différents (pour lutter contre le cholestérol). Les résultats sont-ils différents entre les deux régimes au seuil 2% ?

La cholestérolémie est observée en dg/l. 

Les données sont contenues dans le fichier texte `data_lapin.txt`.

1. Charger les données


2. décrire et présenter les données

D’après cette analyse descriptive, il est apparu une valeur fausse 334 dans l’échantillon `y`
(individu situé en 4ème position dans l’échantillon `y`). Cette valeur 334 avait pour effet de fortement
augmenter la moyenne de l’échantillon `y` et l’on pouvait ainsi observer une différence très
forte en moyenne entre `x` et `y` (respectivement 22.5 contre 55.8) cette différence était biaisée par
la valeur fausse. En revanche, on peut remarquer que la médiane est nettement moins sensible à
une valeur extrême ou fausse, car les médianes étaient respectivement pour x et y de 25.5 et 31.5.
Après avoir enlevé l’individu 4 de l’échantillon `y`, on remarque que la différence entre les deux
échantillons est plus faible. Il reste maintenant à déterminer si cette différence que l’on observe
est significative ou s'il n’existe pas de réelle différence, cette légère différence pouvant s’expliquer
par le faible échantillonnage.

2. Conditions d'application 

Les échantillons sont de petites tailles respectivement pour x et y : 10 et 9 lapins. Les échantillons
ne suivent pas une loi normale (*p*-value du test de shapiro < 0.05), nous allons donc réaliser ici
un test non paramétrique de Mann-Whitney pour comparer deux échantillons non-appariés.

3. Les hypothèses

On souhaite vérifier si les régimes alimentaires ont un effet différent, on va donc faire un test
bilatérale :

$H_0$ : les deux régimes n’affectent pas la cholestérolémie. <br>
$H_1$ : les deux régimes affectent la cholestérolémie

4. Réalisation du test 


**Remarque : pour le test de Mann-Whitney, il faut bien utiliser l’instruction wilcox.test, elle permet à la fois de réaliser le test de Mann-Whitney, mais également celui de Wilcoxon comme on le verra ensuite**

En conclusion : 

## 3. Exercices application

## Exercice 1

L’activité diurétique d’un nouveau médicament et celle d’un produit X d’activité diurétique connu sont comparées chez la souris. Vingt souris de même âge sont réparties en deux groupes de 10. Un groupe reçoit le nouveau médicament et l’autre groupe reçoit le produit X.
- QUESTION 1 : Parmi les quatre méthodes indiquées ci-dessous, quelle est la méthode la plus appropriée pour constituer les deux groupes ? Justifier votre réponse.
    1. 1ère méthode : les 20 souris sont réparties par tirage au sort en 2 groupes de 10 souris.
    2. 2ème méthode : les 20 souris sont toutes placées dans une même cage, l’expérimentateur attrape les 10 premières souris qui se présentent à la sortie de la cage et les place dans une autre cage.
    3. 3ème méthode : toutes les souris sont pesées afin de constituer 2 groupes de poids le plus homogène possible. Ainsi, un groupe est constitué des 10 souris de poids le plus faible ; l’autre est constitué des 10 souris de poids le plus élevé.
    4. 4ème méthode : toutes les souris sont pesées. Ensuite, pour chaque classe de poids, les souris sont réparties aléatoirement dans les 2 groupes  (échantillonnage stratifié) afin de constituer 2 groupes présentant la même distribution de poids.

- QUESTION 2 : Deux conceptions de protocole peuvent être envisagées. Le traitement connu peut être un placebo ou un traitement diurétique de référence. Discuter le choix de chacune de ces deux stratégies.

- QUESTION 3 : Une dose fixe de 20 mg du nouveau médicament ou du produit X est administrée à chaque animal. Les deux groupes de 10 souris sont placés dans des cages à métabolisme qui permettent une mesure facile du volume urinaire. 

Les résultats sont contenus dans le fichier `exercice1_TD3.txt`. Analyser ces données de manière à répondre à la question : La diurèse observée avec le nouveau médicament est-elle significativement supérieure à celle observée avec le produit X, au risque 5%, au risque 1% ?

## Exercice 2 

Pour déterminer l’indice d’iode de 2 huiles H1 et H2, on a réalisé respectivement 9 et 10
dosages. Les indices d’iode sont contenus dans le fichier `data_exercice_1.txt`

Répondez à la question suivante : L’indice d’iode diffère-t-il pour les 2 huiles au seuil 5% ?