# TD6: Comparaison de plusieurs échantillons (tests non paramétriques)

Christelle Gonindard, Margaux Leroy et François Bettega


**Objectif de la séance :
Comparaison de plusieurs échantillons (tests non paramétriques)**


## 1. Test de comparaison non paramétrique de plusieurs échantillons indépendants (Kruskal-Wallis)

### 1.1 Principe du test 

Le test de Kruskal-Wallis est la généralisation à K populations du test bilatéral de Mann-Whitney. Les données de tous les échantillons sont remplacées par leur rang :

<img src="Figures/Kruskall_Wallis2.jpg" />

Puis, il est calculé : 

- $\bar{r}$ la moyenne globale des rangs (rang moyen tous échantillons confondus)
- $\bar{r_k}$ la moyenne des rangs pour les observations de l'échantillon $k$
- $n$ la taille cumulée des effectifs de tous les échantillons      

<img src="Figures/Kruskall_Wallis.jpg" />

Le principe de ce test peut être vu simplement de la manière suivante  : 

- s'il n'existe pas de différence entre les échantillons, la répartition des rangs entre les échantillons devrait être aléatoire, ce qui impliquerait que les échantillons aient approximativement le même rang moyen, soit $\bar{r}$
- ce qui a pour conséquence que $\bar{r_k}-\bar{r}$ devrait être proche de 0 pour chaque échantillon
- en conclusion, si on somme ces différences ($\bar{r_k}-\bar{r}$) pour tous les échantillons, cette somme devrait être proche de 0.

**Pour plus de détails, voir le cours.**

### 1.2 Exemple : Comparaison de l’efficacité de 4 traitements

Différents traitements pour les boutons de fièvre, dont un placebo (A), ont été assignés au hasard à 20 patients. Les données ci-dessous montrent, pour chaque traitement, le nombre de jours jusqu’à guérison complète.

Les données sont contenues dans le fichier `data_bouton_fievre.txt`.

**Question : Les temps de guérisons sont-ils différents selon les traitements utilisés ?**

1. Charger les données

In [1]:
pairedBoxplot = function(tab){
    boxplot(tab)
    for(j in 2:ncol(tab)){
        segments(x0 = j-1, x1 = j,y0 = tab[,j-1],y1 = tab[,j], )
        points(rep(j-1, nrow(tab)),tab[,j-1],cex=0.7)
        points(rep(j  , nrow(tab)),tab[,j  ],cex=0.7)
    }
}
# Charger les données


2. Présentation des données et leur description

**Interprétation du boxplot**

1. On observe dans l’échantillon A une valeur extrêmement basse par rapport aux autres, toutefois, elle se situe au niveau des valeurs des autres échantillons, il s’agit donc d’un patient pour qui le bouton de fièvre est resté peu de temps. Aucune valeur aberrante n’est observée.
2. il semblerait qu’en termes de médiane, le traitement A soit le moins efficace : pas de différence entre B et D, C semble avoir une médiane légèrement plus faible que B et D. Mais le nombre de points par traitement ($5$) est très faible et donc tout ceci pourrait n'être qu'un effet d'échantillonnage.
3. Il est important de comparer également les écarts interquartiles. Dans ce cas, le traitement A apparait comme bien moins efficace que les 3 autres, car son premier quartile est situé au-dessus des 3ème quartile des 3 autres traitements. En revanche, on ne distingue pas de différence entre les traitements B, C et D, leurs boites étant imbriquées les unes dans les autres.

Afin de vérifier s'il existe une réelle différence significative entre les échantillons, nous allons réaliser le test de Kruskal-Wallis :

3. Hypothèse <br>
$H_0$ : les résultats des traitements ne sont pas différents. <br>
$H_1$ : les résultats des traitements sont différents.

4. Réalisation du test 

In [2]:
kruskal.test(bouton$jour~bouton$traitement)

ERROR: Error in eval(predvars, data, env): object 'bouton' not found


5. Conclusion du test : 
???

## 2. Test de comparaison non paramétrique de plusieurs échantillons appariés (Friedman)

### 2.1 Principe du test 

Il s’agit bien d’un test de comparaison de $K$ moyennes, mais sur des données appariées.

<img src="Figures/Friedman1.png" />

À la différence du test de Kruskal-Wallis par exemple, les valeurs seront uniquement comparables à l’intérieur de chaque
groupe.

<img src="Figures/Friedman2.png" />

Ainsi, nous travaillerons bien sur des rangs, mais calculés à l’intérieur des blocs, c’est ce qui différencie le test de Friedman de tous les tests pour variables indépendantes où les rangs étaient toujours construits à partir de la totalité des observations.
Si l’on raisonne par bloc, le principe est le même que celui de Kruskal-Wallis :
- s'il n’existe pas de différence entre les échantillons ($H_0$), la répartition des rangs par bloc entre les échantillons devrait être aléatoire
- ce qui implique que les échantillons devraient avoir approximativement le même rang moyen qui doit correspondre au rang moyen global
- ce qui implique que les différences $\bar{r_k}-\bar{r}$ devrait être proche de 0
- donc si l’on somme ces différences pour toutes les variables, elle devrait être proche de 0.

### 2.2 Exemple : Méthode pour déterminer le poids d’un comprimé

Trois méthodes différentes de détermination du poids de comprimés sont utilisées. Nous disposons donc de 10 comprimés et de 3 méthodes.

Les données sont contenues dans le fichier `data_poids_comprime.txt`.

**La question est la suivante :**
- les 3 méthodes donnent-elles les mêmes résultats au seuil 5% ?
- sinon, quelle méthode surestime le poids du comprimé au seuil 5% ?

1. Chargez les données


In [None]:
pairedBoxplot = function(tab){
    boxplot(tab)
    for(j in 2:ncol(tab)){
        segments(x0 = j-1, x1 = j,y0 = tab[,j-1],y1 = tab[,j], )
        points(rep(j-1, nrow(tab)),tab[,j-1],cex=0.7)
        points(rep(j  , nrow(tab)),tab[,j  ],cex=0.7)
    }
}

# Charger les données

2. Description des données

In [None]:
comprimeWide = cbind('methode1' = comprime$poids[comprime$methode=='methode1']
                    ,'methode2' = comprime$poids[comprime$methode=='methode2']
                    ,'methode3' = comprime$poids[comprime$methode=='methode3'])



**Interprétation du boxplot**

- On n’observe pas de valeurs extrêmes dans les échantillons.
- Les médianes des méthodes 1 et 3 sont sensiblement équivalentes.
- Il est important de comparer les écarts interquartiles. Dans ce cas, on ne distingue pas de différence entre les 3 méthodes, leurs boites étant imbriquées les unes dans les autres.
- Il y a un fort effet de l'appariement sur la structure des données : l'ordre des points dans chaque traitement est très similaire. Ceci va augmenter la puissance statistique du test, car la prise en compte de l'appariement par ce dernier va *'enlever'* la variabilité commune aux trois méthodes.

Nous allons maintenant répondre à la première question grâce à un test de Friedman dans la mesure où les données sont appariées :

3. Les hypothèses <br>
$H_0$ : Il n’y a pas de différence significative entre les méthodes. <br>
$H_1$ : Il existe une différence significative entre au moins deux des méthodes.

4. Réalisation du test 

In [None]:
friedman.test( y = comprime$poids,   groups = comprime$methode,   blocks = comprime$appariement )

**En conclusion**, au risque 5%, la *p*-value < 0.05, il existe une différence significative entre les méthodes.

Au premier abord, cela peut sembler surprenant, car les boxplot se chevauchent largement. Cependant, les données sont appariées, et la variabilité intra-groupe est similaire dans les 3 groupes, ce qui explique ce résultat, au premier abord surprenant.

Pour savoir quelle méthode surestime le poids du comprimé, il est nécessaire de comparer les résultats des méthodes deux à deux. 

Pour cela, nous allons créer 3 groupes de données :
- un groupe qui contient les poids mesurés par la méthode 1
- un groupe qui contient les poids mesurés par la méthode 2
- un groupe qui contient les poids mesurés par la méthode 3

puis, nous comparerons ces groupes deux à deux avec un test non paramétrique de Wilcoxon pour données appariées :

In [None]:
# Comparaison 2 à 2 à partir de test de Wilcoxon



**En conclusion **: <br>
la méthode 1 surestime le poids du comprimé par rapport à la méthode 2.<br>
Pour la méthode 3, la différence est *marginalement significative*.<br>
<u>/!\\</u> Pour bien faire, il faudrait **corriger pour les tests multiples** <br>
Nous venons de faire 3 tests avec $\alpha=0.05$. Le risque de se tromper sur au moins un des tests est donc de $P(\textrm{se tromper sur le test 1 ou sur le test 2 ou sur le test 3}) = 0.05+0.05+0.05 = 0.15$. Classiquement, on corrige le $\alpha$ utilisé pour chaque test pour garder un risque globale à $0.05$.


## 3. Exercices d'application

### Exercice 1 

Un médicament est administré à un groupe de 12 sujets selon trois modes : dans le mode I, pris comme référence, le médicament est administré chez les sujets à jeun, dans le mode II après un petit déjeuner normal et dans le mode III après un petit déjeuner riche en lipides. Les résultats du dosage sanguin du médicament, notés pour les modes d’administration I, II et III respectivement y1, y2 et y3 et exprimés en ng/L. 

Comparez l’effet sur les taux sanguins du médicament des modes d’administration I, II et III.

Les données sont contenues dans le fichier `data_exercice3.txt`


### Exercice 2 :

Trois laboratoires différents A, B, C fabriquent des ampoules pour préparations injectables.
On désire savoir si le facteur fabricant a une influence sur les diamètres des ampoules. Les
diamètres de 5 ampoules par fabricant sont mesurés. Les données sont exprimées en mm. 

Répondez aux questions suivantes : 

1. Existe-t-il une différence significative entre les trois ampoules ?
2. Si oui, tester quels laboratoires obtiennent des résultats différents.

Les données sont contenues dans le fichier `data_exercice4.txt`