# TD 4 : Test de comparaison de deux moyennes de deux échantillons indépendants

Christelle Gonindard, Matthais Grenié, François Bettega

<div class="alert alert-info">

## Objectifs

- Faire la différence entre un test bilatéral et un test unilatéral
- Connaître les conditions d'application d'un test de comparaison de moyennes entre deux échantillons indépendants
- Apprendre à mettre en œuvre un test de Student pour comparer une moyennes entre deux échantillons indépendants
- Interpréter le résultat de ce test

</div>

## 1. Présentation des données

Un clinicien évalue l’intensité de la dépression sur l’échelle de Hamilton qui varie de 0 (non
déprimé) à 56 (très déprimé), chez 100 patients sourant d’un Episode Dépressif Majeur (EDM).
On veut savoir si l’acupuncture améliore l’évolution de la dépression. Pour cela, 100 malades
de même état dépressif (même score de Hamilton) sont répartis en 2 groupes de 50 par tirage
au sort. Le groupe I a reçu uniquement le traitement pharmacologique et le groupe II a reçu le
traitement pharmacologique associé à de l’acupuncture.

Le jeu de données contient les variables suivantes en colonne :
- `hamilton_g1` : Les scores de Hamilton, après 8 mois de traitement pour le groupe 1 ;
- `hamilton_g2` : Les scores de Hamilton, après 8 mois de traitement pour le groupe 2 ;
- `age_g1` : l’âge des patients du groupe 1 ;
- `age_g2` : l’âge des patients du groupe 2 ;
- `poids_g1` : le poids des patients du groupe 1 ;
- `poids_g2` : le poids des patients du groupe 2 ;
- `sexe_g1` : le sexe des patients du groupe 1 (`"F"` : femme, `"H"` : homme) ;
- `sexe_g2` : le sexe des patients du groupe 2 (`"F"` : femme, `"H"` : homme) ;
- `urbanisation_g1` : le niveau d’urbanisation dans lequel vivent les patients du groupe 1 (`"A"` : rural, `"B"` : urbanisation modéré, `"C"` : fortement urbanisé) ;
- `urbanisation_g2` : le niveau d’urbanisation dans lequel vivent les patients du groupe 2 (`"A"` : rural, `"B"` : urbanisation modéré, `"C"` : fortement urbanisé).

Les données sont contenues dans le fichier texte nommé `depression.txt` qui se trouve dans le dossier `data`. Le chemin d'accès complet du fichier est donc `data/depression.txt`.

In [3]:
depression = read.table("data/depression.txt", header = TRUE)
depression

hamilton_g1,hamilton_g2,urbanisation_g1,urbanisation_g2,age_g1,age_g2,poids_g1,poids_g2,sexe_g1,sexe_g2
<int>,<int>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>,<chr>
43,25,B,B,57,48,74,93,F,H
29,29,A,B,37,41,95,92,H,H
34,18,A,A,7,30,84,86,H,H
39,23,A,A,37,41,104,81,H,H
40,24,B,A,15,30,92,74,H,F
41,25,B,B,45,45,85,98,H,H
32,27,A,B,41,41,79,75,H,H
36,16,A,A,33,17,92,90,H,H
35,27,A,B,55,47,76,83,H,H
37,16,A,A,46,48,78,82,H,H


**Objectif de la séance: On aimerait savoir si l’acupuncture améliore l’évolution de la dépression en plus d'un traitement pharmacologique chez les femmes en comparant le groupe 1 et le groupe 2**

## 2. Principe

Ici, on cherche à comparer les moyennes de deux échantillons indépendants (= il n'y a pas de liens entre les femmes assignées aux deux groupes).
Pour cela, on doit réaliser un test de Student de comparaison de deux échantillons indépendants.

Le principe du test est analogue à celui de comparaison à une moyenne théorique, seulement, ici, le test va calculer la différence entre les deux moyennes observées. Si l'écart est
suffisamment éloigné de 0 avec un certain risque d’erreur $\alpha$ alors on conclura que les deux moyennes sont différentes.

Le test calcule la statistique $t$ en faisant la différence entre $\mu_1$ moyenne du groupe 1 et $\mu _2$ moyenne du groupe 2 et en divisant par leurs écart-types $S_1$ et $S_2$, respectivement :

$$ t = \frac{\mu_1- \mu_2}{\sqrt{\frac{S_1 ^2}{n_1} + \frac{S_2 ^2}{n_2}}}$$

avec $n_1$ la taille du premier échantillon et $n_2$ la taille du second échantillon (ils n'ont pas forcément la même taille).

## 3. Description des données

Avant de commencer une analyse il est important de présenter et vérifier les données :
- Extraire les deux échantillons
- Calculer leurs tailles
- Faire un résumé statistique de chacun des échantillons

In [8]:
femme_g1 <- depression$hamilton_g1
femme_g1

**Conclusion :**


## 4. Conditions d'application

Pour utiliser le test de Student de comparaison de deux échantillons indépendants, il faut vérifier les conditions d’application suivantes :
- Si la taille **des deux échantillons** est grande ($n_1 \geq 30$ et $n_2 \geq 30$) : on peut directement procéder au test,
- Si la taille d’**au moins un des échantillons** est inférieure à 30 ($n_1 < 30$ ou $n_2 < 30$), alors il faut il faut que :
    - les données des deux échantillons suivent une loi normale
    - les variances des deux échantillons soient égales

Comme nos échantillons ont respectivement 11 et 5 observations, il va falloir vérifier les autres conditions d’application.

### 4.1 Normalité des données

Pour vérifier que la distribution de nos échantillons suit une loi Normale on va appliquer le test de Shapiro sur chacun des deux échantillons. Pour vérifier nos résultats on réalisera aussi les diagrammes quantile-quantile des deux échantillons.

Rappel des hypothèses du test de Shapiro

H0 : la distribution suit une loi normale  
H1 : la distribution ne suit pas une loi normale

*Réalisez les tests de Shapiro puis interprétez-les*

In [9]:
shapiro.test(femme_g1)
shapiro.test(femme_g2)

qqnorm(femme_g1)
qqline(femme_g1)

qqnorme(femme_g2)
qqline(femme_g2)


	Shapiro-Wilk normality test

data:  femme_g1
W = 0.97406, p-value = 0.3357


ERROR: Error: object 'femme_g2' not found


**Conclusion** :  


Les quantiles des femmes du groupe 1 s’alignent bien avec les quantiles théoriques d’une
loi normale, en revanche, pour le groupe 2 c’est plus compliqué à vérifier du fait du faible
échantillonnage (seulement 5 patientes). On remarque des dicultés d’ajustement aux niveaux
des extrémités, ceci est probablement dû à la petite taille du jeu de données.

### 4.2 Égalité des variances = test de Fisher

#### Principe du test

On va vérifier l’égalité des variances entre les échantillons par [le test de Fisher-Snedecor](https://fr.wikipedia.org/wiki/Test_de_Fisher_d%27%C3%A9galit%C3%A9_de_deux_variances).
Ce test calcule une statistique appelée $F$ (comme Fisher) qui est le rapport entre la plus grande sur la plus petite des variances des deux échantillons. Si ce rapport est suffisamment supérieur à 1 avec un certain risque d'erreur $\alpha$ alors on considére les variances comme différentes

$$ F = \frac{\sigma^2_{\text{max}}}{\sigma^2_{\text{min}}}$$

avec $\sigma^2_{\text{max}}$ la variance de l'échantillon ayant la plus grande variance et $\sigma^2_{\text{min}}$ celle de celui avec la plus petite variance.

#### Hypothèses du test

Les hypothèses du test de Fisher sont les suivantes :

H0 : Les variances sont égales dans les deux échantillons  
H1 : Les variances sont différentes entre les deux échantillons

Il n'y a pas de condition d'application à vérifier pour réaliser le test.

#### Réalisation

Pour réaliser le test sur R, il faut utiliser la fonction `var.test()` (pour ***var**iance test* en anglais), cette fonction prend comme deux premiers arguments les deux échantillons à comparer.

*Réalisez le test avec les deux groupes*

In [None]:
var.test(femme_g1 , femme_g2)

**Conclusion** :  



## 5. Réalisation du test de Student

De la même façon que pour le test de comparaison à une moyenne théorique, le test peut s'effectuer de manière bilatérale ou unilatérale.
Ici, comme on veut savoir si les femmes du groupe 1 (qui n'ont pas eu d'acupuncture) ont des scores de dépression plus élevés que celles du groupe 2 (qui ont été traitées par de l'acupuncture), on va plutôt réaliser un test unilatéral, il faudra donc spécifier l'argument `alternative = "greater"`.

Les hypothèses de notre test sont donc :

H0 : Les moyennes sont égales dans les deux groupes.  
H1 : la moyenne du score de Hamilton du groupe 1 est supérieure à la moyenne du score de Hamilton du groupe 2.

Pour réaliser le test, on va à nouveau utiliser la fonction `t.test()` qui prend comme deux premiers arguments les deux échantillons, puis on spécifiera l'argument `alternative=`, enfin, étant donné qu'on a vérifié l'égalité des variances entre les échantillons on va spécifier l'argument logique `var.equal = TRUE`.

In [None]:
t.test(femme_g1 , femme_g2 , alternative = "greater ")
t.test(femme_g1 , femme_g2 , alternative = "less")


**Conclusion** :


*Note : ici on a spécifié l'argument `var.equal = TRUE` (vrai) il peut prendre aussi la valeur `FALSE` (faux), cela signifierait que les variances des deux échantillons ne sont pas égales, dans ce cas-là c'est un autre test statistique qui est réalisé est le [test de Welch](https://fr.wikipedia.org/wiki/Test_t_de_Welch), c'est une adaptation du test de Student quand les variances ne sont pas égales*

<div class="alert alert-success">

## En résumé

Dans cette séance :

- Nous avons appris à effectuer un test de Student avec la fonction `t.test()`, avec l'argument `mu = ` qui donne la moyenne théorique
- Nous avons appris les conditions d'application des tests de Student de comparaison à une moyenne théorique : si $n \geq 30$, on peut directement procéder au test ; sinon, il faut vérifier la normalité de l'échantillon
- Nous avons appris la différence entre test **bilatéral** et **unilatéral** : un test bilatéral ne donne pas d'information sur le sens de la différence testée alors qu'un test unilatéral permet de savoir si la moyenne observée est soit supérieure soit inférieure à la moyenne théorique
- Pour réaliser un test bilatéral on peut utiliser la fonction `t.test()` directement ou en spécifiant l'argument `alternative = "two.sided"`
- Pour réaliser un test unilatéral on doit spécifier `alternative = "greater"`, pour tester si la moyenne observée est supérieure à la moyenne théorique ; `alternative = "less"` pour tester si la moyenne observée est inférieure à la moyenne théorique

</div>

## 6. Exercices

### Exercice d'application 

#### Exercice 1

L’activité diurétique d’un nouveau médicament et celle d’un produit X d’activité diurétique
connue sont comparées chez la souris. Vingt souris de même âge sont réparties en deux groupes
de 10. Un groupe reçoit le nouveau médicament et l’autre groupe reçoit le produit X. 

- **Question 1**. Parmi les trois méthodes indiquées ci-dessous, quelle est la méthode la plus appropriée pour constituer les deux groupes ? Justifier votre réponse.
    1. 1ère méthode : les 20 souris sont réparties par tirage au sort en 2 groupes de 10 souris.
    2. 2ème méthode : les 20 souris sont toutes placées dans une même cage, l’expérimentateur attrape les 10 premières souris qui se présentent à la sortie de la cage et les place dans une autre cage.
    3. 3ème méthode : toutes les souris sont pesées afin de constituer 2 groupes de poids le plus homogène possible. Ainsi, un groupe est constitué des 10 souris de poids le plus faible ; l’autre est constitué des 10 souris de poids le plus élevé.
- **Question 2**. Deux conceptions de protocole peuvent être envisagées. Le traitement connu peut être un placebo ou un traitement diurétique de référence. Discuter le choix de chacune de ces deux stratégies.
- **Question 3**. Une dose fixe de 20 mg du nouveau médicament ou du produit X est administrée à chaque animal. Les deux groupes de 10 souris sont placés dans des cages à métabolisme qui permettent une mesure facile du volume urinaire.  
  Les résultats sont contenus dans le fichier `exercice1_TD3.txt` qui est dans le dossier `data/` avec le chemin d'accès complet `data/exercice1_TD3.txt`.  
  La diurèse observée avec le nouveau médicament est-elle significativement supérieure à celle observée avec le produit X, au risque $\alpha = 5\%$, et au risque $\alpha = 1\%$ ?

In [None]:
diurese = read.table("data/exercice1_TD3.txt" , header = T)
head(diurese)

x = diurese$produit_x
nv_med =diurese$nouveau_medicament

lenght(x)
lengh


### Exercices supplémentaires

#### Exercice 2

Pour cet exercice nous allons travailler un jeu de données contenant le nombre de morts par an par pays en fonction des différentes causes de mort sur plusieurs années.
Le fichier s'intitule `annual_number_of_deaths_by_cause.txt` et est situé dans le dossier `data/` avec le chemin d'accès complet `data/annual_number_of_deaths_by_cause.txt`.

1. Charger le jeu de données et décrivez le brièvement
   

2. Quelles sont les pays où il y a eu au moins une exécution ?  
   (indice : vous pouvez utiliser la fonction `table()` pour éviter d'afficher les pays où c'est arrivé plusieurs années).

3. Quelles sont les années où il y a eu au moins une exécution ?  
   (indice : vous pouvez à nouveau utiliser la fonction `table()`)

4. Représentez le nombre de noyades (`Drowning.`) aux Barbades (`"Barbados"`) chaque année.

5. Quelles sont la variance, la moyenne, l'intervalle de confiance à 98% de la moyenne, la médiane, et le premier et dernier décile du nombre de décès par hépatite aiguë (`Acute.hepatitis.`) au Kirghizistan (`Kyrgyzstan`) depuis 2004 ?

**Remarque** : Vous observerez certainement des données manquantes sur `NA` (pour ***N**ot **A**vailable* en anglais). R permet de garder une trace explicite de ces données. Si vos données en contiennent, vous pouvez les enlever avec la fonction de `na.omit()` en réassignant vos données par exemple `x_no_na` :
`x_no_na = na.omit(x)`

Rappel : pour calculer des quantiles différents des quartiles, vous pouvez utiliser la fonction `quantile()` qui prend comme premier argument l'échantillon et en deuxième argument le nombre inférieur ou égal à 1 qui correspond au quantile à calculer.

6.Même question pour les années avant 2011 au Koweït (*Kuwait*).

7. Dans quel pays et en quelles années se trouvent le nombre minimum de morts par malnutrition (`Nutritional.deficiencies.`).

8. Tester au seuil à $\alpha = 0.98$, si la moyenne du nombre de morts par le paludisme (`Malaria`) en Inde (`"India"`) est inférieur à 79713.

9. Tester, au seuil $\alpha = 1\%$, si le nombre de morts par méningite (`Meningitis.`) au Mexique (`"Mexico"`) est différent de sa moyenne moins une fois et demie son écart type. 

10. Même question, mais cette fois la moyenne moins 3 fois sont écart type
   

#### Exercice 3

En utilisant le jeu de données de l'exercice précédent répondez aux questions suivantes.

1. Tester au seuil  $\alpha =0.02 \%$ si le nombre de morts par la tuberculose (`Tuberculosis.`) en Argentine (`"Argentina"`) est différent de celui en France.

2. Calculer les 2 intervalles de confiance, au niveau de confiance 0.99, de ces moyennes, concluez.

3. Tester si la moyenne du nombre de morts par maladie cardiovasculaire (`Cardiovascular.diseases.`) est différente entre l'Irlande (`"Ireland"`) et l'Angleterre (`"England"`), au seuil $\alpha = 4\%$.
 

6. Tester si la moyenne du nombre de morts par maladie cirrhose (`Cirrhosis.and.other.chronic.liver.diseases.`) est différente entre la France et l'Égypte (`"Egypt"`), au seuil $\alpha = 1\%$.


7. Tester si la moyenne du nombre de morts liés au trouble maternel (`Maternal.disorders.`) en Italie (`"Italy"`) est inférieure à celui du Botswana (`"Botswana"`), au seuil $\alpha 3\%$. 

#### Exercice 4

Nous allons utiliser le jeu de données `insurance.txt` déjà utilisé dans le TD 3

Rappel des données :

Le fichier de données `insurance.txt`, que nous allons analyser, est constitué des données clients suivantes:

- `age` : âge du principal bénéficiaire
- `sex` : sexe de l'assureur, féminin, masculin
- `bmi` : indice de masse corporelle (***b**ody **m**ass **i**ndex* en anglais), permettant de comprendre le corps, les poids relativement élevés ou faibles par rapport à la taille, indice objectif du poids corporel (kg/m^2) utilisant le rapport taille/poids, idéalement 18,5 à 24,9
-  `children` : Nombre d'enfants couverts par l'assurance maladie / Nombre de personnes à charge
- `smoker` : fumeur (`"yes"`) ou non (`no`)
- `region` : zone de résidence du bénéficiaire aux États-Unis (`"northeast"` = Nord-Est ;  `"northwest"` = Nord-Ouest ; `"southeast"` = Sud-Est ; `"southwest"` = Sud-Ouest)
- `charges` : Frais médicaux individuels facturés par l'assurance maladie

1. Charger le jeu de données `insurance.txt` qui se trouve dans le dossier `data/` soit le chemin d'accès `data/insurance.txt`

2. Soit la variable `bmi`, calculer sa moyenne, sa variance, ainsi que son écart interquartile et l'intervalle de confiance de sa moyenne au niveau de confiance 0.98 pour les femmes entre 25 et 45 ans compris.

3. Calculer les effectifs croisés entre les régions et le sexe  
   (il faut utiliser la fonction `table()` en précisant les deux variables comme deux premiers arguments de la fonction)


4. Calculer les effectifs croisés entre les individus ayant 3 enfants ou plus et la région d'habitation.


5. Tester au seuil de $\alpha = 2\%$ si les charges d'assurance des hommes sont supérieures en moyenne à celle des femmes.


6. Calculer l'intervalle de confiance de la moyenne des charges d'assurance des hommes et celui des femmes au niveau de confiance 98% et concluez


7. Tester si les charges d'assurance des habitants du Northwest sont différentes en moyenne de celle des habitants du Southwest, au seuil $\alpha = 5\%$.


8. Tester si les hommes fumeurs sont plus jeunes en moyenne que les non-fumeurs, au seuil $\alpha = 3\%$.


9. Calculer l'intervalle de confiance de la moyenne de l'âge des hommes chez les fumeur puis chez les non fumeur au niveau de confiance 0.97, concluez.


10. Tester si les femmes fumeuses sont plus âgées en moyenne que les non-fumeuses, au seuil $\alpha = 3\%$.


11. Calculer l'intervalle de confiance de la moyenne de l'âge des femmes chez les fumeuses puis chez les non fumeuses au niveau de confiance 0.97, concluez.