# TD 3 : Test de comparaison d'une moyenne observée à une moyenne théorique

Christelle Gonindard, Matthais Grenié, François Bettega

<div class="alert alert-info">

## Objectifs

- Faire la différence entre un test bilatéral et un test unilatéral
- Connaître les conditions d'application d'un test de comparaison de moyenne observée à une moyenne théorique
- Apprendre à mettre en œuvre un test de Student pour comparer une moyenne observée à une moyenne théorique
- Interpréter le résultat de ce test

</div>

## 1. Présentation des données

Un clinicien évalue l’intensité de la dépression sur l’échelle de Hamilton qui varie de 0 (non
déprimé) à 56 (très déprimé), chez 100 patients sourant d’un Episode Dépressif Majeur (EDM).
On veut savoir si l’acupuncture améliore l’évolution de la dépression. Pour cela, 100 malades
de même état dépressif (même score de Hamilton) sont répartis en 2 groupes de 50 par tirage
au sort. Le groupe I a reçu uniquement le traitement pharmacologique et le groupe II a reçu le
traitement pharmacologique associé à de l’acupuncture.

Le jeu de données contient les variables suivantes en colonne :
- `hamilton_g1` : Les scores de Hamilton, après 8 mois de traitement pour le groupe 1 ;
- `hamilton_g2` : Les scores de Hamilton, après 8 mois de traitement pour le groupe 2 ;
- `age_g1` : l’âge des patients du groupe 1 ;
- `age_g2` : l’âge des patients du groupe 2 ;
- `poids_g1` : le poids des patients du groupe 1 ;
- `poids_g2` : le poids des patients du groupe 2 ;
- `sexe_g1` : le sexe des patients du groupe 1 (`"F"` : femme, `"H"` : homme) ;
- `sexe_g2` : le sexe des patients du groupe 2 (`"F"` : femme, `"H"` : homme) ;
- `urbanisation_g1` : le niveau d’urbanisation dans lequel vivent les patients du groupe 1 (`"A"` : rural, `"B"` : urbanisation modéré, `"C"` : fortement urbanisé) ;
- `urbanisation_g2` : le niveau d’urbanisation dans lequel vivent les patients du groupe 2 (`"A"` : rural, `"B"` : urbanisation modéré, `"C"` : fortement urbanisé).

Les données sont contenues dans le fichier texte nommé `depression.txt` qui se trouve dans le dossier `data`. Le chemin d'accès complet du fichier est donc `data/depression.txt`.

In [None]:

# Afficher le début du contenu du fichier de données 

# chargement des fonctions dont vous aurez besoin (à partir de maintenant pensez à l'ajouter vous même 
# dans les TD suivants)
CI <- function(x, confidence){
    alpha = 1 - confidence
    mu = mean(x)
    sigma = sd(x)
    n = length(x)
    CI_inf = mu - (qt(1 - alpha/2, n-1) * sigma/sqrt(n))
    CI_sup = mu + (qt(1 - alpha/2, n-1) * sigma/sqrt(n))
    CI = c(inf = CI_inf, sup = CI_sup) 
    return(CI)
}

## 2. Test bilatéral 

**Objectif : On voudrait savoir si les scores de Hamilton observés dans le groupe 1 chez les
femmes sont égaux en moyenne à 29.**

### Principe

Nous devons réaliser un [test de Student](https://fr.wikipedia.org/wiki/Test_de_Studenthttps://fr.wikipedia.org/wiki/Test_de_Student) comparant la moyenne estimée par la fonction
`mean()` avec la moyenne théorique escomptée $E = 29$ dans notre cas.

On va réaliser un test statistique qui va vérifier si l’écart entre la moyenne observée $\mu$ dans
l’échantillon et la moyenne théorique $\mu_0$. S'il est suffisamment éloigné de 0 avec un certain
risque d’erreur $\alpha$ alors on considère que les deux moyennes sont différentes.

Le test calcule la valeur $T$ qui est la différence entre $\mu$ et $\mu_0$ et divise par son écart-type pour normaliser :

$$ T = \frac{\mu - \mu_0}{\sqrt{\frac{S ^2}{n} }}$$

avec $S$ l'écart-type de notre échantillon et $n$ la taille de notre échantillon.
On voit avec l'équation ci-dessus que plus l'écart entre la moyenne observée et la moyenne théorique est grand, pour une taille d'échantillon donné, plus la valeur $T$ va être grande. Inversement, plus l'écart sera petit, plus la valeur de $T$ sera petite.

On parle de test **bilatéral**, car notre test ne conclue sur la **direction** de la différence entre la moyenne observée et la moyenne théorique. Il teste seulement si $\mu$ est différent de $\mu_0$, mais pas si $\mu$ est supérieure ou inférieure à $\mu_0$.

On peut visualiser le test de la façon suivante :

<img src="Figures/Test_bilateral.jpg" />

Pour notre exemple, les **hypothèses du test** sont :

H0 : le score de Hamilton chez les femmes du groupe 1 est égal à 29.

H1 : le score de Hamilton chez les femmes du groupe 1 n’est pas égal à 29.

*Application : Extrayez l'échantillon et calculez sa taille avec la fonction `length()`*

### Conditions d'application

Pour réaliser le test de Student de comparaison d'une moyenne observée à une moyenne théorique il fait vérifier une condition d'application qui dépend de la taille de l'échantillon :
- Si la taille de l’échantillon est grande ($n \geq 30$) : pas de condition d’application à vérifier, on peut réaliser le test directement ;
- Si la taille de l’échantillon est petite ($n < 30$) : il faut que les données suivent une loi normale

Comme on observe que $n = 11$, on doit vérifier la normalité des données de notre échantillon. On peut le faire avec le test de Shapiro-Wilk

Rappel des hypothèses du test de Shapiro

H0 : ???

H1 : ???

**Conclusion :**


### Réalisation du test

Pour réaliser le test de Student, on utilise la fonction `t.test()` qui prend comme premier argument l'échantillon à tester et un argument `mu=` qui est la valeur de la moyenne théorique avec laquelle le comparer.

**Conclusion** :



## 3. Test unilatéral

**Objectif : On voudrait savoir si les scores de Hamilton observés dans le groupe 1 chez les
femmes sont supérieurs en moyenne à 29**

### Principe

On différencie les tests **unilatéraux** des tests bilatéraux car il teste le **sens** de la différence entre l'échantillon et l'attendu.
Dans le cas du test de Student, on peut tester si la moyenne observée est **supérieure** ou bien tester si elle est **inférieure** à la moyenne théorique.

<img src="Figures/Test_unilateral.jpg" />

Dans ce cas, nous allons réaliser un test unilatéral :

H0 : le score de Hamilton chez les femmes du groupe 1 est égal à 29.

H1 : le score de Hamilton chez les femmes du groupe 1 est supérieur à 29.

### Conditions d'application

Ce sont les même conditions d'application que pour le test bilatéral et donc elles ont déjà été vérifiées

### Réalisation du test

Pour réaliser un test unilatéral il faut spécifier à la fonction `t.test()` l'argument `alternative=`. Cela signifie qu'on change d'hypothèse **alternative**. Cet argument peut prendre trois valeurs :

- Par défaut, cet argument vaut la valeur `"two.sided"`, ce qui correspond à un test bilatéral.
- `"greater"`, cela signifie qu'on teste si notre moyenne observée est **supérieure** à la moyenne théorique (*greater* en anglais).
- `"less"`, cela signifie qu'on teste si notre moyenne observée est **inférieure** à la moyenne théorique (*less* en anglais).

Donc pour réaliser notre unilatéral il faut donner à la fonction `t.test()` :
- notre échantillon,
- l'argument `mu = 29` pour préciser la valeur de la moyenne théorique,
- l'argument `alternative = "greater"` pour préciser que l'on veut tester si notre moyenne observée est supérieure à 29.

*Réalisez le test*

**Conclusion** :



<div class="alert alert-success">

## En résumé

Dans cette séance :

- Nous avons appris à effectuer un test de Student avec la fonction `t.test()`, avec l'argument `mu = ` qui donne la moyenne théorique
- Nous avons appris les conditions d'application des tests de Student de comparaison à une moyenne théorique : si $n \geq 30$, on peut directement procéder au test ; sinon, il faut vérifier la normalité de l'échantillon
- Nous avons appris la différence entre test **bilatéral** et **unilatéral** : un test bilatéral ne donne pas d'information sur le sens de la différence testée alors qu'un test unilatéral permet de savoir si la moyenne observée est soit supérieure soit inférieure à la moyenne théorique
- Pour réaliser un test bilatéral on peut utiliser la fonction `t.test()` directement ou en spécifiant l'argument `alternative = "two.sided"`
- Pour réaliser un test unilatéral on doit spécifier `alternative = "greater"`, pour tester si la moyenne observée est supérieure à la moyenne théorique ; `alternative = "less"` pour tester si la moyenne observée est inférieure à la moyenne théorique

</div>

## 4. Exercices d'application

###  Exercice 1

Répondez aux questions suivantes, les tests seront réalisés au seuil $\alpha=0.02$ :

1. Est ce que les scores de Hamilton observés dans le groupe 2 chez les femmes est inférieur en moyenne à 29?
2. Est ce que les scores de Hamilton observés dans le groupe 1 chez les hommes est supérieur en moyenne à 29?
3. Est ce que les scores de Hamilton observés dans le groupe 2 chez les hommes est supérieur en moyenne à 29?
4. Est ce que les scores de Hamilton observés dans le groupe 1 chez les femmes est supérieur en moyenne à 29?

Concluez.


In [1]:
femme_g2 = depression$hamilton_g2[depression$sexe_g2 == "g"]
lenght(femme_g1)
shapiro.test(femme_g2)
t.test(femme_g2, mu = 29 , alternative = "greater")

ERROR: Error: object 'depression' not found


### Exercice 2 (à faire à la maison pour s'entrainer)

Répondez aux questions suivantes, les tests seront réalisés au seuil $\alpha=0.01$ :

1. Est-ce que les scores de Hamilton observés dans le groupe 2 dans les zones rurales sont différents en moyenne à 29?
2. Est-ce que les scores de Hamilton observés dans le groupe 2 dans les zones à urbanisation modéré sont différents en moyenne à 29?
3. Est-ce que les scores de Hamilton observés dans le groupe 2 dans les zones fortement urbanisées sont inférieurs en moyenne à 25?


4. Est-ce que les scores de Hamilton observés dans le groupe 1 dans les zones rurales sont inférieurs en moyenne à 39?
5. Est-ce que les scores de Hamilton observés dans le groupe 1 dans les zones à urbanisation modéré sont supérieurs en moyenne à 29?
6. Est-ce que les scores de Hamilton observés dans le groupe 1 dans les zones fortement urbanisées sont différents en moyenne à 25?

Concluez.

## 5. Exercices supplémentaires

Cette partie vous permettra de réviser tout ce que nous avons fait au cours des trois premiers TDs. 

Le fichier de données `insurance.txt`, que nous allons analyser, est constitué des données clients suivantes:

- `age` : âge du principal bénéficiaire
- `sex` : sexe de l'assureur, féminin, masculin
- `bmi` : indice de masse corporelle (***b**ody **m**ass **i**ndex* en anglais), permettant de comprendre le corps, les poids relativement élevés ou faibles par rapport à la taille, indice objectif du poids corporel (kg/m^2) utilisant le rapport taille/poids, idéalement 18,5 à 24,9
-  `children` : Nombre d'enfants couverts par l'assurance maladie / Nombre de personnes à charge
- `smoker` : fumeur (`"yes"`) ou non (`no`)
- `region` : zone de résidence du bénéficiaire aux États-Unis (`"northeast"` = Nord-Est ;  `"northwest"` = Nord-Ouest ; `"southeast"` = Sud-Est ; `"southwest"` = Sud-Ouest)
- `charges` : Frais médicaux individuels facturés par l'assurance maladie


### Exercice 3 : Description de données + Intervalles de confiance

Répondez aux questions suivantes, les tests seront réalisés au seuil $\alpha=0.05$ :

1. Charger le jeu de données "insurance.txt"
2. Présenter la table des effectifs croisés entre fumeurs et la région.
3. Calculer la moyenne, la médiane, les quartiles, les déciles et la variance de l'âge des hommes.
4. Calculer la moyenne, la médiane, les quartiles, les déciles et la variance de l'âge des femmes.
5. Calculer la moyenne, la médiane, les quartiles, les déciles et la variance de l'âge des femmes non fumeuse


6. Calculer l'intervalle de confiances de l'âge pour les hommes non-fumeurs
7. Calculer l'intervalle de confiances de l'âge pour les hommes fumeurs
8. Concluez

9. Tester si la moyenne de l'âge des hommes fumeurs est différente de 39. 
10. Tester avec un seuil de $\alpha = 98\%$ si la moyenne de l'âge des hommes non-fumeurs est inférieure de 39

### Exercice 4 : Test de comparaison de moyenne à une moyenne théorique

1. Charger le jeu de données "insurance.txt"
2. Tester si la moyenne des charges des femmes du northwest non fumeuse est différente de 13270 \$
3. Tester avec un seuil de $\alpha = 0.01\%$  si la moyenne des charges des hommes de plus 35 ans sans enfant est inférieure à 13250 \$
4. Tester si la moyenne des charges des femmes de 20 ans ou moins avec plus de deux enfants est supérieure à 10000 \$
5. Tester avec un seuil de $\alpha = 0.1\%$  si la moyenne des charges des hommes d’entre 40 ans et 50 ans avec exactement de deux enfants est supérieur à 13270 \$
6. Tester si la moyenne des charges des femmes non-fumeuses avec au moins 1 enfant, mais pas plus de 3 est inférieure à 1200 \$ 
7. Au seuil $ \alpha = 0.01 \% $, tester si la moyenne des charges des femmes fumeuses sans enfant du southeast est supérieure à 1500 \$ 
8. **Attention test de lecture** (ça sert pour les examens) tester si la moyenne des charges des hommes non-fumeur et au moins obèse ou plus (BMI=IMC) avec strictement moins de deux enfants est inférieure à 13270 £
9. Tester avec un seuil de $\alpha = 0.02\%$ si la moyenne de l'âge des hommes du northeast avec un IMC normal et dont les charges ne dépassent pas 10000 \$ est inférieur à 30 ans.
10. Au seuil $\alpha = 0.06\%$, tester si la moyenne des charges des femmes northeast en sous-poids et fumeuse est supérieure à 1200 \$ 

### Exercice 5 : Quelques graphiques

1. Représenter graphiquement l'âge des hommes selon leur région
2. Pareil pour les femmes
3. Représenter graphiquement les charges en fonction de l'âge
4. Représenter graphiquement les charges en fonction du BMI
5. Représenter graphiquement les charges selon que les individus fument ou pas
6. Représenter graphiquement les charges en fonction des régions
7. Représenter graphiquement l'âge en fonction des régions
8. Représenter graphiquement l'IMC en fonction du sexe.
9. Représenter graphiquement les charges selon le sexe, mais en excluant les IMC normaux et les individus supérieurs au troisième quartile des charges.
10. Représenter graphiquement l'IMC des femmes fumeuse et non-fumeuse.
11. Représenter graphiquement l'IMC des hommes fumeur et non-fumeur.
