# TD 1 : Introduction à R et aux Statistiques descriptives


Christelle Gonindard, Margaux Leroy, François Bettega et Marie Darracq


## 1. Introduction

### 1.1 Présentation des attentes des cours et TDs de cette année

Ces Cours-TD sont destinés à vous apporter le recul nécessaire à l’interprétation des analyses
statistiques que vous serez amenés à évaluer au cours de votre cursus et de votre vie professionnelle.
Le plus important est de comprendre le principe de l’analyse utilisée et à se faire sa propre
opinion sur une analyse statistique afin de démêler le vrai du faux. Le but n’est pas de faire de
vous des statisticiens qui vont développer de nouvelles méthodes mais que vous soyez capable
de comprendre et de détecter les erreurs et biais potentiels qui peuvent entrainer une mauvaise
interprétation des données et des conclusions erronées.


### 1.2 Contexte

Comme il est décrit dans le cours, il est important de prendre conscience que les statistiques
sont liées au domaine médical. Elles ont trouvé réellement leur essor et participé aux améliorations
médicales à partir du moment où l’on a essayé de comprendre les causes des maladies, de
la propagation d’une épidémie... 

Vous trouverez ci-dessous une liste non exhaustive de domaines
d’application des statistiques en pharmacie :
- Lors de la mise au point d’un nouveau médicament, trois étapes de vérification doivent être respectées :
1. Est ce que le nouveau médicament n’est pas toxique pour l’homme?
2. Est ce que le nouveau médicament est efficace ?
3. Est ce que le nouveau médicament est plus efficace que les traitements existants ?
- Lors de la mise au point d’un nouveau test diagnostique, d’une nouvelle méthode d’analyse, les questions qui suivent sont posées :
1. Est ce que le nouveau test diagnostique fait mieux que le simple hasard pour donner un résultat positif à un patient réellement malade ?
2. Est ce que la nouvelle méthode d’analyse fait aussi bien que la précédente ?
3. Est ce que le nouveau test diagnostique améliore la sensibilité (capacité à donner un résultat positif à une personne réellement malade ?
- Lors d’une étude épidémiologique, les questions qui suivent sont posées :
1. Est ce que l’exposition à un facteur a un effet sur la survenue de la maladie ?
2. Est il possible de prédire le risque de survenue de la maladie à la suite d’une exposition à ce facteur ?
3. Etudier l’impact d’un traitement sur le décès à 30 jours de patients, toutes choses égales par ailleurs.
- Lors de l’évaluation de la qualité et du contrôle d’une ligne de production
- Lors de l’évaluation des moyens et de l’état de santé d’une population : causes de décès, morbidité, surveillance sanitaire....

En conclusion, en biologie ou en santé, les domaines d’application sont très vastes : essais
cliniques randomisées, études épidémiologiques, dynamiques des populations, études omiques
(génomique, protéomique, transcriptomique...), lignes de production .... Ces études représentent
une masse de données considérable à traiter. Il est donc loin le temps où les calculs statistiques
étaient fait à la main, sur de petits échantillons. Il est nécessaire pour traiter les données d’utiliser
des logiciels informatiques. Ce qu’il est important de retenir pour cet UE, c’est qu’il est très
complet dans la mesure où pour analyser et interpréter une étude médicale, il faut :
- maitriser les connaissances médicales pour comprendre les données et interpréter les résultats 
- comprendre les principes des différentes méthodes statistiques pour savoir laquelle utiliser en fonction des échantillons et des questions qui sont posées
- maitriser un minimum l’outil informatique car les données à traiter deviennent tellement importantes qu’il est illusoire de vouloir faire les calculs à la main.


## 2. Présentation des données


**Objectif de la séance**

**À partir d’un jeu de données proposé et de la problématique biologique soulevée, il s’agit de
décrire l’échantillon, étape primordiale avant toute analyse statistique et qui permettra de vous
initier au langage R.**



Un clinicien évalue l’intensité de la dépression sur l’échelle de Hamilton qui varie de 0 (non
déprimé) à 56 (très déprimé), chez 100 patients sourant d’un Episode Dépressif Majeur (EDM).
On veut savoir si l’acupuncture améliore l’évolution de la dépression. Pour cela, 100 malades
de même état dépressif (même score de Hamilton) sont répartis en 2 groupes de 50 par tirage
au sort. Le groupe I a reçu uniquement le traitement pharmacologique et le groupe II a reçu le
traitement pharmacologique associé à de l’acuponcture.
Le jeux de données contient les variables suivantes :
- Hamilton_G1 : Les scores de Hamilton, après 8 mois de traitement pour le groupe 1
- Hamilton_G2 : Les scores de Hamilton, après 8 mois de traitement pour le groupe 2
- Age_G1 : l’âge des patients du groupe 1
- Age_G2 : l’âge des patients du groupe 2
- poids_G1 : le poids des patients du groupe 1
- poids_G2 : le poids des patients du groupe 2
- sexe_G1 : le sexe des patients du groupe 1
- sexe_G2 : le sexe des patients du groupe 2
- Urbanisation_G1 : le niveau d’urbanisation dans lequel vivent les patients du groupe 1 (A : rural, B : urbanisation modéré, C : fortement urbanisé)
- Urbanisation_G2 : le niveau d’urbanisation dans lequel vivent les patients du groupe 2 (A : rural, B : urbanisation modéré, C : fortement urbanisé)

Les données sont contenues dans le fichier texte : *data_Depression.txt*

La lecture des données se fait à partir de la fonction *read.table* de *R* :


Afin de faire exécuter votre instruction, il suffit de cliquer sur la touche **Exécuter** ou de faire "ctrl+entrée"

In [1]:
# Lire le fichier de données


Une table peut contenir plusieurs milliers de lignes tout afficher peut donc être inutil.

La fonction `head()` permet d'afficher les premières lignes d'une table.

In [2]:
# Afficher le début du contenu du fichier de données


En **R**, un ensemble à une dimension s'appelle un vecteur, par exemple une colonne d'une table est un vecteur. 

In [3]:
# Afficher le contenu de la colonne Hamilton_G1
# Remarque : pour avoir accès aux colonnes, il faut préciser le nom du fichier


## 3. Statistique descriptive

La statistique descriptive est la première étape primordiale lors d’une analyse statistique,
cette étape va permet bien évidemment de résumer ou représenter les données observées, avec
le moins de mots, chiffres ou graphiques possible, grâce à des outils statistiques simples tels que
la moyenne, la médiane, la variance, les quantiles, le maximum, le minimum....
Elle permet également de vérifier si il n’y a pas de valeurs erronées, de problèmes d’échantillonnage.

Elle a aussi un rôle de suggestion d’hypothèses pour des études plus approfondies ou encore de vérification de condition d’application pour les tests statistiques de l’étude infférentielle qui
suivra.

#### 3.1 Les variables aléatoires

Les variables du jeu de données peuvent prendre un certain nombre de valeurs sans que
celles-ci ne puissent être prévues à priori, c’est pour cela qu’elle se nomme variable aléatoire. Il
existe deux types de variables aléatoires :
- Variable qualitative : modalité non mesurable, par exemple la couleur des yeux, le sexe,
le groupe sanguin...
- Variable quantitative : modalité mesurable, par exemple la taille, le taux d’hormones,...

Une variable aléatoire est dite discrète si elle prend que des valeurs discontinues dans un
intervalle donné, comme par exemple le nombre d’enfants dans une famille, le nombre de fumeurs...

Une variable aléatoire est dite continue si elle prend toutes les valeurs dans un intervalle donné,
comme par exemple : la taille, le poids...

Dans notre exemple de cours, les variables Hamilton, Age, Poids sont des variables quantitatives
alors que les variables Sexe et Urbanisation sont des variables qualitatives.

#### 3.2 Paramètres les plus couramment utilisés en statistique descriptive

Lors de la description d’un jeu de données, deux types de paramètres doivent être utilisés
pour décrire les variables quantitatives : les paramètres de position et les paramètres de dispersion.

**Les paramètres de position**

1. la **moyenne** : c’est la somme pondérée des valeurs mesurées 
2. la **médiane** : c’est la valeur qui scinde l’échantillon en deux de telle sorte que 50% desobservations sont supérieures à cette valeur et 50% des observations lui sont inférieures.

Comparaison de ces deux indicateurs :

1. la **moyenne** : c’est l’indicateur familier, intuitif et facile à calculer. Son point faible : il n’est pas robuste (il est très sensible au changement d’une ou plusieurs observations, aux valeurs extrêmes...)
2. la **médiane** : c’est un indicateur à fois précis et robuste (il est peu sensible à la modification d’une ou plusieurs observations ou valeurs extrêmes..)

Remarque : tout au long des TDs vous trouverez dans les encadrés les instructions en langage R pour réaliser les analyses statistiques.

*Application au jeu de données sur le score de Hamilton :*

In [4]:
# Traitement pharmacologique
# Moyenne de la variable Hamilton_G1



# Médiane de la variable Hamilton_G1



*Application* : calculer les moyennes et médianes des variables Hamilton_G2, Age_G1, Age_G2

**Commentez**

Il est important de vérifier la dispersion des données car même si la la différence de moyenne entre les deux groupes peut sembler importante, deux cas de figures se présentent :
- si l’écart-type pour les deux groupes est également grand alors cette différence s’amenuise, les données se chevauchent
- si l’écart-type est faible alors les deux groupes ont des données bien distinctes et la différence entre les deux groupes apparait clairement. 

<img src="Figures/Fig_dispersion.jpg" />

**Les paramètres de dispersion**

Ils fixent la variabilité des mesures par rapport à un paramètre de position.

1. la variance : c’est l’écart par rapport à la moyenne, l'écart-type correspond à la racine de la variance
2. l’amplitude : c’est l’écart entre la plus grande et la plus petite valeur observée dans l’échantillon.
3. l’intervalle inter-quartile : c’est la plage de valeurs délimitée par le 1er quartile et le 3ème quartile (respectivement Q1 et Q3). Il contient 50% des observations : 25% de part et d’autre de la médiane. Les quartiles sont définis sur le même principe que la médiane (aussi nommé 2ème quartile).
**Q1** : c’est la valeur qui scinde l’échantillon en deux de telle sorte que 75% des observations
sont supérieures à cette valeur et 25% des observations lui sont inférieures.

**Q3** : c’est la valeur qui scinde l’échantillon en deux de telle sorte que 25% des observations
sont supérieures à cette valeur et 75% des observations lui sont inférieures.
Comparaison de ces trois indicateurs :
1. l’écart-type : c’est un indicateur peu robuste, mais facile à calculer et récurrent dans les statistiques inférentielles
2. l’intervalle inter-quartile : c’est un indicateur robuste au même titre que les valeurs qui le caractérisent (quartiles).
3. l’amplitude : facile à calculer, mais très sensible aux valeurs aberrantes (qui sont des valeurs extrêmes en général).

*Application au jeu de données sur le score de Hamilton :*

In [5]:
# Moyenne de la variable Hamilton_G1


# Médiane de la variable Hamilton_G1


# Ecart-type de la variable Hamilton_G1


# Résumé statitistique de la variable Hamilton_G1


Calculer la moyenne, la médiane, l'écart-type et le résumé statistique de la variable Hamilton_G2 et comparer aux résultats obtenus pour la variable Hamilton_G1

**En conclusion** : 

#### 3.3 Représentation des variables quantitatives

**L'histogramme**

L’histogramme est un moyen rapide pour étudier la répartition d’une variable.
Cependant, il faut faire attention car la forme de l’histogramme change en fonction de l’amplitude
des classes, il faut tester plusieurs pas, c’est-à-dire, plusieurs découpages différents.

P.Besse : « La qualité de l’estimation d’une distribution par un histogramme dépend beaucoup
du découpage en classes. Malheureusement, plutôt que de fournir des classes d’effectifs égaux
et donc de mieux répartir l’imprécision, les logiciels utilisent des classes d’amplitudes égales et
tracent donc des histogrammes parfois peu représentatifs. »

*Application au jeu de données sur le score de Hamilton :*

In [6]:
# tracer de l'histogramme représentant la variable Hamilton_G1


*Tracer l'histogramme de la variable Hamilton_G2 et comparer avec l'histogramme de la variable Hamilton_G1*

**Commentez :** 

On peut choisir le nombre de classes de l’histogramme, ce qui permet d’augmenter (ou de réduire)
la précision du graphique.

Retracer l'histogramme de la variable Hamilton_G2 avec n=15

In [7]:
# tracer de l'histogramme représentant la variable Hamilton_G1, en choisissant 15 classes grâce à l'argument n=15


**Commentez :** 

**Le boxplot**

Ce graphique tout simple permet de résumer une variable de manière rapide et visuel, d’identifier
les valeurs extrêmes, de comprendre la répartition des observations (dispersion, symétrie...)
d’une variable ou encore de comparer la répartition des données d’une même variable entre plusieurs
échantillons.

- La valeur centrale du graphique est la médiane (il existe autant de valeur supérieures qu’inférieures à cette valeur dans l’échantillon).
- Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des observations ont des valeurs plus petites et trois quart ont des valeurs plus grandes, le bord supérieur suit le même raisonnement).
- Les extrémités des moustaches sont calculées en utilisant 1.5 fois l’espace interquartile (la distance entre le 1er et le 3ème quartile).
On peut remarquer que 50% des observations se trouvent à l’intérieur de la boîte.

Les valeurs à l’extérieur des moustaches sont représentées par des points. Ces valeurs peuvent
être décrites comme extrêmes par rapport aux autres valeurs de l’échantillon. Toutefois, il ne
faut pas faire de raccourci rapide et en déduire que se sont forcément des valeurs aberrantes. Par contre, cela indique qu’il faut étudier plus en détail ces observations.

*Application au jeu de données sur le score de Hamilton :*

In [8]:
# Tracer le boxplot du Score de Hamilton du groupe G1

*Tracer le boxplot de la variable Hamilton_G2*

**Commentez**

#### 3.4 Représentation des variables qualitatives

La description d’une variable qualitative passe par la présentation de ces effectifs par classes.
Cette étape est très importante car elle va permettre de vérifier la répartition des effectifs entre les classes. Ainsi, si une variable possède des effectifs très déséquilibrés entre ces classes, il faudra
en tenir compte dans les tests à venir et parfois il sera nécessaire de procéder à des regroupements
entre classes afin d’éviter des biais statistiques.

*Application au jeu de données sur la variable Urbanisation_G1 :*

In [9]:
# la fonction table compte les effectifs des modalités de la variable

# afficher le résultat


*Calculer les effectifs de la variable Urbanisation_G2 et commentez les résultats*

**Commentez**

**Les barplots**

La hauteur des barres correspond soit à la fréquence d’observation de chacune des modalités
soit à l’effectif de la variable considérée. Contrairement aux histogrammes, les bâtons des diagrammes
en barre sont bien séparés pour mettre l’accent sur le caractère discret des observations
(par opposition à la contiguité des barres d’un histogramme qui fait écho à la nature continue de
la variable).

*Application au jeu de données sur la variable Urbanisation_G1 :*

In [10]:
# Tracer le barplot représentant la variable Urbanisation_G1

Tracer le barplot représentant les effectifs de la variable Urbanisation_G2 et commentez 

**Commentez :**

**Les camemberts**

Le camembert permet de représenter les différentes modalités par secteurs angulaires proportionnels
aux fréquences observées.
Les représentations en camembert sont à utiliser avec modération c’est à dire uniquement lorsqu’il
y a peu de modalités à représenter. Le problème vient du fait que les proportions ne sont
pas très visibles avec des camemberts.

*Application au jeu de données sur la variable Urbanisation_G1 :*

In [11]:
# Tracer le camembert représentant la variable Urbanisation_G1

Tracer le camembert représentant les effectifs de la variable Urbanisation_G2 et commenter 

**Commentez**

## 4. Manipulation de données


### 4.1 Extraction d'une valeur d'un tableau

Il est possible avec **R** d’extraire des valeurs particulières d’un tableau (*data.frame*). Pour cela, il faut être conscient qu’un tableau est composé de lignes et de colonnes, chaque
valeur du tableau a donc un numéro de ligne *i* et un numéro de colonne *j*. 

Pour extraire une valeur particulière du tableau, il suffit de préciser à **R** son numéro de ligne et de colonne. Par
exemple, nous allons extraire la valeur de la ligne 2 en colonne 3 :

* Entrainement : Extraire la valeur du tableau qui se situe en ligne 15 et colonne 4 :*

Avant d'aller plus loin dans les extractions de sous tableaux, il est important de bien faire la différence entre **=** et le **==**

Lorsque l’on met un **=** nous attribuons une valeur, par exemple ici nous allons attribuer la
valeur 4 à toto :

Lorsque nous mettons un **==**, nous réalisons un test.

Par exemple on peut tester si toto est égale à 9

**R** nous répond faux.

**Remarque** : Pour tester si une valeur est différente il faut utiliser **!=**.

On peut par exemple tester si toto est $\neq$ 9 

**R** nous répond vrai.

### 4.2 Extraction de sous tableau en fonction de conditions

**i) Sélection de données au sein d'une colonne** 

Il est également possible d’extraire des sous groupes de données au sein d'une colonne. Par exemple, à partir de
notre tableau de données, nous pouvons extraire parmi la colonne scores de Hamilton du groupe G1, uniquement
le score des hommes. 
Nous appellerons ce nouveau groupe : hamilton_G1_homme.

Le principe est le suivant :
- on sélectionne la colonne qui nous intéresse, ici il s’agit de Hamilton_G1
- Seul le score des hommes nous intéresse, il est donc nécessaire de préciser à **R** qu'au sein de cette colonne, nous ne garderons que les lignes correspondantes aux hommes

*Entraînement : Extraire le score de Hamilton du groupe G2 qui se situe dans une
zone urbanisée A*

**ii) Sélection d'un sous tableau** 

Il est également possible d’extraire un sous tableau de données. Nous allons par exemple
extraire le tableau de données qui est associé aux données du groupe G1, nous l’appellerons
data_G1. 

Le principe est le suivant :
- Repérer les colonnes qui sont associées aux groupes G1 : 1, 3, 5, 7 et 9.
- Ensuite nous voulons récupérer toutes les lignes

*Application* : Extraire un nouveau tableau nommé data_G2, qui contient uniquement les colonnes associées au groupe G2

*Exemple d’application* : A partir du tableau data_G1, nous allons sélectionner un nouveau
tableau qui ne contient que le résultat des femmes. Le principe est le suivant :
- Nous ne gardons que les lignes où la valeur "F" apparaît dans la colonne sexe_G1 
- Puis nous gardons l'ensemble des colonnes

In [12]:
# Créer le sous tableau que l'on nommera data_G1_femme 


# affiche les premières lignes d'un tableau de données

Extraire une tableau data_G2_femme qui ne contient que les informations concernant les femmes du groupes G2

**Remarque** : Il est possible de combiner plusieurs conditions lorsque l'on extrait des données d'un tableau grâce aux intructions :
- **&** qui signifie "et" : par exemple on veut extraire du tableau les données concernant les femmes de plus de 40 ans (ce qui se traduit par  "être une femme et avoir plus de 40 ans")
- **|** qui signifie "ou" : par exemple on veut extraire du tableau les données concernant soit les femmes soit les personnes de plus de 40 ans, la différence avec le tableau précédent est qu'il sera possible dans ce tableau d'avoir également des hommes de plus de 40 ans

*Appliquer ces deux conditions au tableau data_G1*

*Appliquer ces deux conditions au tableau data_G2*

*Application :*
- Construire un tableau nommé tab1 qui sélectionne les femmes et la classe Urbanisation "A" 
- Construire un tableau nommé tab2 qui sélectionne les femmes ou la classe Urbanisation "A" 

La fonction `which()` permet de connaître les lignes des individus respectant les conditions que vous avez choisies. 

*Afficher les lignes des femmes de moins de 40 ans pour le tableau data_G1.*

*Afficher les lignes des hommes de plus de 40 ans pour le tableau data_G2.*

**iii) Sélectionner des lignes ou colonnes dans un tableau en utilisant leur index** 

Sans utiliser une condition, il est possible de sélectionner ou de retirer des lignes en utilisant leur index. Comme nous l'avons vu précédemment cela se fait en utilisant nom_du_tableau[,]. Avant la virgule vous sélectionnez les lignes, après la virgule vous sélectionnez les colonnes. Par exemple data_G1[1,2] sélectionne la ligne 1 et la colonne 2 de la table data_G1.

Si vous souhaitez sélectionner plusieurs lignes ou colonnes il faut utiliser `c()` par exemple data_G1[c(1,2,3,4,5),c(2,4)] sélectionne les lignes 1 à 5 et les colonnes 2 et 4.

*Remarque 1*: Il est possible de simplifier c(1,2,3,4,5) en c(1:5). L'opérateur : signifiant de x à y.

*Remarque 2*: Il est possible pour les colonnes uniquement d'utiliser leur nom par exemple vous auriez pu écrire data_G1[c(1:5),c("Urbanisation_G1","poids_G1")]

En utilisant ce qui vous a été présenté, sélectionnez à partir de leur indice les lignes des femmes de moins de 40 ans pour le tableau data_G1 et les colonnes Hamilton_G1 et Age_G1

In [13]:
# Possibilité 1 :

# Possibilité 2 : 

Il est possible de faire l'opposé d'une condition, transformer les vrais en faux et inversement en utilisant un **!** avant la condition.

*Afficher le tableau data_G1 sans les hommes*

Nous avons déjà vu comment créer des vecteurs, et qu'une colonne d'une table était un vecteur.

*En utilisant ce que vous avez vu, récupérez la colonne "Age_G1" et retirez-en les femmes*

## 5. Exercices application

### 5.1 Extraction des données

A partir des données data_Depression :
1. Extraire le tableau de données des hommes du groupes G1 que l’on nommera data_G1_homme 
2. Extraire le tableau de données des hommes du groupes G2 que l’on nommera data_G2_homme





### 5.2 Etude comparative des scores de Hamilton des hommes entre les deux groupes G1 et G2

A partir de ces deux tableaux de données, réaliser une étude descriptive comparative en répondant aux questions suivantes :

1. Comparer les moyennes et variances empiriques des scores de Hamilton des hommes dans les deux tableaux
2. Comparer les médianes et quartiles empiriques des âges des hommes dans les deux tableaux





Quelles hypothèses pouvez-vous émettre ?

### 5.3 Comparaison du score de Hamilton des hommes en fonction de l'urbanisation de leur lieu de résidence


1. Représenter graphiquement le score de Hamilton des hommes du groupe G1 qui habitent dans des régions urbanisée de type A
2. Représenter graphiquement le score de Hamilton des hommes du groupe G1 qui habitent dans des régions urbanisée de type B
3. Représenter graphiquement le score de Hamilton des hommes du groupe G2 qui habitent dans des régions urbanisée de type A
4. Représenter graphiquement le score de Hamilton des hommes du groupe G2 qui habitent dans des régions urbanisée de type B.

Quelles hypothèses pouvez-vous émettre suite à ces descriptions? 

### 5.4 Manipulation de données 

1. Créer à partir du tableau data_G1 une table sans les femmes nommée tableau1
2. Créer à partir du tableau data_G1 une table sans le patient le plus âgé nommée tableau2.
3. Créer à partir du tableau data_G2 une table sans l'homme le plus lourd nommée tableau3.
4. Créer à partir du tableau data_G1 une table sans les patients dont le score Hamilton est inférieur ou égal au troisième quartile nommée tableau4.
5. Calculer la variance du score de Hamilton des femmes du groupe G2.
6. Créer une nouvelle colonne dans la table G2 correspondant à l'âge moins le poids puis supprimez la.


*Note pour créer une nouvelle colone il suffit d'utiliser nom_de_table$nom_de_nouvelle_colonne <- Valeur de la nouvelle colonne*