# Représentations graphiques des données



## Nuages des points et la fonction **plot**

La  fonction principale permettant de tracer des graphiques avec R est la fonction **plot**.

Elle prend deux vecteurs **x** et **y** en arguments avec les coordonnées des points à tracer.

L'option **type** permet d'indiquer à R si il faut tracer un nuage des points (par défaut) ou s'il faut relier les points par une ligne en utilisant **type**='l' (c'est la lettre l et pas le chiffre 1).

Reprenons les données **ToothGrowth** :

In [None]:
library(datasets)
head(ToothGrowth)
plot(ToothGrowth$len,ToothGrowth$dose)

In [None]:
len_ord <- sort(ToothGrowth$len)

plot(len_ord, len_ord^2,type='l')

Les nombreuses options de la fonction **plot** permettent de choisir les propriétés du graphique.  Voici une liste des principales options de  la fonction **plot** :
- **col** spécifie la couleur (p.ex. **col='green'** ou **col=3** pour des points/lignes verts)
- **pch** permet de jouer sur la forme des points : **pch=0** pour des carreaux, **pch=1** pour des cercles (par défaut),  **pch=2** pour des triangles  etc. 
- **lty** permet de choisir le type de ligne : par défaut **lty=1** le trait est continu, mais il est aussi possible d'obtenir des tirets (**lty=2**), des pointillés (**lty=3**), etc. 
- **lwd** permet de régler l'épaisseur du trait
- **xlab** et **ylab** permet de définir le nom des axes 
- **main** permet d'ajouter un titre
- **xlim** et **ylim** permet de fixer la limite inférieure et supérieure des axes  

In [None]:
plot(len_ord, len_ord^2, type = 'l', col = 5, lwd = 3, main = 'en couleur', xlim = c(-20, 35))

### Exercice 1

Pour les données des cathédrales représenter le nuage des points hauteur et longeur. Ajouter un titre aux axes, jouer avec la couleur et la forme de points.

Tout appel de la fonction **plot** efface le graphique précédent. Afin de superposer un nuage de points ou une courbe au graphique existant, on   utilise une des fonctions suivantes :
-  **points(x,y,...)** pour superposer un nuage de points
-  **lines(x,y,...)** pour superposer une nouvelle courbe
-  **abline(a,b,...)** pour superposer une droite avec ordonnée à l'origine **a** et pente **b**

A la place des trois points **...** on peut préciser les mêmes options graphiques que celles présentées pour la fonction **plot()**. 



In [None]:
plot(len_ord, len_ord^2, type = 'l', col = 5, lwd = 3, main = 'en couleur')
points(runif(100,0,35), runif(100,0,1000), pch = 8)
abline(0, 1000/35, col = 2, lty = 4)

### Exercice 2

1. Représenter le même nuage des points de la hauteur et longueur des cathédrales en deux couleurs avec une couleur par style. Pour cela on peut d'abord tracer tous les points des cathédrales gothiques en une couleur et ensuite superposer à ce graphique les points des cathédrales romanes en une autre couleur. Rajouter une légende avec la fonction **legend** pour expliquer le code couleur.
2. Rajouter la droite de régression $y\mapsto \hat a + \hat{b} x$ au graphique.

**Rappel** : dans le modèle linéaire de la régression simple  avec 
$Y=\mathbf X\left(a \atop b\right)+\varepsilon$ où $\mathbf X=\left(\mathbf{1},X\right)$ et $\mathbf{1} =(1,\dots,1)'$ et $X=(X_1,\dots,X_n)'$ l'estimateur par la méthode des moindres carrés de $\left(a \atop b\right)$ est donné par
$$\hat b = \frac{s_{XY}}{s_X^2}\quad\text{ et }\qquad\hat a= \bar Y - \bar X \hat b,$$ 
où $s_X^2$ est la variance empirique des $X_i$ et $s_{XY}$ la covariance empirique des $X_i$ et $Y_i$.


## Histogramme


La fonction **hist** est utilisée pour tracer des histogrammes.  Essayons-le :

In [None]:
hist(ToothGrowth$len)

Dans le cours, nous avons défini l'histogramme comme une fonction qui intègre à 1, ce qui n'est visiblement pas le cas de la fonction tracée ci-dessus. En fait, la commande **hist(len)** représente le nombre d'observations (les effectifs) par sous-intervalle. L'option **frequ=FALSE** permet de changer l'échelle afin d'obtenir un histogramme comme défini dans le cours.

In [None]:
hist(ToothGrowth$len, freq = FALSE)

L'histogramme est une approximation de la densité de la loi des données. Afin de comparer la distribution des données à une loi théorique, on peut superposer la densité de la loi théorique  à l'histogramme des observations.  Pour "tester" si la loi de la longueur de cathédrale est une loi normale, on rajoute la densité de la loi normale de paramètres $\mu=$ moyenne empirique de la longueur et $\sigma^2=$ variance empirique de la longueur. Pour cela on utilise la fonction **dnorm** (pour la densité de la loi normale)  et de la fonction **curve** (pour tracer une courbe). 





In [None]:
mu <- mean(ToothGrowth$len)
sig <- sd(ToothGrowth$len)
hist(ToothGrowth$len, freq = FALSE, ylim = c(0, .06), xlim = c(-10, 50))
curve(dnorm(x, mu, sig), add = TRUE)

L'adéquation entre l'histogramme et la densité n'est pas  bonne. On dirait que la loi de la longueur de cathédrale est moins concentrée autour de la moyenne qu'une loi normale et le "pic" de l'histogramme est bien trop large pour une gaussienne.


La fonction **hist** a d'autres paramètres optionnels qui permettent de paramétrer précisement la forme de l'histogramme, notamment l'option **breaks** pour définir la partition utilisée (voir l'aide pour les détails).

### Exercice 3
1. Tracer l'histogramme de la variable hauteur de cathédrale.
2.  Modifier le nombre de sous-intervalles utilisé pour construire l'histogramme. Tester des différentes tailles de partition. D'après vous, quel est le nombre optimal de sous-intervalles ?
3. Essayez également avec sous-intervalles de largeur différente
4. Même question pour l'histogramme de la variable longueur.
5. Superposer à l'histogramme de la longueur de cathédrale la densité d'une loi normale. Au vu du graphique, semble-t-il envisageable de modéliser la longueur de cathédrale par une loi normale ?



## Fonction de répartition empirique

La fonction **ecdf** calcule la fonction de répartition d'un vecteur d'observations. 
Pour la tracer, on tape :



In [None]:
Fn <- ecdf(ToothGrowth$len)
plot(Fn)

### Exercice 4

Tracer la fonction de répartion empirique de la hauteur. Rajouter la fonction de répartition de la loi normale de paramètre $\mu=$ moyenne empirique de la hauteur et $\sigma^2=$ variance empirique de la hauteur en utilisant la fonction **pnorm**. Commentez le graphique.

## QQ plot

Le QQ-plot est un outil graphique pour comparer la distribution de deux vecteurs. S'ils ont la même distribution, les points s'alignent sur la première bissectrice.  La commande **qqplot(x,y)**  trace le QQ-plot des vecteurs  **x** et  **y**. 

Pour mieux juger l'adéquation des distributions, on peut rajouter la première bissectrice par la commande **abline(0,1)**
  


In [None]:
x <- rnorm(100, 10, 1)
y <- runif(60, 6, 14)
qqplot(x, y) 
abline(0, 1)

La commande  **qqnorm(x)** trace le QQ-plot qui compare la loi du vecteur **x**  à la loi normale standard $\mathcal N(0,1)$. Si les points s'alignent sur la première bissectrice, les observations suivent la loi normale $\mathcal N(0,1)$.

Pour vérifier si la loi des observations  appartient à la **famille** de lois normales,  il  est courant de standardiser les données de façon suivante 

**x.std <- (x-mean(x))/sd(x)**

et puis de tracer   le QQ-plot qui compare **x.std** à la loi normale standard  par la commande **qqnorm(x.std)**. Si les points s'alignent sur la première bissectrice, la loi de **x** est (à peu près) normale. 

### Exercice 5
1. Comparer les lois de la hauteur et de la longueur des cathédrales par un QQ-plot.
2. Tracer des QQ-plots pour juger si les variables hauteur et longueur suivent une loi normale.



## Boxplot

La commande **boxplot(x)**   trace le boxplot du vecteur  **x**.  Exemple :

In [None]:
boxplot(ToothGrowth$len)

Pour tracer les boxplots de plusieurs variables (par exemple des vecteurs **x** et **y**) côte à côte, on écrit **boxplot(x,y)**.

Quand on passe à la fonction  **boxplot**  un tableau en argument,  R  trace un boxplot pour chaque variable (chaque colonne). Parfois des variables qui ne sont pas de type numérique sont automatiquement transformées pour pouvoir tracer un boxplot. Mais attention : ces transformations automatiques n'ont pas toujours beaucoup de sens comme dans l'exemple ci-dessous pour la variable **supp**.


In [None]:
boxplot(ToothGrowth)

Souvent on souhaite comparer les boxplots d'une même variable pour des différents sous-groupes. Cela est facile si la variable qui définie les groupes est  de type facteur (**factor**). La commande qui trace  tous les boxplots pour les différents groupes utilise  la fonction **plot**  et elle   est  de la forme

**plot(x ~  var.facteur)**



In [None]:
class(ToothGrowth$supp)

In [None]:
plot(ToothGrowth$len~ToothGrowth$supp)

In [None]:
boxplot(len~supp, data = ToothGrowth)

 

### Exercice 6
1. Tracer les boxplots des variables hauteur, longueur  et rapport longueur/hauteur dans une seule fenêtre et commentez. Utiliser l'option **names** de la fonction **boxplot** afin d'indiquer les noms de variable dans le graphique.
2. Vérifier avec la fonction **class** que la variable **style** est de type facteur. Tracer  les boxplots de chacune  des variables hauteur, longueur  et rapport longueur/hauteur   pour les deux styles. Commentez.

