# Section 5 - Datavisualisation avec R


<br>
# <span style="color: steelblue">4. Datavisualisation avec R</span>

# <span style="font-family:Calibri">4.0 plot de base</span>

Quand on cherche simplement a avoir une tendance, et donc grapher rapidement des données sans chercher a le rendre beau ou persistant, on peut utiliser le package de base et la fonction <b>plot()</b>  

Cette fonction ne sera pas abordée dans ce chapitre. Néanmoins, voici un exemple standard d'utilisation (?plot et ?plot.default pour + d'options)


In [None]:
y1 <- rpois(1000, 1)
y10 <- rpois(1000, 10)

In [None]:
plot(table(y1), type = "h", xlim = c(0, 20))
abline(v = 1, col = "green", lwd = 2)
plot(table(y10), type = "h", xlim = c(0, 20), col = "red")

## Constat : on peut rajouter abline(), line(), points(), ... sur un plot() existant,
## mais en appelant de nouveau la fonction plot, on repart sur un nouveau graphique

In [None]:
plot(table(y1), type = "h", xlim = c(0, 20))
abline(v = 1, col = "green", lwd = 2)

par(new = TRUE) ## pour superposer les plot(), on peut utiliser cette option
plot(table(y10), type = "h", xlim = c(0, 20), col = "red")

# <span style="font-family:Calibri">4.1 le package ggplot</span>

ggplot2 est un package R developpé par Hadley Wickham pour produire des graphiques.
Il s'appuie sur une grammaire developpée par (Wilkinson, 2005)

Les graphiques avec ggplot2 sont créés par <b>couches</b> : la première contient les données brutes, les suivantes servent à mettre en forme ces données : 

 - dataframe
 - systeme de coordonnées (coord) : comment mapper les données(cartesiennes, polaires, geographique…)
 - objets géometriques (geoms)
 - propriétés (couleur, taille, forme..)
 - transformations statistics (stats)
 - facetage pour afficher suivant plusieurs modalités 
 
 
<img src="http://upload.dinhosting.fr/m/0/i/J02_dataviz_grammarggplot.jpg" align="left"> 
<br><br><br> 
<br> <br> <br>
Bible : http://moderngraphics11.pbworks.com/f/ggplot2-Book09hWickham.pdf  
Antisèche : https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf  
Liste des objets  : http://docs.ggplot2.org/current/index.html 
 

#### Differents types de graphiques selon...
 - le nombre de dimensions / le type de données (catégoriel ou numerique)
  - 1 axis : barplot, pie chart, boxplot ..
  - 2 axis : scatter plot, line plot,
  - 3 axis or more : rasters, bubble plot, 3D plots, use of color/shape/facets …  
  
  
 - Données Géographiques 
  - Cartes choroplethes
  - données GPS data  
  
  
 - Autres données spécfiques : temporelles, données de flux, graphes de réseaux ...  
 
 - Graphiques statiques ou dynamiques (googleVis, Shiny, d3.js, …)


### 4.1.1. overview des objets disponibles 

#### objets geom_ :  
Les fonctions geom_ possèdent des paramètres optionnels:
Lorsque ces paramètres sont omis, les valeurs automatiquement attribuées sont héritées de celles de ggplot().

 - <span style="color: mediumpurple; font-weight:bold">data</span> : données brutes à représenter,
 - <span style="color: mediumpurple; font-weight:bold">mapping</span> : projection graphique à employer,
 - <span style="color: mediumpurple; font-weight:bold">stat</span> : transformation statistique,
 - <span style="color: mediumpurple; font-weight:bold">position</span> : des positions pour éviter le chevauchement
  


<table border = 1  align = left  width = 70% style="font-size: 9pt">
<tr span style="background-color: royalblue"> <td colspan=2><span style="color: white; font-weight:bold; font-size: 12pt"> Objets Geom  </span></td></tr>
<tr> <td>geom_point() </td>   <td> tracer des points </td> </tr>
<tr> <td>geom_line() </td>    <td> tracer des lignes </td> </tr> 
<tr> <td>geom_polygon() </td> <td> tracer des lignes </td> </tr>
<tr> <td>geom_path() </td>    <td> tracer des points dans l’ordre du data frame </td> </tr>
<tr> <td>geom_step() </td>    <td> faire un graphique en escalier </td> </tr>
<tr> <td>geom_boxplot() </td> <td> tracer une boîte à moustache </td> </tr>
<tr> <td>geom_jitter() </td>  <td> mettre des points côte à côte pour une variable catégorielle </td> </tr>
<tr> <td>geom_smooth() </td>  <td> ajouter une courbe de tendance </td> </tr>
<tr> <td>geom_histogram()</td><td> tracer un histogramme </td> </tr>
<tr> <td>geom_bar() </td>     <td> tracer un diagramme en bâton </td> </tr>
<tr> <td>geom_density() </td> <td> tracer une estimation de densité. </td> </tr>
</table>



<table border = 1 align = left  width = 70% style="font-size: 9pt">
<tr span style="background-color: royalblue"> <td colspan=2><span style="color: white; font-weight:bold; font-size: 12pt">  Fonction statistiques</span></td></tr>
<tr> <td>stat_bin()</td><td> répartition des données en classes</td> </tr>
<tr> <td>stat_contour()</td><td> calculer les contours des données en 3d</td> </tr>
<tr> <td>stat_density()</td><td> estimation de densité 1d par la méthode du noyau</td> </tr>
<tr> <td>stat_density_2d()</td><td> estimation de densité 2d</td> </tr>
<tr> <td>stat_identity()</td><td> ne transforme pas les données</td> </tr>
<tr> <td>stat_qq()</td><td> qqplot (droite de Henry)</td> </tr>
<tr> <td>stat_quantile()</td><td> quantiles continus</td> </tr>
<tr> <td>stat_smooth()</td><td> lissage</td> </tr>
<tr> <td>stat_sum()</td><td> somme les valeurs uniques</td> </tr>
<tr> <td>stat_summary()</td><td> appliquer une fonction pour faire des summaries sur les valeurs de y</td> </tr>
<tr> <td>stat_unique()</td><td> retire les valeurs dupliquées</td> </tr>
</table>

<table border = 1 align = left  width = 70% style="font-size: 9pt"> 
<tr span style="background-color: royalblue"> <td colspan=3> <span style="color: white; font-weight:bold; font-size: 12pt"> Fonctions d'échelle </span></td></tr>
<tr> <td>ESTHÉTIQUE</td>           <td> VARIABLE DISCRÈTE      </td><td>VARIABLE CONTINUE</td> </tr>
<tr> <td>Transparence (alpha) </td><td>scale_alpha_discrete()  </td><td>scale_alpha_continuous()</td> </tr>
<tr> <td></td>                     <td>scale_alpha_manual()    </td><td>                       </td> </tr>
<tr> <td></td>                     <td>scale_alpha_identity()  </td><td>scale_alpha_identity()</td> </tr>

<tr> <td>Couleur (colour)</td>     <td>scale_colour_discrete() </td><td>scale_colour_continuous()</td> </tr>
<tr> <td></td>                     <td>scale_colour_brewer()   </td><td>scale_colour_dilstiller()</td> </tr>
<tr> <td></td>                     <td>scale_colour_grey()     </td><td>scale_colour_gradient()</td> </tr>
<tr> <td></td>                     <td>scale_colour_hue()      </td><td>scale_colour_gradient2()</td> </tr>
<tr> <td></td>                     <td>scale_colour_manual()   </td><td>scale_colour_gradientn()</td> </tr>
<tr> <td></td>                     <td>scale_colour_identity() </td><td>scale_colour_identity()</td> </tr>

<tr> <td>Remplissage (fill)</td>   <td>scale_fill_discrete()   </td><td>scale_fill_continuous()</td> </tr>
<tr> <td></td>                     <td>scale_fill_brewer()     </td><td>scale_fill_distiller()</td> </tr>
<tr> <td></td>                     <td>scale_fill_grey()       </td><td>scale_fill_gradient()</td> </tr>
<tr> <td></td>                     <td>scale_fill_hue()        </td><td>scale_fill_gradient2()</td> </tr>
<tr> <td></td>                     <td>scale_fill_manual()     </td><td>scale_fill_gradientn()</td> </tr>
<tr> <td></td>                     <td>scale_fill_identity()   </td><td>scale_fill_identity()</td> </tr>

<tr> <td>Type de ligne (linetype)</td><td>scale_linetype_discrete()</td><td>scale_linetype_continuous()</td> </tr>
<tr> <td></td>                        <td>scale_linetype_manual()  </td> <td></td> </tr>
<tr> <td></td>                        <td>scale_linetype_identity() </td> <td>scale_linetype_identity()</td> </tr>

<tr> <td>Forme                   </td><td>scale_shape_discrete() </td><td>scale_shape_continuous()</td> </tr>
<tr> <td></td>                        <td>scale_shape_manual()   </td><td></td> </tr>
<tr> <td></td>                        <td>scale_shape_identity()</td><td> scale_shape_identity()</td> </tr>

<tr> <td>Taille (size) </td>          <td>scale_size_discrete()</td><td> scale_size_continuous()</td> </tr>
<tr> <td></td>                        <td>scale_size_manual() </td><td>scale_size_area()</td> </tr>
<tr> <td></td>                        <td>scale_size_identity() </td><td>scale_size_identity()</td> </tr>

<tr> <td>Position (x, y) </td> <td>scale_x_discrete() </td>    <td>scale_x_continuous()</td> </tr>
<tr> <td></td>                 <td>scale_y_discrete() </td>    <td>scale_y_continuous()</td> </tr>
<tr> <td></td>                 <td></td>                       <td>scale_x_date()</td> </tr>
<tr> <td></td>                 <td></td>                       <td>scale_x_log10()</td> </tr>
<tr> <td></td>                 <td></td>                       <td>...</td> </tr>

</table>


<table border = 1 align = left  width = 70% style="font-size: 9pt">
<tr span style="background-color: royalblue"> <td colspan=2> <span style="color: white; font-weight:bold; font-size: 12pt"> Position </span></td></tr>
<tr> <td>position_dodge </td> <td>évite les chevauchements, place les éléments côte à côte</td> </tr>
<tr> <td>position_fill </td> <td>empile les éléments qui se chevauchent, en normalisant pour avoir une hauteur égale</td> </tr>
<tr> <td>position_identity </td> <td>n’ajuste pas la position</td> </tr>
<tr> <td>position_jitter</td> <td>place les éméments côte à côte en essyant d’optimiser l’espace</td> </tr>
<tr> <td>position_stack </td> <td>empile les éléments qui se chevauchent</td> </tr>
</table>

### 4.1.2. Les scatterplots et affiliés
#### geom_point(), geom_text(), geom_jitter()

In [None]:
library(ggplot2)
library(MASS)
ggplot(data=Cars93, aes(x=Horsepower, y=Price)) + geom_point()
# qui peut aussi s'ecrire : 
# ggplot() + geom_point(data=Cars93, aes(x=Horsepower, y=Price))

Les paramètre d'esthetiques permette de definir l'objet géometrique : 
Ils dependent des types d'objets appelés, mais on retrouve frequemments : 
- les coordonnées a grapher : (x, y, ..)
- la couleur (color=)
- la forme (shape=)
- la transparence (alpha=)
- la taille (size=)
...

Essayez en quelques uns sur le dataset Cars93...

In [None]:
ggplot() +
 geom_point(data=Cars93, aes(x=Horsepower, y=Price, color=Origin, size=EngineSize)) + 
 theme(legend.position="bottom")


In [None]:
ggplot(data=head(Cars93, 15), aes(x=Type, y=Price, ymax = max(Price), size=Horsepower, label=Make)) +
  geom_point(aes(color=Manufacturer)) + 
  geom_text(aes(size=Horsepower)) +
  scale_size(range=c(2,8))  # taille des lettres

### 4.1.3.  boxplot, histogram, barplot, pie chart etc...
De nombreux types de graphiques sont disponibles, tous listés dans http://docs.ggplot2.org/current/index.html.  
Ci-dessous quelques exemples classiques, sur lesquels nous ne reviendrons pas. 

A noter un point important : on peut assigner un graphe ggplot dans un objet. 
Dans ce cas, les données sont egalement packagées, et l'objet ggplot ne changera pas meme si le dataframe disparait ou evolue.

In [None]:
my_theme_small_text = function(x) { theme(legend.text = element_text(size=x),
            axis.text=element_text(size=x), axis.title=element_text(size=x)) }

library(ggplot2)
p_box <- ggplot(data=Cars93, aes(x=Type, y=Price, fill=Type)) +
             geom_boxplot() + 
             ggtitle("Quantile with Box Plots") + 
             my_theme_small_text(8)

p_bar <- ggplot(data=Cars93, aes(x=Type, fill=Type)) +
             geom_bar() + 
             ggtitle("Freq with Bar Plot") + 
             my_theme_small_text(8)

p_ras <- ggplot(data=Cars93, aes(x=Origin, y=Type, z=Price)) + 
             geom_raster() + 
             stat_summary_2d(fun = mean) +
             scale_fill_gradient(name = "Price", low = "#FFFF00", high ="#FF0000") + 
             ggtitle("Raster") + 
             my_theme_small_text(8)

p_pie <- ggplot(data=Cars93, aes(x=factor(1), fill=Type)) +
             geom_bar() + coord_polar(theta="y") + 
             my_theme_small_text(8)


In [None]:
library(gridExtra) ; library(grid)
grid.arrange(p_box, p_bar, p_ras, p_pie, ncol=2, nrow=2, widths = unit(c(0.5,0.5), "npc"),
             heights = unit(c(0.5,0.5), "npc"))

### 4.1.4. Facet Grid

Produit un même graphique en mosaique, suivant la modalité d'une variable

In [None]:
library(MASS)
ggplot(Cars93, aes(DriveTrain, fill = Origin, position = 'fill')) + 
  geom_bar() +
  stat_count(aes(label= ..count.. ), vjust=1, geom="text") +
  facet_wrap(facets = ~Type)

### 4.1.5. Utilisation de stats

Dans l'exemple suivant, on souhaite illustrer la densité de points par un gradient de couleur sur le graphique.

On peut voir pas à pas les differentes briques du graphique : 
- appel de ggplot sur le dataframe et les coordonnées x,y souhaitées  
- affichage sour forme de nuage de point, avec une transparence forte
- ajout d'une densité (kernel density - MASS::kde2d) dont les niveaux automatiquement créées (..level..) sont affichées : 
    - dans le remplissage
    - dans la transparence
    - dans la couleur des lignes
- ajout d'un gradient de couleur de remplissage
- ajout d'un gradient de couleur de trait
- (en commentaire) : limitation de la fenetre xlim / ylim
- rajout de 2 lignes, horizontales et verticales, marquant la moyenne des indicateurs

In [None]:
library(ggplot2)
DF <- data.frame(Apport.net = rnorm(n=200, 0, 2000),
                 RC         = rnorm(n=200, 96, 3))

ggplot(data=DF, aes(x=Apport.net, y=RC)) + 
  geom_point(alpha = .2) +
  stat_density2d(aes(fill = ..level..,  alpha =..level.., col = ..level..), n=16,  geom = "polygon") +
  scale_fill_gradient(low = "green", high = "red") +
  scale_color_gradient(low = "green", high = "red") +
  #scale_x_continuous(limits = c(-4000, 4000)) +
  #scale_y_continuous(limits = c(-80, 120)) +
  geom_vline(xintercept = mean(DF$Apport.net), col = "red", alpha=.5) +
  geom_hline(yintercept = mean(DF$RC), col = "red", alpha=.5)


### 4.1.6. Couleurs et themes

On ne va pas se leurrer, l'interêt de ggplot2 par rapport a beaucoup d'autre, c'est surtout que les graphiques sont beaux.
Pour aller plus loin a ce propos, 2 points à noter : 
 - l'existence de thèmes disponibles avec ggthemes
 - les librairies de couleurs avec RColorBrewer

<b> <u>Thèmes</u></b>

In [None]:
library(ggthemes)
t1 <- p_box + theme_economist() + scale_fill_economist()
t2 <- p_box + theme_solarized(light=FALSE) + scale_fill_solarized()
grid.arrange(t1, t2, ncol=2, widths = unit(c(0.5,0.5), "npc"),  heights = unit(8, "cm"))

<b> <u>Couleurs</u></b>

In [None]:
library(RColorBrewer)
display.brewer.all()

In [None]:
## on peut etendre une palette au nombre de couleurs voulues avec colorRampPalette : 
(pal <- colorRampPalette(brewer.pal(9,"Blues"))(30))


In [None]:
## Ensuite utilisable dans n'importe quel graphique
plot(rep(1,30),col=pal ,pch=19 ,cex=3)

# <span style="font-family:Calibri">4.2 les googleVis</span>

Autre visualisations sympas et dynamiques.  
Creation automatique d'une page web.  

https://cran.r-project.org/web/packages/googleVis/vignettes/googleVis_examples.html

### 4.2.1. Diagramme de flux

Exemple de relations père/fils (attention, pas de boucles)

In [None]:
## En mouvement avec les googleVis : diagramme de flux (ordonné) : 
## Le resultat est stocké à l'adresse indiquée dans le print...

DF <- data.frame(pere = LETTERS[1:5], 
                 fils = LETTERS[2:11], 
                 intensite = rpois(5, 10)) 

suppressPackageStartupMessages(library(googleVis))

sankey <- gvisSankey(DF , from="DE", to="VERS", weight="intensité",
                     options=list(height=250, sankey="{link:{color:{fill:'lightblue'}}}"))

print(sankey, file="C:/R/05_Training/Axa_Training/Jour 02 - DataViz/my_Sankey.html")


### 4.2.2. données temporelles

Example de serie temporelles sur fond de calendrier : 

In [None]:
suppressPackageStartupMessages(library(googleVis))
suppressPackageStartupMessages(library(htmltools))
suppressPackageStartupMessages(library(dplyr))
 
load("C:/R/05_Training/Axa_Training/Data/DF.Corpo.Rdata")
    
DF.corpo.agg <- group_by(DF.corpo, date) %>% 
                na.omit() %>%
                summarise(tot = n())    


DF.corpo.agg[,"date"] <- as.Date(DF.corpo.agg$date,"%Y-%m-%d")
  
calendar <- gvisCalendar(data = DF.corpo.agg, datevar = "date", numvar = "tot", options = list(width = 1100, height = 600))

print(calendar, file="C:/R/05_Training/Axa_Training/Jour 02 - DataViz/my_Calendar.html")


### 4.2.3. Jauges

Utilisations de jauges (statiques) pour restituer des indicateurs clefs par exemple : 

In [None]:
LR <- data.frame(line = c("Motor", "Household", "Motorbike", "Prof.", "Constr.", "Fleet"),
LossRatio = c(96, 92, 90, 105, 110, 99))
  
Gauge <-  gvisGauge(LR, options=list(min=50, max=150, greenFrom=50, greenTo=95, 
yellowFrom=95, yellowTo=105, redFrom=105, redTo=150, width=400, height=300))

print(Gauge, file="C:/R/05_Training/Axa_Training/Jour 02 - DataViz/my_Gauge.html")


# <span style="font-family:Calibri">4.3. Autres viz (hors géographiques)</span>

<b><font size=4 color="blue">Les graphiques suivants sont dynamiques : leur execution sous Jupyter fonctionne mal (voire pas).<br>
Je propose de switcher dans RStudio pour les tester</font></b>

### 4.3.1. chordDiagrams

In [None]:
## ChordDiagrammes : 
options(repr.plot.width=4, repr.plot.height=4)

library(circlize)
set.seed(1)
mat <- matrix( rep(c(0,1), 25) , nrow=5, ncol=5 , dimnames = list(LETTERS[(1:5)], letters[1:5] ))
chordDiagram(mat)


### 4.3.2. graphiques dynamiques

#### A l'ancienne : library(rgl)

In [None]:
## Restons dans la visu dynamique avec le fameux package rgl, bien connu des étudiants, relativement peu utilisé dans le monde pro

# A LANCER SOUS RSTUDIO (fait planter Jupyter)

library(rgl)
persp <- rgl::persp3d(x=seq(1,dim(volcano)[1]), y=seq(1,dim(volcano)[2]), z=volcano, col="lightblue", xlab="", ylab="")
plot(persp)


In [None]:

t = runif(1000)
x = (1-sin(t))*sin(t)*log(t)
y = (1-cos(t))*cos(t)*log(t)
z = x^2 + y^2  + rnorm(1000)

plot3d(x,y,z, col=rainbow(10))

#### Les graphes dynamiques avec Javascript

 - <b>HighCharter</b>

In [None]:
library(highcharter)
hchart(mtcars$mpg)

 - <b>rCharts</b>

In [None]:
library(rCharts)


hPlot(Pulse ~ Height, data = MASS::survey, type = "scatter", group = "Exer")

## Example 2
hPlot(Pulse ~ Height, data = MASS::survey, type = "bubble", title = "Zoom demo", subtitle = "bubble chart", size = "Age", group = "Exer")

## Example 4
x <- data.frame(key = paste("Categ.", letters[(1:6)]), value = rnorm(6))
hPlot(x = "key", y = "value", data = x, type = "pie")

## Example 6
hPlot(freq ~ Exer, data = plyr::count(MASS::survey, c('Sex', 'Exer')), type = c('column', 'line'), group = 'Sex', radius = 6)

## Example 7
hPlot(freq ~ Exer, data = plyr::count(MASS::survey, c('Sex', 'Exer')), type = 'bar', group = 'Sex', group.na = 'NA\'s')
