In [None]:
options(width = 700)
knitr::opts_chunk$set(warning = FALSE, message = FALSE, out.width = "100%",
                      fig.showtext = TRUE, retina = 1)


*Last update: 2022-01-15*


## Introduction

[I don't care, just show me the content!](#toc)

Dans ce tutoriel, vous apprendrez √† reproduire l'une des visualisations de donn√©es les plus c√©l√®bres au monde, qui a √©t√© d√©velopp√©e par Hans Rosling : 

Hans Rosling √©tait un professeur de sant√© internationale et un porte-parole du progr√®s humain. Par exemple, contrairement √† ce que l'on croit g√©n√©ralement, la pauvret√© dans le monde a √©norm√©ment diminu√© au cours des derni√®res d√©cennies. La visualisation que vous pouvez voir ci-dessus est l'un des nombreux exemples qui montrent comment la vie sur terre s'est am√©lior√©e au cours des derni√®res d√©cennies. Le nuage de points illustre la relation entre le revenu par habitant et l'esp√©rance de vie en jusqu'en 2007.

L'objectif de ce tutoriel est de reproduire cette c√©l√®bre visualisation de donn√©es et d'utiliser des techniques plus complexes dans ggplot2 pour ajouter une visualisation dans une visualisation. 


## Pr√©paration {#prep}

* Vous devez charger les package suivants pour ex√©cuter le tutoriel complet :
(Pour des raisons p√©dagogiques et si les participants sautent √† n'importe quel graphe, on charge le package n√©cessaire √† c√¥t√© de `{ggplot2}` dans la section respective).


In [None]:
# install CRAN packages

library(tidyverse)
library(gapminder)
library(ggthemes)
library(countrycode)
library(ggpp)


## Le jeu de donn√©es {#data}

Tout d'abord, nous avons besoin des donn√©es gapminder. Heureusement, il existe un package gapminder dans R pour cela. Comme d'habitude, nous devons d'abord charger tous les packages n√©cessaires √† la visualisation.


In [None]:
library(tidyverse)
library(gapminder)

gapminder_cleaned <- 
  gapminder %>% 
  # filter(year == "2007") %>% 
  mutate(
    pop2 = pop + 1,
    continent = case_when(
      continent == "Oceania" ~ "Asia",
      TRUE ~ as.character(continent)
    ) %>% as.factor %>% 
      fct_relevel("Asia", "Americas", "Europe", "Africa"),
    year = as.integer(year),
    year_label = as.character(year),
    country_label = ifelse(str_detect(country, "France"), "France", NA)
  )


## Afficher les donn√©es



In [None]:
head(gapminder_cleaned, 10)



## Le package {ggplot2} {#ggplot}

> `ggplot2` est un syst√®me pour cr√©er des graphiques de mani√®re d√©clarative, bas√© sur [The Grammar of Graphics] (https://link.springer.com/chapter/10.1007/978-3-642-21551-3_13). Vous fournissez les donn√©es, dites √† `ggplot2` comment faire correspondre les variables √† l'esth√©tique, quelles primitives graphiques utiliser, et il s'occupe des d√©tails.

Un ggplot est construit √† partir de quelques √©l√©ments de base :

1.	**Donn√©es** :
Les donn√©es brutes que vous voulez tracer.
2.	**G√©om√©tries** `geom_` :
Les formes g√©om√©triques qui repr√©senteront les donn√©es.
3.	**Esth√©tique** `aes()` :
Esth√©tique des objets g√©om√©triques et statistiques, comme la position, la couleur, la taille, la forme et la transparence.
4.	**Echelles** `scale_` :
Les cartes entre les donn√©es et les dimensions esth√©tiques, telles que la plage de donn√©es √† la largeur du graphique ou les valeurs des facteurs aux couleurs.
5.	**Transformations statistiques** `stat_` :
R√©sum√©s statistiques des donn√©es, tels que les quantiles, les courbes ajust√©es, et les sommes.
6.	**Syst√®me de coordonn√©es** `coord_` :
La transformation utilis√©e pour mettre en correspondance les coordonn√©es des donn√©es dans le plan du rectangle de donn√©es.
7.	**Facettes** `facet_` :
L'arrangement des donn√©es dans une grille de parcelles.
8.	**Th√®mes visuels** `theme()` :
Les d√©fauts visuels globaux d'un trac√©, tels que le fond, les grilles, les axes, la police de caract√®res par d√©faut, les tailles et les couleurs.

üí° **Le nombre d'√©l√©ments peut varier en fonction de la fa√ßon dont vous les regroupez.**

## Cr√©er une figure informative {#default}

Tout d'abord, pour pouvoir utiliser les fonctionnalit√©s de `{ggplot2}`, nous devons charger le package (que nous pouvons √©galement charger via la [tidyverse package collection](https://www.tidyverse.org/)) :

La syntaxe de `{ggplot2}` est diff√©rente de celle du R de base. En accord avec les √©l√©ments de base, un ggplot par d√©faut a besoin de trois choses que vous devez sp√©cifier : les *donn√©es*, l'*esth√©tique*, et une *g√©om√©trie*. On commence toujours √† d√©finir un objet de tra√ßage en appelant `ggplot(data = df)` qui indique simplement √† `{ggplot2}` que l'on va travailler avec ces donn√©es. Dans la plupart des cas, vous voudrez tracer deux variables, l'une sur l'axe des x et l'autre sur l'axe des y. Il s'agit d'une *esth√©tique de positionnement*. Il s'agit d'une *esth√©tique positionnelle* et donc nous ajoutons `aes(x = var1, y = var2)` √† l'appel `ggplot()` (oui, le `aes()` signifie esth√©tique). Cependant, il y a aussi des cas o√π l'on doit sp√©cifier une, voire trois variables ou plus.

üí° **On sp√©cifie les donn√©es *outside* `aes()` et on ajoute les variables auxquelles ggplot associe l'esth√©tique *inside* `aes()`.**

Ici, nous indexons la variable `gdpPercap` √† la position x et la variable `lifeExp` √† la position y. Plus tard, nous affecterons √©galement des variables √† toutes sortes d'autres caract√©ristiques esth√©tiques telles que la couleur, la taille et la forme.


In [None]:
  ggplot(data = gapminder_cleaned, aes(x = gdpPercap, y = lifeExp)) 



Hm, seul un panneau est cr√©√© lors de l'ex√©cution. Pourquoi ? C'est parce que `{ggplot2}` ne sait pas *comment* nous voulons tracer ces donn√©es - nous devons encore fournir une g√©om√©trie !

`ggplot2` vous permet de stocker le `ggobject` actuel dans une variable de votre choix en l'assignant √† une variable, dans notre cas appel√©e `gapminder_plot`. Vous pouvez √©tendre ce `ggobjet` plus tard en ajoutant d'autres couches, soit en une seule fois, soit en l'assignant √† la m√™me ou √† une autre variable.

üí° **En utilisant des parenth√®ses lors de l'assignation d'un objet, l'objet sera imprim√© imm√©diatement (au lieu d'√©crire `g <- ggplot(...)` et ensuite `g` on √©crit simplement `(g <- ggplot(...))`).**.

Il y a beaucoup, beaucoup de g√©om√©tries diff√©rentes (appel√©es *geoms* parce que chaque fonction commence g√©n√©ralement par `geom_`) que l'on peut ajouter √† un ggplot par d√©faut (voir [ici](https://ggplot2.tidyverse.org/reference/) pour une liste compl√®te) et encore plus fournies par des paquets d'extension (voir [ici](https://exts.ggplot2.tidyverse.org/) pour une collection de paquets d'extension). Indiquons √† `{ggplot2}` quel style nous voulons utiliser, par exemple en ajoutant `geom_point()` pour cr√©er un nuage de points :


In [None]:
gapminder_plot <-
    ggplot(data = gapminder_cleaned, aes(x = gdpPercap, y = lifeExp)) +
  geom_point(aes(size = pop, fill = continent), shape = 21) 
  
gapminder_plot


On peut aussi combiner plusieurs couches g√©om√©triques - et c'est l√† que la magie et le plaisir commence !
On peut aussi ajuster les axes.

##### Ajuster les axes 

Ajustons l'axe "x"


In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) 


Ajustons l'axe "y"



In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) 
  


üí° **`{ggplot2}` comprend √† la fois `color` et `colour` ainsi que la version courte `col`.**

Chaque geom vient avec ses propres propri√©t√©s (appel√©es *arguments*) et le m√™me argument peut entra√Æner un changement diff√©rent selon le g√©om que vous utilisez.


In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) 


Normalisons le diam√®tre des point en fonction de lapopulation pour une meilleure visualisation.



In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) 
  


#####  Maintenant, on retir les l√©gendes pour a√©rer la figure



In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) 
  


##### rajoutons les titres des axes et retirer le fond gris



In [None]:
theme_set(theme_bw()) # Retire le fond gris


gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) 
  


##### Affichons l'ann√©e des donn√©es



In [None]:
library(ggpp)

gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) 
  
  
  


##### Affichons le nom des pays (Ici uniquement la France)



In [None]:
library(ggrepel)

gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) 
  


##### Ajustons le th√®me du graphique



In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) +
  theme(plot.margin = margin(25, 25, 10, 25),    
        plot.title = element_text(color = "#22292F", hjust = 0,                              
                                  margin = margin(b = 15),                              
                                  size = 30,                              
                                  face = "bold"
                                  )) 
  


##### Rajoutons un titre pour le graphique

`


In [None]:
gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) +
  theme(plot.margin = margin(25, 25, 10, 25),    
        plot.title = element_text(color = "#22292F", hjust = 0,                              
                                  margin = margin(b = 15),                              
                                  size = 30,                              
                                  face = "bold"
                                  )) +

  labs(title = "Esp√©rence de vie et Revenus") 


##### Affichons la l√©gende sous forme d'une carte du monde en bas √† droite et retirons ma l√©gende de gauche



In [None]:
library(countrycode)
library(ggthemes)

world <- 
  map_data("world") %>%
  filter(region != "Antarctica") %>% 
  mutate(
    continent = countrycode(sourcevar = region,
                            origin = "country.name",
                            destination = "continent"),
    continent = case_when(
      continent == "Oceania" ~ "Asia",
      TRUE ~ as.character(continent)
    ) %>% as.factor %>% 
      fct_relevel("Asia", "Americas", "Europe", "Africa")
  ) %>% 
  drop_na(continent)

head(world, 10)


continent_map <- 
    ggplot(data = world) +   
      geom_map(map = world,
               aes(long, lat, 
                   group = group, 
                   map_id = region,
                   fill = continent)) +
     theme_map() +
     # coord_map(xlim = c(-180, 180),
     #           ylim = c(-200, 200)) +
     scale_fill_manual(values = c("#F15772", "#7EEB03", "#FBE700", "#54D5E9")) +  
    guides(fill = FALSE) +  
    theme(plot.background = element_blank())


  gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) +
  theme(plot.margin = margin(25, 25, 10, 25),    
        plot.title = element_text(color = "#22292F", hjust = 0,                              
                                  margin = margin(b = 15),                              
                                  size = 30,                              
                                  face = "bold"
                                  ),
        legend.position = "none"
        ) +

  labs(title = "Esp√©rence de vie et Revenus") +
  annotate("plot_npc", npcx = "right", npcy = "bottom", label = continent_map)


##### Affichons chaque continent sur un graphe



In [None]:
library(gganimate)

gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) +
 theme(plot.margin = margin(25, 25, 10, 25),    
        plot.title = element_text(color = "#22292F", hjust = 0,                              
                                  margin = margin(b = 15),                              
                                  size = 30,                              
                                  face = "bold"
                                  ),
        legend.position = "none"
        ) +

  labs(title = "Esp√©rence de vie et Revenus") +
  annotate("plot_npc", npcx = "right", npcy = "bottom", label = continent_map) +
  facet_wrap(~ continent)

  
  
  


##### Et si on rajoutait un peu d'animation!



In [None]:
library(gganimate)


final_result <-
  gapminder_plot +
  scale_x_log10(breaks = c(500, 1000, 2000, 4000,
                           8000, 16000, 32000, 64000)) +
  scale_y_continuous(breaks = seq(0, 90, by = 10)) +
  scale_color_manual(values = c("#F15772", "#7EEB03",
                                "#FBE700", "#54D5E9")) +
  scale_size_continuous(range = c(1, 30)) +
  guides(size = FALSE, color = FALSE) +
  labs( x = "Income",    y = "Life expectancy"  ) +
  geom_text_npc(aes(label = year_label), 
                npcx = "left", npcy = "bottom", 
                size = 20, color = "#999999", alpha = .3,
                family = "Helvetica Neue"
                ) +
  geom_label_repel(aes(label = country_label), show.legend = F,
                   max.overlaps = 200) +
  theme(plot.margin = margin(25, 25, 10, 25),    
        plot.title = element_text(color = "#22292F", hjust = 0,                              
                                  margin = margin(b = 15),                              
                                  size = 30,                              
                                  face = "bold"
                                  ),
        legend.position = "none"
        ) +

  labs(title = "Esp√©rence de vie et Revenus") +
  annotate("plot_npc", npcx = "right", npcy = "bottom", label = continent_map) +
  gganimate::transition_time(year) +
  gganimate::exit_fade()

final_result


On peut modifier certaines propri√©t√©s pour les deux titres d'axe et d'autres uniquement pour l'un d'entre eux ou des propri√©t√©s pour chacun d'entre eux :


##### Enregistrer le r√©sultat final


In [None]:
library(gganimate)

anim_save("final_result.gif",
          # path = "/",
          res = 200, 
          animation = final_result,
          # fps = 25
          # fps = 10,
          width = 800, 
          height = 700
)


##### Ressources suppl√©mentaires


* ["ggplot2: Elegant Graphics for Data Analysis"](https://ggplot2-book.org/) by Hadley Wickham, available via open-access!
* ["Fundamentals of Data Visualization"](http://serialmentor.com/dataviz/) by Claus O. Wilke about data visualization in general but using `{ggplot2}`. (You can find the codes on [his GitHub profile](https://github.com/clauswilke/dataviz).)
* ["Cookbook for R"](http://www.cookbook-r.com/Graphs/)
by Winston Chang with recipes to produce R plots
* Gallery of the [Top 50 ggplot2 visualizations](http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html)
* Gallery of [`{ggplot2}` extension packages](https://exts.ggplot2.tidyverse.org/gallery/)
* [How to extend `{ggplot2}`](https://cran.r-project.org/web/packages/ggplot2/vignettes/extending-ggplot2.html) by Hadley Wickham
* The fantastic [R4DS Online Learning Community](https://www.rfordatasci.com/) that offers help and mentoring for all things related to the content of the ["R for Data Science" book](r4ds.had.co.nz/) by Hadley Wickham
* [#TidyTuesday](https://github.com/rfordatascience/tidytuesday), a weekly social data project focusing on ggplots‚Äîcheck also [#TidyTuesday on Twitter](https://twitter.com/hashtag/TidyTuesday?lang=en) and [this collection of contributions by Neil Grantham](https://nsgrantham.com/tidytuesdayrocks/)
* A two-part, 4.5-hours tutorial series by Thomas Linn Pedersen ([Part 1](https://www.youtube.com/watch?v=h29g21z0a68) | [Part 2](https://www.youtube.com/watch?v=0m4yywqNPVY))


In [None]:
sessionInfo()




</details>
