<h1 style="text-align:center;">"dplyr" en R</h1>


<u>**Author</u> :** [Younes Dahami](https://www.linkedin.com/in/dahami/)

La librairie `dplyr` en R est un ensemble d'outils conçus pour simplifier et accélérer la manipulation de données tabulaires. Elle fournit un ensemble cohérent de fonctions pour effectuer des opérations telles que le filtrage, le tri, la sélection de colonnes, la création de nouvelles variables calculées, le regroupement de données et la réalisation d'opérations par groupe. `dplyr` se distingue par sa syntaxe claire et concise, ce qui en fait un choix privilégié pour travailler efficacement avec des données dans R.


## Introduction
La manière la plus intuitive de manipuler nos données est d'utiliser les fonctions du package **dplyr**, qui est téléchargé et installé dans R (comme tous les packages). La "manipulation" de nos données fait référence au choix d'un sous-ensemble des variables et/ou des observations dans notre ensemble de données, ainsi qu'au filtrage (sélection des observations en fonction de leurs valeurs de variable), à la création de nouvelles variables, et plus encore. 

## 1) Fonctions de dplyr

Le package `dplyr` comporte de nombreuses fonctions, chacune conçue pour accomplir une tâche spécifique dans la manipulation des données. Les principales sont : **select()**, **filter()**, **arrange()**, **mutate()** et **summarize()**. On couvrira toutes ces fonctions, ainsi que d'autres fonctions telles que **group_by()**, **spread()**, **gather()**, **separate()** et **unite()**. Comme pour tous les packages, on doit d'abord charger le package une fois qu'il a été installé.

In [6]:
#install.packages("dplyr")

In [7]:
library(dplyr)

### 1.1) Sélectionner, filtrer et ordonner

Les fonctions `select()`, `filter()` et `arrange()` gèrent les opérations habituelles de sous-ensemble. On passera en revue chacune d'entre elles dans l'ordre.

La fonction **select()** est utilisée pour inclure ou exclure les variables choisies (colonnes) de l'ensemble de données, ainsi que pour réorganiser l'ordre des variables. La syntaxe est la suivante

`select(ensemble_de_données, variable_1, variable_2, ...)`

où l'argument "ensemble_de_données" est l'endroit où vous spécifiez le nom de l'objet qui représente l'ensemble de données d'intérêt, et "variable_1", "variable_2",... sont les arguments où on spécifie le nom des variables/colonnes qu'on souhaite inclure ou supprimer (pour supprimer la variable, on commence le nom par un -) dans l'ordre dans lequel on souhaite qu'elles apparaissent dans l'ensemble de données. Il n'y a pas de limite (je crois) au nombre de variables qui peuvent être référencées. on peut référencer une collection ordonnée de variables (ordonnées de gauche à droite dans l'ensemble de données) en utilisant `variable_i:variable_j` comme argument dans la fonction, où "variable_i" est le nom de la première variable et "variable_j" est le nom de la dernière. Cette idée fonctionne également avec -. Enfin, contrairement au sous-ensemble dans Base R, on peut référencer des variables à inclure et à supprimer (avec un -) dans un seul appel de fonction `select()`.

La fonction **filter()** est utilisée pour réduire l'ensemble de données à un sous-ensemble d'observations en fonction d'un ensemble de critères pour leurs valeurs de variable. La syntaxe est la suivante

`filter(ensemble_de_données, critère_1, critère_2, ...)`

où les arguments "critère_1", "critère_2",... sont l'endroit où on spécifie les conditions nécessaires pour qu'une observation soit incluse. Notez que ce sont des conditions **ET**, ce qui signifie qu'une observation doit satisfaire tous les critères fournis pour être incluse et des conditions **OU** où une observation doit satisfaire au moins l'un des critères fournis. Explorons plus en détail une condition **ET** et une condition **OU**, ainsi que les déclarations logiques en général.

En R, une **déclaration logique** est un opérateur qui renvoie la valeur `TRUE`, `FALSE` ou `NA` (manquante). Ce sont des conditions où si la condition est remplie, TRUE est renvoyé, sinon FALSE est renvoyé, et si la variable dans la condition est manquante NA est renvoyée. Les opérateurs conditionnels incluent > (supérieur à), < (inférieur à), égal (==), >= (supérieur ou égal à), <= (inférieur ou égal à), et ! (non). Considérons les exemples simples suivants.


In [14]:
# lire un dataframe 
data <- read.csv(file = "AOSI_small.csv", na.strings = c(".", " "))

# voir toute la dataset
data

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,HR_ASD,PHI,Male,,,12.7,3.0
5,HR_neg,PHI,Male,6.8,6.0,,
6,HR_neg,PHI,Male,,,12.1,4.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
9,HR_neg,PHI,Male,,,12.4,1.0
10,HR_ASD,PHI,Male,,,12.2,7.0


In [15]:
# les colonnes
names(data)

In [16]:
# selectionner ID et Group uniquemet
select(.data = data, Identifiers, GROUP)

Identifiers,GROUP
<int>,<chr>
1,HR_ASD
2,HR_ASD
3,HR_ASD
4,HR_ASD
5,HR_neg
6,HR_neg
7,HR_ASD
8,HR_ASD
9,HR_neg
10,HR_ASD


In [18]:
# enlever 'gender' et 'Study_Site'
select(data, -Gender, -Study_Site)

Identifiers,GROUP,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<dbl>,<int>,<dbl>,<int>
1,HR_ASD,7.1,8.0,12.5,3.0
2,HR_ASD,6.1,18.0,12.4,10.0
3,HR_ASD,6.6,4.0,12.9,2.0
4,HR_ASD,,,12.7,3.0
5,HR_neg,6.8,6.0,,
6,HR_neg,,,12.1,4.0
7,HR_ASD,6.2,16.0,12.3,4.0
8,HR_ASD,6.2,10.0,12.2,14.0
9,HR_neg,,,12.4,1.0
10,HR_ASD,,,12.2,7.0


In [19]:
# Ne sélectionner que les observations avec un diagnostic de ASD
filter(data, GROUP == "HR_ASD")

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2
4,HR_ASD,PHI,Male,,,12.7,3
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14
10,HR_ASD,PHI,Male,,,12.2,7


In [22]:
# Ne sélectionner que les observations avec un diagnostic de ASD et un score total d'au moins 10 à la visite du mois 6
filter(data, (GROUP == "HR_ASD") & (V06.aosi.total_score_1_18>=10))

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
2,HR_ASD,PHI,Male,6.1,18,12.4,10
7,HR_ASD,PHI,Male,6.2,16,12.3,4
8,HR_ASD,PHI,Male,6.2,10,12.2,14


In [25]:
# Ne sélectionner que les observations féminines
filter(data, Gender == "Female") # L'ensemble de données retourné est vide, nous n'avons que des sujets masculins

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>


Enfin, la fonction **arrange()** est utilisée pour réorganiser les observations dans l'ensemble de données en fonction de variables spécifiques. La syntaxe de la fonction est `arrange(ensemble_de_données, variable1, variable2, ...)` où variable1, variable2, ... sont les variables que l'on souhaite utiliser pour le réordonnancement. Simplement en mentionnant le nom de la variable, l'ensemble de données sera trié par valeurs croissantes de la variable. Pour utiliser un ordre décroissant, on utilise `desc(variable)` à la place.


In [26]:
# age croissant
arrange(.data = data, GROUP, V12.aosi.Candidate_Age)

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
10,HR_ASD,PHI,Male,,,12.2,7.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
4,HR_ASD,PHI,Male,,,12.7,3.0
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
6,HR_neg,PHI,Male,,,12.1,4.0
9,HR_neg,PHI,Male,,,12.4,1.0
5,HR_neg,PHI,Male,6.8,6.0,,


In [27]:
# age décroissant
arrange(data, GROUP, desc(V12.aosi.Candidate_Age))

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,HR_ASD,PHI,Male,,,12.7,3.0
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
10,HR_ASD,PHI,Male,,,12.2,7.0
9,HR_neg,PHI,Male,,,12.4,1.0
6,HR_neg,PHI,Male,,,12.1,4.0
5,HR_neg,PHI,Male,6.8,6.0,,


In [28]:
# groupe décroissant, notez que R utilise l'ordre alphabétique lorsque des variables de caractères sont utilisées
arrange(data, desc(GROUP))

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
5,HR_neg,PHI,Male,6.8,6.0,,
6,HR_neg,PHI,Male,,,12.1,4.0
9,HR_neg,PHI,Male,,,12.4,1.0
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,HR_ASD,PHI,Male,,,12.7,3.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
10,HR_ASD,PHI,Male,,,12.2,7.0


### 1.2) Muter et résumer

Les fonctions **mutate()** et **summarize()** sont utilisées pour créer de nouvelles variables à ajouter à l'ensemble de données. Tout d'abord, on couvre `mutate()`. La syntaxe de cette fonction est lorsqu'elle est utilisée avec le pipe : 
`mutate(ensemble_de_données, variable1, variable2, ...)` où variable1, variable2, ... sont les définitions des variables que l'on souhaite ajouter. Elles seront calculées pour chaque observation dans l'ensemble de données. On considère un ensemble de données IBIS d'enfants à haut risque (HR) avec des informations sur Vineland, Mullen et AOSI.

Supposons qu'on veuille créer les variables suivantes :
* 1) une variable contenant le score standard composite moyen de Mullen de chaque enfant à travers les 4 visites dans l'ensemble de données

* 2) une variable indiquant si le site de la visite se trouve sur la côte est, le Midwest ou la côte ouest des États-Unis. On peut facilement le faire en utilisant `mutate()`, comme illustré ci-dessous :


In [None]:
# Créer un ensemble de données uniquement pour les enfants HR
data_HR <- read.csv('Cross-sec_full.csv', na.strings = c(".", " "))
data_HR <- filter(data_HR, V24.demographics.Risk == "HR")


In [30]:
names(data_HR)

In [32]:
unique(data_HR$Study_Site)

In [40]:
# Créer des variables en utilisant mutate()
data_HR <- mutate(data_HR, 
                 Mullen_mean = (data_HR$"V36.mullen.composite_standard_score"+data_HR$"V24.mullen.composite_standard_score"+data_HR$"V06.mullen.composite_standard_score"+data_HR$"V12.mullen.composite_standard_score")/4,
                 Site_location = factor(ifelse(data_HR$Study_Site == "PHI" | data_HR$Study_Site == "UNC", "East_Coast",
                                              ifelse(data_HR$Study_Site == "STL", "Midwest", "West_Coast"))))

head(data_HR)

Unnamed: 0_level_0,Identifiers,SSM_ASD_v24,V24.demographics.Risk,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V12.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.total_score_1_18,⋯,V36.mullen.cognitive_t_score_sum,V24.mullen.cognitive_t_score_sum,V06.mullen.cognitive_t_score_sum,V12.mullen.cognitive_t_score_sum,V36.mullen.composite_standard_score,V24.mullen.composite_standard_score,V06.mullen.composite_standard_score,V12.mullen.composite_standard_score,Mullen_mean,Site_location
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<fct>
1,1,YES_ASD,HR,HR_ASD,PHI,Male,7.1,12.5,8.0,3.0,⋯,153,123,179.0,172.0,77,65,90.0,86.0,79.5,East_Coast
2,2,YES_ASD,HR,HR_ASD,PHI,Male,6.1,12.4,18.0,10.0,⋯,110,124,170.0,124.0,59,65,85.0,65.0,68.5,East_Coast
3,3,YES_ASD,HR,HR_ASD,PHI,Male,6.6,12.9,4.0,2.0,⋯,117,134,183.0,219.0,62,69,92.0,110.0,83.25,East_Coast
4,4,YES_ASD,HR,HR_ASD,PHI,Male,,12.7,,3.0,⋯,152,107,,219.0,77,58,,110.0,,East_Coast
5,5,NO_ASD,HR,HR_neg,PHI,Male,6.8,,6.0,,⋯,226,173,226.0,,113,87,113.0,,,East_Coast
6,6,NO_ASD,HR,HR_neg,PHI,Male,,12.1,,4.0,⋯,184,196,,155.0,92,98,,78.0,,East_Coast


In [44]:
table(data_HR$Study_Site, data_HR$Site_location)

     
      East_Coast Midwest West_Coast
  PHI        149       0          0
  SEA          0       0        152
  STL          0     145          0
  UNC        141       0          0

Dans l'exemple ci-dessus, on remarquera l'utilisation de la fonction **ifelse()**. En utilisant cette fonction, on peut créer une série de commandes if...else pour que R exécute des morceaux de code en fonction de critères spécifiés. La syntaxe de ifelse() est `ifelse(condition, action, else)` où **condition** est une déclaration logique à tester (c'est-à-dire que cette condition doit retourner TRUE ou FALSE), **action** est la commande que R exécutera si la condition est TRUE, et **else** est la commande que R exécutera si la condition est FALSE. Comme on peut le voir dans l'exemple ci-dessus, on peut créer une série de commandes if...else en enchaînant les appels à ifelse() en définissant l'argument else à un autre appel à ifelse(). La chaîne de ifelse utilisée dans l'exemple ci-dessus est interprétée comme suit.

1) Si le site est "UNC" ou le site est "PHI", on définira la valeur de la variable `Site_Location` sur "East_Coast"

2) Sinon, si le site est "STL", on définira la valeur de la variable `Site_Location` sur "Midwest"

3) Sinon, si 1) et 2) ne sont pas vrais, on définira la valeur de la variable `Site_Location` sur "West_Coast" (puisque le site doit alors être SEA)

Assurons-nous de suivre les valeurs manquantes; dans notre exemple, il n'y a pas de valeurs manquantes pour le site, donc ce n'était pas une préoccupation. S'il y avait des valeurs manquantes pour le site, la variable `Site_Location` serait définie sur "West_Coast" et non NA comme désiré.

La fonction **summarize()** est utilisée pour réduire un ensemble de données à un ensemble de statistiques descriptives choisies telles que la moyenne, la taille de l'échantillon, l'écart type, etc. La syntaxe est `summarize(ensemble_de_données, variable1, variable2, ...)` où variable1, variable2, ... sont les définitions des statistiques descriptives que l'on souhaite calculer.

Par exemple, supposons dans l'ensemble de données AOSI, on veut créer un ensemble de données contenant les valeurs moyennes du score total au mois 6 et au mois 12. Cela peut être fait en utilisant `summarize()` :


In [50]:
data_aosi <- read.csv("cross-sec_aosi.csv", na.strings = c(".", " "))
head(data_aosi)

Unnamed: 0_level_0,Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,4,HR_ASD,PHI,Male,,,12.7,3.0
5,5,HR_neg,PHI,Male,6.8,6.0,,
6,6,HR_neg,PHI,Male,,,12.1,4.0


In [51]:
names(data_aosi)

In [52]:
summarise(data_aosi,
          sample_size = n(),
          mean_aosi_ts_v6 = mean(V06.aosi.total_score_1_18),
         mean_aosi_ts_v12 = mean(V12.aosi.total_score_1_18))

sample_size,mean_aosi_ts_v6,mean_aosi_ts_v12
<int>,<dbl>,<dbl>
587,,


Cette fonction devient beaucoup plus utile lorsqu'elle est combinée avec la fonction **group_by()**. En appelant `group_by()` sur l'ensemble de données avant d'utiliser `summarize()`, R incorporera les groupes créés dans les calculs ; après avoir appelé `group_by()`, bien que les données puissent sembler les mêmes pour nous, R a marqué les observations comme étant regroupées en arrière-plan. Répétons l'exemple ci-dessus, mais d'abord groupons par genre et diagnostic :


In [56]:
# Remarquons dans la fenêtre d'environnement, cet objet est marqué comme de type 'grouped_'
data_aosi_grouped <- group_by(data_aosi, Gender, GROUP)
summarize(data_aosi_grouped,
         sample_size = n(),
         mean_aosi_ts_V6=mean(V06.aosi.total_score_1_18),
         mean_aosi_ts_V12=mean(V12.aosi.total_score_1_18))

[1m[22m`summarise()` has grouped output by 'Gender'. You can override using the `.groups` argument.


Gender,GROUP,sample_size,mean_aosi_ts_V6,mean_aosi_ts_V12
<chr>,<chr>,<int>,<dbl>,<dbl>
Female,HR_ASD,20,,
Female,HR_neg,145,,
Female,LR_ASD,1,6.0,5.0
Female,LR_neg,69,,
Male,HR_ASD,75,,
Male,HR_neg,173,,
Male,LR_ASD,2,8.0,3.0
Male,LR_neg,102,,


On peut voir que les statistiques sommaires sont calculées pour chaque groupe spécifié. Il existe de nombreuses statistiques sommaires qui peuvent être calculées à l'aide de la fonction `summarise()`, notons qu'en raison de valeurs manquantes, certaines des moyennes sont NA (cela peut être modifié en ajoutant `na.omit=TRUE` comme arguments aux appels à `mean()`. Pour une liste de certaines de ces statistiques et comment les implémenter, on utilise `?summarise`.


In [60]:
# 'groub_by' 'summarise' en ulisant pipe : control+shift+M '%>%'
data_aosi %>% 
        group_by(Gender, GROUP) %>% 
        summarise(ample_size = n(),
                 mean_aosi_ts_V6=mean(V06.aosi.total_score_1_18),
                 mean_aosi_ts_V12=mean(V12.aosi.total_score_1_18))

[1m[22m`summarise()` has grouped output by 'Gender'. You can override using the `.groups` argument.


Gender,GROUP,ample_size,mean_aosi_ts_V6,mean_aosi_ts_V12
<chr>,<chr>,<int>,<dbl>,<dbl>
Female,HR_ASD,20,,
Female,HR_neg,145,,
Female,LR_ASD,1,6.0,5.0
Female,LR_neg,69,,
Male,HR_ASD,75,,
Male,HR_neg,173,,
Male,LR_ASD,2,8.0,3.0
Male,LR_neg,102,,


### 1.3) Étaler, Rassembler, Séparer et Unir

Le package `dplyr` a également des fonctions utilisées pour transformer les dimensions de nos données, par exemple en passant de large à long. Rappelons-nous que l'ensemble de données complet contient des données sur les enfants pour plusieurs points dans le temps. Ainsi, il sera essentiel pour certaines analyses d'avoir les données sous forme longue ou sous forme large. Les fonctions **spread()**, **gather()**, **separate()**, et **unite()** peuvent être utilisées pour effectuer ces transformations. Montrons les quatre fonctions à travers un exemple. Pour plus d'explications sur ces fonctions, veuillez consulter ["spreading andgathering"](https://r4ds.had.co.nz/tidy-data.html#spreading-and-gathering) et ["Separating and uniting"](https://r4ds.had.co.nz/tidy-data.html#separating-and-uniting) du livre excellent de Hadley Wickham, R for Data Science.

Considérons l'ensemble de données `AOSI_small.csv`. Rappelon-nous, nous avons précédemment chargé cet ensemble de données dans R et l'avons enregistré sous le nom `data`. Cet ensemble de données contient l'âge de l'enfant et le score total AOSI à 6 mois et à 12 mois et est sous forme "large" (1 ligne par enfant). Transformons cela en forme "longue" (plusieurs lignes par sujet).

In [61]:
data

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,HR_ASD,PHI,Male,,,12.7,3.0
5,HR_neg,PHI,Male,6.8,6.0,,
6,HR_neg,PHI,Male,,,12.1,4.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
9,HR_neg,PHI,Male,,,12.4,1.0
10,HR_ASD,PHI,Male,,,12.2,7.0


Tout d'abord, on extrait les noms de variables qui représentent les mesures répétées (âge et score total AOSI) pour les enfants :

In [65]:
variables_to_convert <- names(data)[5:8]
variables_to_convert

Ensuite, on force chaque variable à être sa propre ligne, en créant deux nouvelles variables :

1) `variable` qui contient le nom de la variable

2) `var_value` avec la valeur de la variable.

Cela se fait en utilisant **gather()**. Avec `gather()`, d'abord, on génère un nouveau nom de variable qui contient l'ancienne variable, ensuite on spécifie le nouveau nom de variable qui contient la valeur de l'ancienne variable, et enfin on spécifie les noms des anciennes variables. Remarquons l'utilisation de **%>%** dans le code suivant. Ce symbole est appelé le **pipe** et est utilisé pour connecter différentes lignes ensemble, au lieu d'écrire et de sauvegarder chaque ligne comme un objet séparé pour ensuite être écrasé.

In [74]:
data

Identifiers,GROUP,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,HR_ASD,PHI,Male,,,12.7,3.0
5,HR_neg,PHI,Male,6.8,6.0,,
6,HR_neg,PHI,Male,,,12.1,4.0
7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
9,HR_neg,PHI,Male,,,12.4,1.0
10,HR_ASD,PHI,Male,,,12.2,7.0


In [73]:
# tidybverse
library(tidyr)

# Rassemblement
data %>% 
    gather(variable, var_value, variables_to_convert)

Identifiers,GROUP,Study_Site,Gender,variable,var_value
<int>,<chr>,<chr>,<chr>,<chr>,<dbl>
1,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,7.1
2,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,6.1
3,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,6.6
4,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,
5,HR_neg,PHI,Male,V06.aosi.Candidate_Age,6.8
6,HR_neg,PHI,Male,V06.aosi.Candidate_Age,
7,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,6.2
8,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,6.2
9,HR_neg,PHI,Male,V06.aosi.Candidate_Age,
10,HR_ASD,PHI,Male,V06.aosi.Candidate_Age,


Ensuite, on divise la `variable` en deux nouvelles variables :

1) `Visit` contient la visite 

2) `Variable` contient la variable à cette visite. 

Cela se fait en utilisant **separate()**. Avec `separate()`, d'abord, on spécifie la variable que l'on sépare, ensuite on spécifie les noms des nouvelles variables créées à partir de la séparation, et enfin on spécifie où dans l'ancienne variable on veut séparer (ici, on sépare après le 3ème caractère, donc `sep = 3`) :

In [76]:
library(tidyr)
data %>% 
    # Rassemblement
    gather(variable, var_value, variables_to_convert) %>% 
    # Séparation de 'variable'
    separate(variable, c("Visit", "Variable"), sep = 3)

Identifiers,GROUP,Study_Site,Gender,Visit,Variable,var_value
<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>
1,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,7.1
2,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,6.1
3,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,6.6
4,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,
5,HR_neg,PHI,Male,V06,.aosi.Candidate_Age,6.8
6,HR_neg,PHI,Male,V06,.aosi.Candidate_Age,
7,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,6.2
8,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,6.2
9,HR_neg,PHI,Male,V06,.aosi.Candidate_Age,
10,HR_ASD,PHI,Male,V06,.aosi.Candidate_Age,


Enfin, on force les variables index non-visite à être des colonnes séparées au lieu d'une seule colonne de noms de variables. Cela se fait en utilisant **spread()**. Avec `spread()`, d'abord, on spécifie la liste des variables (`key =`) et ensuite on spécifie la liste des valeurs de ces variables (`value=`) :

In [77]:
library(tidyr)

data %>%
    # Rassemblemnt
    gather(variable, var_value, variables_to_convert) %>% 
    # Séparation
    separate(variable, c("Visit", "Variable"), sep =3) %>% 
    # Etalement
    spread(key = Variable, value =  var_value)

Identifiers,GROUP,Study_Site,Gender,Visit,.aosi.Candidate_Age,.aosi.total_score_1_18
<int>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>
1,HR_ASD,PHI,Male,V06,7.1,8.0
1,HR_ASD,PHI,Male,V12,12.5,3.0
2,HR_ASD,PHI,Male,V06,6.1,18.0
2,HR_ASD,PHI,Male,V12,12.4,10.0
3,HR_ASD,PHI,Male,V06,6.6,4.0
3,HR_ASD,PHI,Male,V12,12.9,2.0
4,HR_ASD,PHI,Male,V06,,
4,HR_ASD,PHI,Male,V12,12.7,3.0
5,HR_neg,PHI,Male,V06,6.8,6.0
5,HR_neg,PHI,Male,V12,,


### 1.4) Renommer les variables

La dernière fonction dans `dplyr` que l'on discute est **rename()**, utilisée pour renommer les variables. La syntaxe de cette fonction est `rename(data, nouveau_nom_variable1=ancien_nom_variable1, nouveau_nom_variable2=ancien_nom_variable2, ...)`. Voyons l'exemple ci-dessous où les variables `Identifiers` et `GROUP` de diagnostic sont renommées :

In [79]:
rename_exp <- read.csv("cross-sec_aosi.csv", na.strings = c(".", " ")) %>% 
    rename(ID = Identifiers, Diagnosis_group = GROUP)

# print the first 10 rows
rename_exp[1:10,]

Unnamed: 0_level_0,ID,Diagnosis_group,Study_Site,Gender,V06.aosi.Candidate_Age,V06.aosi.total_score_1_18,V12.aosi.Candidate_Age,V12.aosi.total_score_1_18
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<dbl>,<int>,<dbl>,<int>
1,1,HR_ASD,PHI,Male,7.1,8.0,12.5,3.0
2,2,HR_ASD,PHI,Male,6.1,18.0,12.4,10.0
3,3,HR_ASD,PHI,Male,6.6,4.0,12.9,2.0
4,4,HR_ASD,PHI,Male,,,12.7,3.0
5,5,HR_neg,PHI,Male,6.8,6.0,,
6,6,HR_neg,PHI,Male,,,12.1,4.0
7,7,HR_ASD,PHI,Male,6.2,16.0,12.3,4.0
8,8,HR_ASD,PHI,Male,6.2,10.0,12.2,14.0
9,9,HR_neg,PHI,Male,,,12.4,1.0
10,10,HR_ASD,PHI,Male,,,12.2,7.0


Enfin, on nettoie le format des variables en utilisant les fonctions discutées précédemment (`arrange()`, (`mutate()`,...etc). On sauvegarde ce nouvel ensemble de données transformé sous le nom `long_data` :

In [80]:
library(tidyr)

long_data <- data %>%
    # Rassemblemnt
    gather(variable, var_value, variables_to_convert) %>%
    # Séparation
    separate(variable,c("Visit","Variable"),sep = 3) %>% 
    # Etalement
    spread(key = Variable, value = var_value) %>%
    # Renomer les colonnes
    plyr::rename(c(".aosi.Candidate_Age" = "AOSI_Age",
                 ".aosi.total_score_1_18"="AOSI_Total_Score")) %>%
    # Créer une nouvelle colonne 'ASD_Diag'
    mutate(ASD_Diag = factor(ifelse(grepl("ASD", GROUP), "ASD_Neg", "ASD_Pos")),
         Visit = factor(Visit)) %>%
    # Ordonner selon les colonnes 'Identifiers' et 'Visit'
    arrange(Identifiers, Visit)

long_data

Identifiers,GROUP,Study_Site,Gender,Visit,AOSI_Age,AOSI_Total_Score,ASD_Diag
<int>,<chr>,<chr>,<chr>,<fct>,<dbl>,<dbl>,<fct>
1,HR_ASD,PHI,Male,V06,7.1,8.0,ASD_Neg
1,HR_ASD,PHI,Male,V12,12.5,3.0,ASD_Neg
2,HR_ASD,PHI,Male,V06,6.1,18.0,ASD_Neg
2,HR_ASD,PHI,Male,V12,12.4,10.0,ASD_Neg
3,HR_ASD,PHI,Male,V06,6.6,4.0,ASD_Neg
3,HR_ASD,PHI,Male,V12,12.9,2.0,ASD_Neg
4,HR_ASD,PHI,Male,V06,,,ASD_Neg
4,HR_ASD,PHI,Male,V12,12.7,3.0,ASD_Neg
5,HR_neg,PHI,Male,V06,6.8,6.0,ASD_Pos
5,HR_neg,PHI,Male,V12,,,ASD_Pos


## 2) Utilisation du pipe

Toutes ces fonctions dans `dplyr` peuvent être utilisées en combinaison efficacement en utilisant l'**opérateur pipe**. L'idée du pipe est très simple : au lieu d'écrire chaque nouvelle transformation de données comme une nouvelle ligne et de sauvegarder chaque transformation précédente comme un objet pour ensuite l'écraser, le pipe vous permet de connecter toutes les étapes ensemble en une seule ligne.

L'opérateur pipe est représenté par **%>%**. De nombreuses fonctions peuvent être connectées en utilisant le pipe, y compris toutes les fonctions du package `dplyr` décrites ci-dessus ainsi que la plupart des autres fonctions qu'on utilise dans R lors de la lecture et de la manipulation des données.

Par exemple, revisitons le calcul des scores moyens AOSI par genre et site. Auparavant, cela nécessitait plusieurs lignes de code R, y compris la création d'une forme distincte de l'ensemble de données en tant qu'objet R dans lequel l'ensemble de données était regroupé par genre et site. Faisons cet exemple en utilisant l'opérateur pipe, vu ci-dessous. On peut voir que c'est essentiellement le même code qu'auparavant, avec les premiers arguments de chaque fonction supprimés et chaque ligne connectée par l'opérateur %>%. Le premier argument est supprimé parce qu'en connectant les appels de fonction avec %>%, le résultat de la fonction précédente est transmis dans le premier argument de la prochaine fonction par %>%. Ainsi, **toute fonction dont le premier argument est un ensemble de données R peut être utilisée avec l'opérateur pipe.** Remarquons également qu'aucun objet intermédiaire n'a besoin d'être sauvegardé.


In [81]:
data_aosi %>% 
  group_by(Gender, GROUP) %>% 
  summarise(sample_size = n(), mean_aosi_ts_V6 = mean(V06.aosi.total_score_1_18), mean_aosi_ts_V12 = mean(V12.aosi.total_score_1_18))

[1m[22m`summarise()` has grouped output by 'Gender'. You can override using the `.groups` argument.


Gender,GROUP,sample_size,mean_aosi_ts_V6,mean_aosi_ts_V12
<chr>,<chr>,<int>,<dbl>,<dbl>
Female,HR_ASD,20,,
Female,HR_neg,145,,
Female,LR_ASD,1,6.0,5.0
Female,LR_neg,69,,
Male,HR_ASD,75,,
Male,HR_neg,173,,
Male,LR_ASD,2,8.0,3.0
Male,LR_neg,102,,


En conséquence, l'utilisation de l'opérateur pipe rend notre code plus efficace (en termes de mémoire dans votre ordinateur et de la quantité de code utilisée) et lisible. En fait, on peut même éviter de sauvegarder complètement l'ensemble de données data_aosi et écrire notre code de la manière suivante :


In [83]:
read.csv("cross-sec_aosi.csv", na.strings = c(".", " ")) %>% 
  group_by(Gender, GROUP) %>% 
  summarise(sample_size = n(), mean_aosi_ts_V6 = mean(V06.aosi.total_score_1_18), mean_aosi_ts_V12 = mean(V12.aosi.total_score_1_18))

[1m[22m`summarise()` has grouped output by 'Gender'. You can override using the `.groups` argument.


Gender,GROUP,sample_size,mean_aosi_ts_V6,mean_aosi_ts_V12
<chr>,<chr>,<int>,<dbl>,<dbl>
Female,HR_ASD,20,,
Female,HR_neg,145,,
Female,LR_ASD,1,6.0,5.0
Female,LR_neg,69,,
Male,HR_ASD,75,,
Male,HR_neg,173,,
Male,LR_ASD,2,8.0,3.0
Male,LR_neg,102,,


En conséquence, aucun objet n'est enregistré dans R, ce qui rend ce code très efficace si on ne prévoie pas d'utiliser l'ensemble de données `data_aosi` pour d'autres analyses.

Si on souhaite enregistrer les résultats de ce code en tant que nouvel ensemble de données, on utilisez simplement `data_nouvelle<- ...` comme d'habitude pour enregistrer la sortie en tant qu'objet de données dans R nommé new_data. Cela souligne comment R est un langage et possède des règles fondamentales qui permettent à nos instructions d'être comprises par le logiciel. Si on comprend ces règles et propriétés, on peut les appliquer de manière générale et comprendre comment R fonctionne en sous-surface. Cette connaissance nous permet d'aller au-delà de la mémorisation de commandes et d'exemples spécifiques, en fournissant la capacité d'apprendre continuellement de nouvelles techniques en R.

In [84]:
data_nouvelle <-
read.csv("cross-sec_aosi.csv", na.strings = c(".", " ")) %>% 
  group_by(Gender, GROUP) %>% 
  summarise(sample_size = n(), mean_aosi_ts_V6 = mean(V06.aosi.total_score_1_18), mean_aosi_ts_V12 = mean(V12.aosi.total_score_1_18)) 

data_nouvelle

[1m[22m`summarise()` has grouped output by 'Gender'. You can override using the `.groups` argument.


Gender,GROUP,sample_size,mean_aosi_ts_V6,mean_aosi_ts_V12
<chr>,<chr>,<int>,<dbl>,<dbl>
Female,HR_ASD,20,,
Female,HR_neg,145,,
Female,LR_ASD,1,6.0,5.0
Female,LR_neg,69,,
Male,HR_ASD,75,,
Male,HR_neg,173,,
Male,LR_ASD,2,8.0,3.0
Male,LR_neg,102,,


## 3) Modification des variables factorielles : recode() et relevel()

Rappelons-nous que les variables catégorielles sont appelées variables **factorielles** en R. Chaque variable factorielle inclut également un ensemble de **niveaux** qui est un vecteur contenant les étiquettes de groupe, dans un ordre spécifique. Souvent, on voudra soit : 

1) changer ces niveaux de groupe,
2) changer l'ordre de ces niveaux de groupe.

Changer les niveaux peut être fait facilement avec la fonction **fct_recode()** (`fct_recode()`) et changer l'ordre peut être fait facilement avec la fonction **fct_relevel()** (`fct_relevel()`). Ces fonctions se trouvent en fait dans le package `forcats`.

Pour utiliser `fct_recode()`, le premier argument est le vecteur de la variable factorielle, puis on spécifie la valeur ancienne et la nouvelle valeur désirée pour les niveaux de groupe que l'on souhaite changer en utilisant **nouveau"="ancien** où "ancien" est l'ancien niveau et "nouveau" est le nouveau niveau. On sépare ensuite chaque changement de niveau par des virgules. On prend les données AOSI et change `HR_neg` en `HR_NoASD` et `LR_neg` en `LR_NoASD`ci-dessous. Notez que l'on imprime uniquement les 10 premières observations :


In [86]:
library(forcats)

In [88]:
# changer les noms donnés aux classes de GROUP
fct_recode(data_aosi$GROUP, "HR_NoASD" ="HR_neg", "LR_NoASD"= "LR_neg")[1:10]

Pour changer définitivement la variable `GROUP` dans l'ensemble de données, on peut utiliser le pipe. Puisqu'on modifie la variable, on doit en fait utiliser `mutate()` pour que R écrase l'ancienne variable `GROUP` :

In [92]:
data_aosi_2 <- data_aosi %>% 
    mutate(GROUP = fct_recode(GROUP, "HR_NoASD" ="HR_neg", "LR_NoASD"= "LR_neg"))

data_aosi_2$GROUP[1:10]

Maintenant, on réarrange ces niveaux en utilisant **fct_relevel**. Notons que cela **NE CHANGE PAS** les valeurs réelles de la variable dans les données, simplement l'ordre que R considère lors de l'utilisation de ces niveaux de groupe. Cet ordre est important lors du tri de l'ensemble de données, de la création de graphiques, de l'exécution d'analyses de régression linéaire et ANOVA, et dans d'autres contextes. Pour utiliser `fct_relevel()`, le premier argument est le vecteur de la variable factorielle, puis on liste les niveaux dans l'ordre croissant en utilisant des chaînes de caractères. Par exemple, en utilisant les nouveaux niveaux de groupe de `fct_recode`, on change l'ordre des étiquettes de groupe de diagnostic pour commencer à risque bas `LR`: Négatif et finir à risque haut `HR`: ASD :


In [97]:
fct_relevel(data_aosi_2$GROUP, "LR_NoASD", "LR_ASD", "HR_NoASD", "HR_ASD")[1:10]

Remarquons la ligne 'Levels'.

Pour changer définitivement la variable dans l'ensemble de données, on a encore besoin d'utiliser `mutate()` et on peut utiliser le pipe pour un code plus propre :


In [99]:
data_aosi_3 <- data_aosi_2 %>% 
  mutate(GROUP = fct_relevel(GROUP, "LR_NoASD", "LR_ASD", "HR_NoASD", "HR_ASD"))

data_aosi_3$GROUP[1:10]

On constate le même résultat obtenu avant.