# **Chapitre 4 : Manipulation et transformation de Data Frames**

Entrons maintenant dans le vif du sujet, à savoir la manipulation de données tabulaires. C'est le format le plus communément rencontré, et un des moyens de les représenter sur R est le Data Frame.

## **1. Importer des données**

Nous allons voir comment importer des données au format CSV, à l'aide d'une extraction du recrutement géographique de l'hôpital Bicêtre en 2018, disponible sur le site de [cartographie de l'ATIH](http://cartographie.atih.sante.fr). R possède de base plusieurs fonctions prévues à cet effet; commençons par essayer `read.csv()`, dont le nom semble convenir à ce que nous souhaitons faire. Nous afficherons ensuite les 6 premières lignes du tableau à l'aide de la fonction `head()`.

In [2]:
data <- read.csv("donnees/2018_bicetre.csv")
print(head(data))

                                              Cartographie.PMSI...
1 Référentiel géographique : France par code géographique PMSI; ; 
2          Code;Libellé;Séjours PMSI MCO au lieu de résidence 2018
3                                        01000;BOURG-EN-BRESSE;N/A
4                                    01090;MONTMERLE-SUR-SAÔNE;N/A
5                                                01100;OYONNAX;N/A
6                                   01110;PLATEAU D'HAUTEVILLE;N/A


Les données ont bien été importées, mais pas elles n'ont pas vraiment la forme que l'on souhaite. En regardant de plus près les données, on s'aperçoit de plusieurs choses :

* Les différentes colonnes sont séparées par des **points-virgules** (au lieu de virgules)
* Le titre des colonnes n'est qu'à la **3e ligne** (au lieu de la première ligne)
* Les données manquantes sont signalées par la châine de caractères **"N/A"**

On en conclut donc que notre CSV est au format français (+ quelques autres pays), c'est-à-dire séparation des colonnes par des points-virgules et séparation de la partie décimale des nombres par une virgule (au lieu d'un point). On va donc pouvoir relancer la fonction `read.csv()` avec des **arguments** différents afin de prendre tout cela en compte.

## **_Interlude : les fonctions_**

Depuis le début nous utilisons des fonctions (vous aurez remarqué que je les suffixe toujours de parenthèses sous la forme `fonction()`) sans vraiment savoir ce qu'elles sont. Très simplement, une fonction est un **ensemble de commandes prédéfinies** qui seront exécutées lorsque cette fonction sera appelée. Il existe un grand nombre de **fonctions toutes faites fournies par R** officiellement (les "built-in functions"), et bien plus encore qui sont partagées par la communauté des développeurs R sous la forme de ce qu'on appelle des **librairies** (ou des packages). On peut également en créer nous-mêmes pour automatiser des tâches répétitives, et la syntaxe est la suivante :

* **Nom de la fonction** : dans R, les fonctions sont également des objets, et on peut donc les stocker dans des variables comme on l'a fait précédemment pour des chiffres, des vecteurs, etc.
* **Arguments** : lorsque l'on appelle une fonction, on lui fournit (optionnellement) des objets, qui seront stockés dans des variables fictives qu'on appelle les arguments, et qui seront utilisées dans le corps de la fonction
* **Corps de la fonction** : ensemble des commandes prédéfinies, qui font usage des arguments
* **Objet à retourner** : une fonction prend des objets en entrée, et retourne des objets en sortie. Par défaut, une fonction retourne le résultat de la dernière commande du corps de la fonction, mais on peut aussi explicitement retourner ce que l'on souhaite en spécifiant la fonction `return()`

Tout sera plus clair avec un exemple; définissons une fonction `somme()` qui prend entrée deux arguments et qui retourne leur somme (lancez la cellule suivante afin d'instancier la fonction) :

In [26]:
somme <- function(x, y = 3) {
    resultat <- x + y
    return(resultat)
}

Vous aurez remarqué que dans la déclaration des arguments, nous avons attribué une valeur à `y` (mais pas à `x`). C'est ce qu'on appelle une valeur par défaut; nous allons revenir rapidement dessus. Maintenant que nous avons défini notre fonction, lançons la cellule suivante pour la tester dans plusieurs situations :

In [31]:
print(somme(2, 5))
print(somme(2))
print(somme(x=2))
print(somme(y=5))

[1] 7
[1] 5
[1] 5


ERROR: Error in somme(y = 5): argument "x" is missing, with no default


Analysons les réponses de nos quatre appels à la fonction `somme()` :

* Dans le premier cas, on a appelé la fonction avec comme arguments `x = 2` et `y = 5`, et le résultat est donc bien `2 + 5 = 7`
* Dans le deuxième cas, la fonction n'a été appelée qu'avec un seul argument. Il a automatiquement été associé à `x`, et comme **nous avions défini par défaut** `y = 3`, la fonction nous retourne donc `x + y = 2 + 3 = 5`
* Dans le troisième cas, on a fait exactement pareil qu'au dessus; on a juste déclaré explicitement que 2 devait être attribué à `x`
* Dans le dernier cas, nous avons appelé la fonction avec une valeur pour `y`. Cependant, nous n'avions **pas défini de valeur par défaut** pour `x` quand nous avons créé la fonction, et R retourne alors une erreur qui nous le signale.

Maintenant vous en savez suffisamment sur les fonctions et leurs arguments pour reprendre où nous en étions restés !

## **1bis. Mieux importer des données**

On avait donc réussi à importer les données dans l'environnement R avec la fonction `read.csv()`, mais il faudrait prendre en compte quelques particularités pour qu'elles aient la bonne forme :

* Les différentes colonnes sont séparées par des **points-virgules** (au lieu de virgules)
* Le titre des colonnes n'est qu'à la **3e ligne** (au lieu de la première ligne); nous avons donc 2 lignes inutiles
* Les données manquantes sont signalées par la châine de caractères **"N/A"**

**Exercice** On va donc réessayer avec `read.csv()`, mais cette fois en précisant quelques **arguments** pour l'aider. À vous de jouer en complétant l'appel à la fonction ci-dessous :

In [1]:
data <- read.csv(
    file = # ici le chemin vers le fichier CSV à importer, 
    sep = # ici le caractère qui sépare les colonnes dans le fichier CSV,
    na.strings = # ici le caractère qui signale les données manquantes, 
    skip = # ici le nombre de lignes en haut du fichier à sauter, 
    stringsAsFactors = FALSE
)

print(head(data))

In [98]:
# Pour la solution, décommentez la ligne suivante (retirez le "#") :
source("solutions/04_data-frames_import.R", echo=TRUE)


> data <- read.csv(file = "donnees/2018_bicetre.csv", 
+     sep = ";", na.strings = "N/A", skip = 2, stringsAsFactors = FALSE)

> print(head(data))
   Code                     Libellé Séjours.PMSI.MCO.au.lieu.de.résidence.2018
1 01000             BOURG-EN-BRESSE                                         NA
2 01090         MONTMERLE-SUR-SAÔNE                                         NA
3 01100                     OYONNAX                                         NA
4 01110        PLATEAU D'HAUTEVILLE                                         NA
5 01120                    MONTLUEL                                         NA
6 01140 SAINT-DIDIER-SUR-CHALARONNE                                         NA


Si tout s'est bien passé, les six premières lignes de nos données devraient maintenant ressembler à ça :

       Code                     Libellé Séjours.PMSI.MCO.au.lieu.de.résidence.2018
    1 01000             BOURG-EN-BRESSE                                         NA
    2 01090         MONTMERLE-SUR-SAÔNE                                         NA
    3 01100                     OYONNAX                                         NA
    4 01110        PLATEAU D'HAUTEVILLE                                         NA
    5 01120                    MONTLUEL                                         NA
    6 01140 SAINT-DIDIER-SUR-CHALARONNE                                         NA
    
C'est déjà mieux ! On a donc une colonne `Code` qui représente le code géographique PMSI, une deuxième colonne `Libellé` qui représente le nom de la commune et une troisième colonne `Séjours.PMSI.MCO.au.lieu.de.résidence.2018` assez explicite.

## **2. Mieux afficher les Data Frames**

On a vu qu'on pouvait afficher le contenu d'une variable dans la console à l'aide de la fonction `print()`. C'est en général suffisant lorsque les données sont uni-dimensionnelles comme un vecteur ou un texte, mais dans le cas de données tabulaires, ça devient vite austère et maladroit. Pour pallier à cela, selon l'environnement de développement (IDE) que vous utilisez, il y a :

* **RStudio** : la fonction `View()` permet d'ouvrir un Data Frame dans un tableau
* **Jupyter** : il suffit d'enlever la fonction `print()` et d'appeler directement le Data Frame *(on pourrait d'ailleurs en faire de même pour afficher les vecteurs, mais je préfère garder la fonction `print()` dans ces cas là pour un rendu plus consistent qu'avec RStudio)*

Voyons voir ce que ça donne dans Jupyter :

In [12]:
head(data)

Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
<chr>,<chr>,<int>
1000,BOURG-EN-BRESSE,
1090,MONTMERLE-SUR-SAÔNE,
1100,OYONNAX,
1110,PLATEAU D'HAUTEVILLE,
1120,MONTLUEL,
1140,SAINT-DIDIER-SUR-CHALARONNE,


Le format est déjà plus sympathique, une ligne nous affiche la taille du tableau au format `nb_lignes x nb_colonnes`, et en dessous de chaque nom de colonne nous avons le type des données contenues dans la colonne (ici, `<chr>` pour character et `<int>` pour integer). Voyons voir maintenant avec l'ensemble des données :

In [11]:
data

Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
<chr>,<chr>,<int>
01000,BOURG-EN-BRESSE,
01090,MONTMERLE-SUR-SAÔNE,
01100,OYONNAX,
01110,PLATEAU D'HAUTEVILLE,
01120,MONTLUEL,
01140,SAINT-DIDIER-SUR-CHALARONNE,
01150,LAGNIEU,
01160,PONT-D'AIN,
01170,GEX,
01190,PONT-DE-VAUX,


On a donc 5646 lignes, correspondant chacune à une commune. Ça fait beaucoup, mais on se rend vite compte que la majorité d'entre elles n'a pas de donnée pour la colonne `Séjours.PMSI.MCO.au.lieu.de.résidence.2018`, soit parce que les chiffres ne sont pas disponibles (secret statistique, faille dans le recueil), soit parce que l'hôpital de Bicêtre ne traite aucun habitant de ces communes. Comment faire pour retirer tout ce bruit et ne se focaliser que sur les parties du Data Frame qui nous intéressent ?

## **3. Accéder aux éléments d'un Data Frame**

On a vu précédemment qu'on utilisait les crochets `[]` pour accéder aux éléments d'un vecteur. Par exemple `x[4]` permet d'accéder au 4e élément du vecteur `x`. Pour un Data Frame, on peut également utiliser les crochets, mais cette fois-ci avec une virgule pour séparer les deux dimensions : `[,]`. Voyons ça tout de suite avec l'exemple ci-dessous :

In [23]:
# Pour plus de clarté, nous n'allons travailler ici qu'avec la "tête" du tableau
small_data <- head(data)
small_data

Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
<chr>,<chr>,<int>
1000,BOURG-EN-BRESSE,
1090,MONTMERLE-SUR-SAÔNE,
1100,OYONNAX,
1110,PLATEAU D'HAUTEVILLE,
1120,MONTLUEL,
1140,SAINT-DIDIER-SUR-CHALARONNE,


### **3.1 Indices**

* Si je veux afficher le contenu de la case qui se trouve sur la 3e ligne et la 2e colonne, je vais donc écrire `data[3, 2]`.

In [24]:
# 3e ligne et 2e colonne
print(small_data[3, 2])

[1] "OYONNAX"


* Si je veux afficher la 3e ligne en entier, je peux laisser la deuxième dimension vide :

In [25]:
# 3e ligne
print(small_data[3, ])

   Code Libellé Séjours.PMSI.MCO.au.lieu.de.résidence.2018
3 01100 OYONNAX                                         NA


* Même chose pour la colonne :

In [26]:
# 2e colonne
print(small_data[, 2])

[1] "BOURG-EN-BRESSE"             "MONTMERLE-SUR-SAÔNE"        
[3] "OYONNAX"                     "PLATEAU D'HAUTEVILLE"       
[5] "MONTLUEL"                    "SAINT-DIDIER-SUR-CHALARONNE"


* Il est possible de sélectionner par le nom de colonne :

In [40]:
# colonne "Libellé"
print(small_data[, "Libellé"])

[1] "BOURG-EN-BRESSE"             "MONTMERLE-SUR-SAÔNE"        
[3] "OYONNAX"                     "PLATEAU D'HAUTEVILLE"       
[5] "MONTLUEL"                    "SAINT-DIDIER-SUR-CHALARONNE"


* Je peux également sélectionner plusieurs indice à l'aide de **vecteurs** :

In [31]:
# lignes 1, 3, 4 et colonnes 1, 2
print(small_data[c(1, 3, 4), c(1, 2)])

   Code              Libellé
1 01000      BOURG-EN-BRESSE
3 01100              OYONNAX
4 01110 PLATEAU D'HAUTEVILLE


* Dont la notation `c(x:y)`, qui permet de créer un vecteur avec des chiffres allant de `x` jusqu'à `y` compris :

In [34]:
# lignes 2, 3, 4, 5
print(small_data[c(2:5), ])

   Code              Libellé Séjours.PMSI.MCO.au.lieu.de.résidence.2018
2 01090  MONTMERLE-SUR-SAÔNE                                         NA
3 01100              OYONNAX                                         NA
4 01110 PLATEAU D'HAUTEVILLE                                         NA
5 01120             MONTLUEL                                         NA


### **3.2 Booléens**

Comme pour les vecteurs, on peut aussi accéder aux valeurs d'un Data Frame par des vecteurs de booléens :

In [39]:
print(small_data[, c(TRUE, TRUE, FALSE)])

   Code                     Libellé
1 01000             BOURG-EN-BRESSE
2 01090         MONTMERLE-SUR-SAÔNE
3 01100                     OYONNAX
4 01110        PLATEAU D'HAUTEVILLE
5 01120                    MONTLUEL
6 01140 SAINT-DIDIER-SUR-CHALARONNE


Cette méthode de sélection peut paraître un peu rébarbative comme ça, mais elle est en réalité très utile pour appliquer des **filtres conditionnels** à nos Data Frames. Admettons que l'on veuille sélectionner la ligne dont le `Libellé` est `"OYONNAX"`. La première étape est de créer un vecteur de booléens de même longueur que le nombre de lignes de notre Data Frame, avec des `TRUE` quand la condition est remplie :

In [41]:
filtre_lignes <- (small_data[, "Libellé"] == "OYONNAX")
print(filtre_lignes)

[1] FALSE FALSE  TRUE FALSE FALSE FALSE


Avec cette commande, R a effectué les étapes suivantes :

* Comparaison de tous les éléments de la colonne `Libellé` (qui est un vecteur) à la chaîne de caractères `"OYONNAX"`
* Création d'un vecteur de même longueur, avec `TRUE` si la valeur correspond, `FALSE` sinon
* Stockage dans la variable `filtre_lignes`

*PS : les parenthèses autour de `(small_data[, "Libellé"] == "OYONNAX")` sont optionnelles, et servent ici à délimiter les conditions pour plus de clarté; elles prendront tout leur sens lorsque nous verrons les conditions composées.*

Il ne nous reste plus qu'à appliquer le filtre que nous avons créé :

In [81]:
small_data[filtre_lignes, ]

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
Unnamed: 0_level_1,<chr>,<chr>,<int>
3,1100,OYONNAX,


**Exercice** Dans la cellule ci-après, à partir des données complètes (`data` et non plus `small_data`) :

* Sélectionnez les lignes ne contenant pas de données manquantes. Pour cela, vous aurez besoin de la fonction `complete.cases()`, qui prend en argument un Data Frame et qui retourne un vecteur de booléens avec des `TRUE` quand la ligne est complète et `FALSE` sinon.
* N'affichez que la "tête" du Data Frame (les 6 premières lignes)

In [99]:
# Pour la solution, décommentez la ligne suivante (retirez le "#") :
# source("solutions/04_data-frames_donnees-manquantes.R", echo=TRUE)

Et voilà, maintenant vous possédez les bases requises pour faire des requêtes simples sur les données. On peut combiner plusieurs **opérateurs logiques** pour faire des filtres conditionnels de plus en plus complexes. Quelques exemples ci-dessous :

In [77]:
# Ici j'utilise la fonction substr() qui dans mon cas me renvoie une châine de caractères
# correspondant aux lettres situées entre la 1ère et la 5e pour chaque élément de la
# colonne Libellé.

condition_1 <- complete.cases(data)
condition_2 <- (substr(data[, "Libellé"], 1, 5) == "SAINT")

data[condition_1 & condition_2, ]

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
Unnamed: 0_level_1,<chr>,<chr>,<int>
60,02100,SAINT-QUENTIN,12
652,14170,SAINT-PIERRE-EN-AUGE,13
1289,27180,SAINT-SÉBASTIEN-DE-MORSENT,23
1292,27220,SAINT-ANDRÉ-DE-L'EURE,15
1381,28480,SAINTIGNY,12
2387,45140,SAINT-JEAN-DE-LA-RUELLE,12
3420,60850,SAINT-GERMER-DE-FLY,11
4506,77310,SAINT-FARGEAU-PONTHIERRY,85
4538,77650,SAINTE-COLOMBE,12
4540,77670,SAINT-MAMMÈS,22


In [66]:
# Ici on remarquera que j'ai regroupé entre parenthèses l'opération logique entre la condition_2
# et la condition_3 : je veux que les codes géographiques commencent par "94" OU "95", mais dans 
# deux cas je veux que la condition_1 soit vérifiée

condition_1 <- complete.cases(data)
condition_2 <- (substr(data[, "Code"], 1, 2) == "94")
condition_3 <- (substr(data[, "Code"], 1, 2) == "92")

data[condition_1 & (condition_2 | condition_3), ]

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
Unnamed: 0_level_1,<chr>,<chr>,<int>
5343,92000,NANTERRE,117
5344,92100,BOULOGNE-BILLANCOURT,167
5345,92110,CLICHY,41
5346,92120,MONTROUGE,242
5347,92130,ISSY-LES-MOULINEAUX,121
5348,92140,CLAMART,317
5349,92150,SURESNES,49
5350,92160,ANTONY,456
5351,92170,VANVES,75
5352,92190,MEUDON,201


In [71]:
# Ici j'utilise la fonction sum() pour faire la somme des éléments situés
# dans la 3e colonne de mon Data Frame, et dont les lignes correspondent aux
# critères définis par ma condition_1 ET ma condition_2

condition_1 <- complete.cases(data)
condition_2 <- (substr(data[, "Code"], 1, 2) == "94")

nb_sejours_94 <- sum(data[condition_1 & condition_2, 3])
print(nb_sejours_94)

[1] 31633


### **3.3 Autres méthodes**

Il existe d'autres méthodes très populaires de requêter des données dans un Data Frame, que je ne mentionnerai que brièvement ici pour ne pas trop embrouiller votre esprit car elles opèrent dans une logique un peu différente :

* L'opérateur `$` : on peut appeler directement une colonne par son nom (sans les guillemets) avec la syntaxe `dataframe$nom_de_la_colonne`
* La fonction `subset()`
* Les fonctions de la librairie `dplyr`, qui sont des fonctions qui ont été développées par Hadley Wickham et la communauté R, afin notamment de créer une syntaxe plus verbeuse et plus proche du language parlé

## **4. Créer de nouvelles colonnes**

En général, il est de bonne pratique de ne pas toucher aux données d'origine pour pouvoir y revenir si besoin, et plutôt de créer de nouvelles colonnes à partir de celles d'origine si l'on veut apporter des modifications. Voyons le cas le plus simple, et créons une colonne remplie de `1` que l'on appellera `"uno"` :

In [91]:
data_complet <- data[complete.cases(data), ] # ici je ne garde que les lignes sans données manquantes

data_complet[, "uno"] <- 1
head(data_complet)

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018,uno,tre
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<dbl>
60,2100,SAINT-QUENTIN,12,1,3
77,2300,CHAUNY,14,1,3
87,2400,CHÂTEAU-THIERRY,17,1,3
225,6000,NICE,15,1,3
327,8000,CHARLEVILLE-MÉZIÈRES,15,1,3
392,10000,TROYES,17,1,3


Il m'a suffit de requêter une colonne qui n'existait pas encore, et d'y assigner la valeur `1`. R a fait deux choses automatiquement :

* Aucune colonne n'existait au nom de `"uno"`, et R en a donc créé une nouvelle
* Normalement on aurait dû assigner un vecteur de la taille du nombre de ligne du Data Frame à cette nouvelle colonne. R a remarquait que ce n'était pas le cas, et a donc répliqué la valeur dans toutes les lignes

Et maintenant, créons une colonne `"tre"` qui vaut trois fois la valeur de la colonne `"uno"` :

In [92]:
data_complet[, "tre"] <- 3 * data_complet[, "uno"]
head(data_complet)

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018,uno,tre
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<dbl>
60,2100,SAINT-QUENTIN,12,1,3
77,2300,CHAUNY,14,1,3
87,2400,CHÂTEAU-THIERRY,17,1,3
225,6000,NICE,15,1,3
327,8000,CHARLEVILLE-MÉZIÈRES,15,1,3
392,10000,TROYES,17,1,3


## **5. Fonctions utiles pour mieux connaître nos Data Frames**

Il existe une multitude de fonctions de bases très utiles pour afficher des informations sur les Data Frames :

* `nrow()` et `ncol()` : affichent respectivement le nombre de lignes et le nombre de colonnes

In [101]:
print(nrow(data))
print(ncol(data))

[1] 5646
[1] 3


* `colnames()` : affiche un vecteur avec le nom des colonnes

In [109]:
print(colnames(data))

[1] "Code"                                      
[2] "Libellé"                                   
[3] "Séjours.PMSI.MCO.au.lieu.de.résidence.2018"


* `head()` et `tail()` : affichent respectivement les 6 premières et les 6 dernières lignes

In [110]:
tail(data)

Unnamed: 0_level_0,Code,Libellé,Séjours.PMSI.MCO.au.lieu.de.résidence.2018
Unnamed: 0_level_1,<chr>,<chr>,<int>
5641,9F030,MTSAMBORO,
5642,9F040,SADA,
5643,9F050,BANDRABOUA,
5644,9F060,DEMBENI,
5645,9F070,OUANGANI,
5646,9F080,TSINGONI,


* `str()` : affiche la structure du Data Frame, dont le nom et type des différentes colonnes

In [104]:
str(data)

'data.frame':	5646 obs. of  3 variables:
 $ Code                                      : chr  "01000" "01090" "01100" "01110" ...
 $ Libellé                                   : chr  "BOURG-EN-BRESSE" "MONTMERLE-SUR-SAÔNE" "OYONNAX" "PLATEAU D'HAUTEVILLE" ...
 $ Séjours.PMSI.MCO.au.lieu.de.résidence.2018: int  NA NA NA NA NA NA NA NA NA NA ...


* `summary()` : affiche des statistiques de base sur chaque colonne, comme les valeurs min/max/moy et le nombre de données manquantes pour les colonnes numériques

In [108]:
summary(data)

     Code             Libellé         
 Length:5646        Length:5646       
 Class :character   Class :character  
 Mode  :character   Mode  :character  
                                      
                                      
                                      
                                      
 Séjours.PMSI.MCO.au.lieu.de.résidence.2018
 Min.   :  11.0                            
 1st Qu.:  16.0                            
 Median :  32.0                            
 Mean   : 117.9                            
 3rd Qu.:  65.0                            
 Max.   :5781.0                            
 NA's   :5165                              

[Retour au sommaire](00_master.ipynb) <br>
Cours précédent : [Opérations et manipulations de vecteurs](03_vectors.ipynb)