# **Chapitre 2 : Types d'objets et de données**
    NGUYEN Dinh-Phong
    DIM HuPS, Hôpital Bicêtre, AP-HP
    
Comme on a pu le voir précédemment, lorsqu'on programme on utilise ce qu'on appelle des **variables** pour stocker diverses informations, via l'opérateur `<-`. Ces variables ne sont rien d'autre que des espaces de mémoire dans lequels on peut stocker des **objets R**, dont les plus fréquemment rencontrés sont :

* les **Vectors**
* les **Lists**
* les **Matrices**
* les **Arrays**
* les **Factors**
* les **Data Frames**

Ces objets représentent différentes manières de stocker des données. Ces dernières peuvent être de différentes natures, regroupées dans ce que l'on appelle des **types de données** :

* **Numeric** (les chiffres et nombres) qui regroupe les sous-types suivants :
    * *Integer* (les entiers naturels) : `23L, 5L, 0L`
    * *Single* et *Double* (les nombres décimaux) : `23.0, 12.5, 0.2334` (par défaut, R convertit les chiffres/nombres au format *Double*)
* **Character** (le texte, toujours entre guillemets) : `"Hello", "TRUE", "123", "3 quarts"`
* **Locical** (les booléens) : `TRUE`, `FALSE`
* **Complex** (les nombres complexes) : `33 + 3i`
* +/- **Raw** (stockage en hexadécimal)

Certains objets ne peuvent stocker que des données du même type, comme les _vectors_ et les _matrices_, d'autres permettent de stocker des données de plusieurs types différents, comme les _lists_ et les _Data Frames_. Le tableau suivant résume ces informations pour les objets les plus utilisés en pratique :
    
| Dimensions | Type unique | Types multiples |
| --- | --- | --- |
| <b>1-dimension</b> | <b>Vector</b> <br> ![vector](./images/02_vector.png)| <b>List</b> <br> ![list](./images/02_list.png) |
| <b>2-dimensions</b> | <b>Matrix</b> <br> ![vector](./images/02_matrix.png) | <b>Data Frame</b> <br> ![list](./images/02_dataframe.png) |

## **1. Vectors**

Les **vecteurs** sont les objets les plus basiques de R, et correspondent à un ensemble de valeurs du même **type de données**. À partir de ces vecteurs, on va pouvoir construire tous les autres objets R.

Pour créer un nouveau vecteur, on utilise la fonction `c()` (pour *combine*) comme suit :

In [20]:
x <- c("pbr", "bct", "abc")

Plusieurs fonctions utiles permettent de décrire le contenu d'un vecteur (mais aussi des autres objets) :

* `print()` : affiche le contenu de l'objet
* `is.vector()` : affiche TRUE si l'objet est un vector, FALSE sinon
* `typeof()` : affiche le type des données contenues dans l'objet (ou la nature de l'objet, si plusieurs types)
* `length()` : affiche le nombre d'éléments dans l'objet

In [26]:
print(x)

[1] "pbr" "bct" "abc"


In [27]:
is.vector(x)

In [29]:
typeof(x)

In [34]:
length(x)

**Exercice**

Dans la cellule ci-dessous, créez un nouveau vecteur contenant les chiffres `26`, `88` et `1` et assignez le à la variable `y`. <br> Aidez-vous ensuite des fonctions que l'on vient de voir afin de décrire le contenu de `y`. <br> Vous pouvez écrire toutes les commandes dans la même cellule (il suffit d'aller à la ligne entre chaque commande) ou créer une nouvelle cellule pour chaque commande (en cliquant sur le bouton ➕ de la barre de navigation de Jupyter).

In [36]:
# Pour la solution, décommentez la ligne suivante (retirez le "#") :
# source("solutions/02_types_vectors.R", echo=TRUE)

## **2. Lists**

Les listes sont des objets pouvant contenir des éléments de plusieurs types, voire même d'autres objets. Ils sont créés à l'aide de la fonction `list()`

In [37]:
hopital <- list("Ambroise Paré", 92)
print(hopital)

[[1]]
[1] "Ambroise Paré"

[[2]]
[1] 92



On peut également attribuer un nom aux éléments d'une liste de la manière suivante :

In [40]:
hopital <- list(nom = "Ambroise Paré", département = 92)
print(hopital)

$nom
[1] "Ambroise Paré"

$département
[1] 92



*NB : les curieu·x·ses qui auront essayé la fonction `is.vector()` sur une liste se demanderont pourquoi la console affiche `TRUE`. Sans rentrer dans les détails, R considère en effet les listes comme des vecteurs spéciaux.*

## **3. Matrices**

Les matrices permettent de stocker des données bi-dimensionnelles (ou "rectangulaires") du même type. Ils sont créés à l'aide de la fonction `matrix()`

In [58]:
# Ici, on précise nrow = 4 pour que R force la matrice à avoir 4 rangées
z <- matrix(c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4), nrow = 4)
print(z)

     [,1] [,2] [,3] [,4]
[1,]    1    1    1    1
[2,]    2    2    2    2
[3,]    3    3    3    3
[4,]    4    4    4    4


## **4. Data Frames**

Les Data Frames permettent de stocker des données bi-dimensionnelles (ou "rectangulaires") de différents types. C'est l'objet qui se rapproche le plus d'une feuille Excel, et donc ce que l'on va utiliser le plus souvent en analyse de données classique. On peut assimiler un Data Frame à une liste de vecteurs de même longueur, et on le crée avec la fonction `data.frame()` comme suit :

In [72]:
patients <- data.frame(
    NIP = c("1237383859", "1727583930", "2839593024", "4436759938"),
    nom = c("Dupont", "Dupond", "Du Pont", "Dup Hon"),
    age = c(12, 45, 96, 34),
    vivant = c(TRUE, TRUE, FALSE, TRUE),
    stringsAsFactors = FALSE
)
print(patients)

         NIP     nom age vivant
1 1237383859  Dupont  12   TRUE
2 1727583930  Dupond  45   TRUE
3 2839593024 Du Pont  96  FALSE
4 4436759938 Dup Hon  34   TRUE


On remarquera deux particularités dans la commande ci-dessus :

* La **syntaxe** : on aurait pu taper la commande qui a servi à créer le Data Frame `patients` sur une seule ligne, mais on se rend bien compte que ça serait vite devenu illisible. Moyennant le respect de certaines règles, chacun·e est libre d'écrire du code comme il lui plait, mais il existe des conventions qui permettent d'harmoniser les pratiques et favoriser la compréhension de la lecture du code. Ici par exemple, on retourne à la ligne et on incrémente d'un `Tab` à chaque nouvel argument de la fonction.
* `stringsAsFactors = FALSE` : cet argument impose au Data Frame de laisser les colonnes de type `character` telles quelles, au lieu de les convertir en `Factors`. Nous verrons plus tard ce que cela implique, mais pour l'instant considérons qu'il faille inclure `stringsAsFactors=  FALSE` à chaque fois que l'on crée un Data Frame.

**Exercice**

Complétez la cellule ci-dessous pour créer un Data Frame à partir des vecteurs déjà créés.

In [None]:
nda <- c("290022559", "290499339", "289449003")
nom <- c("Martin", "Marre Tain", "Mahrtain")
duree_sejour <- c(34, 2, 85)

simpa <- data.frame(
    # Compléter ce qui manque ici entre les parenthèses
)
print(simpa)

In [84]:
# Pour la solution, décommentez la ligne suivante (retirez le "#") :
# source("solutions/02_types_dataframes.R", echo=TRUE)

[Retour au sommaire](00_master.ipynb) <br>
Cours précédent : [Introduction et premiers pas](01_intro.ipynb) <br>
Cours suivant : [Opérations et manipulations de vecteurs](03_vectors.ipynb)