# **Analyse de données**
## Objectifs
- #### Importer des données.
- #### Recherche d'éléments.

---
## Comment importer nos données.
![image](../images/lesson-overview.svg)

#### On va travailler avec un fichier CSV (*comma-separated values*)

In [1]:
dat = read.csv(file = 'data/inflammation-01.csv', header = FALSE, stringsAsFactors = FALSE)

### Fonctions utiles pour le data frame.
- #### `head()` - retourne les 6 premières rangées
- #### `tail()` - retourne les 6 dernières rangées
- #### `dim()` - retourne les dimensions du *data frame* (le nombre de rangées et de colonnes)
- #### `nrow()` - retourne le nombre de rangées
- #### `ncol()` - retourne le nombre de colonnes
- #### `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- #### `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- #### `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [3]:
class(dat)

In [12]:
head(dat)

Unnamed: 0_level_0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,⋯,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
1,0,0,1,3,1,2,4,7,8,3,⋯,4,4,5,7,3,4,2,3,0,0
2,0,1,2,1,2,1,3,2,2,6,⋯,3,5,4,4,5,5,1,1,0,1
3,0,1,1,3,3,2,6,2,5,9,⋯,10,5,4,2,2,3,2,2,1,1
4,0,0,2,0,4,2,2,1,6,7,⋯,3,5,6,3,3,4,2,3,2,1
5,0,1,1,3,3,1,3,5,2,4,⋯,9,6,3,2,2,4,2,0,1,1
6,0,0,1,2,2,4,2,1,6,4,⋯,8,4,7,3,5,4,4,3,2,1


### Recherche d'un élément par index (*slicing*).

In [5]:
dat[1, 1] # Quel élément on va chercher?

### On va chercher la colonne numéro 2.

In [14]:
dat[, 2] # Encore plus de valeurs

### On va chercher les colonnes 6 à 9.

In [6]:
head(dat[, 6:9])

Unnamed: 0_level_0,V6,V7,V8,V9
Unnamed: 0_level_1,<int>,<int>,<int>,<int>
1,2,4,7,8
2,1,3,2,2
3,2,6,2,5
4,2,2,1,6
5,1,3,5,2
6,4,2,1,6


### On utilise la fonction combine c() pour rechercher des éléments non continus, rangées et colonnes.

In [16]:
dat[c(1, 5, 7, 9), 1:5] # dat[c(rangée, colonne)] Ici on aura les patients 1, 5, 7 et 9 pour les journées 1 à 5.

Unnamed: 0_level_0,V1,V2,V3,V4,V5
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
1,0,0,1,3,1
5,0,1,1,3,3
7,0,0,2,2,4
9,0,0,0,3,1


### On va chercher le nom des colonnes.

In [7]:
colnames(dat)

### Pour faire une recherche par colonne on peut utiliser le signe $.

In [18]:
dat$V1

### Savoir la classe d'une colonne.

In [19]:
class(dat$V1) ; class(dat$V30)

### Autre terminologie pour chercher une ou des colonnes.

In [20]:
head(dat[, c('V2', 'V13')])

Unnamed: 0_level_0,V2,V13
Unnamed: 0_level_1,<int>,<int>
1,0,10
2,1,5
3,1,4
4,0,9
5,1,6
6,0,6


### On peut faire une recherche par rangée.

In [8]:
rownames(dat)

### Sélectionner une rangée.

In [29]:
dat[2, ]

Unnamed: 0_level_0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,⋯,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
2,0,1,2,1,2,1,3,2,2,6,⋯,3,5,4,4,5,5,1,1,0,1


## **Exercice:**
### Écrire une sélection de trois rangées spécifiques avec la fonction combine.

Unnamed: 0_level_0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,⋯,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
15,0,1,2,1,1,1,4,1,5,2,⋯,8,2,5,1,3,4,2,0,2,0
20,0,1,2,0,1,4,3,2,2,7,⋯,6,6,6,1,1,2,4,3,1,1
30,0,0,0,1,4,4,6,3,8,6,⋯,6,9,5,5,2,5,2,1,0,1


## **En résumé**:
### On importe nos données avec `read.csv()`.

In [None]:
dat = read.csv(file = 'data/inflammation-01.csv', header = TRUE, stringsAsFactors = FALSE)

### On peut rechercher dans un data frame en utilisant:
#### Un index [rangée, colonne]:
- #### dat[1, 1]
- #### dat[, 2]
- #### dat[, 6:9]
### On sélectionne avec un vecteur pour avoir des données non continues:
- #### dat[c(1, 5, 7, 9), 1:5]
### On peut rechercher de l'information avec le nom de la colonne:
- #### colnames(dat) ; dat$Age
---