# **Analyse de données**
## Objectifs
- #### Importer des données.
- #### Recherche d'éléments.

---
## Comment importer nos données.

#### On va travailler avec un fichier CSV (*comma separated values*)

In [1]:
dat = read.csv(file = 'data/sample.csv', header = TRUE, stringsAsFactors = FALSE)

### Fonctions utiles pour le data frame.
- #### `head()` - retourne les 6 premières rangées
- #### `tail()` - retourne les 6 dernières rangées
- #### `dim()` - retourne les dimentions du *data frame* (le nombre de rangée et de colonne)
- #### `nrow()` - retourne le nombre de rangée
- #### `ncol()` - retourne le nombre de colonne
- #### `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- #### `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- #### `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [5]:
class(dat)

In [10]:
str(dat)

'data.frame':	100 obs. of  9 variables:
 $ ID           : chr  "Sub001" "Sub002" "Sub003" "Sub004" ...
 $ Gender       : chr  "m" "m" "m" "f" ...
 $ Group        : chr  "Control" "Treatment2" "Treatment2" "Treatment1" ...
 $ BloodPressure: int  132 139 130 105 125 112 173 108 131 129 ...
 $ Age          : num  16 17.2 19.5 15.7 19.9 14.3 17.7 19.8 19.4 18.8 ...
 $ Aneurisms_q1 : int  114 148 196 199 188 260 135 216 117 188 ...
 $ Aneurisms_q2 : int  140 209 251 140 120 266 98 238 215 144 ...
 $ Aneurisms_q3 : int  202 248 122 233 222 320 154 279 181 192 ...
 $ Aneurisms_q4 : int  237 248 177 220 228 294 245 251 272 185 ...


In [11]:
head(dat)

Unnamed: 0_level_0,ID,Gender,Group,BloodPressure,Age,Aneurisms_q1,Aneurisms_q2,Aneurisms_q3,Aneurisms_q4
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<int>,<dbl>,<int>,<int>,<int>,<int>
1,Sub001,m,Control,132,16.0,114,140,202,237
2,Sub002,m,Treatment2,139,17.2,148,209,248,248
3,Sub003,m,Treatment2,130,19.5,196,251,122,177
4,Sub004,f,Treatment1,105,15.7,199,140,233,220
5,Sub005,m,Treatment1,125,19.9,188,120,222,228
6,Sub006,M,Treatment2,112,14.3,260,266,320,294


### Recherche d'un élément par index (*slicing*).

In [12]:
dat[1, 1] # Quel élément on va chercher?

### On va chercher la colonne numéro 2.

In [13]:
dat[, 2] # Encore plus de valeurs

### On va chercher les colonnes 6 à 9.

In [14]:
dat[, 6:9]

Aneurisms_q1,Aneurisms_q2,Aneurisms_q3,Aneurisms_q4
<int>,<int>,<int>,<int>
114,140,202,237
148,209,248,248
196,251,122,177
199,140,233,220
188,120,222,228
260,266,320,294
135,98,154,245
216,238,279,251
117,215,181,272
188,144,192,185


### On utilise la fonction combine c() pour rechercher des éléments non continu, rangées et colonnes.

In [15]:
dat[c(1, 5, 7, 9), 1:5] # dat[c(rangée, colonne)]

Unnamed: 0_level_0,ID,Gender,Group,BloodPressure,Age
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<int>,<dbl>
1,Sub001,m,Control,132,16.0
5,Sub005,m,Treatment1,125,19.9
7,Sub007,f,Control,173,17.7
9,Sub009,m,Treatment2,131,19.4


### On va chercher le nom des colonnes.

In [16]:
colnames(dat)

### Pour faire une recherche par colonne on peut utiliser le signe $.

In [17]:
dat$Age

### Savoir la classe d'une colonne.

In [19]:
class(dat$Gender) ; class(dat$BloodPressure)

### Autre terminologie pour chercher une ou des colonnes.

In [20]:
head(dat[, c('Age', 'Gender')])

Unnamed: 0_level_0,Age,Gender
Unnamed: 0_level_1,<dbl>,<chr>
1,16.0,m
2,17.2,m
3,19.5,m
4,15.7,f
5,19.9,m
6,14.3,M


### On peut rechercher par rangée.

In [22]:
rownames(dat)

In [23]:
dat2 <- read.csv(file = 'data/sample.csv', header = TRUE, stringsAsFactors = FALSE, row.names=1)
rownames(dat2)

### Sélectionner une rangée.

In [24]:
dat2["Sub072", ]

Unnamed: 0_level_0,Gender,Group,BloodPressure,Age,Aneurisms_q1,Aneurisms_q2,Aneurisms_q3,Aneurisms_q4
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<int>,<int>,<int>,<int>
Sub072,m,Control,116,17.4,118,165,220,227


### Sélectionner plusieurs rangées.

In [25]:
dat2[c("Sub009", "Sub072"), ]

Unnamed: 0_level_0,Gender,Group,BloodPressure,Age,Aneurisms_q1,Aneurisms_q2,Aneurisms_q3,Aneurisms_q4
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<int>,<int>,<int>,<int>
Sub009,m,Treatment2,131,19.4,117,215,181,272
Sub072,m,Control,116,17.4,118,165,220,227


### Les noms de la rangée doit être unique.

In [26]:
dat2 <- read.csv(file = 'data/sample.csv', header = TRUE, stringsAsFactors = FALSE, row.names=3)

ERROR: Error in read.table(file = file, header = header, sep = sep, quote = quote, : la duplication de 'row.names' est interdite


---
## En résumé:

### On importe nos données avec `read.csv()`.

In [None]:
dat = read.csv(file = 'data/sample.csv', header = TRUE, stringsAsFactors = FALSE)

### On peut rechercher dans un dataframe en utilisant:
#### Un index [rangée, colonne]:
- #### dat[1, 1]
- #### dat[, 2]
- #### dat[, 6:9]
### On sélectionne avec un vecteur pour avoir des données non continues:
- #### dat[c(1, 5, 7, 9), 1:5]
### On peut rechercher de l'inforamtion avec le nom de la colonne:
- #### colnames(dat) ; dat$Age
---