# **Analyse de données**
Objectifs
- Importer des données.
- Recherche d'éléments.

---
Comment importer nos données?
![image](../images/lesson-overview.svg)

On va travailler avec un fichier CSV (*comma-separated values*)

In [1]:
dat = read.csv(file = '../data/inflammation-01.csv', header = FALSE, stringsAsFactors = FALSE)

### Fonctions utiles pour le *data frame*.
- `head()` - Retourne les 6 premières rangées.
- `tail()` - Retourne les 6 dernières rangées.
- `dim()` - Retourne les dimensions du *data frame* (le nombre de rangées et de colonnes).
- `nrow()` - Retourne le nombre de rangées.
- `ncol()` - Retourne le nombre de colonnes.
- `str()` - Retourne le nom et type de donnée avec un résumé de chaque colonne.
- `summary()` - Résume avec mean, max, median sur les colonnes.
- `names()` or `colnames()` - Retourne les noms des attributs pour le *data frame*.
- `sapply(dataframe, class)` - Retourne la classe de chaque colonne dans le *data frame*.

In [2]:
print(class(dat))

[1] "data.frame"


In [3]:
print(head(dat))

  V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21
1  0  0  1  3  1  2  4  7  8   3   3   3  10   5   7   4   7   7  12  18   6
2  0  1  2  1  2  1  3  2  2   6  10  11   5   9   4   4   7  16   8   6  18
3  0  1  1  3  3  2  6  2  5   9   5   7   4   5   4  15   5  11   9  10  19
4  0  0  2  0  4  2  2  1  6   7  10   7   9  13   8   8  15  10  10   7  17
5  0  1  1  3  3  1  3  5  2   4   4   7   6   5   3  10   8  10   6  17   9
6  0  0  1  2  2  4  2  1  6   4   7   6   6   9   9  15   4  16  18  12  12
  V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36 V37 V38 V39 V40
1  13  11  11   7   7   4   6   8   8   4   4   5   7   3   4   2   3   0   0
2   4  12   5  12   7  11   5  11   3   3   5   4   4   5   5   1   1   0   1
3  14  12  17   7  12  11   7   4   2  10   5   4   2   2   3   2   2   1   1
4   4   4   7   6  15   6   4   9  11   3   5   6   3   3   4   2   3   2   1
5  14   9   7  13   9  12   6   7   7   9   6   3   2   2   4   2   0  

In [4]:
print(summary(dat[1:4]))

       V1          V2             V3              V4      
 Min.   :0   Min.   :0.00   Min.   :0.000   Min.   :0.00  
 1st Qu.:0   1st Qu.:0.00   1st Qu.:1.000   1st Qu.:1.00  
 Median :0   Median :0.00   Median :1.000   Median :2.00  
 Mean   :0   Mean   :0.45   Mean   :1.117   Mean   :1.75  
 3rd Qu.:0   3rd Qu.:1.00   3rd Qu.:2.000   3rd Qu.:3.00  
 Max.   :0   Max.   :1.00   Max.   :2.000   Max.   :3.00  


Recherche d'un élément par index (*slicing*).

In [None]:
print(dat[1, 1]) # Quel élément on va chercher?

On va chercher la colonne numéro 2.

In [None]:
print(dat[, 2]) # Encore plus de valeurs.

On va chercher les colonnes 6 à 9.

In [None]:
print(head(dat[, 6:9]))

On utilise la fonction `combine` c() pour rechercher des éléments non continus, rangées et colonnes.

In [None]:
print(dat[c(1, 5, 7, 9), 1:5]) # dat[c(rangée, colonne)] Ici on aura les patients 1, 5, 7 et 9 pour les journées 1 à 5.

On va chercher le nom des colonnes.

In [None]:
print(colnames(dat))

Pour faire une recherche par colonne, on peut utiliser le signe $.

In [None]:
print(dat$V1)

Savoir la classe d'une colonne.

In [None]:
print(class(dat$V1))
print(class(dat$V30))

Autre terminologie pour chercher une ou des colonnes.

In [None]:
print(head(dat[, c('V2', 'V13')]))

On peut faire une recherche par rangée.

In [None]:
print(rownames(dat))

Sélectionner une rangée.

In [None]:
print(dat[2, ])

## **Exercice-1:**
Sélectionner trois rangées spécifiques avec la fonction `combine` et l'afficher.

In [None]:
print(dat[c(15, 20, 30), ])

Rechercher pour les deux premières rangées la valeur des deux dernières colonnes et l'afficher.

In [None]:
print(dat[(c(1,2)),c(39,40)])

## **En résumé**:
On importe nos données avec `read.csv()`.

---

```R
dat = read.csv(file = '../data/inflammation-01.csv', header = TRUE, stringsAsFactors = FALSE)
```

---

On peut rechercher dans un *data frame* en utilisant:

Un index `[rangée, colonne]`:

- `dat[1, 1]`
- `dat[, 2]`
- `dat[, 6:9]`

On sélectionne avec un vecteur pour avoir des données non continues:

- `dat[c(1, 5, 7, 9), 1:5]`


On peut rechercher de l'information avec le nom de la colonne:

- `colnames(dat)` ; `dat$Age`
---