# **Analyse de données**
Objectifs
- Importer des données.
- Recherche d'éléments.

---
Comment importer nos données.
![image](../images/lesson-overview.svg)

On va travailler avec un fichier CSV (*comma-separated values*)

In [None]:
dat = read.csv(file = '../data/inflammation-01.csv', header = FALSE, stringsAsFactors = FALSE)

Fonctions utiles pour le data frame.
- `head()` - retourne les 6 premières rangées
- `tail()` - retourne les 6 dernières rangées
- `dim()` - retourne les dimensions du *data frame* (le nombre de rangées et de colonnes)
- `nrow()` - retourne le nombre de rangées
- `ncol()` - retourne le nombre de colonnes
- `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- `summary()` - résumé avec mean, max, median sur les colonnes.
- `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [None]:
print(class(dat))

In [None]:
print(head(dat))

In [None]:
print(summary(dat[1:4]))

Recherche d'un élément par index (*slicing*).

In [None]:
print(dat[1, 1]) # Quel élément on va chercher?

On va chercher la colonne numéro 2.

In [None]:
print(dat[, 2]) # Encore plus de valeurs.

On va chercher les colonnes 6 à 9.

In [None]:
print(head(dat[, 6:9]))

On utilise la fonction combine c() pour rechercher des éléments non continus, rangées et colonnes.

In [None]:
print(dat[c(1, 5, 7, 9), 1:5]) # dat[c(rangée, colonne)] Ici on aura les patients 1, 5, 7 et 9 pour les journées 1 à 5.

On va chercher le nom des colonnes.

In [None]:
print(colnames(dat))

Pour faire une recherche par colonne on peut utiliser le signe $.

In [None]:
print(dat$V1)

Savoir la classe d'une colonne.

In [None]:
print(class(dat$V1))
print(class(dat$V30))

Autre terminologie pour chercher une ou des colonnes.

In [None]:
print(head(dat[, c('V2', 'V13')]))

On peut faire une recherche par rangée.

In [None]:
print(rownames(dat))

Sélectionner une rangée.

In [None]:
print(dat[2, ])

## **Exercice-1:**
Allez chercher une sélection de trois rangées spécifiques avec la fonction combine.

In [None]:
print(dat[c(15, 20, 30), ])

Allez chercher pour les deux premières rangées la valeur des deux dernières colonnes.

In [None]:
print(dat[(c(1,2)),c(39,40)])

## **En résumé**:
On importe nos données avec `read.csv()`.

---

```R
dat = read.csv(file = '../data/inflammation-01.csv', header = TRUE, stringsAsFactors = FALSE)
```

---

On peut rechercher dans un data frame en utilisant:

Un index `[rangée, colonne]`:

- `dat[1, 1]`
- `dat[, 2]`
- `dat[, 6:9]`

On sélectionne avec un vecteur pour avoir des données non continues:

- `dat[c(1, 5, 7, 9), 1:5]`


On peut rechercher de l'information avec le nom de la colonne:

- `colnames(dat)` ; `dat$Age`
---