# **Analyse de données**
Objectifs
- Importer des données.
- Recherche d'éléments.

---
Comment importer nos données.

On va travailler avec un fichier CSV (*comma-separated values*)

In [1]:
dat = read.csv(file = 'data/SAFI_clean.csv', header = TRUE, stringsAsFactors = FALSE)

Fonctions utiles pour le data frame.
- `head()` - retourne les 6 premières rangées
- `tail()` - retourne les 6 dernières rangées
- `dim()` - retourne les dimensions du *data frame* (le nombre de rangées et de colonnes)
- `nrow()` - retourne le nombre de rangées
- `ncol()` - retourne le nombre de colonnes
- `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- `summary()` - résumé avec mean, max, median sur les colonnes.
- `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [2]:
print(class(dat))

[1] "data.frame"


In [11]:
print(str(dat))

'data.frame':	131 obs. of  14 variables:
 $ key_ID              : int  1 2 3 4 5 6 7 8 9 10 ...
 $ village             : chr  "God" "God" "God" "God" ...
 $ interview_date      : chr  "2016-11-17T00:00:00Z" "2016-11-17T00:00:00Z" "2016-11-17T00:00:00Z" "2016-11-17T00:00:00Z" ...
 $ no_membrs           : int  3 7 10 7 7 3 6 12 8 12 ...
 $ years_liv           : int  4 9 15 6 40 3 38 70 6 23 ...
 $ respondent_wall_type: chr  "muddaub" "muddaub" "burntbricks" "burntbricks" ...
 $ rooms               : int  1 1 1 1 1 1 1 3 1 5 ...
 $ memb_assoc          : chr  "NULL" "yes" "NULL" "NULL" ...
 $ affect_conflicts    : chr  "NULL" "once" "NULL" "NULL" ...
 $ liv_count           : int  1 3 1 2 4 1 1 2 3 2 ...
 $ items_owned         : chr  "bicycle;television;solar_panel;table" "cow_cart;bicycle;radio;cow_plough;solar_panel;solar_torch;table;mobile_phone" "solar_torch" "bicycle;radio;cow_plough;solar_panel;mobile_phone" ...
 $ no_meals            : int  2 2 2 2 2 2 3 2 3 3 ...
 $ months_lack_food

In [3]:
print(head(dat))

  key_ID village       interview_date no_membrs years_liv respondent_wall_type
1      1     God 2016-11-17T00:00:00Z         3         4              muddaub
2      2     God 2016-11-17T00:00:00Z         7         9              muddaub
3      3     God 2016-11-17T00:00:00Z        10        15          burntbricks
4      4     God 2016-11-17T00:00:00Z         7         6          burntbricks
5      5     God 2016-11-17T00:00:00Z         7        40          burntbricks
6      6     God 2016-11-17T00:00:00Z         3         3              muddaub
  rooms memb_assoc affect_conflicts liv_count
1     1       NULL             NULL         1
2     1        yes             once         3
3     1       NULL             NULL         1
4     1       NULL             NULL         2
5     1       NULL             NULL         4
6     1       NULL             NULL         1
                                                                   items_owned
1                                         bicy

In [4]:
print(summary(dat[1:4]))

     key_ID         village          interview_date       no_membrs     
 Min.   :  1.00   Length:131         Length:131         Min.   : 2.000  
 1st Qu.: 33.50   Class :character   Class :character   1st Qu.: 5.000  
 Median : 66.00   Mode  :character   Mode  :character   Median : 7.000  
 Mean   : 85.73                                         Mean   : 7.191  
 3rd Qu.:138.00                                         3rd Qu.: 9.000  
 Max.   :202.00                                         Max.   :19.000  


Recherche d'un élément par index (slicing).

In [6]:
print(dat[1, 2])

[1] "God"


On va chercher la colonne numéro 2.

In [7]:
print(dat[, 2])

  [1] "God"      "God"      "God"      "God"      "God"      "God"     
  [7] "God"      "Chirodzo" "Chirodzo" "Chirodzo" "God"      "God"     
 [13] "God"      "God"      "God"      "God"      "God"      "God"     
 [19] "God"      "God"      "God"      "God"      "Ruaca"    "Ruaca"   
 [25] "Ruaca"    "Ruaca"    "Ruaca"    "Ruaca"    "Ruaca"    "Ruaca"   
 [31] "Ruaca"    "Ruaca"    "Ruaca"    "Chirodzo" "Chirodzo" "Chirodzo"
 [37] "Chirodzo" "God"      "God"      "God"      "God"      "God"     
 [43] "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo"
 [49] "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo"
 [55] "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo"
 [61] "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo"
 [67] "Chirodzo" "Chirodzo" "Chirodzo" "Chirodzo" "Ruaca"    "Chirodzo"
 [73] "Ruaca"    "Ruaca"    "Ruaca"    "God"      "Ruaca"    "God"     
 [79] "Ruaca"    "God"      "God"      "God"      "God"      "Go

On va chercher les colonnes 6 à 9.

In [8]:
print(head(dat[, 6:9]))

  respondent_wall_type rooms memb_assoc affect_conflicts
1              muddaub     1       NULL             NULL
2              muddaub     1        yes             once
3          burntbricks     1       NULL             NULL
4          burntbricks     1       NULL             NULL
5          burntbricks     1       NULL             NULL
6              muddaub     1       NULL             NULL


## **En résumé**:
On importe nos données avec `read.csv()`.

---

```R
dat = read.csv(file = '../data/inflammation-01.csv', header = TRUE, stringsAsFactors = FALSE)
```

---

On peut rechercher dans un data frame en utilisant:

Un index `[rangée, colonne]`:

- `dat[1, 1]`
- `dat[, 2]`
- `dat[, 6:9]`

On sélectionne avec un vecteur pour avoir des données non continues:

- `dat[c(1, 5, 7, 9), 1:5]`


On peut rechercher de l'information avec le nom de la colonne:

- `colnames(dat)` ; `dat$Age`
---