# Démo traitement de données

## Récupération des données

Pour cette démo, on va utiliser un fichier CSV qui contient des données de patients testés lors du début de l'épidémie de COVID en 2020.

Ces données sont issues d'une [banque de données médicales libre](https://github.com/higgi13425/medicaldata) et le fichier CSV (1.5 Mo) est téléchargeable [ici](https://github.com/higgi13425/medicaldata/blob/master/data-raw/covid_testing_deid.csv).  
Le fichier de description des données est [ici](https://github.com/higgi13425/medicaldata/blob/master/data-raw/covid_testing_code_book.csv).

:::{exercise} Récupération des données
:label: download_data
Récupérer le fichier CSV de données (ou son contenu) et le sauvegarder dans un fichier `covid_testing.csv` dans un dossier `data` préalablement créé dans le répertoire de ce *notebook*.
:::

::::{solution} download_data
:class: dropdown
Il existe différentes façon de faire. Le plus simple reste sans doute de:
1. télécharger (sur son ordinateur) le fichier depuis Github
2. le renommer en `covid_testing.csv`
3. dans l'explorateur de fichier de JupterLab, navgiguer dans le bon dossier et créer le dossier `data`
4. téléverser (*uploader*) le fichier depuis son ordinateur vers le répertoire `data` de JupyterLab
::::

## Chargement des données

Pour charger les données depuis un fichier csv, on pourrait utiliser la fonction `read.csv` native de R mais la bibliothèque [readr](https://readr.tidyverse.org/) propose une fonction `read_csv` plus performante.  
Cependant, readr ne fait pas partie des bibliothèques par défaut et il faut la charger avant de l'utiliser avec la fonction `library`:

In [None]:
library(readr)

On peut ensuite charger les données:

In [None]:
df <- read_csv('./data/covid_testing.csv')

:::{exercise} Explorer les données
:label: explore_data
Utiliser ce qu'on a vu précédemment pour extraire:
- [ ] le nombre de lignes
- [ ] le nombre de colonnes
- [ ] le (faux) nom du 1234ème patient
:::

::::{solution} explore_data
:class: dropdown
:::r
print(length(df$fake_last_name))
print(length(df))
print(df$fake_last_name[1234])
:::
::::

## Exemples de traitement

### Créer un histogramme

Ici on utilise la fonction native `hist` pour générer un histogramme avec l'age des patients:

In [None]:
hist(df$age, main="Age du patient testé", xlab="Age (années)", ylab="Occurrence", col="blue", border="black")

### Traitement de données et génération d'un graphique associé

On peut utiliser la bibliothèque [dplyr](https://dplyr.tidyverse.org/) qui permet de faciliter le traitement des données.

In [None]:
# On charge dplyr
library(dplyr)

Ici, on va tracer le nombre de tests effectués par jour en fonction du jour.

On commence par compter le nombre d'occurences de chacunes des valeurs dans la colonne `pan_day`:

In [None]:
ntests_per_day_df <- df %>%
  group_by(pan_day) %>%
  summarise(count = n()) %>%
  ungroup()

:::{tip} Note
La syntaxe `%>%` correspond à l'opérateur [pipe](https://magrittr.tidyverse.org/reference/pipe.html) qui est très utilisé par [dplyr](https://dplyr.tidyverse.org/) pour enchaîner les opérations de traitement sur un *dataframe*.  
Voir [l'usage de dplyr](https://dplyr.tidyverse.org/#usage).
:::

Puis, on utilise la bibliothèque [ggplot2](https://ggplot2.tidyverse.org/) pour tracer un graphique type "nuage de points":

In [None]:
# Chargement de ggplot
library(ggplot2)

In [None]:

p <- ggplot(ntests_per_day_df, aes(x = as.numeric(pan_day), y = count)) +
  geom_point() +
  labs(title = "Nombre de par jour depuis le début de la pandémie",
       x = "Nombre de jours depuis le début de la pandémie (pan_day)",
       y = "Nombre de tests") +
  scale_x_continuous(breaks = seq(min(ntests_per_day_df$pan_day), max(ntests_per_day_df$pan_day), by = 10)) +
  theme_linedraw()
print(p)

:::{exercise} Analyse exploratoire des données
Se servir de tout ce qui a été vu jusqu'à maintenant pour analyser les données différemment.
:::