# Demo Notebook

Ceci est une démo d'un notebook Jupyter qui facilite la documentation du code en permettant, par exemple, d'insérer des cellules de texte formatté.

## Chargement des dépendances

In [None]:
library(readr)
# Installer ggplot2 si ce n'est pas déjà fait
if (!require(ggplot2)) {
  install.packages("ggplot2")
}
library(ggplot2)
library(dplyr)

## Chargement des données

On utilise la bibliothèques [readr](https://readr.tidyverse.org/) pour charger le fichier CSV qui contient des données de patients testés lors du début de l'épidémie de COVID en 2020.

Note: Ces données sont disponibles [ici](https://github.com/higgi13425/medicaldata).

In [None]:
df <- read_csv('../data/covid_testing.csv')

## Quelques exemples d'instructions basiques

Afficher les premières lignes d'un `dataframe`:

In [None]:
head(df)

Afficher des informations sur le `dataframe`:

In [None]:
str(df)

Afficher les noms des colonnes:

In [None]:
colnames(df)

Extraire, formatter et afficher des valeurs:

In [None]:
nom_colonne <- colnames(df)[1]
valeur <- df[1, 1]

message <- sprintf("La première valeur de la colonne '%s' est %s.", nom_colonne, valeur)

print(message)

## Exemples de traitement

### Créer un histogramme

Ici on utilise la fonction native `hist` pour générer un histogramme avec l'age des patients:

In [None]:
hist(df$age, main="Age du patient testé", xlab="Age (années)", ylab="Occurrence", col="blue", border="black")

On peut aussi extraire des données statistiques basiques avec `summary`:

In [None]:
print(summary(df$age))

### Traitement de données et génération d'un graphique associé

On peut utiliser la bibliothèque [dplyr](https://dplyr.tidyverse.org/) qui permet de faciliter le traitement des données.

Ici, on va tracer le nombre de tests effectués par jour en fonction du jour.

On commence par compter le nombre d'occurences de chacunes des valeurs dans la colonne `pan_day`:

In [None]:
ntests_per_day_df <- df %>%
  group_by(pan_day) %>%
  summarise(count = n()) %>%
  ungroup()

Puis, on utilise la bibliothèque [ggplot2](https://ggplot2.tidyverse.org/) pour tracer un graphique type "nuage de points":

In [None]:
p <- ggplot(ntests_per_day_df, aes(x = as.numeric(pan_day), y = count)) +
  geom_point() +
  labs(title = "Nombre de par jour depuis le début de la pandémie",
       x = "Nombre de jours depuis le début de la pandémie (pan_day)",
       y = "Nombre de tests") +
  scale_x_continuous(breaks = seq(min(ntests_per_day_df$pan_day), max(ntests_per_day_df$pan_day), by = 10)) +
  theme_linedraw()
print(p)

Fin de la démo