# S05 - Exercices en classe/après-classe : Prétraitement et exploration des données

## Instructions
Pour chaque exercice, vous avez une cellule de code pour la réponse en dessous, où vous devez écrire votre réponse entre les lignes contenant `### commencez votre code ici ###` et `### terminez votre code ici ###`. Votre code peut contenir une ou plusieurs lignes et vous pouvez exécuter cette cellule afin de terminer l'exercice. Pour exécuter la cellule, vous pouvez taper `Shift+Enter` ou appuyer sur le bouton de lecture dans la barre d'outils ci-dessus. Vos résultats apparaîtront juste en dessous de cette cellule de réponse.

In [None]:
import math

import numpy as np
import pandas as pd

## Importation de données
Dans cet exercice, nous allons explorer un ensemble adapté de données qui fournit des informations sur le nombre de patients en attente et la durée d'attente à la fin de chaque trimestre, pour les admissions en hospitalisation et en hôpital de jour chez *Health and Social Care (HSC) Trusts* en Irlande du Nord. Les données sont présentées par centre de soins, spécialité, programme de soins et tranche horaire. Les données originales sont accessibles à [cette page](https://data.world/datagov-uk/a593a0b3-29ef-48f2-b2b2-ceb83d841a3c).

Ceci est une description des colonnes de nos données adaptées dans le fichier CSV `day-case-waiting-times.csv`.

| NOM DE LA VARIABLE | DESCRIPTION |  
|:----|:----|  
|quarter_ending| date de rapport pour chaque trimestre |  
|HSC_trust| Health and Social Care (HSC) Trusts |  
|specialty| spécialité du HSC (par exemple, urologie, chirurgie générale, chirurgie plastique) |  
|program| programme de soins (par exemple, santé mentale, services aigus) |  
|0-6_weeks| nombre de patients qui attendent entre (0, 6] semaines durant le trimestre correspondant |  
|>6-13_weeks| nombre de patients qui attendent entre (6, 13] semaines durant le trimestre correspondant |  
|>13-21_weeks| nombre de patients qui attendent entre (13, 21] semaines durant le trimestre correspondant |  
|>21-26_weeks| nombre de patients qui attendent entre (21, 26] semaines durant le trimestre correspondant |  
|>26-52_weeks| nombre de patients qui attendent entre (26, 52] semaines durant le trimestre correspondant |  
|>52_weeks| nombre de patients qui attendent plus de 52 semaines durant le trimestre correspondant |  
|>26-30_weeks| nombre de patients qui attendent entre (26, 30] semaines durant le trimestre correspondant |

Importez le fichier de données  `day-case-waiting-times.csv` dans un `DataFrame` nommé `df_WT`. Affichez les 5 premières lignes de votre `DataFrame`.

**Astuce** : vous pouvez utiliser la fonction `pd.read_csv()`.

In [None]:
url = 'https://raw.githubusercontent.com/acedesci/scanalytics/master/data/day-case-waiting-times.csv'

### commencez votre code ici ###

### terminez votre code ici ###

df_WT.head()

## Prétraitement des données et valeurs manquantes
### Exercice 1 : Modification des types de données des colonnes
Jetez un œil au type de données dans votre `DataFrame`. La colonne `quarter_ending` doit être de type `datetime64`, et toutes les colonnes de `0-6_weeks` à `>26-30_weeks` doivent être numériques (float ou int), car elles représentent le nombre de patients dont les temps d'attente se situaient dans les intervalles correspondants. Dans ce cas, le nombre flottant est requis si la colonne contient la valeur `NaN`.

Vos colonnes sont-elles du bon type ? Si ce n'est pas le cas, convertissez les données au bon format.

**Astuce 1 :** Vous pouvez utiliser les fonctions `pd.to_numeric()`, `pd.to_datetime()` et/ou la méthode `.astype()`.

**Astuce 2 :** Nous pouvons nous assurer que (i) une valeur non numérique sera définie comme `NaN` en utilisant l'argument `errors='coerce'`, et (ii) le type numérique est float en utilisant le paramètre `downcast='float'` dans `pd.to_numeric(column_series, errors='coerce', downcast='float')`.

Plus de détails peuvent être trouvés sur [cette page](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_numeric.html).

In [None]:
df_WT.dtypes

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

df_WT.dtypes

### Exercice 2 : Valeurs manquantes
Jetez un œil aux valeurs manquantes dans votre `DataFrame`. Implémentez une ligne de code qui affiche le nombre total de valeurs manquantes dans chaque colonne.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

Supposons que les valeurs manquantes peuvent apparaître lorsque les données ne sont pas disponibles. Ainsi, dans ce cas de valeurs manquantes, le nombre de patients avec des temps d'attente dans l'un des intervalles spécifiés par les colonnes de notre `DataFrame` est égal à 0. Nous pouvons remplacer les valeurs numériques manquantes par 0.

**Astuce :** vous pouvez utiliser la méthode `.fillna()` pour remplacer les valeurs manquantes des 7 dernières colonnes. Assurez-vous que les modifications sont appliquées/enregistrées dans votre `DataFrame`.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

df_WT.isna().sum()

### Exercice 3 : Agrégation des données 1
Exécutez la cellule de code ci-dessous. Comme vous pouvez le voir, le `DataFrame` comporte une colonne avec le nom `>26-52_weeks` et une autre colonne nommée `>26-30_weeks`. Comme certaines données ont été enregistrées dans l'une ou l'autre de ces colonnes,

1. nous n'utiliserons que la valeur maximale de ces deux colonnes,
2. placez la valeur résultante dans la colonne `>26-52_weeks`, et
3. supprimez la colonne `>26-30_weeks`.

**Astuce :** vous pouvez utiliser la méthode `DataFrame.drop(columns='...')` pour supprimer la colonne sélectionnée. Voir [ce lien](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html).

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

df_WT.head()

### Exercice 4 : Agrégation de données 2
Calculez le **nombre total de patients** et ajoutez cette nouvelle information en tant que nouvelle colonne dans le `DataFrame` et attribuez-lui le nom `'total_patients'`. Vous pouvez utiliser la méthode `DataFrame.sum(axis=1)` pour effectuer la somme en fonction des colonnes. Assurez-vous de n'additionner que les six dernières colonnes contenant le nombre de patients dans cette nouvelle colonne et de **tracer un histogramme** de cette colonne.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

## Transformation des données

### Exercice 5 : Asymétrie
Veuillez calculer l'asymétrie de cette nouvelle colonne `total_patients` où :
$\mathit{Skewness} = \frac{3(X_{mean}-X_{median})}{\sigma_X}$

**Astuce :** vous pouvez utiliser les méthodes `DataFrame.mean()`, `DataFrame.median()` et `DataFrame.std()` pour vos calculs.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

print("skewness:", skew)

### Exercice 6 : transformation logarithmique
Veuillez (i) transformer cette colonne `total_patients` à l'aide d'une transformation logarithmique `log(x + 1)` et l'affecter à une nouvelle colonne `log_total_patients`, et (ii) tracer un histogramme de cette nouvelle colonne.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

### Exercice 7 : Variables dummy
Une variable qualitative doit généralement être codée avec des **variables binaires** (également appelées variables indicatrices), chacune ne prenant qu'une seule de deux valeurs (0 ou 1 ; `False` ou `True`) avant d'être utilisée dans l'analyse prédictive.

Veuillez créer $k-1$ variables binaires.

Cela implique que vous obtenez $k-1 = 3$ variables binaires correspondant aux valeurs de la variable `program`. Vous pouvez vérifier les valeurs de la variable qualitiative d'origine en exécutant la cellule ci-dessous.

In [None]:
df_WT['program'].unique()

Créez d’abord un nouvel ensemble de colonnes en utilisant `pd.get_dummies(...)` et attribuez le nouvel ensemble de colonnes au nouvel objet `df_dummies`.

**Astuce :** vous pouvez utiliser la fonction `pd.get_dummies()`, qui convertit automatiquement les variables catégorielles en variables binaires. Pour effectuer un codage avec $k-1$ variables, nous pouvons indiquer le paramètre `drop_first=True`. Vous pouvez consulter [cette page](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) pour plus d'informations.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

df_dummies.describe()

Pour ajouter l'ensemble de nouvelles colonnes, nous pouvons utiliser la fonction df1 = df1.join(df2). Voir ce [lien](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) pour plus de détails.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

df_WT