# Révisions

Ce notebook a pour but de revoir les concepts importants de la librairie `pandas` pour la manipulation de données en datascience.


## COVID dataset
Commençons pas importer les bibliothèques nécessaires :

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

### Receuillir les données 
- Importez les données au format `.csv` depuis l'adresse : `"https://raw.githubusercontent.com/openZH/covid_19/master/COVID19_Fallzahlen_CH_total_v2.csv"`
- Parser la colonne `'date'` pour avoir une série `dtype='datetime64[ns]'`
- Définir la colonne `'date'` comme index et vérifier que c'est bien un `DatetimeIndex`

On propose ici deux approches :

\#1 : En 3 étapes 

In [None]:
csv_file = "https://raw.githubusercontent.com/openZH/covid_19/master/COVID19_Fallzahlen_CH_total_v2.csv"

# ----- importer les données -----
# votre code (à modifier):
df_covid = pd.DataFrame()

# regardons le résultat
df_covid.head()

# ----- parser les dates dans la colonne 'date' -----
# votre code :


# verifier le type de la série 'date' (décommentez au fur et à mesure)
# df_covid.date

# ---- définir l'index -----
# votre code :


# verifions (décommentez au fur et à mesure)
# df_covid.head()

In [None]:
# final check 
df_covid.info()

\# 2 : En 1 étape :

In [None]:
# importer les données
csv_file = "https://raw.githubusercontent.com/openZH/covid_19/master/COVID19_Fallzahlen_CH_total_v2.csv"

# votre code (à modifier):
df_covid = pd.DataFrame()

# regardons le résultat
df_covid.head()

In [None]:
# final check 
df_covid.info()

---
### Explorer les donnés

- Renommer la colonne `'abbreviation_canton_and_fl'` en `'canton'`
- Comptez les cantons et les afficher par ordre alphabétique


In [None]:
# renommer la colonne 
# votre code (à modifier):

# vérifions
df_covid.info()

In [None]:
# compter les cantons (depuis la dataframe)
# votre code (à modifier):
cantons = ['']

cantons.sort()
print(f'Les {len(cantons)} cantons présents sont : {", ".join(cantons[:-1])} et {cantons[-1]}')

---
### Sélectionner des données 

Les données des cantons sont actuellement en format long, c'est à dire que l'on a une colonne 'canton' qui porte les valeurs 'GE', 'VD', etc ...

- Montrer les données `'current_hosp'` du canton de Vaud. 

**Indice** : Utiliser des méthodes de sélection (`df[df['colonne'] == 'critère']`, `.query('colonne == "critère"')` etc ...)

In [None]:
# ploter 'current_hosp' pour canton == 'VD'
# votre code (à modifier):
df_vd = pd.DataFrame()

# ploter


On souhaiterait comparer certains cantons entre eux :
- Visualiser `'current_hosp'` pour les cantons `'VD', 'VS', 'GE', 'ZH'`

In [None]:
# selectionner plusieurs valeurs pour les cantons
cantons_selected = ['VD', 'VS', 'GE', 'ZH']
# votre code (à modifier):
df_sel_cantons = pd.DataFrame()

# verifier
# df_sel_cantons.canton.unique()

In [None]:
# ploter 'current_hosp' pour les cantons sélectionnés
# votre code (à modifier):


Cette approche n'est pas très pratique et elle demande un nombre de lignes de code important. De plus on ne tire pas parti de la capacité de pandas à ploter des séries en un seul appel de fonction.

---
### Réorganiser les données 

Nous allons réorganiser les données.

- Réorganiser les données pour avoir une colonne par canton et les valeurs de `'current_hosp'` pour chaque canton en fonction du jour (en index)
- Visualiser à nouveau `'current_hosp'` pour les cantons `'VD', 'VS', 'GE', 'ZH'` en exploitant la nouvelle structure de données

**Indice**: Utiliser la fonction `.pivot()`

In [None]:
# votre code (à modifier):
df_hosp_pivot = pd.DataFrame()

# vérifions
df_hosp_pivot

In [None]:
# ploter les cantons 'VD', 'VS', 'GE', 'ZH'
# votre code (à modifier):


C'est quand même plus simple non ? 😉

---
### Grouper 

On va utilisez la méthode `'.groupby()'` pour avoir les infos par cantons

- Trouvez le minimum et le maximum de `'current_hosp'` pour chaque canton
- Visualiser le nombre cumulé de décès pour tous les cantons `'ncumul_deceased'`

**Indice** : Vous pouvez utiliser la méthode `.agg()` pour créer des nouvelles colonnes contenant des statistiques telles que `min` et `max`

In [None]:
# grouper par canton pour calculer le min et le max par canton de 'current_hosp'
# votre code (à modifier):
df_cantons_minmax = pd.DataFrame()

# vérifions
df_cantons_minmax

Le groupby est égalemetn pratique si l'on veut ploter tous les cantons d'un coup :

In [None]:
# utiliser un groupby pour plot avec 1 ligne de code
# votre code (à modifier):


---
### Statistiques sur toute la suisse

On veut maintenant visualiser l'évolution du nombre d'hospitalisations pour toute la suisse

- Montrer l'évolution du nombre d'hospitalisations `'current_hosp'` pour la Suisse entière

**Indice** : Pensez à comment grouper les données et à comment passer des hospitalisations par canton aux hospitalisations pour toute la suisse

In [None]:
# votre code (à modifier):


---
### Comparer les données normalisées

On a pu comparer les chiffres bruts pour chaque canton par rapport aux autres mais cette mesure n'est pas très approprié si la taille des cantons n'est pas du même ordre. On souhaite comparer les cantons en nombre d'hospitalisation / habitant.
On va donc normaliser les données en utilisant les informations de population pour chaque canton

#### Importer les données de cantons
- Importer les données de canton depuis `'data_cantons.csv'`
    - Faites attention au format, les colonnes ne sont peut être pas séparées par des `,`
    - N'importez que les données de `'Langue', 'Canton' et 'Population'`


In [None]:
# importer les données de cantons
# votre code (à modifier):
df_cantons = pd.DataFrame()

# vérifions
df_cantons

### Utiliser les données

- Fusionner les données du dataframe `covid` avec les données de population
- Créer une nouvelle colonne `'normalized_hosp'` telle que :

$$\mathrm{normalized\_hosp} = \frac{\mathrm{current\_hosp}}{\mathrm{population}}$$

- Visualisez les données normalisées et concluez

In [None]:
# votre code (à modifier):
df_norm = pd.DataFrame()

# vérifions
df_norm

In [None]:
# ajouter une nouvelle colonne 'normalized_hosp'
# votre code (à modifier):
df_norm['normalized_hosp'] = 0

# vérifions
df_norm.normalized_hosp

In [None]:
# visualiser les données normalisées
# votre code (à modifier):


> _Votre conclusion ici (double cliquez pour modifier le Markdown)_ 

---
### Sélectionner en fonction de la date

- Sélectionnez les entrées qui sont antérieures au 1er Juin 2020 (`'2020-06-01'`)

**Indice** : Utiliser `pd.date_range()` pour créer un `DatetimeIndex`

In [None]:
# dates avant le 2020-06-01
# votre code (à modifier):
dates = ...

# selectionner les données
# votre code (à modifier):
df_first = pd.DataFrame()

# vérifions
df_first

- Montrez les données d'hospitalisation (antérieures au 1er Juin 2020) pour les 4 cantons avec la plus faible population

**Indice** : `.sort_values` permet de trier les valeurs d'une Série par ordre croissant ou décroissant (paramètre `ascending=`)

In [None]:
# cantons avec la plus faible population
# votre code (à modifier):
petits_cantons = ...

# vérifions
petits_cantons

In [None]:
# ploter
# votre code (à modifier):


---