# Manipulation de données avec pandas (version courte)

[pandas](https://pandas.pydata.org/) est la librairie incontournable pour manipuler les données. Elle permet de manipuler aussi bien les données sous forme de tables qu'elle peut récupérer ou exporter en différents formats. Elle permet également de créer facilement des graphes.

In [1]:
%matplotlib inline

## Enoncé

La librairie [pandas](https://pandas.pydata.org/) implémente la classe [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html). C'est une structure de table, chaque colonne porte un nom et contient un seul type de données. C'est très similaire au langage [SQL](https://fr.wikipedia.org/wiki/Structured_Query_Language).

### Création d'un dataframe

Il existe une grande variété pour créer un DataFrame. Voici les deux principaux. Le premier : une liste de dictionnaires. Chaque clé est le nom de la colonne.

In [2]:
from pandas import DataFrame

rows = [{"col1": 0.5, "col2": "schtroumph"}, {"col1": 0.6, "col2": "schtroumphette"}]
DataFrame(rows)

Unnamed: 0,col1,col2
0,0.5,schtroumph
1,0.6,schtroumphette


La lecture depuis un fichier :

In [3]:
%%writefile data.csv

col1, col2
0.5, alpha
0.6, beta

Writing data.csv


In [4]:
import os

os.getcwd()

'/home/xadupre/github/teachpyx/_doc/c_data'

In [5]:
from pandas import read_csv

df = read_csv("data.csv")
df

Unnamed: 0,col1,col2
0,0.5,alpha
1,0.6,beta


### La maîtrise des index

Les index fonctionnent à peu près comme [numpy](https://numpy.org/) mais offre plus d'options puisque les colonnes mais aussi les lignes ont un nom.

Accès par colonne

In [9]:
df

Unnamed: 0,col1,col2
0,0.5,alpha
1,0.6,beta


In [10]:
df["col1"]

0    0.5
1    0.6
Name: col1, dtype: float64

In [15]:
df[["col1", "col2"]]

KeyError: "['col2'] not in index"

Accès par ligne (uniquement avec ``:``). On se sert principalement de l'opérateur ``:`` pour les lignes.

In [16]:
df[:1]

Unnamed: 0,col1,col2
0,0.5,alpha


Accès par positions avec [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).

In [17]:
df.loc[0, "col1"]

0.5

Accès par positions entières avec [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html).

In [18]:
df.iloc[0, 0]

0.5

### La maîtrise des index des lignes

La création d'un dataframe donne l'impression que les index des lignes sont des entiers mais cela peut être changer

In [19]:
df

Unnamed: 0,col1,col2
0,0.5,alpha
1,0.6,beta


In [20]:
dfi = df.set_index("col2")
dfi

KeyError: "None of ['col2'] are in the columns"

In [21]:
dfi.loc["alpha", "col1"]

NameError: name 'dfi' is not defined

Il faut se souvenir de cette particularité lors de la fusion de tables.

### La maîtrise des index des colonnes

Les colonnes sont nommées.

In [None]:
df.columns

On peut les renommer.

In [None]:
df.columns = ["valeur", "nom"]
df

L'opérateur ``:`` peut également servir pour les colonnes.

In [None]:
df.loc[:, "valeur":"nom"]

### Lien vers numpy

[pandas](https://pandas.pydata.org/) utilise [numpy](https://numpy.org/) pour stocker les données. Il est possible de récupérer des matrices depuis des DataFrame avec [values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html).

In [None]:
df.values

In [None]:
df[["valeur"]].values

### La maîtrise du nan

[nan](https://numpy.org/doc/stable/reference/constants.html) est une convention pour désigner une valeur manquante.

In [None]:
rows = [{"col1": 0.5, "col2": "schtroumph"}, {"col2": "schtroumphette"}]
DataFrame(rows)

### La maîtrise des types

Un dataframe est défini par ses dimensions et chaque colonne a un type potentiellement différent.

In [None]:
df.dtypes

On peut changer un type, donc convertir toutes les valeurs d'une colonne vers un autre type.

In [None]:
import numpy

df["valeur"].astype(numpy.float32)

In [None]:
import numpy

df["valeur"].astype(numpy.int32)

### Création de colonnes

On peut facilement créer de nouvelles colonnes.

In [None]:
df["sup055"] = df["valeur"] >= 0.55
df

In [None]:
df["sup055"] = (df["valeur"] >= 0.55).astype(numpy.int64)
df

In [None]:
df["sup055+"] = df["valeur"] + df["sup055"]
df

### Modifications de valeurs

On peut les modifier une à une en utilisant les index. Les notations sont souvent intuitives. Elles ne seront pas toutes détaillées. Ci-dessous un moyen de modifer certaines valeurs selon une condition.

In [None]:
df.loc[df["nom"] == "alpha", "sup055+"] += 1000
df

### Une erreur ou warning fréquent

In [None]:
rows = [{"col1": 0.5, "col2": "schtroumph"}, {"col1": 1.5, "col2": "schtroumphette"}]
df = DataFrame(rows)
df

In [None]:
df1 = df[df["col1"] > 1.0]
df1

In [None]:
df1["col3"] = df1["col1"] + 1.0
df1

``A value is trying to be set on a copy of a slice from a DataFrame.`` : Par défaut, l'instruction ``df[df['col1'] > 1.]`` ne crée pas un nouveau DataFrame, elle crée ce qu'on appelle une vue pour éviter de copier les données. Le résultat ne contient que l'index des lignes qui ont été sélectionnées et un lien vers le dataframe original. L'avertissement stipule que *pandas* ne peut pas modifier le dataframe original mais qu'il doit effectuer une copie.

La solution pour faire disparaître ce warning est de copier le dataframe.

In [None]:
df2 = df1.copy()
df2["col3"] = df2["col1"] + 1.0

### La maîtrise des fonctions

Les fonctions de pandas créent par défaut un nouveau dataframe plutôt que de modifier un dataframe existant. Cela explique pourquoi parfois la mémoire se retrouve congestionnée. La page [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) est un bon début.

* **création** : [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html), [read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)
* **index** : [set_index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html), [reset_index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html)
* **utilitaires** : [astype](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html), [isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html), [fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html), [to_datetime](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html), [dtypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html), [shape](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html), [values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html), [head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html), [tail](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html), [isin](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html), [T](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html), [drop](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)
* **concaténation** : [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)
* **SQL** : [filter](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html), [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html), [join](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html), [merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html), [pivot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html), [pivot_table](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html)
* **calcul** : [sum](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html), [cumsum](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.cumsum.html), [quantile](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.quantile.html), [var](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html)

### On récupère les données du COVID par région et par âge et premier graphe

A cette adresse : [Données hospitalières relatives à l'épidémie de COVID-19](https://www.data.gouv.fr/en/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/)

In [None]:
# https://www.data.gouv.fr/en/datasets/r/63352e38-d353-4b54-bfd1-f1b3ee1cabd7
from pandas import read_csv

url = "https://www.data.gouv.fr/en/datasets/r/08c18e08-6780-452d-9b8c-ae244ad529b3"
covid = read_csv(url, sep=";")
covid.tail()

In [None]:
covid.dtypes

Les dates sont considérées comme des chaînes de caractères. Il est plus simple pour réaliser des opérations de convertir la colonne sous forme de dates.

In [None]:
from pandas import to_datetime

covid["jour"] = to_datetime(covid["jour"])
covid.tail()

In [None]:
covid.dtypes

On supprime les colonnes relatives aux régions et à l'âge puis on aggrège par jour.

In [None]:
agg_par_jour = covid.drop(["reg", "cl_age90"], axis=1).groupby("jour").sum()
agg_par_jour.tail()

In [None]:
agg_par_jour.plot(title="Evolution des hospitalisations par jour", figsize=(14, 4));

Avec échelle logarithmique.

In [None]:
agg_par_jour.plot(
    title="Evolution des hospitalisations par jour", figsize=(14, 4), logy=True
);

### Q1 : refaire le graphique précédent pour votre classe d'âge

### Q2 : faire de même avec les séries différenciées

### Q3 : faire de même avec des séries lissées sur sur 7 jours

### Q4 : fusion de tables par départements

## Réponses

### Q1 : refaire le graphique précédent pour votre classe d'âge

In [None]:
set(covid["cl_age90"])

In [None]:
covid49 = covid[covid.cl_age90 == 49]
agg_par_jour49 = covid49.drop(["reg", "cl_age90"], axis=1).groupby("jour").sum()
agg_par_jour49.tail()

In [None]:
agg_par_jour49.plot(
    title="Evolution des hospitalisations par jour\nage=49", figsize=(14, 4), logy=True
);

### Q2 : faire de même avec les séries différenciées

In [None]:
covid.tail()

In [None]:
diff = covid.drop(["reg", "cl_age90"], axis=1).groupby(["jour"]).sum().diff()
diff.tail(n=2)

In [None]:
diff.plot(title="Séries différenciées", figsize=(14, 4));

### Q3 : faire de même avec des séries lissées sur sur 7 jours

In [None]:
diff.rolling(7)

In [None]:
roll = diff.rolling(7).mean()
roll.tail(n=2)

In [None]:
roll.plot(title="Séries différenciées lissées", figsize=(14, 4));

### Petit aparté

On veut savoir combien de temps les gens restent à l'hôpital avant de sortir, en supposant que le temps de guérison est à peu près identique au temps passé lorsque l'issue est tout autre. Je pensais calculer les corrélations entre la série des décès et celles de réanimations décalées de plusieurs jours en me disant qu'un pic de corrélation pourrait indiquer une sorte de durée moyenne de réanimation.

In [None]:
data = agg_par_jour49.diff().rolling(7).mean()
data.tail(n=2)

In [None]:
data_last = data.tail(n=90)
cor = []
for i in range(0, 35):
    ts = DataFrame(
        dict(
            rea=data_last.rea,
            dc=data_last.dc,
            dclag=data_last["dc"].shift(i),
            realag=data_last["rea"].shift(i),
        )
    )
    ts_cor = ts.corr()
    cor.append(dict(delay=i, corr_dc=ts_cor.iloc[1, 3], corr_rea=ts_cor.iloc[0, 3]))
DataFrame(cor).set_index("delay").plot(title="Corrélation entre décès et réanimation");

Il apparaît que ces corrélations sont très différentes selon qu'on les calcule sur les dernières données et les premières semaines. Cela semblerait indiquer que les données médicales sont très différentes. On pourrait chercher plusieurs jours mais le plus simple serait sans de générer des données artificielles avec un modèle [SIR](https://fr.wikipedia.org/wiki/Mod%C3%A8les_compartimentaux_en_%C3%A9pid%C3%A9miologie) et vérifier si ce raisonnement tient la route sur des données propres.

### Q4 : fusion de tables par départements

On récupère deux jeux de données :
* [Données hospitalières relatives à l'épidémie de COVID-19](https://www.data.gouv.fr/en/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/)
* [Indicateurs de suivi de l’épidémie de COVID-19](https://www.data.gouv.fr/fr/datasets/indicateurs-de-suivi-de-lepidemie-de-covid-19/)

In [None]:
hosp = read_csv(
    "https://www.data.gouv.fr/en/datasets/r/63352e38-d353-4b54-bfd1-f1b3ee1cabd7",
    sep=";",
)
hosp.tail()

In [None]:
indic = read_csv(
    "https://www.data.gouv.fr/fr/datasets/r/4acad602-d8b1-4516-bc71-7d5574d5f33e",
    encoding="ISO-8859-1",
)
indic.tail()

Le code suivant explique comment trouver la valeur ``ISO-8859-1``.

In [None]:
# import chardet
# with open("indicateurs-covid19-dep.csv", "rb") as f:
#     content = f.read()
# chardet.detect(content)  # {'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

### Q5 : une carte ?

Tracer une carte n'est jamais simple. Il faut tout d'abord récupérer les coordonnées des départements : [Contours des départements français issus d'OpenStreetMap](https://www.data.gouv.fr/en/datasets/contours-des-departements-francais-issus-d-openstreetmap/). Ensuite... de ces fichiers ont été extraits les barycentres de chaque département français : [departement_french_2018.csv](https://github.com/sdpython/ensae_teaching_cs/blob/master/src/ensae_teaching_cs/data/data_shp/departement_french_2018.csv). Ce fichier a été créé avec la fonction implémentée dans le fichier [data_shape_files.py](https://github.com/sdpython/ensae_teaching_cs/blob/master/src/ensae_teaching_cs/data/data_shape_files.py). Ce qui suit est une approximation de carte : on suppose que là où se trouve, les coordonnées longitude et latitude ne sont pas trop éloignées de ce qu'elles pourraient être si elles étaient projetées sur une sphère.

In [None]:
dep_pos = read_csv(
    "https://raw.githubusercontent.com/sdpython/ensae_teaching_cs/"
    "master/src/ensae_teaching_cs/data/data_shp/departement_french_2018.csv"
)
dep_pos.tail()

In [None]:
last_extract_date = max(set(indic.extract_date))
last_extract_date

In [None]:
indic_last = indic[indic.extract_date == last_extract_date]
merge = indic_last.merge(dep_pos, left_on="departement", right_on="code_insee")
final = merge[["code_insee", "nom", "DEPLONG", "DEPLAT", "taux_occupation_sae", "R"]]
metro = final[final.DEPLAT > 40]
metro

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 2, figsize=(14, 4))
bigR1 = metro.R >= 1
bigR2 = metro.R >= 1.4
ax[0].scatter(
    metro.loc[bigR2, "DEPLONG"], metro.loc[bigR2, "DEPLAT"], c="red", label="R>=1.4"
)
ax[0].scatter(
    metro.loc[bigR1 & ~bigR2, "DEPLONG"],
    metro.loc[bigR1 & ~bigR2, "DEPLAT"],
    c="orange",
    label="1.3>=R>=1",
)
ax[0].scatter(
    metro.loc[~bigR1, "DEPLONG"], metro.loc[~bigR1, "DEPLAT"], c="blue", label="R<1"
)
ax[0].legend()

bigR1 = metro.taux_occupation_sae >= 25
bigR2 = metro.taux_occupation_sae >= 45
ax[1].scatter(
    metro.loc[bigR2, "DEPLONG"], metro.loc[bigR2, "DEPLAT"], c="red", label="SAE>=45"
)
ax[1].scatter(
    metro.loc[bigR1 & ~bigR2, "DEPLONG"],
    metro.loc[bigR1 & ~bigR2, "DEPLAT"],
    c="orange",
    label="45>SAE>=25",
)
ax[1].scatter(
    metro.loc[~bigR1, "DEPLONG"], metro.loc[~bigR1, "DEPLAT"], c="blue", label="SAE<25"
)
ax[1].legend();

In [None]:
metro[metro.nom == "Ardennes"]