# Démo Python / pandas

Pierre Poulain

In [None]:
# alias classiques pour pandas, numpy et matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# affichage des graphiques dans le notebook
%matplotlib inline

# Les séries (1 dimension)

### Créer une *série*

In [None]:
s = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])

### Extraire un élément

In [None]:
s[0]

In [None]:
s['a']

### Extraire de plusieurs éléments

In [None]:
s[['b', 'c']]

### Extraire d'une *tranche* d'éléments

In [None]:
s[1:3]

### Sélectionner par condition

In [None]:
s[s>2]

In [None]:
s[ (s>1) & (s<3)]

### Modifier un élément

In [None]:
s['d'] = 42
s

### Ajouter un élément

In [None]:
s['e'] = 55
s

# Les dataframes

### Créer un dataframe comme liste de lignes

In [None]:
df = pd.DataFrame(columns=["a", "b", "c", "d", "e"], 
                  index=["bob", "bill", "bart"],
                  data=[np.arange(10, 15), 
                        np.arange(20, 25), 
                        np.arange(30, 35)])
df

### Créer un dataframe comme dictionnaire de colonnes

In [None]:
data = {"a": np.arange(10, 40, 10),
        "b": np.arange(10, 40, 10) + 1,
        "c": np.arange(10, 40, 10) + 2,
        "d": np.arange(10, 40, 10) + 3,
        "e": np.arange(10, 40, 10) + 4}
df = pd.DataFrame.from_dict(data)
df.index = ["bob", "bill", "bart"]
df

### Obtenir les dimensions du dataframe

nombre de lignes x nombre de colonnes

In [None]:
df.shape

### Renommer des colonnes

In [None]:
df.columns = ["Paris", "Lyon", "Nantes", "Pau", "Lille"]
df

### Renommer des lignes

In [None]:
df.index = ["chat", "singe", "souris"]
df

### Sélectionner une colonne

In [None]:
df["Paris"]

et **uniquement** si le nom ne contient pas d'espace :

In [None]:
df.Paris

sélection de plusieurs colonnes 

In [None]:
df[["Paris", "Pau"]]

### Sélectionner par les index (les lignes)

par les noms des index

In [None]:
df.loc["chat"]

In [None]:
df.loc[["chat", "souris"]]

par les indices des index (première ligne = indice 0) :

In [None]:
df.iloc[0]

on retrouve les tranches des listes

In [None]:
df.iloc[0:2]

### Sélectionner sur les colonnes et les indexes (lignes)

In [None]:
df.loc["souris"]["Paris"]

In [None]:
df.loc[["singe", "souris"]]["Nantes"]

In [None]:
df.loc[["singe", "souris"]][['Nantes', 'Lyon']]

### Sélectionner par condition

In [None]:
df[ df["Pau"] > 20 ]

In [None]:
df[ df["Pau"] > 20 ]["Lyon"]

### Renommer une colonne

In [None]:
df.rename(columns = {"Lille":"Bordeaux"}, inplace= True)
df

### Ajouter une colonne

In [None]:
df["Marseille"] = df["Nantes"] * 4
df

### Supprimer une colonne

In [None]:
del df["Paris"]
df

### Ajouter une ligne

In [None]:
df.loc["girafe"] = [1, 2, 3, 4, 5]
df

# Avec un vrai jeu de données

Jeu de données tirée d'une étude réalisée par la Fondation Congolaise pour la Recherche Médicale, en République du Congo, et portant sur la prévalence du paludisme chez les enfants de moins de 10 ans.

Publication : [Plasmodium falciparum infection in febrile Congolese children: prevalence of clinical malaria 10 years after introduction of artemisinin-combination therapies](http://dx.doi.org/10.1111/tmi.12786)

[Jeu de données](https://zenodo.org/record/154453) sur Zenodo : 
[fichier au format csv](https://zenodo.org/record/154453/files/mng2015_children_malaria_data.csv) / [codebook](https://zenodo.org/record/154453/files/mng2015_children_malaria_codebook.txt) 

Le fichier csv contient les données brutes de l'étude. Le codebook contient des informations sur le type, le codage et la signification des données.

## Télécharger le jeu de données

In [None]:
!wget https://zenodo.org/record/154453/files/mng2015_children_malaria_data.csv

Vérfier que le fichier a été correctement télécharger en comparant son empreinte md5sum : 

`c180c7af9169b2cf1f8e99e7ad018cc4`

In [None]:
!echo "c180c7af9169b2cf1f8e99e7ad018cc4 mng2015_children_malaria_data.csv" | md5sum -c -

## Charger les données

In [None]:
df = pd.read_csv("mng2015_children_malaria_data.csv")

## Afficher les premières lignes

In [None]:
df.head()

## Déterminer les dimensions du dataframe

(nombre de lignes et de colonnes)

In [None]:
df.shape

## Calculer quelques statistiques de base

In [None]:
print("Age moyen : {:.1f} an".format(np.mean(df['age'])))
print("Poids mini : {} kg".format(np.min(df['weight'])))
print("Poids maxi : {} kg".format(np.max(df['weight'])))

en plus rapide...

In [None]:
df.describe()

Attention, ne fonctionne que sur les colonnes *numériques*

## Calculer l'âge moyen des enfants (garçons / filles)

In [None]:
df.groupby("sex")[["age"]].mean()

même chose avec la fonction `.pivot_table()`

In [None]:
df.pivot_table(["age"], index=["sex"], aggfunc=np.mean, margins=True)

### Compter rapidement le nombre de garçons et de filles

In [None]:
df['sex'].value_counts()

### Afficher le poids en fonction de l'âge

et régression linéaire entre ces deux grandeurs

In [None]:
plt.figure(figsize=(8,6))
plt.scatter(df['age'], df['weight'])
plt.xlabel('Age (années)')
plt.ylabel("Poids (kg)")

# régression linéaire
from scipy import  polyfit
a,b = polyfit(df['age'], df['weight'], 1)
x = np.linspace(1, 11)
plt.plot(x, a * x + b, color='green')
print("régression linéaire : poids = {:.2f} x age + {:.2f}".format(a, b))


## Comparer l'utilisation des moustiquaires

In [None]:
df['bed_net_use'].value_counts()

## Analyser le taux d'hémoglobine pour détecter une anémie

Il y a anémie lorsque le taux d'hémoglobine est inférieur à 11 g/dL de sang

### Afficher la moyenne, l'écart-type, le min et le max de la concentration en hémoglobine, par sexe

In [None]:
df.pivot_table(['hb_conc'], index=['sex'], aggfunc=[np.mean, np.std, np.min, np.max], margins=True)

### Sélectionner les enfants entre 3 et 6 ans anémiés

In [None]:
df2 = df[ (df['age'] >= 3) & (df['age'] <= 6) & (df['hb_conc'] < 11)]
print("Nombre d'enfants: {}".format(df2.shape[0]))

## Suivre le recrutement des enfants dans l'étude

Les dates avant :

In [None]:
df["sampling_date"].sample(5)

### Transformer les valeurs de la colonnes `sampling_date` en vraies dates

C'est-à-dire comprises par Python

In [None]:
dates = pd.to_datetime(df["sampling_date"], format="%Y/%m/%d", errors='raise')

### Afficher le premier et le dernier jour du recrutement des patients

In [None]:
print("Premier patient récruté le : {}".format(min(dates)))
print("Dernier patient récruté le : {}".format(max(dates)))

### Compter le nombre de recrutements par date

In [None]:
dates.value_counts().head()

### Représenter le nombre de recrutements par date (triée)

In [None]:
plt.plot(dates.value_counts().sort_index())
plt.xlabel('Jours')
plt.ylabel("Nombre de prélèvements sanguins")

Le graphique n'est pas très lisible car il n'y a pas eu de prélèvement à certaines dates.

Une solution est alors de rééchantilloner les données par semaine.

In [None]:
dates_new = dates.value_counts().resample('W').apply(np.sum)
dates_new.head()

In [None]:
plt.plot(dates_new)
plt.xlabel('Semaines')
plt.ylabel("Nombre de prélèvements sanguins")

Il n'y a pas eu de recrutement de patients entre fin décembre 2014 et début janvier 2015, ce qui est correspond aux congés de fin d'année.

On peut obtenir une vision un peu plus macroscopique avec un rééchantillonage par mois :

In [None]:
dates_new_2 = dates.value_counts().resample('M').apply(np.sum)
dates_new_2.head()

In [None]:
plt.plot(dates_new_2)
plt.xlabel('Mois')
plt.ylabel("Nombre de prélèvements sanguins")

La plupart des recrutements ont été faits pendant les mois d'octobre et de novembre, c'est-à-dire pendant la saison des pluies au Congo. Pendant cette période, les pluies abondantes et les températures élevées conduisent à la prolifération des moustiques et donc à une augmentation des cas de paludisme.