# Manipulation et visualisation des données avec Pandas et Matplotlib

Pandas est une librairie spécialisée dans l'analyse des données. Dans cet atelier, on s'intéresse surtout aux fonctionalités de manipulations de données.

## 1. Chargement et description des données 

### 1.1. Librairie Pandas - options et version

In [None]:
# Première étape : il faut charger la librarie Pandas
import pandas

# On modifie le nombre de ligne à afficher
pandas.options.display.max_rows =10

# On vérifie la version
print(pandas.__version__)

### 1.2. Structure DataFrame

Une DataFrame correspond à une matrice individus-variables où les lignes corerspondent à des observations, les colonnes à des attribus décrivant les individus.

Concernant le fichier "heart.txt" : la première ligne correspond aux noms des champs (des variables); à partir de la seconde ligne, on dispose des valeurs pour chaque enregistrement (individu); le caractère "\t" fait office de séparateur de colonnes.

In [None]:
# chargement du fichier
# df est le nom du DataFrame créé
# sep spécifie le caractère séparateur de colonnes
# header =0 pour spécifier que la ligne numéro 0 représente les noms des varibales
df = pandas.read_table("heart.txt", sep ='\t',  header =0)

# vérification du type de df
print(type(df))

In [None]:
# afficher les premières lignes du jeu de données
df.head()

In [None]:
# dimensions : nombre de lignes et nombre de colonnes
# La ligne d'en-tête n'est pas comptabilisée
print(df.shape)

In [None]:
# énumération des colonnes
print(df.columns)

In [None]:
# type de chaque colonnes
print(df.dtypes)

In [None]:
# informations sur les données
print(df.info())

In [None]:
# description des données
df.describe(include='all')

Certains indicateurs statistiques ne sont pas valables que pour les variables numériques (ex. moyenne, médiane, etc. pour age, taux_max, ...) et inversement pour les non-numériques (ex. top, freq, etc. pour sexe, type_douleur, ...), d'où les NAN dans certaines situations.

## 2. Manipulation des variables

### 2.1. Accès aux variables

Il est possible d'accéder explicitement aux variables. Dans un premier temps, on utilise directement les noms des champs (les noms des variables, en en-tête de colonnes).

In [None]:
# accès à une colonne
print(df['sexe'])

In [None]:
# autre manière d'accèder à une variable par le nom
print(df.sexe)

In [None]:
# accéder à un ensemble de colonnes
df[['sexe','sucre']]

In [None]:
# affichage des premières valeurs d'une colonne
print(df.age.head())

In [None]:
# affichage des dernières valeurs
print(df.age.tail())

In [None]:
# statistique decsriptive d'une colonne
print(df.age.describe())

In [None]:
# calculer explicitement la moyenne
print(df.age.mean())

In [None]:
# comptage des valeurs
print(df.type_douleur.value_counts())

In [None]:
# première valeur
print(df.age[0])

In [None]:
# 3 premières valeurs
print(df.age[0:3])

In [None]:
# trier les valeurs d'une variable de manière croissante
print(df.age.sort_values())

In [None]:
# on peut aussi obtenir les indices des valeurs triées
print(df.age.argsort())

214 est le numéro de l'individu portant la plus petite valeur de la variable age, puis vient le n°174, etc. Ces résultats sont complètement cohérents avec ceux

In [None]:
# le tri peut être généralisé aux DataFrame
df.sort_values(by='age').head()

### 2.2. Itérations sur les variables

Les itérations sur les varibles peuvent se faire via une boucle, ou via l'utilisation des fonctions callback appelée à l'aide d'une fonction .apply().

In [None]:
# boucler sur l'ensemble des colonnes
for col in df.columns:
    print(df[col].dtype)

In [None]:
# passage par la librairie numpy
import numpy

# fonction call back
def operation(x):
    return(x.mean())

# appel de la fonction sur l'ensemble des colonnes du DataFrame
# axis =0 ==> chaque colonne sera transmise à la fonction operation()
# la selection select_dtype() permet d'exclure les variables non numériques
resultat = df.select_dtypes(exclude=['object']).apply(operation, axis=0)
print(resultat)

## 3. Accès indicé aux données d'un DataFrame


On peut accéder aux valeurs du DataFrame via des indices ou plages d'indice. La structure se comporte alors comme une matrice. La cellule en haut et à gauche est de coordonnée (0,0).

Il ya différentes manières de le faire, l'utilisation de .iloc[,] constitue une des solutions les plus simples. 

In [None]:
# accès à la valeur située en (0,0)
print(df.iloc[0,0])

In [None]:
# valeur située en dernière ligne, première colonne
print(df.iloc[-1,0])

In [None]:
# 5 premières valeurs de toutes les colonnes
# lignes ==> 0:5 (0 à 5 (non inclus))
# colonnes ==> : (toutes les colonnes)
df.iloc[0:5,:]

In [None]:
# avec l'indiçage négatif, on peut facilement accéder aux 5 dernières lignes
df.iloc[-5:,:]

In [None]:
# 5 premières lignes et 2 premières colonnes
df.iloc[0:5,0:2]

In [None]:
# 5 premières lignes et les colonnes 0,1 et 4
df.iloc[0:5,[0,1,4]]

## 4. Restrictions avec les conditions - les requêtes

On peut isloer les sous-ensembles d'observations répondant à des critères définis sur les champs. On utilisera préférentiellement la méthode .loc[,].

In [None]:
# liste des individus présentant une douleur de type A
df.loc[df['type_douleur']=="A",:]

In [None]:
# indexer avec un vecteur de booléens
print(df['type_douleur']=="A")

Seules les observations correspondant à True sont repris par .loc[,]. On peut les compter

In [None]:
print((df['type_douleur']=="A").value_counts())

In [None]:
# pour un ensemble de valeurs de la la même variable, on utilise isin()
df.loc[df['type_douleur'].isin(['A','B']), :]

In [None]:
# on peut afficher qu'une partie des colonnes
colonnes = ['age','sexe','type_douleur','pression','cholester','angine','coeur']
df.loc[df['type_douleur'].isin(['A','B']), colonnes]

Des opérateurs logiques permettent de combiner des conditions. On utilise respectivement : & pour ET, | pour OU et ~ pour la négation.

In [None]:
# liste des individus présentant une douleur de type A et angine == oui
df.loc[(df['type_douleur']=="A") & (df['angine']=="oui"),colonnes]

In [None]:
# liste des individus de moins de 45 ans, de sexe masculin et présentant une maladie cardiaque
df.loc[(df['age']<45) & (df['sexe']=="masculin") & (df['coeur']=="presence"),colonnes]

## 5. Calculs récapitulatifs - Croisement des variables

On peut procéder à des croisements et opérer des calculs récapitulatifs, qui vont du comptage simple aux calculs statistiques faisant intervenir plusieurs varibales.

In [None]:
# fréquence selon sexe et coeur
pandas.crosstab(df['sexe'],df['coeur'])

In [None]:
# on peut demander un post-traitement, par exemple, un pourcentage en ligne
pandas.crosstab(df['sexe'],df['coeur'],normalize='index')

In [None]:
# On peut insérer un champ calculé, par exemple, la moyenne d'âge selon sexe et coeur
# on utilise la fonction mean() de la classe Series de la librairie Pandas
pandas.crosstab(df['sexe'],df['coeur'], values=df['age'],aggfunc=pandas.Series.mean)

In [None]:
# On peut aussi utiliser la commande pivot_table()
df.pivot_table(index=['sexe'],columns=['coeur'],values=['age'],aggfunc=pandas.Series.mean)

In [None]:
# multiplier les critères est possible
pandas.crosstab([df['sexe'],df['sucre']],df['coeur'])

In [None]:
pandas.crosstab([df['sexe'],df['sucre']],df['coeur'],normalize='index')

L'utilisation de groupby() permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement. Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.

In [None]:
# regroupement des données selon le sexe
g=df.groupby('sexe')

# calculer la dimension du sous-DataFrame associé aux hommes
print(g.get_group('masculin').shape)

In [None]:
# calculer la moyenne des variables numériques
g.mean()

In [None]:
# calculer la moyenne de l'âge chez les hommes
print(g.get_group('masculin')['age'].mean())

on peut appliquer différentes fonctions
$$mean:=m=\frac{1}{n}\sum_{i=1}^nx_i,\;variance:=var=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-m\right)^2,\;ecart\_type:=std=\sqrt{var}$$

In [None]:
g['age','depression'].agg([pandas.Series.mean,pandas.Series.std])

In [None]:
# on peut itérer sur les groupes
for groupe in g:
    # groupe est un tuple
    print(groupe[0]) # étiquette du groupe
    # accès à la variable 'age' du groupe concerné
    print(pandas.Series.mean(groupe[1]['age']))

## 6. Construction de variables calculées

Comme sous Numpy, les calculs sont vectorisés pour les vecteurs de type Series de Pandas. Ce qui évite de passer par des boucles fastidieuses pour manipuler les valeurs des vecteurs.

In [None]:
# création d'une variable tau_net (aucune signification médicale)
# utilisation de la librairie numpy (log = logarithme népérien)
import numpy
taux_net = df['taux_max']*numpy.log(df['age'])
print(taux_net)

In [None]:
# concatination à la DataFrame
newdf = pandas.concat([df,taux_net],axis=1)
print(newdf.shape)

On souhaite créer une indicatrice pour la variable sexe, 1 pour masculin, 0 pour féminin.

In [None]:
# création d'une série de zéro de même longueur que la DataFrame (nombre de lignes)
code=pandas.Series(numpy.zeros(df.shape[0]))
print(code.shape)

In [None]:
# les "sexe=masculin" sont codés en 1
code[df['sexe']=="masculin"]=1
print(code.value_counts())

## 7. Graphiques

Passer par Matplotlib permet de réaliser des graphiques performants. Mais il faut connaître les procédures de la librairie. 

Pandas propose des commandes simples qui encapsulent l'appel à ces procédures.

In [None]:
# voir les graphiques dans le notebook
%matplotlib inline
# importation de librairie
import matplotlib.pyplot as plt

In [None]:
# histogramme de l'âge
df.hist(column='age')

In [None]:
# density plot
df['age'].plot.kde()

In [None]:
# histogramme de l'âge selon le sexe
df.hist(column='age', by='sexe')

In [None]:
# comparaison des distributions avec boxplot
df.boxplot(column='age', by='sexe')

* La valeur centrale du graphique est la médiane (il existe autant de valeur supérieures qu’inférieures à cette valeur dans l’échantillon).
* Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des observations ont des valeurs plus petites et trois quart ont des valeurs plus grandes, le bord supérieur suit le même raisonnement).
* Les extrémités des moustaches sont calculées en utilisant 1.5 fois l’espace interquartile (la distance entre le 1er et le 3ème quartile).

In [None]:
# scatterplot : âge vs taux_max
df.plot.scatter(x='age',y='taux_max')

In [None]:
# niveau de gris selon la valeur de dépression
df.plot.scatter(x='age',y='taux_max',c='depression')

In [None]:
# taille des points selon la valeur de dépression
df.plot.scatter(x='age',y='taux_max',s=df['depression'])

In [None]:
# en distinguant selon la valeur de coeur
# recodage de coeur - ici en 0/1
code_coeur=df['coeur'].eq('presence').astype('int')
# afficher le graphique en spécifiant la couleur (blue=0, green =1)
df.plot.scatter(x='age',y='taux_max',c=pandas.Series(['blue','green'])[code_coeur])

In [None]:
# grille à la carte de Kohonen - permet de voir la densité des points
df.plot.hexbin(x='age',y='taux_max',gridsize=25)

Les tracés Hexbin peuvent être une alternative utile aux diagrammes de dispersion si vos données sont trop denses pour tracer chaque point individuellement.

In [None]:
# calcul de la moyenne pour un vecteur
def moyenne(v):
    return(numpy.mean(v))

# grille à la carte de Kohonen où la couleur dépend de la moyenne de dépression
df.plot.hexbin(x='age',y='taux_max',C='depression', reduce_C_function=moyenne, gridsize=25)

In [None]:
# diagramme à secteurs - comptage de sexe
df['sexe'].value_counts().plot.pie()

In [None]:
# scatterpolt des variables pris deux à deux
# uniquement les variables quantitatives 
pandas.tools.plotting.scatter_matrix(df.select_dtypes(exclude=['object']))