# Manipulation et visualisation des données avec Pandas et Matplotlib

Pandas est une librairie spécialisée dans l'analyse des données. Dans cet atelier, on s'intéresse surtout aux fonctionalités de manipulations de données.

## 1. Chargement et description des données 

### 1.1. Librairie Pandas - options et version

In [1]:
# Première étape : il faut charger la librarie Pandas
import pandas

# On modifie le nombre de ligne à afficher
pandas.options.display.max_rows =10

# On vérifie la version
print(pandas.__version__)

2.1.3


### 1.2. Structure DataFrame

Une DataFrame correspond à une matrice individus-variables où les lignes corerspondent à des observations, les colonnes à des attribus décrivant les individus.

Concernant le fichier "heart.txt" : la première ligne correspond aux noms des champs (des variables); à partir de la seconde ligne, on dispose des valeurs pour chaque enregistrement (individu); le caractère "\t" fait office de séparateur de colonnes.

In [5]:
# chargement du fichier
# df est le nom du DataFrame créé
# sep spécifie le caractère séparateur de colonnes
# header =0 pour spécifier que la ligne numéro 0 représente les noms des varibales
df = pandas.read_table("heart.txt", sep ='\t',  header =0)

# vérification du type de df
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [6]:
# afficher les premières lignes du jeu de données
df.head()

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
0,70,masculin,D,130,322,A,C,109,non,24,2,D,presence
1,67,feminin,C,115,564,A,C,160,non,16,2,A,absence
2,57,masculin,B,124,261,A,A,141,non,3,1,A,presence
3,64,masculin,D,128,263,A,A,105,oui,2,2,B,absence
4,74,feminin,B,120,269,A,C,121,oui,2,1,B,absence


In [7]:
# dimensions : nombre de lignes et nombre de colonnes
# La ligne d'en-tête n'est pas comptabilisée
print(df.shape)

(270, 13)


In [8]:
# énumération des colonnes
print(df.columns)

Index(['age', 'sexe', 'type_douleur', 'pression', 'cholester', 'sucre',
       'electro', 'taux_max', 'angine', 'depression', 'pic', 'vaisseau',
       'coeur'],
      dtype='object')


In [9]:
# type de chaque colonnes
print(df.dtypes)

age              int64
sexe            object
type_douleur    object
pression         int64
cholester        int64
                 ...  
angine          object
depression       int64
pic              int64
vaisseau        object
coeur           object
Length: 13, dtype: object


In [10]:
# informations sur les données
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   age           270 non-null    int64 
 1   sexe          270 non-null    object
 2   type_douleur  270 non-null    object
 3   pression      270 non-null    int64 
 4   cholester     270 non-null    int64 
 5   sucre         270 non-null    object
 6   electro       270 non-null    object
 7   taux_max      270 non-null    int64 
 8   angine        270 non-null    object
 9   depression    270 non-null    int64 
 10  pic           270 non-null    int64 
 11  vaisseau      270 non-null    object
 12  coeur         270 non-null    object
dtypes: int64(6), object(7)
memory usage: 27.6+ KB
None


In [11]:
# description des données
df.describe(include='all')

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
count,270.000000,270,270,270.000000,270.000000,270,270,270.000000,270,270.0,270.000000,270,270
unique,,2,4,,,2,3,,2,,,4,2
top,,masculin,D,,,A,C,,non,,,A,absence
freq,,183,129,,,230,137,,181,,,160,150
mean,54.433333,,,131.344444,249.659259,,,149.677778,,10.5,1.585185,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
min,29.000000,,,94.000000,126.000000,,,71.000000,,0.0,1.000000,,
25%,48.000000,,,120.000000,213.000000,,,133.000000,,0.0,1.000000,,
50%,55.000000,,,130.000000,245.000000,,,153.500000,,8.0,2.000000,,
75%,61.000000,,,140.000000,280.000000,,,166.000000,,16.0,2.000000,,


Certains indicateurs statistiques ne sont pas valables que pour les variables numériques (ex. moyenne, médiane, etc. pour age, taux_max, ...) et inversement pour les non-numériques (ex. top, freq, etc. pour sexe, type_douleur, ...), d'où les NAN dans certaines situations.

## 2. Manipulation des variables

### 2.1. Accès aux variables

Il est possible d'accéder explicitement aux variables. Dans un premier temps, on utilise directement les noms des champs (les noms des variables, en en-tête de colonnes).

In [17]:
# accès à une colonne
print(df['sexe'])
# test Adam Aysoy
print(df['sexe'].value_counts())
print(df['age'].value_counts())

0      masculin
1       feminin
2      masculin
3      masculin
4       feminin
         ...   
265    masculin
266    masculin
267     feminin
268    masculin
269    masculin
Name: sexe, Length: 270, dtype: object
sexe
masculin    183
feminin      87
Name: count, dtype: int64
age
54    16
58    15
51    12
57    12
59    12
      ..
76     1
74     1
38     1
77     1
29     1
Name: count, Length: 41, dtype: int64


In [18]:
# autre manière d'accèder à une variable par le nom
print(df.sexe)

0      masculin
1       feminin
2      masculin
3      masculin
4       feminin
         ...   
265    masculin
266    masculin
267     feminin
268    masculin
269    masculin
Name: sexe, Length: 270, dtype: object


In [19]:
# accéder à un ensemble de colonnes
df[['sexe','sucre']]

Unnamed: 0,sexe,sucre
0,masculin,A
1,feminin,A
2,masculin,A
3,masculin,A
4,feminin,A
...,...,...
265,masculin,B
266,masculin,A
267,feminin,A
268,masculin,A


In [21]:
# affichage des premières valeurs d'une colonne
print(df.age.head())
# test Adam Aysoy
print(df.age.value_counts().head())

0    70
1    67
2    57
3    64
4    74
Name: age, dtype: int64
age
54    16
58    15
51    12
57    12
59    12
Name: count, dtype: int64


In [22]:
# affichage des dernières valeurs
print(df.age.tail())

265    52
266    44
267    56
268    57
269    67
Name: age, dtype: int64


In [23]:
# statistique decsriptive d'une colonne
print(df.age.describe())

count    270.000000
mean      54.433333
std        9.109067
min       29.000000
25%       48.000000
50%       55.000000
75%       61.000000
max       77.000000
Name: age, dtype: float64


In [24]:
# calculer explicitement la moyenne
print(df.age.mean())

54.43333333333333


In [25]:
# comptage des valeurs
print(df.type_douleur.value_counts())

type_douleur
D    129
C     79
B     42
A     20
Name: count, dtype: int64


In [26]:
# première valeur
print(df.age[0])

70


In [27]:
# 3 premières valeurs
print(df.age[0:3])

0    70
1    67
2    57
Name: age, dtype: int64


In [28]:
# trier les valeurs d'une variable de manière croissante
print(df.age.sort_values())
# info sort_values : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html
# 

214    29
174    34
138    34
224    35
81     35
       ..
15     71
255    71
4      74
73     76
199    77
Name: age, Length: 270, dtype: int64


In [29]:
# on peut aussi obtenir les indices des valeurs triées
print(df.age.argsort())

0      214
1      174
2      138
3      224
4       81
      ... 
265     15
266    255
267      4
268     73
269    199
Name: age, Length: 270, dtype: int64


214 est le numéro de l'individu portant la plus petite valeur de la variable age, puis vient le n°174, etc. Ces résultats sont complètement cohérents avec ceux

In [30]:
# le tri peut être généralisé aux DataFrame
df.sort_values(by='age').head()

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
214,29,masculin,B,130,204,A,C,202,non,0,1,A,absence
174,34,masculin,A,118,182,A,C,174,non,0,1,A,absence
138,34,feminin,B,118,210,A,A,192,non,7,1,A,absence
224,35,feminin,D,138,183,A,A,182,non,14,1,A,absence
81,35,masculin,D,120,198,A,A,130,oui,16,2,A,presence


### 2.2. Itérations sur les variables

Les itérations sur les varibles peuvent se faire via une boucle, ou via l'utilisation des fonctions callback appelée à l'aide d'une fonction .apply().

In [31]:
# boucler sur l'ensemble des colonnes
for col in df.columns:
    print(df[col].dtype)

int64
object
object
int64
int64
object
object
int64
object
int64
int64
object
object


In [32]:
# passage par la librairie numpy
import numpy

# fonction call back
def operation(x):
    return(x.mean())

# appel de la fonction sur l'ensemble des colonnes du DataFrame
# axis =0 ==> chaque colonne sera transmise à la fonction operation()
# la selection select_dtype() permet d'exclure les variables non numériques
resultat = df.select_dtypes(exclude=['object']).apply(operation, axis=0)
print(resultat)

age            54.433333
pression      131.344444
cholester     249.659259
taux_max      149.677778
depression     10.500000
pic             1.585185
dtype: float64


## 3. Accès indicé aux données d'un DataFrame


On peut accéder aux valeurs du DataFrame via des indices ou plages d'indice. La structure se comporte alors comme une matrice. La cellule en haut et à gauche est de coordonnée (0,0).

Il ya différentes manières de le faire, l'utilisation de .iloc[,] constitue une des solutions les plus simples. 

In [35]:
# accès à la valeur située en (0,0)
print(df.iloc[0,0])

70


In [34]:
# valeur située en dernière ligne, première colonne
print(df.iloc[-1,0])

67


In [36]:
# 5 premières valeurs de toutes les colonnes
# lignes ==> 0:5 (0 à 5 (non inclus))
# colonnes ==> : (toutes les colonnes)
df.iloc[0:5,:]

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
0,70,masculin,D,130,322,A,C,109,non,24,2,D,presence
1,67,feminin,C,115,564,A,C,160,non,16,2,A,absence
2,57,masculin,B,124,261,A,A,141,non,3,1,A,presence
3,64,masculin,D,128,263,A,A,105,oui,2,2,B,absence
4,74,feminin,B,120,269,A,C,121,oui,2,1,B,absence


In [37]:
# avec l'indiçage négatif, on peut facilement accéder aux 5 dernières lignes
df.iloc[-5:,:]

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
265,52,masculin,C,172,199,B,A,162,non,5,1,A,absence
266,44,masculin,B,120,263,A,A,173,non,0,1,A,absence
267,56,feminin,B,140,294,A,C,153,non,13,2,A,absence
268,57,masculin,D,140,192,A,A,148,non,4,2,A,absence
269,67,masculin,D,160,286,A,C,108,oui,15,2,D,presence


In [38]:
# 5 premières lignes et 2 premières colonnes
df.iloc[0:5,0:2]

Unnamed: 0,age,sexe
0,70,masculin
1,67,feminin
2,57,masculin
3,64,masculin
4,74,feminin


In [39]:
# 5 premières lignes et les colonnes 0,1 et 4
df.iloc[0:5,[0,1,4]]

Unnamed: 0,age,sexe,cholester
0,70,masculin,322
1,67,feminin,564
2,57,masculin,261
3,64,masculin,263
4,74,feminin,269


## 4. Restrictions avec les conditions - les requêtes

On peut isloer les sous-ensembles d'observations répondant à des critères définis sur les champs. On utilisera préférentiellement la méthode .loc[,].

In [40]:
# liste des individus présentant une douleur de type A
df.loc[df['type_douleur']=="A",:]

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
13,61,masculin,A,134,234,A,A,145,non,26,2,C,presence
18,64,masculin,A,110,211,A,C,144,oui,18,2,A,absence
19,40,masculin,A,140,199,A,A,178,oui,14,1,A,absence
37,59,masculin,A,160,273,A,C,125,non,0,1,A,presence
63,60,feminin,A,150,240,A,A,171,non,9,1,A,absence
...,...,...,...,...,...,...,...,...,...,...,...,...,...
198,69,feminin,A,140,239,A,A,151,non,18,1,C,absence
205,52,masculin,A,152,298,B,A,178,non,12,2,A,absence
210,59,masculin,A,170,288,A,C,159,non,2,2,A,presence
228,58,feminin,A,150,283,B,C,162,non,10,1,A,absence


In [41]:
# indexer avec un vecteur de booléens
print(df['type_douleur']=="A")

0      False
1      False
2      False
3      False
4      False
       ...  
265    False
266    False
267    False
268    False
269    False
Name: type_douleur, Length: 270, dtype: bool


Seules les observations correspondant à True sont repris par .loc[,]. On peut les compter

In [42]:
print((df['type_douleur']=="A").value_counts())

type_douleur
False    250
True      20
Name: count, dtype: int64


In [43]:
# pour un ensemble de valeurs de la la même variable, on utilise isin()
df.loc[df['type_douleur'].isin(['A','B']), :]

Unnamed: 0,age,sexe,type_douleur,pression,cholester,sucre,electro,taux_max,angine,depression,pic,vaisseau,coeur
2,57,masculin,B,124,261,A,A,141,non,3,1,A,presence
4,74,feminin,B,120,269,A,C,121,oui,2,1,B,absence
13,61,masculin,A,134,234,A,A,145,non,26,2,C,presence
18,64,masculin,A,110,211,A,C,144,oui,18,2,A,absence
19,40,masculin,A,140,199,A,A,178,oui,14,1,A,absence
...,...,...,...,...,...,...,...,...,...,...,...,...,...
262,58,masculin,B,120,284,A,C,160,non,18,2,A,presence
263,49,masculin,B,130,266,A,A,171,non,6,1,A,absence
264,48,masculin,B,110,229,A,A,168,non,10,3,A,presence
266,44,masculin,B,120,263,A,A,173,non,0,1,A,absence


In [44]:
# on peut afficher qu'une partie des colonnes
colonnes = ['age','sexe','type_douleur','pression','cholesterol','angine','coeur']
df.loc[df['type_douleur'].isin(['A','B']), colonnes]

KeyError: "['cholesterol'] not in index"

Des opérateurs logiques permettent de combiner des conditions. On utilise respectivement : & pour ET, | pour OU et ~ pour la négation.

In [None]:
# liste des individus présentant une douleur de type A et angine == oui
df.loc[(df['type_douleur']=="A") & (df['angine']=="oui"),colonnes]

In [None]:
# liste des individus de moins de 45 ans, de sexe masculin et présentant une maladie cardiaque
df.loc[(df['age']<45) & (df['sexe']=="masculin") & (df['coeur']=="presence"),colonnes]

## 5. Calculs récapitulatifs - Croisement des variables

On peut procéder à des croisements et opérer des calculs récapitulatifs, qui vont du comptage simple aux calculs statistiques faisant intervenir plusieurs varibales.

In [45]:
# fréquence selon sexe et coeur
pandas.crosstab(df['sexe'],df['coeur'])

coeur,absence,presence
sexe,Unnamed: 1_level_1,Unnamed: 2_level_1
feminin,67,20
masculin,83,100


In [None]:
# on peut demander un post-traitement, par exemple, un pourcentage en ligne
pandas.crosstab(df['sexe'],df['coeur'],normalize='index')

In [None]:
# On peut insérer un champ calculé, par exemple, la moyenne d'âge selon sexe et coeur
# on utilise la fonction mean() de la classe Series de la librairie Pandas
pandas.crosstab(df['sexe'],df['coeur'], values=df['age'],aggfunc=pandas.Series.mean)

In [None]:
# On peut aussi utiliser la commande pivot_table()
df.pivot_table(index=['sexe'],columns=['coeur'],values=['age'],aggfunc=pandas.Series.mean)

In [None]:
# multiplier les critères est possible
pandas.crosstab([df['sexe'],df['sucre']],df['coeur'])

In [None]:
pandas.crosstab([df['sexe'],df['sucre']],df['coeur'],normalize='index')

L'utilisation de groupby() permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement. Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.

In [None]:
# regroupement des données selon le sexe
g=df.groupby('sexe')

# calculer la dimension du sous-DataFrame associé aux hommes
print(g.get_group('masculin').shape)

In [None]:
# calculer la moyenne des variables numériques
g.mean()

In [None]:
# calculer la moyenne de l'âge chez les hommes
print(g.get_group('masculin')['age'].mean())

on peut appliquer différentes fonctions
$$mean:=m=\frac{1}{n}\sum_{i=1}^nx_i,\;variance:=var=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-m\right)^2,\;ecart\_type:=std=\sqrt{var}$$

In [None]:
g['age','depression'].agg([pandas.Series.mean,pandas.Series.std])

In [None]:
# on peut itérer sur les groupes
for groupe in g:
    # groupe est un tuple
    print(groupe[0]) # étiquette du groupe
    # accès à la variable 'age' du groupe concerné
    print(pandas.Series.mean(groupe[1]['age']))

## 6. Construction de variables calculées

Comme sous Numpy, les calculs sont vectorisés pour les vecteurs de type Series de Pandas. Ce qui évite de passer par des boucles fastidieuses pour manipuler les valeurs des vecteurs.

In [None]:
# création d'une variable tau_net (aucune signification médicale)
# utilisation de la librairie numpy (log = logarithme népérien)
import numpy
taux_net = df['taux_max']*numpy.log(df['age'])
print(taux_net)

In [None]:
# concatination à la DataFrame
newdf = pandas.concat([df,taux_net],axis=1)
print(newdf.shape)

On souhaite créer une indicatrice pour la variable sexe, 1 pour masculin, 0 pour féminin.

In [None]:
# création d'une série de zéro de même longueur que la DataFrame (nombre de lignes)
code=pandas.Series(numpy.zeros(df.shape[0]))
print(code.shape)

In [None]:
# les "sexe=masculin" sont codés en 1
code[df['sexe']=="masculin"]=1
print(code.value_counts())

## 7. Graphiques

Passer par Matplotlib permet de réaliser des graphiques performants. Mais il faut connaître les procédures de la librairie. 

Pandas propose des commandes simples qui encapsulent l'appel à ces procédures.

In [46]:
# voir les graphiques dans le notebook
%matplotlib inline
# importation de librairie
import matplotlib.pyplot as plt

In [None]:
# histogramme de l'âge
df.hist(column='age')

In [None]:
# density plot
df['age'].plot.kde()

In [None]:
# histogramme de l'âge selon le sexe
df.hist(column='age', by='sexe')

In [None]:
# comparaison des distributions avec boxplot
df.boxplot(column='age', by='sexe')

* La valeur centrale du graphique est la médiane (il existe autant de valeur supérieures qu’inférieures à cette valeur dans l’échantillon).
* Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des observations ont des valeurs plus petites et trois quart ont des valeurs plus grandes, le bord supérieur suit le même raisonnement).
* Les extrémités des moustaches sont calculées en utilisant 1.5 fois l’espace interquartile (la distance entre le 1er et le 3ème quartile).

In [None]:
# scatterplot : âge vs taux_max
df.plot.scatter(x='age',y='taux_max')

In [None]:
# niveau de gris selon la valeur de dépression
df.plot.scatter(x='age',y='taux_max',c='depression')

In [None]:
# taille des points selon la valeur de dépression
df.plot.scatter(x='age',y='taux_max',s=df['depression'])

In [None]:
# en distinguant selon la valeur de coeur
# recodage de coeur - ici en 0/1
code_coeur=df['coeur'].eq('presence').astype('int')
# afficher le graphique en spécifiant la couleur (blue=0, green =1)
df.plot.scatter(x='age',y='taux_max',c=pandas.Series(['blue','green'])[code_coeur])

In [None]:
# grille à la carte de Kohonen - permet de voir la densité des points
df.plot.hexbin(x='age',y='taux_max',gridsize=25)

Les tracés Hexbin peuvent être une alternative utile aux diagrammes de dispersion si vos données sont trop denses pour tracer chaque point individuellement.

In [None]:
# calcul de la moyenne pour un vecteur
def moyenne(v):
    return(numpy.mean(v))

# grille à la carte de Kohonen où la couleur dépend de la moyenne de dépression
df.plot.hexbin(x='age',y='taux_max',C='depression', reduce_C_function=moyenne, gridsize=25)

In [None]:
# diagramme à secteurs - comptage de sexe
df['sexe'].value_counts().plot.pie()

In [None]:
# scatterpolt des variables pris deux à deux
# uniquement les variables quantitatives 
pandas.tools.plotting.scatter_matrix(df.select_dtypes(exclude=['object']))