<p style="color:#FFF; background:#06D; padding:12px; font-size:20px; font-style:italic; text-align:center">
<span style="width:49%; display:inline-block; text-align:left">Version 2025-06</span>
<span style="width:49%; display:inline-block; text-align:right">Licence CC–BY–NC–ND</span>
<span style="font-size:40px; font-style:normal"><b>PACKAGE : PANDAS</b></span><br>
<span style="width:49%; display:inline-block; text-align:left">Christophe Schlick</span>
<span style="width:49%; display:inline-block; text-align:right">schlick ಄ u<b>-</b>bordeaux • fr</p>

Le package [**pandas**](http://pandas.pydata.org) (contraction de ***Panel Data Analysis***) fournit à Python des outils pour manipuler des tableaux de données de toute nature. Le package **pandas** est presque toujours utilisé en collaboration avec le package **numpy**, chacun d'eux fournissant des outils de traitement spécifiques. Plus précisément, il y a quatre différences fondamentales entre les fonctionnalités offertes par  **numpy** et celles offertes par **pandas** :

- Le package **numpy** fournit un seul type de conteneur (appelé **`array`**) qui peut avoir un nombre quelconque de dimensions, alors que le package **pandas** fournit trois types de conteneurs : un conteneur 1D (appelé **`series`**), un conteneur 2D (appelé **`dataframe`**) et un conteneur 3D (appelé **`panel`**). Il n'y a pas de traduction française "officielle" pour le nom des conteneurs fournis par **pandas**. Dans ce cours, nous allons utiliser les termes **série** pour **`series`**, **table** pour **`dataframe`** et **classeur** pour **`panel`**.
- une matrice **numpy** doit avoir toutes ses données du même type, ce qui est également le cas pour les séries **pandas**. Par contre, une table ou un classeur **pandas** peut contenir un ***nombre quelconque de type de données*** (habituellement on va avoir un type de données par série) 
- les dimensions d'une matrice **numpy** sont toujours indexées par des entiers démarrant à 0, alors que chaque dimension des conteneurs **pandas** possède un ***index de nature arbitraire*** pour identifier ses éléments (on peut considérer un index comme un équivalent des clés d'un dictionnaire) 
- même si les matrices **numpy** peuvent contenir des cases vides (identifiées par la valeur **`NaN`**), celles-ci vont empêcher l'utilisation d'un grand nombre d'outils **numpy** qui nécessitent des matrices à données complètes. A l'inverse, **pandas** sait gérer beaucoup mieux les données partielles, et propose plusieurs outils pour traiter automatiquement les données manquantes, ce qui le rend beaucoup souple pour le traitement des données ***dans la vraie vie***, où les bases de données sans trous ou sans données aberrantes sont extrêmement rares.

La manière la plus intuitive pour comprendre les conteneurs fournis par **pandas** est de se référer à l'***organisation des données dans un tableur***, tel que Microsoft Excel, Google Sheets, LibreOffice Calc
ou autre : l'ensemble des données stockées dans le classeur complet manipulé par le tableur correspond au type **`panel`** , les données stockées dans un onglet spécifique du classeur correspond au type **`dataframe`** , et enfin, les données stockées dans une colonne d'un des onglets correspond au type **`series`**.

Comme pour les autres chapitres, ce notebook a pour objet de faire un tour d'horizon rapide et de montrer les fonctionnalités les plus intéressantes de **pandas** pour une utilisation dans le domaine des Sciences des Données. La documentation complète du package se trouve sur le site [**pandas.org**](https://pandas.pydata.org/docs/user_guide), mais une copie locale est également directement disponible dans le menu `Help` de l'interface JupyterLab, sous le titre ***Pandas Reference***.

>**Remarque importante :**  Dans les versions récentes de **pandas**, le conteneur 3D **`panel`** a été supprimé car il n'apportait pas beaucoup plus de fonctionnalités qu'un simple dictionnaire Python regroupant un ensemble de conteneurs 2D **`dataframe`**. La suppression de ce conteneur 3D a été motivée par l'inclusion dans **pandas** d'un mécanisme d'indexation très puissant, appelé **`MultiIndex`**, permettant de créer des structures hiérarchiques de dimensions arbitraires. Etant donnée sa complexité, la mise en oeuvre des **`MultiIndex`** ne sera pas détaillée dans ce cours, qui se contentera de regrouper des tables en utilisant un dictionnaire ou une liste Python lorsqu'une troisième dimension sera nécessaire.

In [1]:
import warnings; warnings.filterwarnings('ignore') # suppression des 'warning' de l'interpréteur
from SRC.tools import show, inspect # import des fonctions utilitaires du module 'tools'
import numpy as np # le package 'numpy' est indispensable pour 'pandas'

---
On importe habituellement le package **pandas** par le biais d'un alias court, avec la commande suivante :
> `import pandas as pd`

In [1]:
import pandas as pd # import du package 'pandas' avec l'alias habituel 'pd'

En utilisant la fonction **`inspect`**, on constate que le package définit relativement peu de fonctions, et la plupart sont d'ailleurs des fonctions de lecture pour différents formats de fichiers classiques **`read_xxx(...)`** :

In [2]:
inspect(pd, detail=0) # augmenter la valeur de 'detail' pour avoir plus d'informations

● NAME = pandas / TYPE = module
● ROLE = pandas - a powerful data analysis and manipulation library for Python

● MODULES : use 'inspect(pandas.xxx)' to get additional info for each inner module
api       arrays    compat    core      errors    io        offsets   pandas    plotting  
testing   tseries   util      

● TYPES : use 'inspect(pandas.xxx)' to get additional info for each inner type
ArrowDtype        BooleanDtype      Categorical       CategoricalDtype  CategoricalIndex  
DataFrame         DateOffset        DatetimeIndex     DatetimeTZDtype   ExcelFile         
ExcelWriter       Flags             Float32Dtype      Float64Dtype      Grouper           
HDFStore          Index             Int16Dtype        Int32Dtype        Int64Dtype        
Int8Dtype         Interval          IntervalDtype     IntervalIndex     MultiIndex        
NamedAgg          Period            PeriodDtype       PeriodIndex       RangeIndex        
Series            SparseDtype       StringDtype       Tim

<h2 style="padding:16px; color:#FFF; background:#06D">A - Création et accès aux séries et aux tables</h2>

### 1 - Création de séries

Dans la terminologie de **pandas**, une série (***series***) est un conteneur ordonné 1D dont l'accès aux éléments peut s'effectuer soit par leur position (comme c'est le cas pour les listes en Python) soit par un index spécifique associé à ces éléments (comme c'est le cas pour les dictionnaires en Python). Néanmoins, à la différence des listes et des dictionnaires standards, tous les éléments d'une série doivent être de même nature, comme c'est le cas pour les matrices **numpy**.

In [3]:
vec = [0, 50, 150, 300, 500] # création d'un vecteur de test (liste 1D standard)
show("vec")

vec ➤ [0, 50, 150, 300, 500]


In [4]:
a = pd.Series(vec) # création d'une série à partir du vecteur de test
show("a#;; a.values; a.index; a.index.values") # par défaut, les séries ont un index de type 'RangeIndex'

a ➤
0      0
1     50
2    150
3    300
4    500
dtype: int64

a.values ➤ [  0  50 150 300 500]
a.index ➤ RangeIndex(start=0, stop=5, step=1)
a.index.values ➤ [0 1 2 3 4]


Avec l'index de type **`RangeIndex`** créé par défaut, une série se comporte globalement comme un vecteur **numpy** : on peut accéder à ses éléments soit par indice, soit par tranche, soit par énumération, soit par prédicat. 

In [5]:
show("a[1];") # accès par indice
show("a[1:4]#;") # accès par tranche d'indices
show("a[[4,2,1]]#;") # accès par énumeration (ATTENTION : il faut une liste pas un tuple)
show("a[a > 200]#") # accès par prédicat

a[1] ➤ 50

a[1:4] ➤
1     50
2    150
3    300
dtype: int64

a[[4,2,1]] ➤
4    500
2    150
1     50
dtype: int64

a[a > 200] ➤
3    300
4    500
dtype: int64


---
On peut modifier le comportement d'une série, en choisissant un autre type d'index :

In [6]:
b = pd.Series(vec, index=[4,2,5,1,8]) # on définit manuellement un index composé d'entiers non ordonnés
#b = pd.Series(dict(zip([4,2,5,1,8], vec))) # solution alternative à base de dictionnaire
show("b#;; b.values; b.index; b.index.values")

b ➤
4      0
2     50
5    150
1    300
8    500
dtype: int64

b.values ➤ [  0  50 150 300 500]
b.index ➤ Index([4, 2, 5, 1, 8], dtype='int64')
b.index.values ➤ [4 2 5 1 8]


> **ATTENTION :** l'utilisation d'index de type **`IntIndex`** nécessite une ***grande prudence*** car cela implique une utilisation parfois contre-intuitive qui peut être source de nombreuses erreurs. Comme on
peut le constater ci-dessous, **`b[n]`** utilise les valeurs de l'index, mais **`b[m:n]`** utilise les valeurs des positions :

In [7]:
show("b[1];") # accès par indice (ATTENTION : on utilise les valeurs de l'index)
show("b[1:4]#;") # accès par tranche (ATTENTION : on utilise les valeurs des positions)
show("b[[4,2,1]]#;") # accès par énumération (on utilise à nouveau les valeurs de l'index)
show("b[b > 200]#") # accès par prédicat

b[1] ➤ 300

b[1:4] ➤
2     50
5    150
1    300
dtype: int64

b[[4,2,1]] ➤
4      0
2     50
1    300
dtype: int64

b[b > 200] ➤
1    300
8    500
dtype: int64


---
Une bien meilleure option est d'utiliser un index à base de chaînes de caractères, appelés ***labels*** :

In [8]:
c = pd.Series(vec, index=['A','B','C','D','E']) # on définit un index composé de labels
#c = pd.Series(dict(zip('ABCDE', vec))) # solution alternative à base de dictionnaire
show("c#;; c.values; c.index; c.index.values")

c ➤
A      0
B     50
C    150
D    300
E    500
dtype: int64

c.values ➤ [  0  50 150 300 500]
c.index ➤ Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
c.index.values ➤ ['A' 'B' 'C' 'D' 'E']


> **Note :** Pour **pandas**, un index à base de chaînes de caractères est un vecteur **numpy** dont le type des éléments est défini comme **`object`** et non comme **`str`** comme on pourrait s'y attendre (cf. **`dtype='object'`** sur l'avant-dernière ligne, ci-dessus). Mais en pratique, cela n'a pas de conséquence sur l'utilisation des labels, puisqu'en Python, la classe **`str`** est une sous-classe de la classe **`object`**

Avec un index à base de labels, le comportement des séries devient très souple et très intuitif :
- on peut utiliser des indices ou des tranches, aussi bien sur les positions que sur les labels
- on peut même utiliser la notation pointée pour accéder à un élément d'une série via son label

In [9]:
show("c[1];") # accès par position
show("c['D'];") # accès par label
show("c.D;") # accès par attribut (via la notation pointée)
show("c[1:4]#;") # accès par tranche de positions
show("c['B':'D']#;") # accès par tranche de labels (ATTENTION : les 2 bornes sont incluses)
show("c[[4,2,1]]#;") # accès par énumération de positions
show("c[['E','C','B']]#;") # accès par énumération de labels
show("c[c > 200]#") # accès par prédicat

c[1] ➤ 50

c['D'] ➤ 300

c.D ➤ 300

c[1:4] ➤
B     50
C    150
D    300
dtype: int64

c['B':'D'] ➤
B     50
C    150
D    300
dtype: int64

c[[4,2,1]] ➤
E    500
C    150
B     50
dtype: int64

c[['E','C','B']] ➤
E    500
C    150
B     50
dtype: int64

c[c > 200] ➤
D    300
E    500
dtype: int64


> **Note :** contrairement aux tranches de positions, une tranche de labels ***inclut les deux bornes de l'intervalle***
>
> **Note :** la notation pointée ne fonctionne que si les labels n'utilisent que ***les 63 caractères autorisés*** pour un identificateur Python : **`ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789_`**

---
Aussi bien les données que les index d'une série **pandas** peuvent également être définis à partir de vecteurs **numpy** :

In [10]:
d = pd.Series(np.random.randint(0, 1000, 11)) # utilisation de l'index par défaut
show("d#;; d.values; d.index.values")

d ➤
0     121
1     979
2     930
3     548
4     218
5     994
6     519
7     452
8     823
9     775
10    830
dtype: int32

d.values ➤ [121 979 930 548 218 994 519 452 823 775 830]
d.index.values ➤ [ 0  1  2  3  4  5  6  7  8  9 10]


In [11]:
d.index = np.linspace(0,1,11) # on peut modifier l'index d'une série à tout moment
show("d#;; d.values; d.index; d.index.values")

d ➤
0.0    121
0.1    979
0.2    930
0.3    548
0.4    218
0.5    994
0.6    519
0.7    452
0.8    823
0.9    775
1.0    830
dtype: int32

d.values ➤ [121 979 930 548 218 994 519 452 823 775 830]
d.index ➤ Index([                0.0,                 0.1,                 0.2,
       0.30000000000000004,                 0.4,                 0.5,
        0.6000000000000001,  0.7000000000000001,                 0.8,
                       0.9,                 1.0],
      dtype='float64')
d.index.values ➤ [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


> **ATTENTION :** l'utilisation d'index de type **`FloatIndex`** est ***fortement déconseillée*** car les erreurs d'arrondis entre stockage binaire et affichage décimal, vont empêcher l'accès à certaines données.
On peut voir ci-dessous que l'indice 0.3 n'existe pas car il est stocké comme 0.30000000000000004 :

In [12]:
show("d[0.1];") # la valeur 0.1 existe dans l'index
show("d[0.35:0.85]#;") # on peut utiliser des valeurs intermédiaires pour les tranches
#show("d[0.3]") # la valeur 0.3 n'existe pas dans l'index (enlever le commentaire pour générer l'erreur)
show("0.3 in d.index; 0.30000000000000004 in d.index") # origine du problème

d[0.1] ➤ 979

d[0.35:0.85] ➤
0.4    218
0.5    994
0.6    519
0.7    452
0.8    823
dtype: int32

0.3 in d.index ➤ False
0.30000000000000004 in d.index ➤ True


---
Pour manipuler des valeurs réelles dans un index, il est préférable de créer un **`IntervalIndex`**
qui permet d'associer un intervalle de valeurs à chaque indice, plutôt qu'une valeur unique. Cela s'avère particulièrement utile lorsque l'on doit réaliser un partitionnement ou un regroupement de données :

In [13]:
intervals = pd.interval_range(0, 10, freq=2.5, closed='left') # closed : left|right|both|neither
#intervals = pd.interval_range(0, 100, 5, closed='both')
e = pd.Series(np.random.rand(intervals.size), index=intervals)
show("e#;; e.values; e.index")

e ➤
[0.0, 2.5)     0.437627
[2.5, 5.0)     0.007196
[5.0, 7.5)     0.406837
[7.5, 10.0)    0.461992
dtype: float64

e.values ➤ [0.4376271  0.00719615 0.4068368  0.4619922 ]
e.index ➤ IntervalIndex([[0.0, 2.5), [2.5, 5.0), [5.0, 7.5), [7.5, 10.0)], dtype='interval[float64, left]')


In [14]:
show("e[2.4999999]; e[2.5]; e[2.5000001];") # l'intervalle est respecté selon la valeurs de l'indice
show("e[1:3]#;") # une tranche d'entiers utilise les positions
show("e[3.0:5.5]#") # une tranche de réels utilise les intervalles

e[2.4999999] ➤ 0.4376271016781125
e[2.5] ➤ 0.0071961521801013895
e[2.5000001] ➤ 0.0071961521801013895

e[1:3] ➤
[2.5, 5.0)    0.007196
[5.0, 7.5)    0.406837
dtype: float64

e[3.0:5.5] ➤
[2.5, 5.0)    0.007196
[5.0, 7.5)    0.406837
dtype: float64


---
Dans le même ordre d'idée, les types **`DatetimeIndex`** et **`TimedeltaIndex`** permettent de créer des index spécifiques pour les séries temporelles, qui seront définis par une date/heure de début, un nombre de périodes, et une fréquence pour la génération des valeurs temporelles. Il est possible d'utiliser les symboles suivants pour définir la fréquence :

**`N`** = nanoseconde, **`U`** = microseconde, **`L`** = milliseconde, **`S`** = seconde, **`T`** = minute,
**`H`** = heure,

**`D`** = jour, **`W`** ou **`W-day`** = semaine, **`M`** ou **`MS`** = mois, **`Q`** ou **`QS`** = trimestre, **`Y`** ou **`YS`** = année

> **Note :** Les dates générées pour **M**, **Q** et **Y** correspondent au dernier jour de la période concernée, alors que les dates pour **MS**, **QS** et **YS** correspondent au premier jour (le suffixe **S** signifie ***start***). De même, les dates générées par **W** correspondent au dimanche (dernier jour de la semaine) mais on peut choisir le jour en utilisant **W-*day*** avec ***day*** pouvant prendre les valeurs suivantes : **`MON/TUE/WED/THU/FRI/SAT/SUN`**

In [15]:
index = pd.date_range('2000-01-01', periods=6, freq='MS') # création d'un index avec fréquence mensuele
#index = pd.date_range('now', periods=6, freq='W-MON').round('D') # idem avec fréquence hebdomadaire (samedi)
#index = pd.timedelta_range('0S', periods=7, freq='5S').round('S') # idem avec un intervalle de 5 secondes
#index = pd.timedelta_range('15H', periods=9, freq='1H30T').round('T') # idem avec un intervalle de 1H30
f = pd.Series(np.random.rand(index.size), index=index)
show("f#;; f.values#;; f.index#")

f ➤
2000-01-01    0.707322
2000-02-01    0.138348
2000-03-01    0.146108
2000-04-01    0.445824
2000-05-01    0.855872
2000-06-01    0.195917
Freq: MS, dtype: float64

f.values ➤
[0.70732238 0.1383478  0.14610829 0.44582372 0.85587192 0.19591692]

f.index ➤
DatetimeIndex(['2000-01-01', '2000-02-01', '2000-03-01', '2000-04-01',
               '2000-05-01', '2000-06-01'],
              dtype='datetime64[ns]', freq='MS')


In [16]:
show("f[1];") # un indice entier utilise les positions
show("f[1:4]#;") # idem pour les tranches d'entiers
show("f['2000-02-01']#;") # un indice chaîne de caractères utilise les dates
show("f['2000-02':'2000-04']#") # idem pour les tranches de chaînes

f[1] ➤ 0.13834779621677473

f[1:4] ➤
2000-02-01    0.138348
2000-03-01    0.146108
2000-04-01    0.445824
Freq: MS, dtype: float64

f['2000-02-01'] ➤
0.13834779621677473

f['2000-02':'2000-04'] ➤
2000-02-01    0.138348
2000-03-01    0.146108
2000-04-01    0.445824
Freq: MS, dtype: float64


---
### 2 - Création de tables

Dans la terminologie de **pandas**, une table (***dataframe***) est un conteneur 2D qui est obtenu en agglomérant un ensemble de séries possédant toutes le même index. La convention usuelle est de considérer que chaque série représente une colonne de la table résultante (même si on peut évidemment appliquer l'opérateur de transposition si la configuration inverse est préférable pour un jeu de données particulier)

In [17]:
mat = [[1,-2,3,-4], [-5,6,-7,8], [9,-10,11,-12]] # création d'une matrice de test (liste 2D standard)
show("mat")

mat ➤ [[1, -2, 3, -4], [-5, 6, -7, 8], [9, -10, 11, -12]]


In [18]:
aa = pd.DataFrame(mat) # création d'une table à partir de la matrice de test
aa # la table pandas est affichée dans le notebook sous la forme d'une table HTML

Unnamed: 0,0,1,2,3
0,1,-2,3,-4
1,-5,6,-7,8
2,9,-10,11,-12


In [19]:
# les données d'une table 'pandas' sont stockées dans l'attribut 'values' qui est une matrice 'numpy'
show("aa#;; aa.ndim; aa.shape; aa.size;; aa.values#; aa.values.nbytes; aa.values.dtype")

aa ➤
   0   1   2   3
0  1  -2   3  -4
1 -5   6  -7   8
2  9 -10  11 -12

aa.ndim ➤ 2
aa.shape ➤ (3, 4)
aa.size ➤ 12

aa.values ➤
[[  1  -2   3  -4]
 [ -5   6  -7   8]
 [  9 -10  11 -12]]
aa.values.nbytes ➤ 96
aa.values.dtype ➤ int64


In [20]:
# par défaut, les lignes et les colonnes d'une table 'pandas' ont un index de type 'RangeIndex'
show("aa.index; aa.index.values; aa.columns; aa.columns.values")

aa.index ➤ RangeIndex(start=0, stop=3, step=1)
aa.index.values ➤ [0 1 2]
aa.columns ➤ RangeIndex(start=0, stop=4, step=1)
aa.columns.values ➤ [0 1 2 3]


---
Une des caractéristiques particulières du système d'indexation utilisé par les tables **pandas** est qu'il est assymétrique : les ***indices s'appliquent aux colonnes***, les ***tranches d'indices s'appliquent aux lignes***. C'est un peu déroutant au départ, mais à l'usage, il s'avère que ce choix est judicieux par rapport aux manipulations habituellement effectuées sur une telle table. Si l'on souhaite accéder à une ligne unique ou à une tranche de colonnes, la manière la plus simple est d'appliquer une transposition à la table, ou alors utiliser les attributs **`.loc`** et **`.iloc`** créés pour cet usage :

In [21]:
show("aa[1]#;") # accès à une colonne
show("aa.T[1]#;") # accès à une ligne
show("aa.iloc[1]#;") # idem avec 'iloc' : aa.T[1] <=> aa.iloc[1]
show("aa[1:3]#;") # accès à une tranche de lignes
show("aa.T[1:3].T#;") # accès à une tranche de colonnes
show("aa.iloc[:,1:3]#") # idem avec 'iloc': aa.T[1:3].T <=> aa.iloc[:,1:3]

aa[1] ➤
0    -2
1     6
2   -10
Name: 1, dtype: int64

aa.T[1] ➤
0   -5
1    6
2   -7
3    8
Name: 1, dtype: int64

aa.iloc[1] ➤
0   -5
1    6
2   -7
3    8
Name: 1, dtype: int64

aa[1:3] ➤
   0   1   2   3
1 -5   6  -7   8
2  9 -10  11 -12

aa.T[1:3].T ➤
    1   2
0  -2   3
1   6  -7
2 -10  11

aa.iloc[:,1:3] ➤
    1   2
0  -2   3
1   6  -7
2 -10  11


---
Comme pour les matrices **numpy**, on peut utiliser l'accès par énumération ou par prédicat pour les tables **pandas**, avec néanmoins deux différences notables :

- L'énumération doit nécessairement utiliser une liste d'indices (et non un tuple)
- Les données de la table qui ne vérifient pas le prédicat ne sont pas supprimées dans les valeurs retournées, mais sont remplacées par **`NaN`** (***Not-A-Number***)

In [22]:
show("aa[[3,1]]#;") # accès par énumération de colonnes
show("aa.iloc[[2,0]]#;") # accès par énumération de lignes
show("aa[aa % 5 != 0]#") # accès par prédicat

aa[[3,1]] ➤
    3   1
0  -4  -2
1   8   6
2 -12 -10

aa.iloc[[2,0]] ➤
   0   1   2   3
2  9 -10  11 -12
0  1  -2   3  -4

aa[aa % 5 != 0] ➤
     0    1   2   3
0  1.0 -2.0   3  -4
1  NaN  6.0  -7   8
2  9.0  NaN  11 -12


> **Remarque importante :** Chaque fois qu'une opération fait apparaître un élément **`NaN`** dans une série, tous les éléments de cette série sont convertis en **`float`**, car la valeur **`NaN`** fait partie de l'encodage des réels, selon la norme [**IEEE 754**](https://fr.wikipedia.org/wiki/IEEE_754). Lorsqu'un **`NaN`** apparait dans une table, seules les colonnes concernées sont converties en **`float`**. On peut le constater dans la table ci-dessus : les colonnes 0 et 1 contiennent un **`NaN`** et sont donc converties en **`float`**, alors que les colonnes 2 et 3
restent de type **`int`**

---
Il est très rare de garder l'index numérique par défaut pour les colonnes d'une table **pandas**. En effet, comme ces colonnes correspondent presque toujours à des séries, ***on va généralement attribuer un label à chaque colonne*** pour indiquer la nature des valeurs qui s'y trouvent, comme on le fait classiquement dans un tableur :

In [23]:
bb = pd.DataFrame(mat, columns=list('ABCD'))
bb

Unnamed: 0,A,B,C,D
0,1,-2,3,-4
1,-5,6,-7,8
2,9,-10,11,-12


In [24]:
# les attributs 'values', 'index' et 'columns' permettent d'accéder à toutes les composantes de la table
show("bb#;; bb.values#; bb.index; bb.index.values; bb.columns; bb.columns.values")

bb ➤
   A   B   C   D
0  1  -2   3  -4
1 -5   6  -7   8
2  9 -10  11 -12

bb.values ➤
[[  1  -2   3  -4]
 [ -5   6  -7   8]
 [  9 -10  11 -12]]
bb.index ➤ RangeIndex(start=0, stop=3, step=1)
bb.index.values ➤ [0 1 2]
bb.columns ➤ Index(['A', 'B', 'C', 'D'], dtype='object')
bb.columns.values ➤ ['A' 'B' 'C' 'D']


Avec des index de types différents, l'assymétrie des lignes et des colonnes semble plus naturelle. Et à nouveau, on bénéficie d'un accès par attribut, utilisant la notation pointée pour accéder à une colonne directement par son label, à condition d'utiliser des labels qui ne contiennent que ***les 63 caractères autorisés*** pour les identificateurs en Python :

In [25]:
show("bb['B']#;") # accès à une colonne par label
show("bb.B#;") # idem à une colonne par attribut (via la notation pointée)
show("bb.T[1]#;") # accès à une ligne par position <=> bb.iloc[1]
show("bb[1:3]#;") # accès à une tranche de ligne par positions
show("bb.T['B':'D'].T#") # accès à une tranche de colonne par labels <=> bb.loc[:,'B':'D']

bb['B'] ➤
0    -2
1     6
2   -10
Name: B, dtype: int64

bb.B ➤
0    -2
1     6
2   -10
Name: B, dtype: int64

bb.T[1] ➤
A   -5
B    6
C   -7
D    8
Name: 1, dtype: int64

bb[1:3] ➤
   A   B   C   D
1 -5   6  -7   8
2  9 -10  11 -12

bb.T['B':'D'].T ➤
    B   C   D
0  -2   3  -4
1   6  -7   8
2 -10  11 -12


---
Utiliser des labels pour les colonnes et des numéros pour les lignes est de très loin l'utilisation la plus classique des tables **pandas** : comme les séries mises en colonnes dans une table doivent toutes partager le même index, choisir un index de type **`RangeIndex`** consistant à numéroter les lignes, est effectivement un moyen simple pour identifier sans ambiguité les éléments de chaque série. Néanmoins, il est parfois judicieux d'utiliser un index plus élaboré pour les lignes de la table : en particulier, les index de type **`IntervalIndex`** ou **`DatetimeIndex`** sont utiles dans de nombreuses situations concrètes :

In [26]:
dates, labels = pd.date_range('2000-01-01', periods=6, freq='MS'), list('ABCDEF')
data = np.random.normal(0, 5, (6,6)) + [range(10, 120, 20)]
cc = pd.DataFrame(data, index=dates, columns=labels)
cc

Unnamed: 0,A,B,C,D,E,F
2000-01-01,17.063477,25.261172,43.031238,69.055195,95.362069,111.9532
2000-02-01,10.572031,31.236916,56.721112,68.025483,92.533493,106.24995
2000-03-01,12.663607,26.297731,49.757559,75.150296,93.740278,108.328481
2000-04-01,10.065696,31.882404,52.318149,63.573032,94.78248,119.193764
2000-05-01,13.882776,25.336845,57.272969,75.085945,96.370692,118.90609
2000-06-01,4.546613,24.416392,53.6535,62.73143,93.082326,112.562857


In [27]:
# L'accès aux colonnes (label ou tranche de labels) est inchangé par rapport à la table précédente
show("cc['B']#;") # accès à une colonne par label
show("cc.B#;") # accès à une colonne par attribut
show("cc.T['B':'E'].T#") # accès à une tranche de colonnes

cc['B'] ➤
2000-01-01    25.261172
2000-02-01    31.236916
2000-03-01    26.297731
2000-04-01    31.882404
2000-05-01    25.336845
2000-06-01    24.416392
Freq: MS, Name: B, dtype: float64

cc.B ➤
2000-01-01    25.261172
2000-02-01    31.236916
2000-03-01    26.297731
2000-04-01    31.882404
2000-05-01    25.336845
2000-06-01    24.416392
Freq: MS, Name: B, dtype: float64

cc.T['B':'E'].T ➤
                    B          C          D          E
2000-01-01  25.261172  43.031238  69.055195  95.362069
2000-02-01  31.236916  56.721112  68.025483  92.533493
2000-03-01  26.297731  49.757559  75.150296  93.740278
2000-04-01  31.882404  52.318149  63.573032  94.782480
2000-05-01  25.336845  57.272969  75.085945  96.370692
2000-06-01  24.416392  53.653500  62.731430  93.082326


In [28]:
# par contre, on dispose d'une plus grande variété pour l'accès aux lignes
show("cc.T['2000-03-01']#;") # accès à une ligne par date <=> cc.loc['2000-03-01']
show("cc.iloc[2]#;") # accès à une ligne par position
show("cc['20000301':'20000501']#;") # accès à une tranche de lignes par dates
show("cc[2:5]#;") # accès à une tranche de lignes par positions

cc.T['2000-03-01'] ➤
A     12.663607
B     26.297731
C     49.757559
D     75.150296
E     93.740278
F    108.328481
Name: 2000-03-01 00:00:00, dtype: float64

cc.iloc[2] ➤
A     12.663607
B     26.297731
C     49.757559
D     75.150296
E     93.740278
F    108.328481
Name: 2000-03-01 00:00:00, dtype: float64

cc['20000301':'20000501'] ➤
                    A          B          C          D          E           F
2000-03-01  12.663607  26.297731  49.757559  75.150296  93.740278  108.328481
2000-04-01  10.065696  31.882404  52.318149  63.573032  94.782480  119.193764
2000-05-01  13.882776  25.336845  57.272969  75.085945  96.370692  118.906090

cc[2:5] ➤
                    A          B          C          D          E           F
2000-03-01  12.663607  26.297731  49.757559  75.150296  93.740278  108.328481
2000-04-01  10.065696  31.882404  52.318149  63.573032  94.782480  119.193764
2000-05-01  13.882776  25.336845  57.272969  75.085945  96.370692  118.906090



---

Toutes les tables définies ci-dessus possèdent le même type de données pour chacune des cellules, ce qui les rend assez proches des matrices fournies par **numpy**. La fonctionnalité la plus intéressante des tables fournies par le package **pandas** est, au contraire, de ***pouvoir mixer des données de nature arbitraire, en utilisant une série différente pour chaque colonne***. La manière la plus habituelle utilisée pour créer une variable de type **`dataframe`** est de fournir un dictionnaire Python, regroupant plusieurs séries, chacune étant associé avec un label de type chaîne :

In [29]:
dd = pd.DataFrame(dict(Name=[3*c for c in 'ABCDEF'], Model=pd.Categorical(2*['S','M','L']), Start=0,
     Stop=np.random.randint(0,100,(6,), dtype='u1'), Score=np.linspace(0, 3, 6), Test=dates.month > 3,
     Date=dates, Delta=(pd.Timestamp('now') - dates).round('D')))
dd

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
0,AAA,S,0,32,0.0,False,2000-01-01,9199 days
1,BBB,M,0,92,0.6,False,2000-02-01,9168 days
2,CCC,L,0,63,1.2,False,2000-03-01,9139 days
3,DDD,S,0,60,1.8,True,2000-04-01,9108 days
4,EEE,M,0,63,2.4,True,2000-05-01,9078 days
5,FFF,L,0,10,3.0,True,2000-06-01,9047 days


In [30]:
# l'index des lignes est un 'RangeIndex' par défaut, celui des colonnes est un 'Index' de labels
show("dd.index; dd.index.values; dd.columns; dd.columns.values")

dd.index ➤ RangeIndex(start=0, stop=6, step=1)
dd.index.values ➤ [0 1 2 3 4 5]
dd.columns ➤ Index(['Name', 'Model', 'Start', 'Stop', 'Score', 'Test', 'Date', 'Delta'], dtype='object')
dd.columns.values ➤ ['Name' 'Model' 'Start' 'Stop' 'Score' 'Test' 'Date' 'Delta']


In [31]:
# l'attribut 'dtypes' est une série 'pandas' contenant le type de données utilisé pour chaque colonne
show("dd.dtypes#")

dd.dtypes ➤
Name              object
Model           category
Start              int64
Stop               uint8
Score            float64
Test                bool
Date      datetime64[ns]
Delta    timedelta64[ns]
dtype: object


L'index numérique généré automatiquement lors de la création d'une table peut convenir dans de nombreuses situations, mais il est souvent plus intéressant d'indexer la table par une des séries qui la compose. En pratique, n'importe quelle colonne peut être utilisée comme index, **à condition qu'elle ne possède pas de doublons**. Comme pour les séries, la modification de l'index s'obtient simplement en affectant une nouvelle série à l'attribut **`index`**. La colonne utilisée comme index n'est pas supprimée de la table, ce qui permet de rechanger d'index par la suite si nécessaire. A l'inverse, si on est sûr de garder la colonne choisie, on pourra la supprimer manuellement avec les commandes qui seront abordés dans la section suivante :

In [32]:
#dd.index = dd.Date # on utilise la colonne 'Date' comme index
dd.index = dd.Name # on utilise la colonne 'Name' comme index
#dd.index = dd.Test # la colonne 'Test' est un mauvais choix à cause des doublons
dd.index.name = None # le label de l'index est inutile, donc on le supprime
dd # la colonne utilisée comme index n'est pas enlevée de la table (il faudra la supprimer manuellement)

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
AAA,AAA,S,0,32,0.0,False,2000-01-01,9199 days
BBB,BBB,M,0,92,0.6,False,2000-02-01,9168 days
CCC,CCC,L,0,63,1.2,False,2000-03-01,9139 days
DDD,DDD,S,0,60,1.8,True,2000-04-01,9108 days
EEE,EEE,M,0,63,2.4,True,2000-05-01,9078 days
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days


<h2 style="padding:16px; color:#FFF; background:#06D">B - Manipulation des séries et des tables</h2>

Les séries et les tables **pandas** sont construites en se basant sur les vecteurs et matrices fournies par **numpy** (les valeurs correspondantes sont stockées dans l'attribut **`values`** qui est de type **`array`**). Par conséquent, toutes les opérations et fonctions de **numpy** sont directement utilisables avec **pandas**. Mais le package offre un grand nombre de fonctionnalités supplémentaires, particulièrement intéressantes dans le cadre des applications en Science des Données, dont on va faire un tour d'horizon rapide dans cette section.

---
Comme on l'a vu en début de chapitre, le nombre de fonctions globales fournies par le package **pandas** est très inférieur au nombre de fonctions disponibles avec **numpy** : ***60 fonctions pour pandas contre plus de 500 pour numpy***. A l'inverse, en listant les méthodes disponibles pour la manipulation des séries ou tables **pandas**, on constate qu'elles sont bien plus nombreuses que celles qui existent pour les matrices **numpy** : ***plus de 200 méthodes pour pandas contre 70 pour numpy***.

In [33]:
inspect(dd, detail=0) # liste des méthodes et propriétés des tables 'pandas'

● NAME = _ / TYPE = DataFrame
● ROLE = Two-dimensional, size-mutable, potentially heterogeneous tabular data.

● PROPERTIES
Date     Delta    Model    Name     Score    Start    Stop     T        Test     at       
attrs    axes     columns  dtypes   empty    flags    iat      index    ndim     shape    
size     style    values   

● METHODS
abs                add                add_prefix         add_suffix         agg                
aggregate          align              all                any                apply              
applymap           asfreq             asof               assign             astype             
at_time            backfill           between_time       bfill              bool               
boxplot            clip               combine            combine_first      compare            
convert_dtypes     copy               corr               corrwith           count              
cov                cummax             cummin             cumprod            cum

In [34]:
inspect(dd.values, detail=0) # liste des méthodes et propriétés des matrces 'numpy'

● NAME = <empty name> / TYPE = ndarray
● ROLE = An array object represents a multidimensional, homogeneous array
  of fixed-size items.  An associated data-type object describes the
  format of each element in the array (its byte-order, how many bytes it
  occupies in memory, whether it is an integer, a floating point number,
  or something else, etc.)

● PROPERTIES
T         base      ctypes    data      device    dtype     flags     flat      imag      
itemsize  mT        nbytes    ndim      real      shape     size      strides   

● METHODS
all           any           argmax        argmin        argpartition  argsort       
astype        byteswap      choose        clip          compress      conj          
conjugate     copy          cumprod       cumsum        diagonal      dot           
dump          dumps         fill          flatten       getfield      item          
max           mean          min           nonzero       partition     prod          
put           ravel    

 Cela est due à une différence fondamentale d'architecture entre les deux bibliothèques : **numpy** a été conçu comme une boîte à outils fonctionnelle à une époque (version initiale = 1995) où le langage Python n'intégrait pas encore les fonctionnalités du paradigme 'objet'. Alors que **pandas** a été développé beaucoup plus récemment (version initiale = 2010) lorsque Python était devenu un langage objet très avancé. Pour l'utilisateur, cette différence d'architecture implique une différence radicale dans le flux de travail (*workflow*) à mettre en oeuvre : avec **numpy** on enchaine des appels de fonctions en passant les matrices généralement en tant que premier argument de la fonction, alors qu'avec **pandas**, on enchaîne les traitements sur un jeu de données par des compositions de méthodes, via la notation pointée.

---
### 1 - Informations générales sur les données stockées


In [35]:
dd.head(3) # affichage des 'n' premières lignes (5 par défaut)

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
AAA,AAA,S,0,32,0.0,False,2000-01-01,9199 days
BBB,BBB,M,0,92,0.6,False,2000-02-01,9168 days
CCC,CCC,L,0,63,1.2,False,2000-03-01,9139 days


In [36]:
dd.tail(1) # affichage des 'n' dernières lignes (5 par défaut)

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days


In [37]:
dd.info() # informations générales concernant l'implémentation

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, AAA to FFF
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype          
---  ------  --------------  -----          
 0   Name    6 non-null      object         
 1   Model   6 non-null      category       
 2   Start   6 non-null      int64          
 3   Stop    6 non-null      uint8          
 4   Score   6 non-null      float64        
 5   Test    6 non-null      bool           
 6   Date    6 non-null      datetime64[ns] 
 7   Delta   6 non-null      timedelta64[ns]
dtypes: bool(1), category(1), datetime64[ns](1), float64(1), int64(1), object(1), timedelta64[ns](1), uint8(1)
memory usage: 610.0+ bytes


In [38]:
dd.describe() # statistiques descriptives sur chaque colonne à valeurs numériques

Unnamed: 0,Start,Stop,Score,Date,Delta
count,6.0,6.0,6.0,6,6
mean,0.0,53.333333,1.5,2000-03-16 20:00:00,9123 days 04:00:00
min,0.0,10.0,0.0,2000-01-01 00:00:00,9047 days 00:00:00
25%,0.0,39.0,0.75,2000-02-08 06:00:00,9085 days 12:00:00
50%,0.0,61.5,1.5,2000-03-16 12:00:00,9123 days 12:00:00
75%,0.0,63.0,2.25,2000-04-23 12:00:00,9160 days 18:00:00
max,0.0,92.0,3.0,2000-06-01 00:00:00,9199 days 00:00:00
std,0.0,28.493274,1.122497,,56 days 17:09:17.293801904


In [39]:
dd.describe(include='all') # on force l'inclusion des colonnes non-numériques

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
count,6,6,6.0,6.0,6.0,6,6,6
unique,6,3,,,,2,,
top,AAA,L,,,,False,,
freq,1,2,,,,3,,
mean,,,0.0,53.333333,1.5,,2000-03-16 20:00:00,9123 days 04:00:00
min,,,0.0,10.0,0.0,,2000-01-01 00:00:00,9047 days 00:00:00
25%,,,0.0,39.0,0.75,,2000-02-08 06:00:00,9085 days 12:00:00
50%,,,0.0,61.5,1.5,,2000-03-16 12:00:00,9123 days 12:00:00
75%,,,0.0,63.0,2.25,,2000-04-23 12:00:00,9160 days 18:00:00
max,,,0.0,92.0,3.0,,2000-06-01 00:00:00,9199 days 00:00:00


---
### 2 - Extraction de données

Parmi les opérations les plus fréquentes dans la manipulation des tables, figure l'extraction d'un sous-ensemble des données, soit sous la forme d'une zone rectangulaire (définie par une ***double tranche***), soit sous la forme d'une sélection conjointe de lignes et de colonnes (définie par une ***double énumération***), soit sous la forme d'un ensemble de contraintes (définies par des ***prédicats simple ou multiples***). Avec le mécanisme d'indexation fourni par **pandas** toutes ces opérations sont très simples à mettre en oeuvre :

In [40]:
dd # rappel du contenu de la table

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
AAA,AAA,S,0,32,0.0,False,2000-01-01,9199 days
BBB,BBB,M,0,92,0.6,False,2000-02-01,9168 days
CCC,CCC,L,0,63,1.2,False,2000-03-01,9139 days
DDD,DDD,S,0,60,1.8,True,2000-04-01,9108 days
EEE,EEE,M,0,63,2.4,True,2000-05-01,9078 days
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days


In [41]:
show("dd['CCC':'EEE'].T['Model':'Test'].T#;") # accès avec double tranche de labels
show("dd.loc['CCC':'EEE','Model':'Test']#;") # idem avec 'loc'
show("dd.iloc[2:5,1:6]#;") # idem avec 'iloc' (double tranche de positions)

show("dd.T[['FFF','AAA','DDD']].T[['Date','Score','Model']]#;") # double énumération de  labels
show("dd.loc[('FFF','AAA','DDD'),('Date','Score','Model')]#;") # idem avec 'loc'
show("dd.iloc[[5,0,3],[6,4,1]]#") # idem avec 'iloc' (double énumération de positions)

dd['CCC':'EEE'].T['Model':'Test'].T ➤
    Model Start Stop Score   Test
CCC     L     0   63   1.2  False
DDD     S     0   60   1.8   True
EEE     M     0   63   2.4   True

dd.loc['CCC':'EEE','Model':'Test'] ➤
    Model  Start  Stop  Score   Test
CCC     L      0    63    1.2  False
DDD     S      0    60    1.8   True
EEE     M      0    63    2.4   True

dd.iloc[2:5,1:6] ➤
    Model  Start  Stop  Score   Test
CCC     L      0    63    1.2  False
DDD     S      0    60    1.8   True
EEE     M      0    63    2.4   True

dd.T[['FFF','AAA','DDD']].T[['Date','Score','Model']] ➤
                    Date Score Model
FFF  2000-06-01 00:00:00   3.0     L
AAA  2000-01-01 00:00:00   0.0     S
DDD  2000-04-01 00:00:00   1.8     S

dd.loc[('FFF','AAA','DDD'),('Date','Score','Model')] ➤
          Date  Score Model
FFF 2000-06-01    3.0     L
AAA 2000-01-01    0.0     S
DDD 2000-04-01    1.8     S

dd.iloc[[5,0,3],[6,4,1]] ➤
          Date  Score Model
FFF 2000-06-01    3.0     L
AAA 2000-01-01 

In [42]:
show("dd.Score > 1.5#;") # création d'un prédicat sur une colonne (notation pointée)
show("(dd.Model == 'S') & (dd.Score > 1.5)#;") # idem sur plusieurs colonnes (parenthèses obligatoires)
show("dd[dd.Model == 'S']#;") # extraction des lignes vérifiant un prédicat
show("dd[dd.Model == 'S'].Score#;") # idem avec sélection d'une seule colonne (notation pointée)
show("dd[dd.Model == 'S']['Date Test Score'.split()]#") # idem avec sélection de plusieurs colonnes

dd.Score > 1.5 ➤
AAA    False
BBB    False
CCC    False
DDD     True
EEE     True
FFF     True
Name: Score, dtype: bool

(dd.Model == 'S') & (dd.Score > 1.5) ➤
AAA    False
BBB    False
CCC    False
DDD     True
EEE    False
FFF    False
dtype: bool

dd[dd.Model == 'S'] ➤
    Name Model  Start  Stop  Score   Test       Date     Delta
AAA  AAA     S      0    32    0.0  False 2000-01-01 9199 days
DDD  DDD     S      0    60    1.8   True 2000-04-01 9108 days

dd[dd.Model == 'S'].Score ➤
AAA    0.0
DDD    1.8
Name: Score, dtype: float64

dd[dd.Model == 'S']['Date Test Score'.split()] ➤
          Date   Test  Score
AAA 2000-01-01  False    0.0
DDD 2000-04-01   True    1.8


In [43]:
show("'S' in dd.Model; 'S' in dd.Model.values;") # par défaut, 'in' s'applique à l'index
show("dd[dd.Model.isin({'L','M'})]#") # extraction de lignes avec un prédicat d'inclusion dans un ensemble

'S' in dd.Model ➤ False
'S' in dd.Model.values ➤ True

dd[dd.Model.isin({'L','M'})] ➤
    Name Model  Start  Stop  Score   Test       Date     Delta
BBB  BBB     M      0    92    0.6  False 2000-02-01 9168 days
CCC  CCC     L      0    63    1.2  False 2000-03-01 9139 days
EEE  EEE     M      0    63    2.4   True 2000-05-01 9078 days
FFF  FFF     L      0    10    3.0   True 2000-06-01 9047 days


---
### 3 - Insertion, Suppression et Modification de données

Pour éviter de détruire des données par erreur, la plupart des commandes de **pandas** qui suppriment ou modifient les données vont travailler sur une copie des données originelles, ce qui permet de tester sans risques les opérations à effectuer avant de les mettre concrètement en oeuvre. Ainsi la plupart des fonctions possèdent un argument booléen **`inplace`** (égal à **`False`** par défaut) qui indique ***si la fonction doit s'appliquer "sur place" ou sur une copie***. Par contre, les commandes d'insertion de données n'ont pas besoin de ce mécanisme, puisque les données existantes ne sont pas modifiées lors de la commande.

In [44]:
# on remet les instructions de création de la table 'dd', car on va la modifier à plusieurs reprises
dd = pd.DataFrame(dict(Name=[3*c for c in 'ABCDEF'], Model=pd.Categorical(2*['S','M','L']), Start=0,
     Stop=np.random.randint(0,100,(6,), dtype='u1'), Score=np.linspace(0, 3, 6), Test=dates.month > 3,
     Date=dates, Delta=(pd.Timestamp('now') - dates).round('D')))
dd.index = dd.Name; dd.index.name = None; dd

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta
AAA,AAA,S,0,10,0.0,False,2000-01-01,9199 days
BBB,BBB,M,0,4,0.6,False,2000-02-01,9168 days
CCC,CCC,L,0,12,1.2,False,2000-03-01,9139 days
DDD,DDD,S,0,4,1.8,True,2000-04-01,9108 days
EEE,EEE,M,0,99,2.4,True,2000-05-01,9078 days
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days


In [45]:
dd['Rank'] = range(6,0,-1) # insertion d'une colonne complète
dd['Final'] = dd.Stop * dd.Score # insertion d'une colonne complète par combinaison
dd['Color'] = pd.Series(dict(AAA='blue', CCC='green', DDD='red')) # insertion d'une colonne incomplète
dd['Color-Name'] = dd.Color + '-' + dd.Name # insertion d'une colonne incomplète par combinaison
dd # note : la valeur NaN est "contagieuse" (elle se transmet à toute opération où elle est impliquée)

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta,Rank,Final,Color,Color-Name
AAA,AAA,S,0,10,0.0,False,2000-01-01,9199 days,6,0.0,blue,blue-AAA
BBB,BBB,M,0,4,0.6,False,2000-02-01,9168 days,5,2.4,,
CCC,CCC,L,0,12,1.2,False,2000-03-01,9139 days,4,14.4,green,green-CCC
DDD,DDD,S,0,4,1.8,True,2000-04-01,9108 days,3,7.2,red,red-DDD
EEE,EEE,M,0,99,2.4,True,2000-05-01,9078 days,2,237.6,,
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days,1,30.0,,


In [46]:
del dd['Color-Name'] # suppression d'une colonne (sur place)
dd.drop(columns=['Date','Delta']) # suppression d'un groupe de colonnes (sur copie)
dd # les colonnes n'ont pas été supprimées

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Date,Delta,Rank,Final,Color
AAA,AAA,S,0,10,0.0,False,2000-01-01,9199 days,6,0.0,blue
BBB,BBB,M,0,4,0.6,False,2000-02-01,9168 days,5,2.4,
CCC,CCC,L,0,12,1.2,False,2000-03-01,9139 days,4,14.4,green
DDD,DDD,S,0,4,1.8,True,2000-04-01,9108 days,3,7.2,red
EEE,EEE,M,0,99,2.4,True,2000-05-01,9078 days,2,237.6,
FFF,FFF,L,0,10,3.0,True,2000-06-01,9047 days,1,30.0,


In [47]:
dd.drop(columns=['Date','Delta'], inplace=True) # suppression d'un groupe de colonnes (sur place)
dd # maintenant, oui...

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0,10,0.0,False,6,0.0,blue
BBB,BBB,M,0,4,0.6,False,5,2.4,
CCC,CCC,L,0,12,1.2,False,4,14.4,green
DDD,DDD,S,0,4,1.8,True,3,7.2,red
EEE,EEE,M,0,99,2.4,True,2,237.6,
FFF,FFF,L,0,10,3.0,True,1,30.0,


In [48]:
# insertion d'une ligne incomplète (à cause du NaN, la colonne 'Stop' est transformée en 'float')
dd.loc['ZZZ'] = dict(Name='ZZZ', Model='S', Start=1, Test=False, Color='white')
dd

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0,10.0,0.0,False,6.0,0.0,blue
BBB,BBB,M,0,4.0,0.6,False,5.0,2.4,
CCC,CCC,L,0,12.0,1.2,False,4.0,14.4,green
DDD,DDD,S,0,4.0,1.8,True,3.0,7.2,red
EEE,EEE,M,0,99.0,2.4,True,2.0,237.6,
FFF,FFF,L,0,10.0,3.0,True,1.0,30.0,
ZZZ,ZZZ,S,1,,,False,,,white


In [49]:
ee = dd.drop(['BBB','DDD','EEE']) # suppression d'un groupe de lignes (sur copie)
ee

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0,10.0,0.0,False,6.0,0.0,blue
CCC,CCC,L,0,12.0,1.2,False,4.0,14.4,green
FFF,FFF,L,0,10.0,3.0,True,1.0,30.0,
ZZZ,ZZZ,S,1,,,False,,,white


In [50]:
dd.drop('EEE', inplace=True) # suppression d'une ligne (sur place)
dd

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0,10.0,0.0,False,6.0,0.0,blue
BBB,BBB,M,0,4.0,0.6,False,5.0,2.4,
CCC,CCC,L,0,12.0,1.2,False,4.0,14.4,green
DDD,DDD,S,0,4.0,1.8,True,3.0,7.2,red
FFF,FFF,L,0,10.0,3.0,True,1.0,30.0,
ZZZ,ZZZ,S,1,,,False,,,white


---
Pour la modification individuelle d'un élément d'une table, il existe ***une erreur de débutant assez courante***, due au système d'indexation différent utilisé par **pandas** et **numpy** :

In [51]:
ee[2,2] = 3 # on a l'impression de modifier un élément de la table, comme en 'numpy'
ee['FFF','Color'] = 'yellow' # idem en utilisant les labels
ee # ATTENTION : ce n'est pas le cas, car 'pandas' n'est pas 'numpy'

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color,"(2, 2)","(FFF, Color)"
AAA,AAA,S,0,10.0,0.0,False,6.0,0.0,blue,3,yellow
CCC,CCC,L,0,12.0,1.2,False,4.0,14.4,green,3,yellow
FFF,FFF,L,0,10.0,3.0,True,1.0,30.0,,3,yellow
ZZZ,ZZZ,S,1,,,False,,,white,3,yellow


Concrètement, on a rajouté une colonne nommée **`(2,2)`** correspondant à une série constante de valeur **`3`**, ainsi qu'une colonne nommée **`('FFF','Color')`** correspondant à une série constante de valeur **`'yellow'`**. Pour obtenir le comportement souhaité, à savoir modifier les données identifiées respectivement par la position **`(2,2)`** et par les labels **`('FFF','Color')`**, il faut ***impérativement utiliser les accesseurs*** **`iloc`** et **`loc`** :

In [52]:
# pour les modifications individuelles, il faut utiliser les accesseurs 'loc' et/ou 'iloc'
dd.loc['FFF','Color'] = 'yellow' # modification d'un élément individuel (en utilisant les labels)
dd.iloc[2,2] = 3 # idem en utilisant les positions
dd # ces deux modifications sont systématiquement "sur place"

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0,10.0,0.0,False,6.0,0.0,blue
BBB,BBB,M,0,4.0,0.6,False,5.0,2.4,
CCC,CCC,L,3,12.0,1.2,False,4.0,14.4,green
DDD,DDD,S,0,4.0,1.8,True,3.0,7.2,red
FFF,FFF,L,0,10.0,3.0,True,1.0,30.0,yellow
ZZZ,ZZZ,S,1,,,False,,,white


In [53]:
dd.loc['FFF','Color'] = np.nan # mettre 'np.nan' signifie effacer la donnée pour 'pandas'
dd.iloc[2,2] = None # idem avec 'None' (à nouveau, la colonne avec NaN est transformée en 'float')
dd

Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0.0,10.0,0.0,False,6.0,0.0,blue
BBB,BBB,M,0.0,4.0,0.6,False,5.0,2.4,
CCC,CCC,L,,12.0,1.2,False,4.0,14.4,green
DDD,DDD,S,0.0,4.0,1.8,True,3.0,7.2,red
FFF,FFF,L,0.0,10.0,3.0,True,1.0,30.0,
ZZZ,ZZZ,S,1.0,,,False,,,white


---
Le package **pandas** fournit plusieurs outils pour combler les données manquantes dans une série ou une table :

In [54]:
show("dd.Color.fillna('black')#;") # remplacement des NaN par une valeur constante
show("dd.Score.fillna(dd.Score.mean())#;") # remplacement des NaN par une valeur calculée
show("dd.Color.fillna(method='ffill')#;") # remplacement des NaN par la valeur précédente (forward fill)
show("dd.Color.fillna(method='bfill')#;") # remplacement des NaN par la valeur suivante (backward fill)
dd # ATTENTION : la table est inchangée (pas de 'inplace=True' lors des appels de fonctions)

dd.Color.fillna('black') ➤
AAA     blue
BBB    black
CCC    green
DDD      red
FFF    black
ZZZ    white
Name: Color, dtype: object

dd.Score.fillna(dd.Score.mean()) ➤
AAA    0.00
BBB    0.60
CCC    1.20
DDD    1.80
FFF    3.00
ZZZ    1.32
Name: Score, dtype: float64

dd.Color.fillna(method='ffill') ➤
AAA     blue
BBB     blue
CCC    green
DDD      red
FFF      red
ZZZ    white
Name: Color, dtype: object

dd.Color.fillna(method='bfill') ➤
AAA     blue
BBB    green
CCC    green
DDD      red
FFF    white
ZZZ    white
Name: Color, dtype: object



Unnamed: 0,Name,Model,Start,Stop,Score,Test,Rank,Final,Color
AAA,AAA,S,0.0,10.0,0.0,False,6.0,0.0,blue
BBB,BBB,M,0.0,4.0,0.6,False,5.0,2.4,
CCC,CCC,L,,12.0,1.2,False,4.0,14.4,green
DDD,DDD,S,0.0,4.0,1.8,True,3.0,7.2,red
FFF,FFF,L,0.0,10.0,3.0,True,1.0,30.0,
ZZZ,ZZZ,S,1.0,,,False,,,white


---
### 4 - Classements et regroupements de données

La dernière catégorie des opérations de manipulation inclut tout ce qui concerne les classements de données selon des critères variées, les regroupements externes (= concaténation ou fusion de plusieurs séries ou tables en une seule) ou les regroupements internes (= partitionnement des données selon un ou plusieurs critères). A la différence de **numpy**, le package **pandas** fournit des opérations très complète dans cette catégorie, la plupart étant inspiré des [**Systèmes de Gestion de Bases de Données Relationnelles**](https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_relationnelle), et du langage de requêtes [**SQL**](https://fr.wikipedia.org/wiki/Structured_Query_Language). Pour illustrer ces outils, on va créer deux nouvelles tables **`ee`** et **`ff`** avec une structure plus intéressante pour ce type de manipulations :

In [55]:
np.random.seed(0); values = np.random.randint(0, 10, (8,2))
names = np.array([3*c for c in 'ABCDEFBGECH']); chars = list('XYZZXZYXXZYyzyxxzzzyyx')
ee = pd.DataFrame(dict(A=values[:6,0], B=values[:6,1], C=chars[:6], D=chars[11:17]), index=names[:6])
ee.iloc[2::2,1] = ee.iloc[1,2] = ee.iloc[0,0] = np.nan # on rajoute quelques valeurs NaN
ee # table de 6 lignes et de 4 colonnes, contenant 4 valeurs NaN

Unnamed: 0,A,B,C,D
AAA,,0.0,X,y
BBB,3.0,3.0,,z
CCC,7.0,,Z,y
DDD,3.0,5.0,Z,x
EEE,2.0,,X,x
FFF,7.0,6.0,Z,z


In [56]:
ff = pd.DataFrame(dict(C=chars[6:11], D=chars[17:], E=values[-5:,0], F=values[-5:,1]), index=names[6:])
ff # table de 5 lignes et de 4 colonnes

Unnamed: 0,C,D,E,F
BBB,Y,z,3,5
GGG,X,z,2,4
EEE,X,y,7,6
CCC,Z,y,8,8
HHH,Y,x,1,6


In [57]:
show("ff.sort_index()#;") # tri (ascendant, par défaut) de la table selon l'index
show("ee.sort_values(by='B')#;") # tri de la table selon une colonne spécifique
show("ee.sort_values(by=['C','B'], ascending=False)#;") # tri (descendant) selon un groupe de colonnes
# les valeurs NaN sont toujours mises à la fin de chaque groupe, en tri ascendant ou en descendant

ff.sort_index() ➤
     C  D  E  F
BBB  Y  z  3  5
CCC  Z  y  8  8
EEE  X  y  7  6
GGG  X  z  2  4
HHH  Y  x  1  6

ee.sort_values(by='B') ➤
       A    B    C  D
AAA  NaN  0.0    X  y
BBB  3.0  3.0  NaN  z
DDD  3.0  5.0    Z  x
FFF  7.0  6.0    Z  z
CCC  7.0  NaN    Z  y
EEE  2.0  NaN    X  x

ee.sort_values(by=['C','B'], ascending=False) ➤
       A    B    C  D
FFF  7.0  6.0    Z  z
DDD  3.0  5.0    Z  x
CCC  7.0  NaN    Z  y
AAA  NaN  0.0    X  y
EEE  2.0  NaN    X  x
BBB  3.0  3.0  NaN  z



In [58]:
show("ee#;;(2*ee.A + 4*ee.B).sort_values()#;") # on peut trier sur des combinaisons de colonnes
show("(2*ee.A.fillna(ee.A.max()) + 4*ee.B.fillna(ee.A)).sort_values()#") # et même en remplissant les NaN

ee ➤
       A    B    C  D
AAA  NaN  0.0    X  y
BBB  3.0  3.0  NaN  z
CCC  7.0  NaN    Z  y
DDD  3.0  5.0    Z  x
EEE  2.0  NaN    X  x
FFF  7.0  6.0    Z  z

(2*ee.A + 4*ee.B).sort_values() ➤
BBB    18.0
DDD    26.0
FFF    38.0
AAA     NaN
CCC     NaN
EEE     NaN
dtype: float64

(2*ee.A.fillna(ee.A.max()) + 4*ee.B.fillna(ee.A)).sort_values() ➤
EEE    12.0
AAA    14.0
BBB    18.0
DDD    26.0
FFF    38.0
CCC    42.0
dtype: float64


In [59]:
show("ee.A#;; ee.A.rank()#;") # rang des éléments d'une colonne (dans l'ordre croissant des valeurs)
show("ee.A.rank(method='min')#;; ee.A.rank(method='dense')#;") # méthodes de gestion des rangs identiques

ee.A ➤
AAA    NaN
BBB    3.0
CCC    7.0
DDD    3.0
EEE    2.0
FFF    7.0
Name: A, dtype: float64

ee.A.rank() ➤
AAA    NaN
BBB    2.5
CCC    4.5
DDD    2.5
EEE    1.0
FFF    4.5
Name: A, dtype: float64

ee.A.rank(method='min') ➤
AAA    NaN
BBB    2.0
CCC    4.0
DDD    2.0
EEE    1.0
FFF    4.0
Name: A, dtype: float64

ee.A.rank(method='dense') ➤
AAA    NaN
BBB    2.0
CCC    3.0
DDD    2.0
EEE    1.0
FFF    3.0
Name: A, dtype: float64



In [60]:
show("ee.A#;; ee.A.value_counts()#;") # compteur d'occurrences sur une colonne (ordre décroissant)
show("ee.A.value_counts(normalize=True)#;") # idem mais transformation en probabilités
show("ff.E#;; pd.qcut(ff.E, 3, labels=['low','mid','high'])#") # découpage par tranche de quantiles

ee.A ➤
AAA    NaN
BBB    3.0
CCC    7.0
DDD    3.0
EEE    2.0
FFF    7.0
Name: A, dtype: float64

ee.A.value_counts() ➤
A
3.0    2
7.0    2
2.0    1
Name: count, dtype: int64

ee.A.value_counts(normalize=True) ➤
A
3.0    0.4
7.0    0.4
2.0    0.2
Name: proportion, dtype: float64

ff.E ➤
BBB    3
GGG    2
EEE    7
CCC    8
HHH    1
Name: E, dtype: int32

pd.qcut(ff.E, 3, labels=['low','mid','high']) ➤
BBB     mid
GGG     low
EEE    high
CCC    high
HHH     low
Name: E, dtype: category
Categories (3, object): ['low' < 'mid' < 'high']


---
Les opérations de regroupements externes utilisent deux fonctions principales **`concat`** et **`merge`** :

In [61]:
pd.concat((ee,ff)) # concaténation des index sur les lignes, union des index sur les colonnes
pd.concat((ee,ff), join='inner') # idem avec intersection des index sur les colonnes
pd.concat((ee,ff), axis=1) # concaténation des index sur les colonnes, union des index sur les lignes
pd.concat((ee,ff), axis=1, join='inner') # idem avec intersection des index sur les lignes

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
BBB,3.0,3.0,,z,Y,z,3,5
CCC,7.0,,Z,y,Z,y,8,8
EEE,2.0,,X,x,X,y,7,6


In [62]:
pd.merge(ee, ff, left_index=True, right_index=True) # idem 'concat inner' mais avec gestion des collisions
gg = pd.merge(ee, ff, how='outer', left_index=True, right_index=True) # idem 'concat outer' avec gestion
gg # c'est généralement 'merge outer' qui est le plus intéressant dans les regroupements externes

Unnamed: 0,A,B,C_x,D_x,C_y,D_y,E,F
AAA,,0.0,X,y,,,,
BBB,3.0,3.0,,z,Y,z,3.0,5.0
CCC,7.0,,Z,y,Z,y,8.0,8.0
DDD,3.0,5.0,Z,x,,,,
EEE,2.0,,X,x,X,y,7.0,6.0
FFF,7.0,6.0,Z,z,,,,
GGG,,,,,X,z,2.0,4.0
HHH,,,,,Y,x,1.0,6.0


Après un **`concat`** ou un **`merge`**, il faut généralement faire un peu de polissage manuel sur les tables obtenues. Dans notre exemple, on suppose que les deux colonnes **C_x** (provenant de la table **ee**) et **C_y** (provenant de la table **ff**) représentent les mêmes paramètres, donc on aimerait bien les fusionner. Pour cela, il faut d'abord vérifier qu'il n'y a pas d'incompatibilité : il ne faut pas qu'il existe de ligne où les valeurs des colonnes **C_x** et **C_y** sont à la fois non vides et différentes. Il faut également faire la même vérification pour les colonnes **D_x** et **D_y** que l'on aimerait fusionner également :

In [63]:
gg["C_x C_y D_x D_y".split()] # on peut vérifier les incompatibilités visuellement

Unnamed: 0,C_x,C_y,D_x,D_y
AAA,X,,y,
BBB,,Y,z,z
CCC,Z,Z,y,y
DDD,Z,,x,
EEE,X,X,x,y
FFF,Z,,z,
GGG,,X,,z
HHH,,Y,,x


In [64]:
# ou alors on fait faire la recherche d'incompatibilités à 'pandas' pour les lignes C_x et C_y
gg[gg.C_x.notnull() & gg.C_y.notnull() & (gg.C_x != gg.C_y)] # recherche sur C_x/C_y

Unnamed: 0,A,B,C_x,D_x,C_y,D_y,E,F


Comme la table retournée est vide, cela signifie qu'il n'y a pas d'incompatibilité pour fusionner **C_x** et **C_y**

In [65]:
# idem pour les lignes D_x et D_y
gg[gg.D_x.notnull() & gg.D_y.notnull() & (gg.D_x != gg.D_y)]  # recherche sur D_x/D_y

Unnamed: 0,A,B,C_x,D_x,C_y,D_y,E,F
EEE,2.0,,X,x,X,y,7.0,6.0


Par contre, la ligne **EEE** possède des valeurs différente pour **D_x** et **D_y**, il faut donc choisir celle qu'on va retenir lors de la fusion des colonnes :

In [66]:
gg.C_x.fillna(gg.C_y, inplace=True) # on remplit les NaN de 'C_x' par les valeurs correspondantes de 'C_y'
gg.D_x.fillna(gg.D_y, inplace=True) # on remplit les NaN de 'D_x' par les valeurs correspondantes de 'D_y'
gg.rename({'C_x':'C'}, axis=1, inplace=True); del gg['C_y'] # on renomme 'C_x' en 'C' et on supprime 'C_y'
gg.rename({'D_x':'D'}, axis=1, inplace=True); del gg['D_y'] # on renomme 'D_x' en 'C' et on supprime 'D_y'
gg

Unnamed: 0,A,B,C,D,E,F
AAA,,0.0,X,y,,
BBB,3.0,3.0,Y,z,3.0,5.0
CCC,7.0,,Z,y,8.0,8.0
DDD,3.0,5.0,Z,x,,
EEE,2.0,,X,x,7.0,6.0
FFF,7.0,6.0,Z,z,,
GGG,,,X,z,2.0,4.0
HHH,,,Y,x,1.0,6.0


De même, on peut considérer que la colonne **E** est similaire à la colonne **A**, donc on peut compléter les données manquantes de **E** par les données correspondantes dans **A** et vice-versa (et idem pour les colonnes **B** et **F**). Ces opérations s'appellent des **complétions croisées** et après leur utilisation, il n'y a quasiment plus de valeurs manquantes dans la table fusionnée :

In [67]:
gg.A.fillna(gg.E, inplace=True); gg.E.fillna(gg.A, inplace=True) # complétion croisée pour A et E
gg.B.fillna(gg.F, inplace=True); gg.F.fillna(gg.B, inplace=True) # complétion croisée pour B et F
gg # il n'y a presque plus de NaN

Unnamed: 0,A,B,C,D,E,F
AAA,,0.0,X,y,,0.0
BBB,3.0,3.0,Y,z,3.0,5.0
CCC,7.0,8.0,Z,y,8.0,8.0
DDD,3.0,5.0,Z,x,3.0,5.0
EEE,2.0,6.0,X,x,7.0,6.0
FFF,7.0,6.0,Z,z,7.0,6.0
GGG,2.0,4.0,X,z,2.0,4.0
HHH,1.0,6.0,Y,x,1.0,6.0


---
Les opérations de regroupements internes utilisent deux fonctions principales **`groupby`** et **`pivot_table`**. La première permet d'effecter des statistiques sur des regroupements d'éléments effectués en fonction d'un critère de classification. La seconde permet de comparer l'influence relative de deux critères de classification sur les données des autres colonnes :

In [68]:
gC = gg.groupby(by='C') # on regroupe les lignes de 'gg' en fonction de la colonne 'C'
show("gC.ngroups; gC.size()#;") # nombre de groupes et taille des groupes
gC.max() # calcul de la valeur maximale pour chaque colonne en fonction des groupes

gC.ngroups ➤ 3
gC.size() ➤
C
X    3
Y    2
Z    3
dtype: int64



Unnamed: 0_level_0,A,B,D,E,F
C,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
X,2.0,6.0,z,7.0,6.0
Y,3.0,6.0,z,3.0,6.0
Z,7.0,8.0,z,8.0,8.0


In [69]:
gD = gg.groupby(by='D') # on regroupe les lignes de 'gg' en fonction de la colonne 'D'
show("gD.ngroups; gD.size()#;") # nombre de groupes et taille des groupes
gD.mean(numeric_only=True).round(2) # calcul de la valeur moyenne des colonnes en fonction des groupes

gD.ngroups ➤ 3
gD.size() ➤
D
x    3
y    2
z    3
dtype: int64



Unnamed: 0_level_0,A,B,E,F
D,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
x,2.0,5.67,3.67,5.67
y,7.0,4.0,8.0,4.0
z,4.0,4.33,4.0,5.0


In [70]:
# on étudie les variations des colonnes A, B, E et F en fonction des valeurs des colonnes C et D
pd.pivot_table(gg, index='D', columns='C', values='A B E F'.split())

Unnamed: 0_level_0,A,A,A,B,B,B,E,E,E,F,F,F
C,X,Y,Z,X,Y,Z,X,Y,Z,X,Y,Z
D,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
x,2.0,1.0,3.0,6.0,6.0,5.0,7.0,1.0,3.0,6.0,6.0,5.0
y,,,7.0,0.0,,8.0,,,8.0,0.0,,8.0
z,2.0,3.0,7.0,4.0,3.0,6.0,2.0,3.0,7.0,4.0,5.0,6.0


<h2 style="padding:16px; color:#FFF; background:#06D">C - Acquisition et sauvegarde des données</h2>

Un des points forts de la bibliothèque **pandas** réside dans la très grande facilité avec laquelle on peut réaliser l'aquisition et la sauvegarde de données dans de nombreux formats de fichiers. Ces opérations de lecture/écriture pouvant s'effectuer soit via des fichiers locaux sur le poste de travail, soit via des fichiers distants, stockées dans des bases de données en ligne, ou tout simplement sur des sites web. C'est principalement pour cette flexibilité que le package est surnommé ***The Data Scientist Swiss Army Knife***. Cette section va faire un tour d'horizon rapide des principaux outils d'entrée/sortie que propose **pandas**.

---
### 1 - Acquisition des données (fichiers locaux ou distants)

Comme on l'a vu lors de l'utilisation de la fonction **`inspect`** au début du chapitre, la bibliothèque **pandas** possède tout une série de fonctions **`read_xxx(...)`** qui permettent de lire des fichiers de données avec des formats extrêmement variés, en remplaçant simplement le **`xxx`** ci-dessus par le nom du format souhaité. Voici la **liste des 16 formats de fichiers utilisables** avec ces fonctions de lecture :

<center><b><tt>csv/excel/feather/fwf/gbq/hdf/html/json/orc/parquet/pickle/sas/spss/sql/stata/xml
</tt></b></center><br>

Chacune de ces fonctions possède de nombreux paramètres permettant d'ajuster la lecture des données en fonctions des spécificités du fichier traité (les détails de chaque fonction se trouvent dans le [**chapitre "IO Tools"**](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) du guide d'utilisation de **pandas**. Mais en pratique, la plupart du temps il suffit de ***mettre le chemin d'accès du fichier (local ou distant)*** en tant que premier argument, pour obtenir une table en retour. Voici quelques exemples avec les formats les plus utilisés :

In [71]:
from SRC.tools import load # import de la fonction 'load' pour lire le contenu brut des fichiers

In [72]:
name = 'TEST/test-CSV.csv' # nom du fichier CSV local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}\n\n● Table obtenue :")
csv = pd.read_csv(name, comment='#') # lecture du fichier CSV local et transformation en table
csv # les lignes de commentaires dans le fichier ont été automatiquement supprimées

● Contenu brut du fichier :
#
# Auteurs français du XIXe siècle
#

Nom, Prénom, NaissanceDate, NaissanceLieu, DécèsDate, DécèsLieu
Hugo, Victor, 26/02/1802, Besançon, 22/05/1885, Paris
Baudelaire, Charles, 09/04/1821, Paris, 31/08/1867, Paris
Rimbaud, Arthur, 20/10/1854, Charleville, 10/11/1891, Marseille

● Table obtenue :


Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [73]:
name = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-CSV.csv' # nom du fichier CSV distant
csv = pd.read_csv(name, comment='#') # lecture du fichier CSV distant et transformation en table
csv

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [74]:
name = 'TEST/test-JSON.json' # nom du fichier JSON local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}\n\n● Table obtenue :")
json = pd.read_json(name) # lecture du fichier JSON local et transformation en table
json

● Contenu brut du fichier :
[
  {
    "Nom" : "Hugo",
    "Prénom" : "Victor",
    "Naissance" : "26/02/1802 Besançon",
    "Décès" : "22/05/1885 Paris"
  },
  {
    "Nom" : "Baudelaire",
    "Prénom" : "Charles",
    "Naissance" : "09/04/1821 Paris",
    "Décès" : "31/08/1867 Paris"
  },
  {
    "Nom" : "Rimbaud",
    "Prénom" : "Arthur",
    "Naissance" : "20/10/1854 Charleville",
    "Décès" : "10/11/1891 Marseille"
  }
]

● Table obtenue :


Unnamed: 0,Nom,Prénom,Naissance,Décès
0,Hugo,Victor,26/02/1802 Besançon,22/05/1885 Paris
1,Baudelaire,Charles,09/04/1821 Paris,31/08/1867 Paris
2,Rimbaud,Arthur,20/10/1854 Charleville,10/11/1891 Marseille


In [75]:
# on peut appliquer un post-traitement sur la table pour séparer les colonnes contenant deux données
n = json.Naissance.str.split(expand=True) # accès à la colonne 'Naissance' via la notation pointée
d = json['Décès'].str.split(expand=True) # à cause des accents, la notation pointée ne fonctionne pas
json['NaissanceDate'], json['NaissanceLieu'] = n[0], n[1]; del json['Naissance']
json['DécèsDate'], json['DécèsLieu'] = d[0], d[1]; del json['Décès']
json

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [76]:
name = 'TEST/test-HTML.html' # nom du fichier HTML local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}\n\n● Table obtenue :")
html = pd.read_html(name) # lecture du fichier HTML local et extraction d'une liste de tables
html[0] # on affiche la première table trouvée (il n'y en a qu'une seule dans cet exemple)

● Contenu brut du fichier :
<html><head><meta charset="utf-8"/>
<style>
body {font-family:arial;}
table {border:2px solid black; border-spacing:0px; text-align:center;}
th,td {border:1px solid black;}
</style></head>
<body>
<h2>Auteurs français du XIXe siècle</h2>
<table cellpadding=5>
<tr>
<th>Nom <th>Prénom
<th>NaissanceDate <th>NaissanceLieu
<th>DécèsDate <th>DécèsLieu
<tr>
<td>Hugo <td>Victor
<td>26/02/1802 <td>Besançon
<td>22/05/1885 <td>Paris
<tr>
<td>Baudelaire <td>Charles
<td>09/04/1821 <td>Paris
<td>31/08/1867 <td>Paris
<tr>
<td>Rimbaud <td>Arthur
<td>20/10/1854 <td>Charleville
<td>10/11/1891 <td>Marseille
</table>
</body></html>

● Table obtenue :


Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [77]:
name = 'TEST/test-XML.xml' # nom du fichier XML local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}\n\n● Table obtenue :")
xml = pd.read_xml(name) # lecture du fichier XML local et transformation en table
xml

● Contenu brut du fichier :
<?xml version="1.0" encoding="UTF-8" ?>

<!-- Auteurs français du XIXe siècle -->

<auteurs>
  <auteur Nom="Hugo" Prénom="Victor"
    Naissance="26/02/1802 Besançon" Décès="22/05/1885 Paris" />
  <auteur Nom="Baudelaire" Prénom="Charles"
    Naissance="09/04/1821 Paris" Décès="31/08/1867 Paris" />
  <auteur Nom="Rimbaud" Prénom="Arthur"
    Naissance="20/10/1854 Charleville" Décès="10/11/1891 Marseille" />
</auteurs>

● Table obtenue :


Unnamed: 0,Nom,Prénom,Naissance,Décès
0,Hugo,Victor,26/02/1802 Besançon,22/05/1885 Paris
1,Baudelaire,Charles,09/04/1821 Paris,31/08/1867 Paris
2,Rimbaud,Arthur,20/10/1854 Charleville,10/11/1891 Marseille


In [78]:
# on peut appliquer le même post-traitement utilisé plus haut avec le fichier JSON
n = xml.Naissance.str.split(expand=True) # accès à la colonne 'Naissance' via la notation pointée
d = xml['Décès'].str.split(expand=True) # à cause des accents, la notation pointée ne fonctionne pas
xml['NaissanceDate'], xml['NaissanceLieu'] = n[0], n[1]; del xml['Naissance']
xml['DécèsDate'], xml['DécèsLieu'] = d[0], d[1]; del xml['Décès']
xml

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [79]:
name = 'TEST/test-FWF.txt' # nom du fichier FWF (Fixed Width Fields) local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}\n\n● Table obtenue :")
fwf = pd.read_fwf(name, comment='#') # lecture du fichier FWF local et transformation en table
fwf

● Contenu brut du fichier :
#
# Auteurs français du XIXe siècle
#

Nom          Prénom    NaissanceDate   NaissanceLieu   DécèsDate    DécèsLieu
Hugo         Victor    26/02/1802      Besançon        22/05/1885   Paris
Baudelaire   Charles   09/04/1821      Paris           31/08/1867   Paris
Rimbaud      Arthur    20/10/1854      Charleville     10/11/1891   Marseille

● Table obtenue :


Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


---
Lorsque les données sont stockées dans des fichiers aux formats standardisés, l'acquisition et leur transformation en table **pandas** ne nécessite la plupart du temps pas plus d'une ou deux lignes de code Python. Mais parfois, les données ne sont pas structurées sous une forme directement exploitable par **pandas**, et dans ces cas-là, il faudra appliquer un pré-traitement ou un post-traitement plus ou moins complexe avant d'obtenir une table valide.

A titre d'illustration, voici un fichier texte semi-structuré qui contient les mêmes données que les exemples précédents, mais dont la structure est composée de lignes de commentaires (préfixées par **`#`**), d'une série de blocs (séparés par des lignes vides) où chaque bloc est défini par des lignes avec des champs de largeur fixe de la forme **`attribut valeur`** :

In [80]:
name = 'TEST/test-TXT.txt' # nom du fichier TXT (semi-structuré) local
print(f"● Contenu brut du fichier :\n{load(name, split=False)}")

● Contenu brut du fichier :
#
# Auteurs français du XIXe siècle
#

Nom         Hugo
Prénom      Victor
Naissance   26/02/1802 Besançon
Décès       22/05/1885 Paris

Nom         Baudelaire
Prénom      Charles
Naissance   09/04/1821 Paris
Décès       31/08/1867 Paris

Nom         Rimbaud
Prénom      Arthur
Naissance   20/10/1854 Charleville
Décès       10/11/1891 Marseille


Comme les champs sont de largeur fixe, une première option est d'utiliser le lecteur FWF de **pandas**, qui va créer une table de 12 lignes et de 3 colonnes :

In [81]:
table = pd.read_fwf(name, comment='#', header=None) # lecture du fichier en tant que format FWF
table

Unnamed: 0,0,1,2
0,Nom,Hugo,
1,Prénom,Victor,
2,Naissance,26/02/1802,Besançon
3,Décès,22/05/1885,Paris
4,Nom,Baudelaire,
5,Prénom,Charles,
6,Naissance,09/04/1821,Paris
7,Décès,31/08/1867,Paris
8,Nom,Rimbaud,
9,Prénom,Arthur,


Malheureusement ce résultat va nécessiter un post-traitement assez complexe pour obtenir la table souhaitée, similaire à celle obtenue par les exemples précédents. Concrêtement, il faut pivoter la table selon la première colonne, regrouper les lignes par groupes de 4, trier les colonnes, et enfin mettre les bons labels :

In [82]:
labels = 'Nom:Prénom:NaissanceDate:NaissanceLieu:DécèsDate:DécèsLieu'.split(':') # labels des colonnes
table = table.pivot(columns=0).dropna(how='all', axis=1) # pivotement de la table sur la colonne 0
table['group'] = table.index // 4 # rajout d'une colonne destinée au regroupement des lignes 4 par 4
table = table.groupby('group').first() # extraction des valeurs non vides pour chaque groupe de 4 lignes
table.columns = [4,2,0,1,5,3] # renumérotation des colonnes
table = table.sort_index(axis=1) # tri des colonnes pour avoir l'ordre souhaité
table.index.name = None; table.columns = labels # affectation des nouveaux labels
table

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


Au lieu de faire un post-traitement sur une table déjà formée, il est souvent plus intéressant d'appliquer un pré-traitement sur les données brutes, avant de lancer la conversion vers une table **pandas**. Dans notre cas, on va itérer sur les lignes obtenues avec la fonction **`load`**, pour générer un dictionnaire Python qui pourra être facilement transformé en table **pandas** :

In [83]:
table = dict(zip(labels, [[] for loop in labels])) # création du dictionnaire pour les colonnes de la table
for line in load(name): # itération sur les lignes du fichier (hors lignes de commentaires)
  key, *val = line.split() # séparation de la clé et des valeurs
  if key in ('Naissance','Décès'): # cas particulier des lignes contenant deux données
    table[key + 'Date'].append(val[0]); table[key + 'Lieu'].append(val[1])
  else: table[key].append(val[0]) # cas général pour les autres lignes
table = pd.DataFrame(table) # conversion du dictionnaire en table pandas
table

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


L'avantage d'une approche par pré-traitement des données brutes est qu'elle est généralement beaucoup plus flexible qu'une approche par post-traitement, et permet ainsi de traiter des cas où les données de départ sont très peu structurées, ou très mal organisées. D'autres exemples de ce type de pré-traitements seront détaillées dans le chapitre 10.

---
### 2 - Sauvegarde des données (fichiers locaux)

A l'inverse des fonctions d'acquisition des données, la sauvegarde des données stockées dans des séries ou des tables **pandas** utilise les principes de la programmation objet et s'effectue donc par des ***appels aux méthodes associées aux classes*** **`Series`** et **`DataFrame`**. Malgré cette différence d'utilisation, on retrouve le même processus d'homogénéisation des identificateurs puisque toutes ces méthodes s'appellent **`to_xxx(...)`** où **`xxx`** représente le nom du format souhaité, sachant qu'on retrouve **14 des 16 formats de fichiers** utilisables en lecture avec les fonctions **`read_xxx(...)`** :

<center><b><tt>csv/excel/feather/gbq/hdf/html/json/orc/parquet/pickle/sql/stata/string/xml
</tt></b></center>

> **Note :** il faut noter que les fonctions **`read_sas`** et **`read_spss`** n'ont pas d'équivalent en sauvegarde, et par ailleurs la méthode de sauvegarde associée à **`read_fwf`** s'appelle **`to_string`** au lieu de **`to_fwf`**

Comme pour les fonctions de lecture, les méthodes de sauvegarde possèdent de nombreux paramètres permettant d'ajuster finement la manière dont les données sont écrites dans les fichiers sur disque. Mais en pratique, la plupart du temps il suffit de ***mettre le chemin d'accès du fichier en tant que premier argument***. Pour les formats correspondant à un fichier texte, on peut même appeler les méthodes de sauvegarde sans aucun paramètre, pour visualiser et contrôler directement dans le notebook, le contenu qui sera écrit dans le fichier. Voici quelques exemples :

In [84]:
show("table.to_csv()#") # on peut commencer par visualiser le résultat de la conversion en CSV
show("table.to_csv(index=False)#") # l'index n'est pas utile, donc on enlève la colonne correspondante
table.to_csv('TEST/tost-CSV.csv', index=False) # puis on sauvegarde dans le fichier CSV
toble = pd.read_csv('TEST/tost-CSV.csv') # on recharge le fichier sauvegardé dans une autre table
toble # pour vérifier qu'on récupère bien les mêmes données

table.to_csv() ➤
,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille

table.to_csv(index=False) ➤
Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille



Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [85]:
show("table.to_xml(index=False)#") # à nouveau, on visualise d'abord le résultat de la conversion
table.to_xml('TEST/tost-XML.xml', index=False) # avant de sauvegarder dans le fichier XML
toble = pd.read_xml('TEST/tost-XML.xml') # on recharge le fichier sauvegardé dans une autre table
toble # pour vérifier qu'on récupère bien les mêmes données

table.to_xml(index=False) ➤
<?xml version='1.0' encoding='utf-8'?>
<data>
  <row>
    <Nom>Hugo</Nom>
    <Prénom>Victor</Prénom>
    <NaissanceDate>26/02/1802</NaissanceDate>
    <NaissanceLieu>Besançon</NaissanceLieu>
    <DécèsDate>22/05/1885</DécèsDate>
    <DécèsLieu>Paris</DécèsLieu>
  </row>
  <row>
    <Nom>Baudelaire</Nom>
    <Prénom>Charles</Prénom>
    <NaissanceDate>09/04/1821</NaissanceDate>
    <NaissanceLieu>Paris</NaissanceLieu>
    <DécèsDate>31/08/1867</DécèsDate>
    <DécèsLieu>Paris</DécèsLieu>
  </row>
  <row>
    <Nom>Rimbaud</Nom>
    <Prénom>Arthur</Prénom>
    <NaissanceDate>20/10/1854</NaissanceDate>
    <NaissanceLieu>Charleville</NaissanceLieu>
    <DécèsDate>10/11/1891</DécèsDate>
    <DécèsLieu>Marseille</DécèsLieu>
  </row>
</data>


Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


---
En plus de la sauvegarde des données dans des formats de fichiers classiques, il existe également des  méthodes de la forme **`to_xxx`** qui permettent de convertir une série ou une table **pandas** dans d'autres structures de données standards utilisées en Python : la méthode **`to_records()`** convertit ***une table en une liste de tuples*** (chaque tuple correspondant à une ligne de cette table), la méthode **`to_dict`** convertit ***une table en un dictionnaire*** (chaque clé correspondant à une colonne de la table) et enfin, la méthode **`to_numpy()`** convertit ***une table en une matrice*** **numpy** (ce qui est globalement équivalent à récupérer l'attribut **`values`** de la table ou de la série, comme on l'a vu dans la section A du chapitre) :

In [86]:
show("table.to_records(index=False)#;; table.to_dict()#;; table.to_numpy()#;; table.values#")

table.to_records(index=False) ➤
[('Hugo', 'Victor', '26/02/1802', 'Besançon', '22/05/1885', 'Paris')
 ('Baudelaire', 'Charles', '09/04/1821', 'Paris', '31/08/1867', 'Paris')
 ('Rimbaud', 'Arthur', '20/10/1854', 'Charleville', '10/11/1891', 'Marseille')]

table.to_dict() ➤
{'Nom': {0: 'Hugo', 1: 'Baudelaire', 2: 'Rimbaud'}, 'Prénom': {0: 'Victor', 1: 'Charles', 2: 'Arthur'}, 'NaissanceDate': {0: '26/02/1802', 1: '09/04/1821', 2: '20/10/1854'}, 'NaissanceLieu': {0: 'Besançon', 1: 'Paris', 2: 'Charleville'}, 'DécèsDate': {0: '22/05/1885', 1: '31/08/1867', 2: '10/11/1891'}, 'DécèsLieu': {0: 'Paris', 1: 'Paris', 2: 'Marseille'}}

table.to_numpy() ➤
[['Hugo' 'Victor' '26/02/1802' 'Besançon' '22/05/1885' 'Paris']
 ['Baudelaire' 'Charles' '09/04/1821' 'Paris' '31/08/1867' 'Paris']
 ['Rimbaud' 'Arthur' '20/10/1854' 'Charleville' '10/11/1891' 'Marseille']]

table.values ➤
[['Hugo' 'Victor' '26/02/1802' 'Besançon' '22/05/1885' 'Paris']
 ['Baudelaire' 'Charles' '09/04/1821' 'Paris' '31/08/1867' 'P

Il est parfois nécessaire d'inclure une table dans un document écrit afin de pouvoir commenter les données qui s'y trouvent, en faisant en sorte de rendre cette table la plus lisible possible pour le lecteur. Pour cela, **pandas** propose trois méthodes de conversion correspondant à trois formats différents de documents : la méthode **`to_string()`** convertit ***une table en une chaîne de caractères multi-lignes avec alignement en lignes et en colonnes*** (ce qui permet facilement d'insérer la table dans un traitement de texte par copier/coller), la méthode **`to_markdown`** convertit ***une table en code source Markdown*** (qui pourra donc être inséré dans un notebook ou dans un éditeur Markdown standard) et enfin, la méthode **`to_latex()`** convertit ***une table en code source LaTeX*** (sous la forme d'un environnement de type **`tabular`** où l'on pourra facilement contrôler l'alignement utilisé par les différentes colonnes). Voici les résultats de ces trois fonctions de conversion :

In [87]:
show("table.to_string()#;; table.to_markdown(index=False)#;; table.to_latex(index=False)#")

table.to_string() ➤
          Nom   Prénom NaissanceDate NaissanceLieu   DécèsDate  DécèsLieu
0        Hugo   Victor    26/02/1802      Besançon  22/05/1885      Paris
1  Baudelaire  Charles    09/04/1821         Paris  31/08/1867      Paris
2     Rimbaud   Arthur    20/10/1854   Charleville  10/11/1891  Marseille

table.to_markdown(index=False) ➤
| Nom        | Prénom   | NaissanceDate   | NaissanceLieu   | DécèsDate   | DécèsLieu   |
|:-----------|:---------|:----------------|:----------------|:------------|:------------|
| Hugo       | Victor   | 26/02/1802      | Besançon        | 22/05/1885  | Paris       |
| Baudelaire | Charles  | 09/04/1821      | Paris           | 31/08/1867  | Paris       |
| Rimbaud    | Arthur   | 20/10/1854      | Charleville     | 10/11/1891  | Marseille   |

table.to_latex(index=False) ➤
\begin{tabular}{llllll}
\toprule
Nom & Prénom & NaissanceDate & NaissanceLieu & DécèsDate & DécèsLieu \\
\midrule
Hugo & Victor & 26/02/1802 & Besançon & 22/05/1885 & Pa

<div style="padding:8px; margin:0px -20px; color:#FFF; background:#06D; text-align:right">● ● ● </div>