In [1]:
import pandas as pd

# Pandas, c'est quoi ?

Pandas est un module Python dédié aux *données tabulaires* et spécialisé dans l'analyse de ces données. Il est la réponse à la popularité du langage **R** dans le domaine des statistiques et de l'analyse de donnée.

La librairie est assez récente (2008), mais a beaucoup contribué au récent succès de Python. Elle permet de manipuler (relativement) facilement des séries de données suvent hétérogène.

## DataFrame et Serie

Il est possible de créer un DataFrame depuis zeros (from scratch) en appelant `pd.DataFrame`. C'est une situation qui n'est pas si commune : la plupart du temps, les dataframe sont importés à partir de données provenant d'un fichier texte, d'une base de donnée ou autre.

Il est possible de créer un DataFrame avec

- un array numpy de dimension `NxM`, ou une liste de liste équivalente.
- une liste de `N` dictionnaires possédant `M` clés identiques.
- Un dictionnaires possédant `M` clés associés à des listes identiques de tailles `N`.
- Un dictionnaires possédant `M` clés associés à des dictionnaires possédant `N` clés identiques.

In [3]:
df = pd.DataFrame([[0, 1, 2, 3],
                   [0, 10, 20, 30],
                   [0, 100, 200, 300]])
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,0,10,20,30
2,0,100,200,300


Une différence majeure avec un "simple" array numpy est la présence d'indices et de colonnes arbitraires. Par défaut, c'est une simple liste d'entier, mais il est possible de les spécifier à la création du DataFrame.

In [6]:
df = pd.DataFrame([[0, 1, 2, 3],
                   [0, 10, 20, 30],
                   [0, 100, 200, 300]],
                  index=["a", "b", "c"], columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,0,10,20,30
c,0,100,200,300


Si le DataFrame est créé à partir d'une série de dictionnaire, les noms des colonnes sont extraits des clé des dictionnaires.

In [16]:
df = pd.DataFrame([{"A": 0, "B": 1, "C": 2, "D": 3},
                   {"A": 0, "B": 10, "C": 20, "D": 30},
                   {"A": 0, "B": 100, "C": 200, "D": 300},],
                  index=["a", "b", "c"])
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,0,10,20,30
c,0,100,200,300


In [17]:
df = pd.DataFrame({"A": [0, 0, 0],
                   "B": [0, 10, 100],
                   "C": [0, 20, 200],
                   "D": [0, 30, 300]},
                  index=["a", "b", "c"])
df

Unnamed: 0,A,B,C,D
a,0,0,0,0
b,0,10,20,30
c,0,100,200,300


In [23]:
df = pd.DataFrame({"A": {"a": 0, "b": 0, "c": 0},
                   "B": {"a": 0., "b": 10., "c": 100.},
                   "C": {"a": 0, "b": 20, "c": 200},
                   "D": {"a": 0, "b": 30, "c": 300}})
df

Unnamed: 0,A,B,C,D
a,0,0.0,0,0
b,0,10.0,20,30
c,0,100.0,200,300


Vous avez remarqué qu'en utilisant des dictionnaires, les noms des indices et des colonnes sont extraites automatiquement.

Dans tous les cas, il est possible d'extraire une colonne avec `df["col_name"]`. L'objet obtenu est une `Serie` pandas, le pendant 1D du DataFrame.

In [24]:
df["A"]

a    0
b    0
c    0
Name: A, dtype: int64

On remarque alors qu'un *dtype* est indiqué. En effet, derrière les series et les dataframes, on retrouve des array numpy de dimension resp. 1 et 2. Ceux ci sont accessible avec la propriété `values`.

In [25]:
df["A"].values

array([0, 0, 0])

In [28]:
df.values

array([[  0.,   0.,   0.,   0.],
       [  0.,  10.,  20.,  30.],
       [  0., 100., 200., 300.]])

Cette propriété est très importante, car cela permet d'appliquer aux DataFrame les mêmes outils que sur les array numpy !

In [29]:
np.max(df)

A      0.0
B    100.0
C    200.0
D    300.0
dtype: float64

In [30]:
np.max(df, axis=1)

a      0.0
b     30.0
c    300.0
dtype: float64

Et les indices / colonnes sont conservés. On peut alors voir les DataFrame comme une surcouche aux array numpy permettant de rendre plus simple un certain nombre d'opérations. En plus d'utiliser les fonctions numpy, on peut utiliser les méthodes associés aux DataFrame.

In [32]:
df.max()

A      0.0
B    100.0
C    200.0
D    300.0
dtype: float64

Et profiter de tout un tas d'outils spécifiques aux données tabulaires.

In [34]:
df.describe()

Unnamed: 0,A,B,C,D
count,3.0,3.0,3.0,3.0
mean,0.0,36.666667,73.333333,110.0
std,0.0,55.075705,110.151411,165.227116
min,0.0,0.0,0.0,0.0
25%,0.0,5.0,10.0,15.0
50%,0.0,10.0,20.0,30.0
75%,0.0,55.0,110.0,165.0
max,0.0,100.0,200.0,300.0


### Ce que vous n'apprendrez pas aujourd'hui...

Mais si vous êtes curieux ou que vous en avez besoin :

- les pivots / stack / unstack
- les multi-index
- la fonction melt
- manipulation des données par requètes *SQL-like*