Pandas contient les structures de données et les outils de manipulation de données conçus afin de rendre le nettoyage et l'analyse de données simples et rapides en Python. Pandas est souvent utilisé en tandem avec les packages numpy et scipy. Les packages analytiques comme statsmodels et scikit-learn et les outils de dataviz comme matplotlib. Pandas est conçu pour analyser les données tabulaires et hétérogènes. Depuis qu'il est devenu un projet open source en 2010, pandas a gagné en maturité et peut être utilisé pour un large éventail de cas d'utilisations.
La package pandas peut être importé en utilisant:



In [1]:
import pandas as pd

Les structures de données **DataFrame** et **Series** peuvent aussi être importées en utilisant:

In [2]:
from pandas import Series, DataFrame

# Introduction aux structures de données Pandas**

Afin de pouvoir travailler avec Pandas, il faut se familiariser avec ses structures de données **Series** et **DataFrame**.

**Series**

Une **Series** est un tableau unidimensionnel contenant une séquence de valeurs et un tableau associé des libellés de données appelé **index**.
L'objet **Series** le plus simplé est formé à partir d'un tableau de données:

In [3]:
obj = pd.Series([4, 7, -5, 3])

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

La représentation sous forme de chaîne de caractères de **Series** affiche l'index à gauche et les valeurs à droite. Comme l'index n'a pas été spécifié, un index par défaut composé des nombres de 0 à N-1 (où N est la taille des données) est crée. On peut retrouver la représentation du tableau et celle de l'index en utilisant les attributs **values** et **index**:

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

il est souvent préférable de créer Series en spécifiant l'index:

In [7]:
obj2 = pd.Series([4, 7, -5, 2], index=['d', 'b', 'a', 'c'])

In [8]:
obj2

d    4
b    7
a   -5
c    2
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

On peut utiliser l'index pour accéder aux différentes valeurs:

In [11]:
obj2['a']

-5

In [12]:
obj2['d']

4

In [13]:
obj2[['c', 'a', 'd']]

c    2
a   -5
d    4
dtype: int64

['c', 'a', 'd'] est interprété comme étant la liste des indices même s'elle contient des strings au lieu des nombres.
L'utilisation des fonctions et les opérations telles que les filtres permet de préserver le lien avec la valeur d'index.

In [14]:
obj2[obj2 > 0]

d    4
b    7
c    2
dtype: int64

In [15]:
obj2 * 2

d     8
b    14
a   -10
c     4
dtype: int64

In [17]:
import numpy as np

In [18]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c       7.389056
dtype: float64

Les **Series** peuvent aussi être utilisés comme des dictionnaires ordonnés puisqu'ils mappent un index à une valeur:

In [19]:
'b' in obj2

True

In [20]:
'e' in obj2

False

On peut créer un objet **Series** à partir d'un dictionnaire:

In [21]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [22]:
obj3 = pd.Series(sdata)

In [23]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Quand on passe un dictionnaire, l'index est obtenu à partir des clés triés du dictionnaire. On peut modifier ce comportement en passant les clés dans l'ordre spécifié.

In [24]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [25]:
obj4 = pd.Series(sdata, index=states)

In [26]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Les valeurs ont été placées dans l'ordre précisé. Comme aucune valeur n'a été spécifiée pour 'California', la valeur NaN "not a number" est attribuée qui correspond à une valeur manquante pour Pandas. Les fonctions isnull et notnull sont des fonctions Pandas qui permettent de détecter les valeurs manquantes.

In [27]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Les séries ont également ces méthodes:

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Une caractéristique des **Series** est leur capacité de s'aligner par index pour les opérations arithmétiques:

In [30]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [31]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [32]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

**Series** et l'index possèdent l'attribut **name**:

In [33]:
obj4.name = 'population'

In [34]:
obj4.index.name = 'state'

In [35]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

L'index peut être modifié en utilisant l'affectation:

In [36]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [37]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [38]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

**DataFrame**

Un DataFrame représente une table rectangulaire de données et contient une collection ordonnée de colonnes, chacune avec un type différent (numérique, string, booléen...). Le DataFrame a un index de ligne et un autre pour les colonnes. 

Il existe plusieurs manières pour la construction d'un DataFrame, la plus commune est à partir d'un dictionnaire de listes de tailles égales.

In [40]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [41]:
frame = pd.DataFrame(data)

Le DataFrame résultant a l'index assigné automatiquement comme pour les Series et les colonnes sont triées.

In [42]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Pour les DataFrames larges, la méthode **head** retourne les 5 premières lignes.

In [43]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Si une séquence de colonnes est spécifiée, les colonnes du DataFrame seront arrangées selon l'ordre spécifié:

In [44]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si une colonne non contenue dans le dictionnaire est spécifiée, elle va apparaître avec des valeurs manquantes dans le résultat:

In [45]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

In [46]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [47]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Une colonne dans un DataFrame peut être retournée comme Series en utilisant la notation dictionnaire ou par attribut:

In [48]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [49]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

Les lignes peut aussi être retournées par position ou nom en utilisant l'attribut **loc**:

In [50]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Les colonnes peuvent être modifiées par affectation. Par exemple la colonne vide 'debt' peut être affectée en utilisant un scalaire ou un tableau de valeurs:

In [51]:
frame2['debt'] = 16.5

In [52]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [53]:
frame2['debt'] = np.arange(6.)

In [54]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


Quand on affecte une liste ou un tableau à une colonne, la longueur des valeurs doit correspondre à la longeur du DataFrame. Si une Series est affectée, ses libellés seront alignées à l'index du DataFrame en insérant les valeurs manquantes dans les trous.

In [55]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [56]:
frame2['debt'] = val

In [57]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


L'affectation d'une colonne non-existante permet de créer une nouvelle colonne. Le mot clé **del** supprime des colonnes comme pour les dictionnaires.

In [58]:
frame2['eastern'] = frame2.state == 'Ohio'

In [59]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [60]:
del frame2['eastern']

In [61]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Une autre manière pour la création d'un DataFrame est l'utilisation d'un dictionnaire de dictionnaires.

In [62]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Lorqu'un dictionnaire imbriqué est passé à un DataFrame, pandas interprète les clés du dictionnaire externe comme des colonnes, et les clés internes comme indices de lignes:

In [63]:
frame3 = pd.DataFrame(pop)

In [64]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


On peut transposer le DataFrame (échanger les lignes et les colonnes):

In [65]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Les clés dans les dictionnaires internes sont triées pour former l'index du résultat sauf dans le cas où un index explicite est spécifié.

In [67]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Les dictionnaires de Series sont traités de la même manière:

In [68]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [69]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Si l'index et columns du DataFrame ont l'attribut name spécifié, ces derniers vont être affichés:

In [70]:
frame3.index.name = 'year'
frame3.columns.name = 'state'

In [71]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Comme pour les Series, l'attribut values retourne les données contenues dans le DataFrame comme un tableau 2 dimensionnels:

In [72]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

Si les colonnes du DataFrame sont de différents types, le dtype des valeurs sera choisi pour prendre en considération toutes les colonnes.

In [73]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)