Pandas contient les structures de données et les outils de manipulation de données conçus afin de rendre le nettoyage et l'analyse de données simples et rapides en Python. Pandas est souvent utilisé en tandem avec les packages numpy et scipy. Les packages analytiques comme statsmodels et scikit-learn et les outils de dataviz comme matplotlib. Pandas est conçu pour analyser les données tabulaires et hétérogènes. Depuis qu'il est devenu un projet open source en 2010, pandas a gagné en maturité et peut être utilisé pour un large éventail de cas d'utilisations.
La package pandas peut être importé en utilisant:



In [8]:
import pandas as pd

Les structures de données **DataFrame** et **Series** peuvent aussi être importées en utilisant:

In [1]:
from pandas import Series, DataFrame

# Introduction aux structures de données Pandas

Afin de pouvoir travailler avec Pandas, il faut se familiariser avec ses structures de données **Series** et **DataFrame**.

**Series**

Une **Series** est un tableau unidimensionnel contenant une séquence de valeurs et un tableau associé des libellés de données appelé **index**.
L'objet **Series** le plus simplé est formé à partir d'un tableau de données:

In [None]:
obj = pd.Series([4, 7, -5, 3])

In [None]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

La représentation sous forme de chaîne de caractères de **Series** affiche l'index à gauche et les valeurs à droite. Comme l'index n'a pas été spécifié, un index par défaut composé des nombres de 0 à N-1 (où N est la taille des données) est crée. On peut retrouver la représentation du tableau et celle de l'index en utilisant les attributs **values** et **index**:

In [None]:
obj.values

array([ 4,  7, -5,  3])

In [None]:
obj.index

RangeIndex(start=0, stop=4, step=1)

il est souvent préférable de créer Series en spécifiant l'index:

In [4]:
obj2 = pd.Series([4, 7, -5, 2], index=['d', 'b', 'a', 'c'])

In [None]:
obj2

d    4
b    7
a   -5
c    2
dtype: int64

In [None]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

On peut utiliser l'index pour accéder aux différentes valeurs:

In [None]:
obj2['a']

-5

In [None]:
obj2['d']

4

In [None]:
obj2[['c', 'a', 'd']]

c    2
a   -5
d    4
dtype: int64

['c', 'a', 'd'] est interprété comme étant la liste des indices même s'elle contient des strings au lieu des nombres.
L'utilisation des fonctions et les opérations telles que les filtres permet de préserver le lien avec la valeur d'index.

In [5]:
obj2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [None]:
obj2[obj2 > 0]

d    4
b    7
c    2
dtype: int64

In [None]:
obj2 * 2

d     8
b    14
a   -10
c     4
dtype: int64

In [None]:
import numpy as np

In [None]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c       7.389056
dtype: float64

Les **Series** peuvent aussi être utilisés comme des dictionnaires ordonnés puisqu'ils mappent un index à une valeur:

In [None]:
'b' in obj2

True

In [None]:
'e' in obj2

False

On peut créer un objet **Series** à partir d'un dictionnaire:

In [10]:
import numpy as np

In [11]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'Boston': np.nan}

In [12]:
obj3 = pd.Series(sdata)

In [8]:
obj3

Ohio      35000.0
Texas     71000.0
Oregon    16000.0
Utah       5000.0
Boston        NaN
dtype: float64

Quand on passe un dictionnaire, l'index est obtenu à partir des clés triés du dictionnaire. On peut modifier ce comportement en passant les clés dans l'ordre spécifié.

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [None]:
obj4 = pd.Series(sdata, index=states)

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Les valeurs ont été placées dans l'ordre précisé. Comme aucune valeur n'a été spécifiée pour 'California', la valeur NaN "not a number" est attribuée qui correspond à une valeur manquante pour Pandas. Les fonctions isnull et notnull sont des fonctions Pandas qui permettent de détecter les valeurs manquantes.

In [None]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [None]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Les séries ont également ces méthodes:

In [None]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Une caractéristique des **Series** est leur capacité de s'aligner par index pour les opérations arithmétiques:

In [None]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

**Series** et l'index possèdent l'attribut **name**:

In [None]:
obj4.name = 'population'

In [None]:
obj4.index.name = 'state'

In [None]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

L'index peut être modifié en utilisant l'affectation:

In [None]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [None]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

**DataFrame**

Un DataFrame représente une table rectangulaire de données et contient une collection ordonnée de colonnes, chacune avec un type différent (numérique, string, booléen...). Le DataFrame a un index de ligne et un autre pour les colonnes. 

Il existe plusieurs manières pour la construction d'un DataFrame, la plus commune est à partir d'un dictionnaire de listes de tailles égales.

In [21]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [16]:
frame = pd.DataFrame(data)

Le DataFrame résultant a l'index assigné automatiquement comme pour les Series et les colonnes sont triées.

In [None]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Pour les DataFrames larges, la méthode **head** retourne les 5 premières lignes.

In [18]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,2001.0,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,Nevada,2002.0,2.9


Si une séquence de colonnes est spécifiée, les colonnes du DataFrame seront arrangées selon l'ordre spécifié:

In [22]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si une colonne non contenue dans le dictionnaire est spécifiée, elle va apparaître avec des valeurs manquantes dans le résultat:

In [41]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

In [24]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [25]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

In [None]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Une colonne dans un DataFrame peut être retournée comme Series en utilisant la notation dictionnaire ou par attribut:

In [26]:
frame2['state']

Unnamed: 0,pop,state
one,1.5,Ohio
two,1.7,Ohio
three,3.6,Ohio
four,2.4,Nevada
five,2.9,Nevada
six,3.2,Nevada


In [27]:
frame2.year

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

Les lignes peut aussi être retournées par position ou nom en utilisant l'attribut **loc**:

In [29]:
frame2.iloc[[0, 2]]

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
three,2002,Ohio,3.6,


In [None]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Les colonnes peuvent être modifiées par affectation. Par exemple la colonne vide 'debt' peut être affectée en utilisant un scalaire ou un tableau de valeurs:

In [None]:
frame2['debt'] = 16.5

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [31]:
frame2['debt'] = np.arange(6.)

In [33]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


Quand on affecte une liste ou un tableau à une colonne, la longueur des valeurs doit correspondre à la longeur du DataFrame. Si une Series est affectée, ses libellés seront alignées à l'index du DataFrame en insérant les valeurs manquantes dans les trous.

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [None]:
frame2['debt'] = val

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


L'affectation d'une colonne non-existante permet de créer une nouvelle colonne. Le mot clé **del** supprime des colonnes comme pour les dictionnaires.

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'

In [None]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [None]:
del frame2['eastern']

In [None]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Une autre manière pour la création d'un DataFrame est l'utilisation d'un dictionnaire de dictionnaires.

In [43]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Lorqu'un dictionnaire imbriqué est passé à un DataFrame, pandas interprète les clés du dictionnaire externe comme des colonnes, et les clés internes comme indices de lignes:

In [44]:
frame3 = pd.DataFrame(pop)

In [45]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


On peut transposer le DataFrame (échanger les lignes et les colonnes):

In [None]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Les clés dans les dictionnaires internes sont triées pour former l'index du résultat sauf dans le cas où un index explicite est spécifié.

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Les dictionnaires de Series sont traités de la même manière:

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [None]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Si l'index et columns du DataFrame ont l'attribut name spécifié, ces derniers vont être affichés:

In [None]:
frame3.index.name = 'year'
frame3.columns.name = 'state'

In [47]:
frame3.index

Int64Index([2001, 2002, 2000], dtype='int64')

In [None]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [49]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [50]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [51]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Comme pour les Series, l'attribut values retourne les données contenues dans le DataFrame comme un tableau 2 dimensionnels:

In [None]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [60]:
print(frame3.values)

[[2.4 1.7]
 [2.9 3.6]
 [nan 1.5]]


Si les colonnes du DataFrame sont de différents types, le dtype des valeurs sera choisi pour prendre en considération toutes les colonnes.

In [None]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

**Synthèse: Création DataFrame**

Pour synthétiser, on peut utiliser l'une de ces méthodes pour la création d'un DataFrame:

Type | Notes
-- | --
2D ndarray | Une matrice de données, passer les libellés des lignes/colonnes
Dictionnaire de listes, tuples et tableaux | Chaque séquence devient une colonne dans le DataFrame, toutes les sequences doivent avoir la même taille
Dictionnaire de Series | Chaque valeur devient une colonne, les index de chaque Series sont unifiés pour produire l'index globale
Liste de dictionnaires ou Series | Chaque élément devient une ligne dans le DataFrame, l'union des clés du dictionnaire ou les index de Series deviennent les libellés des colonnes du DataFrame
Listes de listes ou tuples | Traités comme les 2D ndarray
Un autre DataFrame | Les index du DataFrame sont utilisés sauf si une autre index est utilisée


**Objets Index**

Les objets Index de Pandas sont responsables de la maintenance des étiquettes des axes ainsi que d'autres métadonnées. Tous les tableaux ou les autres séquences d'étiquettes qu'on utilise lors de la construction de Series ou DataFrame sont convertis en Index en interne:

In [None]:
import pandas as pd

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])

In [None]:
index = obj.index

In [None]:
index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
index[1:]

Index(['b', 'c'], dtype='object')

Les objets Index sont immutables et ne peuvent pas être modifiés en conséquence par l'utilisateur:

In [None]:
index[1] = 'd'

TypeError: ignored

L'immutabilité des Index sécurisent le partage des Index avec les différentes structures de données.

In [None]:
import numpy as np

In [None]:
labels = pd.Index(np.arange(3))

In [None]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [None]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [None]:
obj2.index is labels

True

En plus d'être semblables aux tableaux **array**, une Index se comportent aussi comme les ensembles **set**:

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = pd.DataFrame(pop)

In [None]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object')

In [None]:
'Ohio' in frame3.columns

True

In [None]:
frame3.index

Int64Index([2001, 2002, 2000], dtype='int64')

In [None]:
2003 in frame3.index

False

A l'opposé des ensembles Python, une Index Pandas peut contenir des valeurs en double:

In [None]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])

In [None]:
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Chaque Index a un nombre de méthodes et propriétés pour la théorie des ensembles:

Méthode | Description
-- | --
append | Concaténer avec d'autres Index pour produire une nouvelle Index
difference | La différence des deux Index
intersection | L'intersection des deux Index
union | L'union des deux Index
isin | Retourne un tableau de booléens indiquant si chaque valeur est contenue dans la collection spécifiée
delete | Nouvelle Index sans l'élément à la position i
drop | Nouvelle Index sans les valeurs spécifiées
insert | Nouvelle Index avec l'élément spécifié dans la position i
is_monotonic | Retourne True si chaque élément est supérieur ou égal à l'éléments précédent
is_unique | Retourne True si l'Index n'a pas de valeurs en double
unique | Retourne l'Index sans les éléments en double

# Manipulation de Series et DataFrame

**Réindexation**

La méthode **reindex** est une méthode importante pour la manipulation des objets pandas, elle permet de créer un nouvel objet où les données sont conformes à la nouvelle Index.

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [None]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

La méthode reindex permet de réarranger les données selon la nouvelle Index en introduisant les valeurs manquantes si une valeur n'est pas existante.

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Pour les séries chronologiques "Time Series", cette méthode permet d'interpoler ou de remplir les valeurs lors de la réindexation. Les options de la méthode le permettent en utilisant **ffill** ou "forward-fills".

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [None]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [None]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Avec les DataFrame, reindex peut modifier l'Index des lignes, des colonnes ou les deux. Si une séquence est passée, elle réindexe les lignes:

In [10]:
import numpy as np

In [11]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])

In [12]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [14]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [15]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Pour réindexer les colonnes, il suffit d'utiliser le paramètre columns:

In [None]:
states = ['Texas', 'Utah', 'California']

In [None]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


La méthode **reindex** accepte les arguments suivants:

Argument | Description
-- | --
index | La nouvelle séquence à utiliser
method | La méthode d'interpolation, ffill pour un remplissage en avant et bfill pour un remplissage en arrière
fill_value | La valeur à utiliser pour la substitution des valeurs manquantes
limit | Pour ffill et bfill, la taille maximale des valeurs à remplir
tolerance | Pour ffil et bfill, la taille maximale des valeurs à remplir pour les valeurs approximatives
level | Le niveau à prendre en considération pour les MultiIndex
copy | Copier les données même si les Index sont équivalents


**Enlever des entrées d'un axe**

La méthode drop permet de retourner un nouvel objet avec la valeur ou les valeurs spécifiées supprimées de l'axe:

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [None]:
new_obj = obj.drop('c')

In [None]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [None]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

Avec les DataFrame, les valeurs d'index peuvent être supprimées de l'un des axes:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


On peut supprimer les valeurs des colonnes en passant axis=1 ou axis='columns':

In [None]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [None]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Plusieurs fonctions comme **drop** qui modifient la taille ou la forme de Series ou DataFrame peuvent manipuler un objet sur place "in-place" sans retourner l'objet:

In [None]:
obj.drop('c', inplace=True)

In [None]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

**Indexation, Sélection et Filtrage**

L'indexation des Series obj[...] fonctionne de la même manière que les listes et tableaux numpy avec l'exception qu'on peut utiliser n'importe quel type d'Index:

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [None]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj['b']

1.0

In [None]:
obj[1]

1.0

In [None]:
obj[2:4]  # slicing

c    2.0
d    3.0
dtype: float64

In [None]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [None]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [None]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

Le slicing avec les libellés est différent du slicing normal, l'extremité droite de l'intervalle est incluse:

In [None]:
obj['b': 'c']

b    1.0
c    2.0
dtype: float64

L'affectation en utilisant ces méthodes modifie la partie correspondante des Series:

In [None]:
obj['b': 'c'] = 5

In [None]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

L'indexation d'un DataFrame permet de retrouver une ou plusieurs colonnes avec une seule ou plusieurs valeurs:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [None]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [None]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [None]:
data[data < 5] = 0

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**Sélection avec loc et iloc**

Les deux opérateurs d'indexation permettent de sélectionner un sous ensemble d'enregistrements et de colonnes à partir d'un DataFrame en utilisant la notation numpy en utilisant les libellés des axes **loc** ou les entiers **iloc**.

In [None]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [None]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


Les deux fonctions utilisent le slicing en plus des libellés:

In [None]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [None]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


**Fonctions de sélection de données**

Type | Notes
-- | --
df[val] | Sélectionner une colonne ou une séquence de colonnes depuis le DataFrame, filtrer des lignes et slicing
df.loc[val] | Sélectionner une ligne ou un sous-ensemble de lignes à partir du DataFrame en utilisant le libellé
df.loc[:, val] |Sélectionner une colonne ou un sous-ensemble de colonnes par libellé
df.loc[val1, val2] | Sélectionner les lignes et les colonnes par libellé
df.iloc[where] | Sélectionner une ligne ou un sous-ensemble de lignes en utilisant la position
df.iloc[:, where] | Sélectionner une colonne ou un sous-ensemble de colonnes par position
df.iloc[where_i, where_j] | Sélectioner les lignes et les colonnes par position
df.at[label_i, label_j] | Sélectionner une valeur scalaire en précisant le libellé de la ligne et de la colonne
df.iat[i, j] | Sélectionner une valeur scalaire par la position de la ligne et de la colonne

**Arithmétique**

Lors des opérations arithmétiques, si les Index des objets en questions sont différents, l'Index du résultat et l'union des deux Index.



In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [None]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [None]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

Dans le cas des DataFrame, l'alignement est effectué pour les lignes et les colonnes.

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [None]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Si on ajoute deux DataFrame qui n'ont pas de libellés de lignes et de colonnes en commun, le résultat va contenir que des nulls:

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})

In [None]:
df2 = pd.DataFrame({'B': [3, 4]})

In [None]:
df1

Unnamed: 0,A
0,1
1,2


In [None]:
df2

Unnamed: 0,B
0,3
1,4


In [None]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


**Les méthodes arithmétiques avec les valeurs de remplissage**

Lors des opérations arithmétiques entre des objets indexés d'une manière différente, on peut utiliser une valeur spéciale pour le remplissage.

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

In [None]:
df2.loc[1, 'b'] = np.nan

In [None]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Les méthodes arithmétiques:

Méthode | Description
-- | --
add, radd | Méthodes pour l'addition
sub, rsub | Méthodes pour la soustraction
div, rdiv | Méthodes pour la division
floordiv, rfloordiv | Méthodes pour la division entière
mul, rmul | Méthodes pour la multiplication (*)
pow, rpow | Méthodes pour la puissance (**)

**Opérations entre DataFrame et Series**

Les opérations arithmétiques entre un DataFrame et une Series sont aussi bien définies:

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
series = frame.iloc[0]

In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [None]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Si une valeur d'index n'est pas trouvée dans le DataFrame ou le Series, les deux objets vont être réindexés pour former l'union:

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [None]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si on peut propager "broadcasting" les valeurs selon les colonnes:

In [None]:
series3 = frame['d']

In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [None]:
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


**Mapping**

On peut appliquer une fonction à l'ensemble des éléments d'un DataFrame:

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
frame

Unnamed: 0,b,d,e
Utah,-2.80659,1.554453,-0.298845
Ohio,-0.382473,0.108111,0.449805
Texas,1.117366,-1.001692,-1.069871
Oregon,1.59574,-0.859236,0.751681


In [None]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,2.80659,1.554453,0.298845
Ohio,0.382473,0.108111,0.449805
Texas,1.117366,1.001692,1.069871
Oregon,1.59574,0.859236,0.751681


La méthode **apply** permet d'appliquer une fonction à un tableau de valeurs:

In [None]:
f = lambda x: x.max() - x.min()

In [None]:
frame.apply(f)

b    4.402330
d    2.556145
e    1.821551
dtype: float64

Si on passe axis='columns', la fonction sera invoquée par ligne;

In [None]:
frame.apply(f, axis='columns')

Utah      4.361042
Ohio      0.832278
Texas     2.187237
Oregon    2.454976
dtype: float64

On peut également retourner des Series:

In [None]:
def f(x):
  return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [None]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-2.80659,-1.001692,-1.069871
max,1.59574,1.554453,0.751681


On peut également utiliser les fonctions "element-wise":

In [None]:
format = lambda x: '%.2f' % x

In [None]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-2.81,1.55,-0.3
Ohio,-0.38,0.11,0.45
Texas,1.12,-1.0,-1.07
Oregon,1.6,-0.86,0.75


**Tri et classement**

Le tri d'un jeux de données en utilisant certains critères est important, la méthode sort_index permet de trier d'une manière lexicographique par indexe de ligne ou de colonne:

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [None]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Pour un DataFrame, le tri peut être effectué selon un axe précis:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])

In [None]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [None]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Pour trier une Series par valeurs, on peut utiliser sort_values:

In [None]:
obj = pd.Series([4, 7, -3, 2])

In [None]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Les valeurs manquantes sont triés à la fin:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [None]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Pour les DataFrame, on peut utiliser une ou plusieurs colonnes comme clés de tri:

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [None]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [None]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


Le classement assigne des valeurs de 1 jusqu'au nombre d'éléments:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [None]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [None]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

Méthode | Description
-- | --
average | affecte la moyenne à chaque entrée des groupes égaux
min | utilise le min pour l'ensemble du groupe
max | utilise le max pour l'ensemble du groupe
first | affecte le classement selon l'ordre dont lequel les données apparaissent
dense | comme la méthode min mais le classement s'incrémente de 1 entre les groupes

In [1]:
names = ['Alexandra', 'Jennifer', 'Kim']

In [2]:
for name in names:
  print(name)

Alexandra
Jennifer
Kim


In [3]:
for i in range(3):
  print(i, names[i])

0 Alexandra
1 Jennifer
2 Kim


In [5]:
[(i, name) for i, name in enumerate(names)]

[(0, 'Alexandra'), (1, 'Jennifer'), (2, 'Kim')]

# Statistiques descriptives

Méthode | Description
-- | --
count | Le nombre de valeurs non manquantes
describe | Un sommaire de statistiques pour chaque Series ou le DataFrame
min, max | Le minimum et le maximum
argmin, argmax | L'indice de la valeur minimale/maximale
idxmin, idxmax | L'étiquette des lignes contenant la valeur minimale/maximale
quantile | 
sum | Somme des valeurs
median | La valeur médiane
mad | mean absolute deviation: La déviation moyenne absolue
prod | Le produit de toutes les valeurs
var | La variance des valeurs
std | L'écart type: standard deviation
skew | skewness: symétrie
kurt | kurtosis: applatissement
cumsum | La somme cumulative
cummin, cummax | Le minimum/maximum cumulatif
cumprod | Le produit cumulatif
pct_change | Changement de pourcentage