10 minutes pour les pandas 
Ceci est une brève introduction aux pandas, axée principalement pour les nouveaux utilisateurs. Vous pouvez voir des recettes plus complexes dans le livre de recettes

Habituellement, nous importons comme suit:

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Object Création 
Voir la section Intro Structure de données

Création d' un Seriesen passant une liste de valeurs, laissant pandas créer un index entier par défaut:

In [6]:
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Création d' un DataFrameen passant un tableau numpy, avec un indice de datetime et colonnes intitulées:

In [10]:
dates = pd.date_range('20130101', periods = 6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [12]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.140914,0.686056,-0.713746,0.500693
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715
2013-01-04,-1.257452,-1.296558,0.494724,0.635859
2013-01-05,-1.621898,-0.684798,-0.269079,-1.434119
2013-01-06,-0.78533,-0.03679,1.763396,-0.214755


Création d' un DataFrameen faisant passer un dict d'objets qui peuvent être convertis en série-like.

In [13]:
df2 = pd.DataFrame({ 'A' : 1.,
   ....:                      'B' : pd.Timestamp('20130102'),
   ....:                      'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
   ....:                      'D' : np.array([3] * 4,dtype='int32'),
   ....:                      'E' : pd.Categorical(["test","train","test","train"]),
   ....:                      'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Ayant spécifiques dtypes



In [14]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

Affichage des données 
Voir la section Basics

Voir les lignes du haut et du bas du cadre

In [16]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-1.140914,0.686056,-0.713746,0.500693
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715
2013-01-04,-1.257452,-1.296558,0.494724,0.635859
2013-01-05,-1.621898,-0.684798,-0.269079,-1.434119


In [18]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,-1.257452,-1.296558,0.494724,0.635859
2013-01-05,-1.621898,-0.684798,-0.269079,-1.434119
2013-01-06,-0.78533,-0.03679,1.763396,-0.214755


Afficher l'index, les colonnes et les données sous-jacentes numpy


In [19]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [20]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [21]:
df.values

array([[-1.14091392,  0.6860563 , -0.71374621,  0.50069274],
       [ 0.24579846,  0.92065916,  0.12006137,  0.47654056],
       [ 0.57621058, -0.32150352,  0.30500291, -0.29771513],
       [-1.25745204, -1.29655778,  0.49472444,  0.63585921],
       [-1.62189799, -0.68479819, -0.26907905, -1.43411904],
       [-0.78533001, -0.03679032,  1.76339551, -0.21475484]])

Describe montre un résumé statistique rapide de vos données



In [23]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.663931,-0.122156,0.283393,-0.055583
std,0.880656,0.834684,0.844005,0.781667
min,-1.621898,-1.296558,-0.713746,-1.434119
25%,-1.228318,-0.593975,-0.171794,-0.276975
50%,-0.963122,-0.179147,0.212532,0.130893
75%,-0.011984,0.505345,0.447294,0.494655
max,0.576211,0.920659,1.763396,0.635859


Transposition des donnnées

In [24]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,-1.140914,0.245798,0.576211,-1.257452,-1.621898,-0.78533
B,0.686056,0.920659,-0.321504,-1.296558,-0.684798,-0.03679
C,-0.713746,0.120061,0.305003,0.494724,-0.269079,1.763396
D,0.500693,0.476541,-0.297715,0.635859,-1.434119,-0.214755


Tri sur un axe

In [27]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.500693,-0.713746,0.686056,-1.140914
2013-01-02,0.476541,0.120061,0.920659,0.245798
2013-01-03,-0.297715,0.305003,-0.321504,0.576211
2013-01-04,0.635859,0.494724,-1.296558,-1.257452
2013-01-05,-1.434119,-0.269079,-0.684798,-1.621898
2013-01-06,-0.214755,1.763396,-0.03679,-0.78533


Tri par valeur

In [28]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-04,-1.257452,-1.296558,0.494724,0.635859
2013-01-05,-1.621898,-0.684798,-0.269079,-1.434119
2013-01-03,0.576211,-0.321504,0.305003,-0.297715
2013-01-06,-0.78533,-0.03679,1.763396,-0.214755
2013-01-01,-1.140914,0.686056,-0.713746,0.500693
2013-01-02,0.245798,0.920659,0.120061,0.476541


Sélection 
Remarque Bien que les expressions standards Python / NumPy pour la sélection et le réglage sont intuitifs et sont utiles pour le travail interactif, pour le code de production, nous vous recommandons les méthodes d'accès aux données de pandas optimisés, .at, .iat, .loc, .ilocet .ix.
Consultez la documentation d'indexation Indexation et Sélection de données et multiindice / Indexation avancée

Obtenir 

La sélection d' une seule colonne, ce qui donne un Serieséquivalent àdf.A

In [29]:
df['A']

2013-01-01   -1.140914
2013-01-02    0.245798
2013-01-03    0.576211
2013-01-04   -1.257452
2013-01-05   -1.621898
2013-01-06   -0.785330
Freq: D, Name: A, dtype: float64

Sélection par l' intermédiaire [], qui tranche les lignes.



In [30]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-1.140914,0.686056,-0.713746,0.500693
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715


In [31]:
df [ '20130102' : '20130104' ] 

Unnamed: 0,A,B,C,D
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715
2013-01-04,-1.257452,-1.296558,0.494724,0.635859


Sélection par étiquette 

Voir plus dans la sélection par étiquette

Pour obtenir une section transversale en utilisant une étiquette

In [32]:
df.loc[ dates [ 0 ]] 

A   -1.140914
B    0.686056
C   -0.713746
D    0.500693
Name: 2013-01-01 00:00:00, dtype: float64

Sélection sur un multi-axe par étiquette

In [33]:
df . loc [:, [ 'A' , 'B' ]] 

Unnamed: 0,A,B
2013-01-01,-1.140914,0.686056
2013-01-02,0.245798,0.920659
2013-01-03,0.576211,-0.321504
2013-01-04,-1.257452,-1.296558
2013-01-05,-1.621898,-0.684798
2013-01-06,-0.78533,-0.03679


Affichage étiquette tranchage, les deux extrémités sont inclus



In [34]:
df . loc [ '20130102' : '20130104' , [ 'A' , 'B' ]] 

Unnamed: 0,A,B
2013-01-02,0.245798,0.920659
2013-01-03,0.576211,-0.321504
2013-01-04,-1.257452,-1.296558


La réduction des dimensions de l'objet retourné



In [35]:
 df . loc [ '20130102' , [ 'A' , 'B' ]] 

A    0.245798
B    0.920659
Name: 2013-01-02 00:00:00, dtype: float64

Pour obtenir une valeur scalaire



In [36]:
df . loc [ dates [ 0 ], 'A' ] 


-1.1409139232260423

Sélection par Position 

Voir plus dans la sélection par Position

Sélectionner par l'intermédiaire de la position des entiers passés

In [38]:
df.iloc[3]

A   -1.257452
B   -1.296558
C    0.494724
D    0.635859
Name: 2013-01-04 00:00:00, dtype: float64

Par tranches entières, agissant similaire à numpy / python



In [39]:
df.iloc[ 3 : 5 , 0 : 2 ] 

Unnamed: 0,A,B
2013-01-04,-1.257452,-1.296558
2013-01-05,-1.621898,-0.684798


Par listes d'emplacements de position entiers, semblable à la / style python numpy

In [40]:
df.iloc[[ 1 , 2 , 4 ], [ 0 , 2 ]] 

Unnamed: 0,A,C
2013-01-02,0.245798,0.120061
2013-01-03,0.576211,0.305003
2013-01-05,-1.621898,-0.269079


Pour trancher rangées explicitement



In [41]:
df.iloc[ 1 : 3 ,:] 

Unnamed: 0,A,B,C,D
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715


Pour trancher les colonnes explicitement



In [42]:
df.iloc[:, 1 : 3 ] 

Unnamed: 0,B,C
2013-01-01,0.686056,-0.713746
2013-01-02,0.920659,0.120061
2013-01-03,-0.321504,0.305003
2013-01-04,-1.296558,0.494724
2013-01-05,-0.684798,-0.269079
2013-01-06,-0.03679,1.763396


Pour obtenir une valeur explicitement



In [44]:
df.iloc[1,1]

0.92065915629200146

Pour obtenir un accès rapide à un scalaire (equiv à la méthode antérieure)



In [45]:
df.iat[ 1 , 1 ] 

0.92065915629200146

Boolean Indexation 

En utilisant les valeurs d'une seule colonne pour sélectionner des données.

In [46]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,-0.321504,0.305003,-0.297715


Une whereopération d'obtention.



In [47]:
df [ df  >  0 ] 

Unnamed: 0,A,B,C,D
2013-01-01,,0.686056,,0.500693
2013-01-02,0.245798,0.920659,0.120061,0.476541
2013-01-03,0.576211,,0.305003,
2013-01-04,,,0.494724,0.635859
2013-01-05,,,,
2013-01-06,,,1.763396,


Utilisation de la isin()méthode de filtrage:



In [48]:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.140914,0.686056,-0.713746,0.500693,one
2013-01-02,0.245798,0.920659,0.120061,0.476541,one
2013-01-03,0.576211,-0.321504,0.305003,-0.297715,two
2013-01-04,-1.257452,-1.296558,0.494724,0.635859,three
2013-01-05,-1.621898,-0.684798,-0.269079,-1.434119,four
2013-01-06,-0.78533,-0.03679,1.763396,-0.214755,three


Réglage 

Définition d'une nouvelle colonne aligne automatiquement les données par les indices

In [49]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [51]:
df['F'] = s1

Définition des valeurs par étiquette



In [52]:
df.at[dates[0],'A'] = 0

Définition des valeurs par la position



In [53]:
df.iat[0,1] = 0

Réglage en attribuant un tableau numpy



In [54]:
df.loc[:,'D'] = np.array([5] * len(df))

Le résultat des opérations de réglage antérieures



In [55]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.713746,5,
2013-01-02,0.245798,0.920659,0.120061,5,1.0
2013-01-03,0.576211,-0.321504,0.305003,5,2.0
2013-01-04,-1.257452,-1.296558,0.494724,5,3.0
2013-01-05,-1.621898,-0.684798,-0.269079,5,4.0
2013-01-06,-0.78533,-0.03679,1.763396,5,5.0


Une whereopération de réglage.



In [58]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.713746,-5,
2013-01-02,-0.245798,-0.920659,-0.120061,-5,-1.0
2013-01-03,-0.576211,-0.321504,-0.305003,-5,-2.0
2013-01-04,-1.257452,-1.296558,-0.494724,-5,-3.0
2013-01-05,-1.621898,-0.684798,-0.269079,-5,-4.0
2013-01-06,-0.78533,-0.03679,-1.763396,-5,-5.0


Données manquantes 
pandas utilise principalement la valeur np.nanpour représenter les données manquantes. Il est par défaut non inclus dans les calculs. Voir la section Données manquantes

Réindexation vous permet de modifier / ajouter / supprimer l'index sur un axe spécifié. Ceci renvoie une copie des données.

In [59]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.713746,5,,1.0
2013-01-02,0.245798,0.920659,0.120061,5,1.0,1.0
2013-01-03,0.576211,-0.321504,0.305003,5,2.0,
2013-01-04,-1.257452,-1.296558,0.494724,5,3.0,


Pour supprimer toutes les lignes qui ont les données manquantes.



In [60]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,0.245798,0.920659,0.120061,5,1.0,1.0


Remplissage des données manquantes



In [61]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.713746,5,5.0,1.0
2013-01-02,0.245798,0.920659,0.120061,5,1.0,1.0
2013-01-03,0.576211,-0.321504,0.305003,5,2.0,5.0
2013-01-04,-1.257452,-1.296558,0.494724,5,3.0,5.0


Pour obtenir le masque booléen où les valeurs sont nan



In [62]:
pd.isnull(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


opérations 
Voir la section de base sur les binaires Ops

Stats 

Opérations en général ne comprennent pas les données manquantes.

Exécution d'une statistique descriptive

In [63]:
df.mean()

A   -0.473778
B   -0.236498
C    0.283393
D    5.000000
F    3.000000
dtype: float64

Même opération sur l'autre axe



In [64]:
df.mean(1)

2013-01-01    1.071563
2013-01-02    1.457304
2013-01-03    1.511942
2013-01-04    1.188143
2013-01-05    1.284845
2013-01-06    2.188255
Freq: D, dtype: float64

Fonctionnant avec des objets qui ont dimensionnalité différents et ont besoin d'alignement. En outre, les pandas diffuse automatiquement le long de la dimension spécifiée.

In [65]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [66]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-0.423789,-1.321504,-0.694997,4.0,1.0
2013-01-04,-4.257452,-4.296558,-2.505276,2.0,0.0
2013-01-05,-6.621898,-5.684798,-5.269079,0.0,-1.0
2013-01-06,,,,,


Appliquer 

L'application de fonctions aux données

In [67]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.713746,5,
2013-01-02,0.245798,0.920659,-0.593685,10,1.0
2013-01-03,0.822009,0.599156,-0.288682,15,3.0
2013-01-04,-0.435443,-0.697402,0.206043,20,6.0
2013-01-05,-2.057341,-1.3822,-0.063037,25,10.0
2013-01-06,-2.842671,-1.418991,1.700359,30,15.0


In [68]:
df.apply(lambda x: x.max() - x.min())

A    2.198109
B    2.217217
C    2.477142
D    0.000000
F    4.000000
dtype: float64

histogrammes 

Voir plus à histogrammes et discrétisation

In [71]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    2
1    3
2    1
3    6
4    5
5    5
6    0
7    2
8    4
9    6
dtype: int32

In [72]:
s.value_counts()

6    2
5    2
2    2
4    1
3    1
1    1
0    1
dtype: int64

Méthodes de chaîne 

Série est équipée d'un ensemble de méthodes de traitement de chaîne dans la str attribut qui le rendent facile à utiliser sur chaque élément du tableau, comme dans l'extrait de code ci - dessous. Notez que pattern-matching dans str utilise généralement des expressions régulières par défaut (et dans certains cas les utilise toujours). Voir plus à vectorisées méthodes de chaînes .

In [73]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

Fusionner 
concat 

pandas fournit différentes installations pour combiner facilement ensemble de la série, dataframe et objets Panel avec différents types de logique de jeu pour les indices et les fonctionnalités de l'algèbre relationnelle dans le cas d'opérations rejoindre / fusion de type.

Voir la section Fusion

Concaténation pandas objets ainsi concat():

In [75]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,1.302022,-0.277866,-0.159702,-0.859549
1,-0.857846,0.211944,-0.678791,0.552513
2,0.85947,-0.392138,-0.074949,-0.070466
3,0.901605,0.985414,-0.88895,-0.09867
4,-0.669361,0.854401,0.96609,-0.884333
5,-0.41195,-0.639287,0.945194,0.222607
6,0.546273,-0.632743,-0.402534,1.111234
7,0.020877,-2.705408,0.193006,-0.501943
8,0.194228,-1.779574,-0.161411,-0.284476
9,-0.089309,-1.887367,-1.902586,0.330202


In [77]:
pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,1.302022,-0.277866,-0.159702,-0.859549
1,-0.857846,0.211944,-0.678791,0.552513
2,0.85947,-0.392138,-0.074949,-0.070466
3,0.901605,0.985414,-0.88895,-0.09867
4,-0.669361,0.854401,0.96609,-0.884333
5,-0.41195,-0.639287,0.945194,0.222607
6,0.546273,-0.632743,-0.402534,1.111234
7,0.020877,-2.705408,0.193006,-0.501943
8,0.194228,-1.779574,-0.161411,-0.284476
9,-0.089309,-1.887367,-1.902586,0.330202


Joignez - vous à 

Style SQL fusionne. Voir le style de base de données se joindre

In [78]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [79]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [80]:
pd.merge(left,right,on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


Un autre exemple qui peut donner ça :

In [81]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [82]:
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [83]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


append 

Ajouter des lignes à un dataframe. Voir la Appending

In [85]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,-0.101922,0.225908,0.137769,-0.883901
1,0.319562,-1.055508,-1.626206,-0.834073
2,0.333337,-0.72992,1.042827,-0.048556
3,0.396297,-1.14851,0.528919,-1.451686
4,1.254476,0.067044,-1.167703,-0.156678
5,0.147384,-0.668221,-0.252291,-0.616941
6,0.648396,2.489287,1.170999,0.249137
7,1.032743,-1.135551,-1.075182,-1.74816


In [86]:
s = df.iloc[3]
df.append(s, ignore_index=True)

Unnamed: 0,A,B,C,D
0,-0.101922,0.225908,0.137769,-0.883901
1,0.319562,-1.055508,-1.626206,-0.834073
2,0.333337,-0.72992,1.042827,-0.048556
3,0.396297,-1.14851,0.528919,-1.451686
4,1.254476,0.067044,-1.167703,-0.156678
5,0.147384,-0.668221,-0.252291,-0.616941
6,0.648396,2.489287,1.170999,0.249137
7,1.032743,-1.135551,-1.075182,-1.74816
8,0.396297,-1.14851,0.528919,-1.451686


Regroupement 
Par "group by" nous faisons référence à un processus impliquant une ou plusieurs des étapes suivantes

Fractionnement des données en groupes en fonction de certains critères
L' application d' une fonction à chaque groupe indépendamment
En combinant les résultats dans une structure de données
Voir la section Groupement

In [87]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
   ....:                           'foo', 'bar', 'foo', 'foo'],
   ....:                    'B' : ['one', 'one', 'two', 'three',
   ....:                           'two', 'two', 'one', 'three'],
   ....:                    'C' : np.random.randn(8),
   ....:                    'D' : np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,-0.870529,-1.686044
1,bar,one,-0.680909,-0.933861
2,foo,two,-0.464963,-0.07171
3,bar,three,0.523768,-1.283671
4,foo,two,0.529092,1.161547
5,bar,two,0.002871,-0.013421
6,foo,one,0.810772,-0.367146
7,foo,three,2.451371,0.707244


Le regroupement, puis en appliquant une fonction sumaux groupes résultant.

In [88]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-0.154271,-2.230953
foo,2.455742,-0.256109


Regroupement par plusieurs colonnes forme un index hiérarchique, que nous appliquons ensuite la fonction.

In [89]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.680909,-0.933861
bar,three,0.523768,-1.283671
bar,two,0.002871,-0.013421
foo,one,-0.059757,-2.05319
foo,three,2.451371,0.707244
foo,two,0.064128,1.089837


remodeler 
Voir les sections sur l' indexation hiérarchique et Galbe .

Stack 

In [91]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
   ....:                      'foo', 'foo', 'qux', 'qux'],
   ....:                     ['one', 'two', 'one', 'two',
   ....:                      'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.510653,-1.130002
bar,two,-0.666744,0.770114
baz,one,-0.4462,0.983738
baz,two,0.003948,0.967255


La stack()méthode "comprime" un niveau dans les colonnes de la dataframe.

In [92]:
stacked = df2.stack()
stacked

first  second   
bar    one     A    0.510653
               B   -1.130002
       two     A   -0.666744
               B    0.770114
baz    one     A   -0.446200
               B    0.983738
       two     A    0.003948
               B    0.967255
dtype: float64

Avec un dataframe "empilé" ou de série (ayant un MultiIndexcomme index), l'opération inverse de stack()est - unstack()qui , par défaut dépile le dernier niveau :

In [93]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.510653,-1.130002
bar,two,-0.666744,0.770114
baz,one,-0.4462,0.983738
baz,two,0.003948,0.967255


In [94]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,0.510653,-0.666744
bar,B,-1.130002,0.770114
baz,A,-0.4462,0.003948
baz,B,0.983738,0.967255


In [95]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.510653,-0.4462
one,B,-1.130002,0.983738
two,A,-0.666744,0.003948
two,B,0.770114,0.967255


Tableaux croisés dynamiques 

Voir la section sur les tableaux croisés dynamiques .

In [96]:
 df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
   .....:                    'B' : ['A', 'B', 'C'] * 4,
   .....:                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
   .....:                    'D' : np.random.randn(12),
   .....:                    'E' : np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,2.231816,0.544947
1,one,B,foo,-1.041298,-0.351327
2,two,C,foo,-0.265031,0.324071
3,three,A,bar,1.926123,0.790352
4,one,B,bar,-1.23099,-0.495324
5,one,C,bar,-0.942089,0.764245
6,two,A,foo,3.259028,-1.010865
7,three,B,foo,-1.015419,0.391571
8,one,C,foo,0.763459,-0.813325
9,one,A,bar,1.26377,-0.073687


Nous pouvons produire des tableaux croisés dynamiques à partir de ces données très facilement:

In [98]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.26377,2.231816
one,B,-1.23099,-1.041298
one,C,-0.942089,0.763459
three,A,1.926123,
three,B,,-1.015419
three,C,-1.015828,
two,A,,3.259028
two,B,1.170551,
two,C,,-0.265031
