# 10 minutes to pandas

Habituellement, les librairies suivantes sont importées comme suit :

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Création d'objets

Créer une série en lui passant une liste de valeurs permet à pandas de créer un index d'entier :

In [2]:
s = pd.Series([1,3,5,np.nan,6,8])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


On crée un dataframe en passant un tableau numpy, avec un index datetime et des colonnes libélées :

In [3]:
dates = pd.date_range('20130101', periods=6)
print(dates)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,A,B,C,D
2013-01-01,0.716165,-0.633762,-1.442606,-0.68022
2013-01-02,0.785485,-0.521582,-0.243401,-0.644489
2013-01-03,0.478134,1.336724,-0.796079,-0.092448
2013-01-04,-0.035573,-0.287148,-2.200116,-0.784355
2013-01-05,0.392478,-0.147438,0.904168,1.048623
2013-01-06,1.301342,-0.676388,-1.014232,-0.747971


On crée un dataframe en lui passant un dictionnaire d'objets pouvant être convertis en série :

In [4]:
df2 = pd.DataFrame({ 
    'A' : 1.,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
    'D' : np.array([3] * 4,dtype='int32'),
    'E' : pd.Categorical(["test","train","test","train"]),
    'F' : 'foo'
})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Ayant un dtype spécifique :

In [5]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

Si vous utilisez IPython, l'autocomplétion pour le nom des colonnes et des attributs publics est automatiquement activé. Voici une partie des attributs qui seront complétés :

df2.<TAB>

df2.A                  df2.boxplot
df2.abs                df2.C
df2.add                df2.clip
df2.add_prefix         df2.clip_lower
df2.add_suffix         df2.clip_upper
df2.align              df2.columns
df2.all                df2.combine
df2.any                df2.combineAdd
df2.append             df2.combine_first
df2.apply              df2.combineMult
df2.applymap           df2.compound
df2.as_blocks          df2.consolidate
df2.asfreq             df2.convert_objects
df2.as_matrix          df2.copy
df2.astype             df2.corr
df2.at                 df2.corrwith
df2.at_time            df2.count
df2.axes               df2.cov
df2.B                  df2.cummax
df2.between_time       df2.cummin
df2.bfill              df2.cumprod
df2.blocks             df2.cumsum
df2.bool               df2.D

As you can see, the columns A, B, C, and D are automatically tab completed. E is there as well; the rest of the attributes have been truncated for brevity.
Comme vous pouvez le voir, les colonnes A, B, C et D sont automatiquement complétées. E aussi, mais tous les attributs ne sont pas visibles car tronqués.

## Visualiser les données

Visualiser le haut et le bas d'un tableau :

In [6]:
print(df.head())
print(df.tail(3))

                   A         B         C         D
2013-01-01  0.716165 -0.633762 -1.442606 -0.680220
2013-01-02  0.785485 -0.521582 -0.243401 -0.644489
2013-01-03  0.478134  1.336724 -0.796079 -0.092448
2013-01-04 -0.035573 -0.287148 -2.200116 -0.784355
2013-01-05  0.392478 -0.147438  0.904168  1.048623
                   A         B         C         D
2013-01-04 -0.035573 -0.287148 -2.200116 -0.784355
2013-01-05  0.392478 -0.147438  0.904168  1.048623
2013-01-06  1.301342 -0.676388 -1.014232 -0.747971


Visualiser l'index, les colonnes et les données :

In [7]:
print(df.index)
print(df.columns)
print(df.values)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
Index(['A', 'B', 'C', 'D'], dtype='object')
[[ 0.71616507 -0.63376224 -1.44260598 -0.68022039]
 [ 0.78548498 -0.52158181 -0.24340055 -0.6444894 ]
 [ 0.47813381  1.33672445 -0.79607856 -0.09244767]
 [-0.03557277 -0.28714782 -2.20011592 -0.78435455]
 [ 0.39247803 -0.14743777  0.9041676   1.04862263]
 [ 1.30134227 -0.67638848 -1.01423228 -0.74797072]]


Describe donne un bref résumé des données :

In [8]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.606339,-0.154932,-0.798711,-0.31681
std,0.447528,0.75871,1.061429,0.715358
min,-0.035573,-0.676388,-2.200116,-0.784355
25%,0.413892,-0.605717,-1.335513,-0.731033
50%,0.597149,-0.404365,-0.905155,-0.662355
75%,0.768155,-0.182365,-0.38157,-0.230458
max,1.301342,1.336724,0.904168,1.048623


Transposer les données :

In [9]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,0.716165,0.785485,0.478134,-0.035573,0.392478,1.301342
B,-0.633762,-0.521582,1.336724,-0.287148,-0.147438,-0.676388
C,-1.442606,-0.243401,-0.796079,-2.200116,0.904168,-1.014232
D,-0.68022,-0.644489,-0.092448,-0.784355,1.048623,-0.747971


Ordonner en fonction d'un axe :

In [10]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.68022,-1.442606,-0.633762,0.716165
2013-01-02,-0.644489,-0.243401,-0.521582,0.785485
2013-01-03,-0.092448,-0.796079,1.336724,0.478134
2013-01-04,-0.784355,-2.200116,-0.287148,-0.035573
2013-01-05,1.048623,0.904168,-0.147438,0.392478
2013-01-06,-0.747971,-1.014232,-0.676388,1.301342


Ordonner par valeur

In [11]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-06,1.301342,-0.676388,-1.014232,-0.747971
2013-01-01,0.716165,-0.633762,-1.442606,-0.68022
2013-01-02,0.785485,-0.521582,-0.243401,-0.644489
2013-01-04,-0.035573,-0.287148,-2.200116,-0.784355
2013-01-05,0.392478,-0.147438,0.904168,1.048623
2013-01-03,0.478134,1.336724,-0.796079,-0.092448


## Sélection

Note : Autant les expressions Numpy et Python sont intuitives quand il s'agit de sélectionner et assigner lors d'un travail interactif, en code de production, il est recommandé d'utiliser les fonctions optimisées de pandas : .at, .iat, .loc, .iloc et .ix.

### Getting

Sélectionner une seule colunne, ce qui retourne une série (équivalent à df.A)

In [12]:
df['A']

2013-01-01    0.716165
2013-01-02    0.785485
2013-01-03    0.478134
2013-01-04   -0.035573
2013-01-05    0.392478
2013-01-06    1.301342
Freq: D, Name: A, dtype: float64

Sélectionner à l'aide de [] permet de récupéer des lignes

In [13]:
print(df[0:3])
print(df['20130102':'20130104'])

                   A         B         C         D
2013-01-01  0.716165 -0.633762 -1.442606 -0.680220
2013-01-02  0.785485 -0.521582 -0.243401 -0.644489
2013-01-03  0.478134  1.336724 -0.796079 -0.092448
                   A         B         C         D
2013-01-02  0.785485 -0.521582 -0.243401 -0.644489
2013-01-03  0.478134  1.336724 -0.796079 -0.092448
2013-01-04 -0.035573 -0.287148 -2.200116 -0.784355


### Sélection par label

Pour récupérer une section en utilisant un label

In [14]:
df.loc[dates[0]]

A    0.716165
B   -0.633762
C   -1.442606
D   -0.680220
Name: 2013-01-01 00:00:00, dtype: float64

Sélectionner plusieurs axes par label

In [15]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,0.716165,-0.633762
2013-01-02,0.785485,-0.521582
2013-01-03,0.478134,1.336724
2013-01-04,-0.035573,-0.287148
2013-01-05,0.392478,-0.147438
2013-01-06,1.301342,-0.676388


Découper par label, les deux limites extrèmes sont inclues.

In [16]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,0.785485,-0.521582
2013-01-03,0.478134,1.336724
2013-01-04,-0.035573,-0.287148


Reduction dans la dimension de l'objet retourné

In [17]:
df.loc['20130102',['A','B']]

A    0.785485
B   -0.521582
Name: 2013-01-02 00:00:00, dtype: float64

Pour récupérer un scalaire

In [18]:
df.loc[dates[0],'A']

0.71616506544151826

Pour avoir un accès rapide à une valeur scalaire

In [19]:
df.at[dates[0],'A']

0.71616506544151826

### Sélection par position

Sélection par la posision des entiers passés.

In [20]:
df.iloc[3]

A   -0.035573
B   -0.287148
C   -2.200116
D   -0.784355
Name: 2013-01-04 00:00:00, dtype: float64

Par tranches d'entiers, se comporte comme numpy

In [21]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-0.035573,-0.287148
2013-01-05,0.392478,-0.147438


Par des listes d'entiers de position, similaire au fonctionnement de numpy

In [22]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.785485,-0.243401
2013-01-03,0.478134,-0.796079
2013-01-05,0.392478,0.904168


Pour récupérer des lignes précises

In [23]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.785485,-0.521582,-0.243401,-0.644489
2013-01-03,0.478134,1.336724,-0.796079,-0.092448


Pour récupérer des colonnes précises

In [24]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-0.633762,-1.442606
2013-01-02,-0.521582,-0.243401
2013-01-03,1.336724,-0.796079
2013-01-04,-0.287148,-2.200116
2013-01-05,-0.147438,0.904168
2013-01-06,-0.676388,-1.014232


Pour récupérer une valeur précise

In [25]:
df.iloc[1,1]

-0.52158181358876954

Pour avoir accès à un scalaire

In [26]:
df.iat[1,1]

-0.52158181358876954

## Indexation booléene

Utiliser la valeur d'une colonne pour récupérer les données

In [27]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.716165,-0.633762,-1.442606,-0.68022
2013-01-02,0.785485,-0.521582,-0.243401,-0.644489
2013-01-03,0.478134,1.336724,-0.796079,-0.092448
2013-01-05,0.392478,-0.147438,0.904168,1.048623
2013-01-06,1.301342,-0.676388,-1.014232,-0.747971


Une opération where pour récupérer les données

In [28]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.716165,,,
2013-01-02,0.785485,,,
2013-01-03,0.478134,1.336724,,
2013-01-04,,,,
2013-01-05,0.392478,,0.904168,1.048623
2013-01-06,1.301342,,,


Utiliser la méthde isin() pour filtrer

In [29]:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,0.716165,-0.633762,-1.442606,-0.68022,one
2013-01-02,0.785485,-0.521582,-0.243401,-0.644489,one
2013-01-03,0.478134,1.336724,-0.796079,-0.092448,two
2013-01-04,-0.035573,-0.287148,-2.200116,-0.784355,three
2013-01-05,0.392478,-0.147438,0.904168,1.048623,four
2013-01-06,1.301342,-0.676388,-1.014232,-0.747971,three


In [30]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,0.478134,1.336724,-0.796079,-0.092448,two
2013-01-05,0.392478,-0.147438,0.904168,1.048623,four


## Assigner

Assigner une nouvelle colonne aligne automatiquement toutes les données par index

In [59]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
df['F'] = s1

Assigner les valeurs par label

In [32]:
df.at[dates[0],'A'] = 0

Assigner les valeurs par position

In [33]:
df.iat[0,1] = 0

Assigner en utilisant un tableau numpy

In [34]:
df.loc[:,'D'] = np.array([5] * len(df))

Voici les résultats des opérations précédentes :

In [35]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.442606,5,
2013-01-02,0.785485,-0.521582,-0.243401,5,1.0
2013-01-03,0.478134,1.336724,-0.796079,5,2.0
2013-01-04,-0.035573,-0.287148,-2.200116,5,3.0
2013-01-05,0.392478,-0.147438,0.904168,5,4.0
2013-01-06,1.301342,-0.676388,-1.014232,5,5.0


Une opération where avec les assignements

In [36]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.442606,-5,
2013-01-02,-0.785485,-0.521582,-0.243401,-5,-1.0
2013-01-03,-0.478134,-1.336724,-0.796079,-5,-2.0
2013-01-04,-0.035573,-0.287148,-2.200116,-5,-3.0
2013-01-05,-0.392478,-0.147438,-0.904168,-5,-4.0
2013-01-06,-1.301342,-0.676388,-1.014232,-5,-5.0


# Données manquantes

Panda utilise principalement np.nan pour représenter les données maquantes. C'est, par défaut, exclu des calculs.

La réindexation permet de changer / ajouter /supprimer l'index d'un axe spécufié.
Ceci retourne une copie de la donnée.

In [37]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-1.442606,5,,1.0
2013-01-02,0.785485,-0.521582,-0.243401,5,1.0,1.0
2013-01-03,0.478134,1.336724,-0.796079,5,2.0,
2013-01-04,-0.035573,-0.287148,-2.200116,5,3.0,


Pour supprimer une ligne ayant des données manquantes :

In [38]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,0.785485,-0.521582,-0.243401,5,1.0,1.0


Pour remplir les données manquantes :

In [39]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-1.442606,5,5.0,1.0
2013-01-02,0.785485,-0.521582,-0.243401,5,1.0,1.0
2013-01-03,0.478134,1.336724,-0.796079,5,2.0,5.0
2013-01-04,-0.035573,-0.287148,-2.200116,5,3.0,5.0


Pour récupérer le masque boléen des données manquantes :

In [40]:
pd.isnull(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


# Opération

## Stats

En général, les opérations excluent les données manquantes.

Effectuer des statistiques descriptives :

In [41]:
df.mean()

A    0.486978
B   -0.049305
C   -0.798711
D    5.000000
F    3.000000
dtype: float64

La même opération sur l'autre axe :

In [42]:
df.mean(1)

2013-01-01    0.889349
2013-01-02    1.204101
2013-01-03    1.603756
2013-01-04    1.095433
2013-01-05    2.029842
2013-01-06    1.922144
Freq: D, dtype: float64

Travailler avec des objets ayant des dimensions différentes et nécessitant un alignement.
En plus, panda recopie automatiquement selon les dimensions spécifiées.

In [43]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
print(s)
df.sub(s, axis='index')

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64


Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-0.521866,0.336724,-1.796079,4.0,1.0
2013-01-04,-3.035573,-3.287148,-5.200116,2.0,0.0
2013-01-05,-4.607522,-5.147438,-4.095832,0.0,-1.0
2013-01-06,,,,,


## Appliquer

Appliquer une fonction aux données

In [44]:
print(df.apply(np.cumsum))
print(df.apply(lambda x: x.max() - x.min()))

                   A         B         C   D     F
2013-01-01  0.000000  0.000000 -1.442606   5   NaN
2013-01-02  0.785485 -0.521582 -1.686007  10   1.0
2013-01-03  1.263619  0.815143 -2.482085  15   3.0
2013-01-04  1.228046  0.527995 -4.682201  20   6.0
2013-01-05  1.620524  0.380557 -3.778033  25  10.0
2013-01-06  2.921866 -0.295831 -4.792266  30  15.0
A    1.336915
B    2.013113
C    3.104284
D    0.000000
F    4.000000
dtype: float64


## Histogramming

In [45]:
s = pd.Series(np.random.randint(0, 7, size=10))
print(s)
s.value_counts()

0    2
1    4
2    4
3    4
4    2
5    5
6    1
7    0
8    1
9    4
dtype: int32


4    4
2    2
1    2
5    1
0    1
dtype: int64

## Méthodes de chaines

Les séries sont équipées avec des méthodes pour traiter les chaines dans l'attribut str. Cela rend plus facile de traiter chaque élément d'un tableau, comme montré dans l'exemple de code plus bas. A noter que la détection de paterne dans str utilise les expressions régulières par défaut.

In [46]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

# Merge

## Concaténation

pandas fournit différentes méthodes pour facilement combiner les Series, DataFrame et les Panels, avec de nombreux outils de logiquz pour les indexes et l'algèbre relationnelle dans les cas de jointure, et opération de regroupements.

On concatène les objets pandas avec concat()

In [47]:
df = pd.DataFrame(np.random.randn(10, 4))
print(df)
pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

          0         1         2         3
0  0.459275  1.742066 -0.472016 -0.804387
1 -0.144711  0.037326  0.538562 -0.115874
2 -0.423371 -1.000892 -0.713067 -0.454866
3  0.547117 -1.142190 -0.199180 -0.532148
4  1.042373  1.541641 -0.547814 -0.709528
5 -0.744647  0.549912  0.271783 -0.772453
6  0.403425 -1.474633  0.284573  1.334164
7 -0.425839 -0.289851 -0.183779  0.882390
8  2.509963  0.523000 -0.176062  0.455279
9 -0.771615 -0.555626 -1.756857 -1.250498


Unnamed: 0,0,1,2,3
0,0.459275,1.742066,-0.472016,-0.804387
1,-0.144711,0.037326,0.538562,-0.115874
2,-0.423371,-1.000892,-0.713067,-0.454866
3,0.547117,-1.14219,-0.19918,-0.532148
4,1.042373,1.541641,-0.547814,-0.709528
5,-0.744647,0.549912,0.271783,-0.772453
6,0.403425,-1.474633,0.284573,1.334164
7,-0.425839,-0.289851,-0.183779,0.88239
8,2.509963,0.523,-0.176062,0.455279
9,-0.771615,-0.555626,-1.756857,-1.250498


## Jointures

Regroupement avec une méthode proche de SQL

In [48]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

print(left)
print(right)

pd.merge(left, right, on='key')

   key  lval
0  foo     1
1  foo     2
   key  rval
0  foo     4
1  foo     5


Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


Autre exemple :

In [49]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

print(left)
print(right)

pd.merge(left, right, on='key')

   key  lval
0  foo     1
1  bar     2
   key  rval
0  foo     4
1  bar     5


Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


## Ajouter

Ajouter une ligne à un dataframe.

In [50]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
print(df)
s = df.iloc[3]
df.append(s, ignore_index=True)

          A         B         C         D
0 -0.590985  1.350859  0.193540 -1.106442
1 -0.155994  1.667763  0.155040 -0.515902
2 -1.635699 -1.489904 -0.249634 -1.624082
3 -1.073294 -0.369942 -0.379850  0.880355
4 -1.332602  0.723019  0.116708 -0.234858
5 -0.100941 -0.869016  2.214214  1.691255
6  0.388602 -0.829212 -0.957825 -0.210230
7  0.084708 -0.503117 -0.920067 -0.590175


Unnamed: 0,A,B,C,D
0,-0.590985,1.350859,0.19354,-1.106442
1,-0.155994,1.667763,0.15504,-0.515902
2,-1.635699,-1.489904,-0.249634,-1.624082
3,-1.073294,-0.369942,-0.37985,0.880355
4,-1.332602,0.723019,0.116708,-0.234858
5,-0.100941,-0.869016,2.214214,1.691255
6,0.388602,-0.829212,-0.957825,-0.21023
7,0.084708,-0.503117,-0.920067,-0.590175
8,-1.073294,-0.369942,-0.37985,0.880355


## Grouper

Par "group by", on entend un processus impliquant une ou plusieures des étapes suivantes :
- Séparer les données en groupes selon certain critères
- Appliquer un fonction à chaque groupe indépendament
- Combiner les résultats dans une structure de données

In [51]:
df = pd.DataFrame({
    'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C' : np.random.randn(8),
    'D' : np.random.randn(8)
})
df

Unnamed: 0,A,B,C,D
0,foo,one,-1.394438,-0.316087
1,bar,one,0.244974,-1.220984
2,foo,two,0.333486,-0.519786
3,bar,three,0.524654,1.070615
4,foo,two,0.462969,1.080937
5,bar,two,1.04092,-0.122271
6,foo,one,0.648553,0.75246
7,foo,three,-0.380007,-0.832331


Grouper et appliquer la fonction sum au groupes résultants

In [52]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,1.810548,-0.27264
foo,-0.329437,0.165193


Grouper plusieures colonnes forme un indexe hiérarchique, sur lequel on applique la fonction.

In [53]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.244974,-1.220984
bar,three,0.524654,1.070615
bar,two,1.04092,-0.122271
foo,one,-0.745885,0.436373
foo,three,-0.380007,-0.832331
foo,two,0.796455,0.561151


# Reshaping

## Stack

In [54]:
tuples = list(zip(*[
    ['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
    ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']
]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.898058,0.492935
bar,two,1.173559,-0.810832
baz,one,-1.321347,-0.952628
baz,two,-0.865412,-0.305848


La méthode stack compresse un niveau dans les colonnes du dataframe

In [55]:
stacked = df2.stack()
stacked

first  second   
bar    one     A   -0.898058
               B    0.492935
       two     A    1.173559
               B   -0.810832
baz    one     A   -1.321347
               B   -0.952628
       two     A   -0.865412
               B   -0.305848
dtype: float64

Avec un dataframe ou une série stackée, l'opération inverse de stack() est unstack(), qui par défaut désempile le dernier niveau.

## Pivot Tables

In [56]:
df = pd.DataFrame({
    'A' : ['one', 'one', 'two', 'three'] * 3,
    'B' : ['A', 'B', 'C'] * 4,
    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
    'D' : np.random.randn(12),
    'E' : np.random.randn(12)
})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.174248,0.433815
1,one,B,foo,-1.991089,1.323841
2,two,C,foo,-1.031291,-1.200112
3,three,A,bar,0.69599,-0.608419
4,one,B,bar,-0.385241,-0.512122
5,one,C,bar,-0.401159,0.397572
6,two,A,foo,-1.508784,0.633238
7,three,B,foo,0.740938,-0.055192
8,one,C,foo,-1.408056,-2.32274
9,one,A,bar,0.676475,1.224765


On peut produire des tables pivot depuis des données très facilement :

In [57]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.676475,0.174248
one,B,-0.385241,-1.991089
one,C,-0.401159,-1.408056
three,A,0.69599,
three,B,,0.740938
three,C,-1.889952,
two,A,,-1.508784
two,B,-0.100815,
two,C,,-1.031291
