# SEANCE2 :Pandas

# EXERCICE1


Il s'agit d'une courte introduction aux pandas, principalement axée sur les nouveaux utilisateurs. Vous pouvez voir des recettes plus complexes dans le Cookbook
Habituellement, nous importons comme suit:

In [1]:
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

## Object Creation


Voir la section Introduction à la structure des données
Création d'une série en passant une liste de valeurs, permettant aux pandas de créer un index entier par défaut:

In [2]:
s = pd.Series([1,3,5,np.nan,6,8])

s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


Création d'un DataFrame en passant un tableau numpy, avec un index datetime et des colonnes étiquetées:

In [3]:
dates = pd.date_range('20130101', periods=6)

dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

df

Unnamed: 0,A,B,C,D
2013-01-01,-1.633114,1.296313,-0.669254,0.177101
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524
2013-01-05,0.011179,0.529411,1.702074,-0.131155
2013-01-06,-0.488253,-0.687002,-1.330808,-0.406675



Création d'un DataFrame en passant un dic d'objets qui peuvent être convertis en séries.

In [5]:
df2 = pd.DataFrame({ 'A' : 1.,
                      'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                         'D' : np.array([3] * 4,dtype='int32'),
                         'E' : pd.Categorical(["test","train","test","train"]),
                        'F' : 'foo' })
    

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Ayant des types spécifiques

In [6]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


Si vous utilisez IPython, la terminaison des onglets pour les noms de colonnes (ainsi que les attributs publics) est automatiquement activée. Voici un sous-ensemble des attributs qui seront complétés:

In [None]:
df2.<TAB>

Comme vous pouvez le voir, les colonnes A, B, C et D sont automatiquement complétées. E est là aussi; Le reste des attributs ont été tronqués pour plus de concision.

## Viewing Data

Voir la section Basics
Voir les rangées supérieure et inférieure du cadre

In [11]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-1.633114,1.296313,-0.669254,0.177101
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524
2013-01-05,0.011179,0.529411,1.702074,-0.131155


In [12]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524
2013-01-05,0.011179,0.529411,1.702074,-0.131155
2013-01-06,-0.488253,-0.687002,-1.330808,-0.406675



Affiche l'index, les colonnes et les données numpy sous-jacentes

In [13]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [14]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [15]:
df.values

array([[-1.63311436,  1.29631311, -0.66925391,  0.17710112],
       [-0.07321627, -0.75125496, -1.04028275,  0.90035346],
       [ 1.20294872, -1.96882504, -0.80723774, -0.30589499],
       [-0.22915852, -0.80854354, -0.81920188,  1.13052449],
       [ 0.01117896,  0.52941064,  1.70207436, -0.13115527],
       [-0.48825256, -0.68700219, -1.33080781, -0.40667521]])


"Décrire" montre un rapide résumé statistique de vos données

In [16]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.201602,-0.398317,-0.494118,0.227376
std,0.912872,1.146746,1.100546,0.645917
min,-1.633114,-1.968825,-1.330808,-0.406675
25%,-0.423479,-0.794221,-0.985013,-0.26221
50%,-0.151187,-0.719129,-0.81322,0.022973
75%,-0.00992,0.225307,-0.70375,0.71954
max,1.202949,1.296313,1.702074,1.130524



Transposer vos données

In [17]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,-1.633114,-0.073216,1.202949,-0.229159,0.011179,-0.488253
B,1.296313,-0.751255,-1.968825,-0.808544,0.529411,-0.687002
C,-0.669254,-1.040283,-0.807238,-0.819202,1.702074,-1.330808
D,0.177101,0.900353,-0.305895,1.130524,-0.131155,-0.406675


In [18]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.177101,-0.669254,1.296313,-1.633114
2013-01-02,0.900353,-1.040283,-0.751255,-0.073216
2013-01-03,-0.305895,-0.807238,-1.968825,1.202949
2013-01-04,1.130524,-0.819202,-0.808544,-0.229159
2013-01-05,-0.131155,1.702074,0.529411,0.011179
2013-01-06,-0.406675,-1.330808,-0.687002,-0.488253



Tri par axe

In [19]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-06,-0.488253,-0.687002,-1.330808,-0.406675
2013-01-05,0.011179,0.529411,1.702074,-0.131155
2013-01-01,-1.633114,1.296313,-0.669254,0.177101


## Selection

Note:Bien que les expressions Python / Numpy standard pour la sélection et le paramétrage soient intuitives et utiles pour le travail interactif, pour le code de production, nous recommandons les méthodes optimisées d'accès aux données pandas, .at, .iat, .loc, .iloc et .ix.


Voir la documentation d'indexation Indexation et sélection des données et MultiIndex / Indexation avancée

### Getting

Sélection d'une seule colonne, qui donne une série, équivalent à df.A

In [20]:
df['A']

2013-01-01   -1.633114
2013-01-02   -0.073216
2013-01-03    1.202949
2013-01-04   -0.229159
2013-01-05    0.011179
2013-01-06   -0.488253
Freq: D, Name: A, dtype: float64


Sélectionner via [], qui coupe les lignes

In [21]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-1.633114,1.296313,-0.669254,0.177101
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895


In [22]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524


### Selection by Label


Voir plus dans Sélection par étiquette
Pour obtenir une coupe transversale à l'aide d'une étiquette

In [23]:
df.loc[dates[0]]

A   -1.633114
B    1.296313
C   -0.669254
D    0.177101
Name: 2013-01-01 00:00:00, dtype: float64

In [24]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-1.633114,1.296313
2013-01-02,-0.073216,-0.751255
2013-01-03,1.202949,-1.968825
2013-01-04,-0.229159,-0.808544
2013-01-05,0.011179,0.529411
2013-01-06,-0.488253,-0.687002



Affichage du découpage d'étiquettes, les deux extrémités sont incluses

In [25]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.073216,-0.751255
2013-01-03,1.202949,-1.968825
2013-01-04,-0.229159,-0.808544



Réduction des dimensions de l'objet retourné

In [26]:
df.loc['20130102',['A','B']]

A   -0.073216
B   -0.751255
Name: 2013-01-02 00:00:00, dtype: float64


Pour obtenir une valeur scalaire

In [27]:
df.loc[dates[0],'A']

-1.6331143597773166


Pour obtenir un accès rapide à un scalaire (équivaut à la méthode antérieure)

In [28]:
df.at[dates[0],'A']

-1.6331143597773166

### Selection by Position

Voir plus dans Sélection par Position
Sélectionnez via la position des entiers passés

In [29]:
df.iloc[3]

A   -0.229159
B   -0.808544
C   -0.819202
D    1.130524
Name: 2013-01-04 00:00:00, dtype: float64


Par tranches entières, agissant comme numpy / python

In [30]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-0.229159,-0.808544
2013-01-05,0.011179,0.529411



Par des listes d'emplacements de positions entières, semblables au style numpy / python

In [31]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-0.073216,-1.040283
2013-01-03,1.202949,-0.807238
2013-01-05,0.011179,1.702074



Pour trancher des lignes explicitement

In [32]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895


Pour obtenir une valeur explicitement

In [33]:
df.iloc[1,1]

-0.7512549645055342


Pour obtenir un accès rapide à un scalaire (équivaut à la méthode antérieure)

In [34]:
df.iat[1,1]

-0.7512549645055342

### Boolean Indexing

Utilisation des valeurs d'une seule colonne pour sélectionner des données.

In [35]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895
2013-01-05,0.011179,0.529411,1.702074,-0.131155


A où opération pour obtenir.

In [36]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,1.296313,,0.177101
2013-01-02,,,,0.900353
2013-01-03,1.202949,,,
2013-01-04,,,,1.130524
2013-01-05,0.011179,0.529411,1.702074,
2013-01-06,,,,


Utilisation de la méthode isin () pour le filtrage:

In [38]:
df2 = df.copy()

df2['E'] = ['one', 'one','two','three','four','three']

df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.633114,1.296313,-0.669254,0.177101,one
2013-01-02,-0.073216,-0.751255,-1.040283,0.900353,one
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895,two
2013-01-04,-0.229159,-0.808544,-0.819202,1.130524,three
2013-01-05,0.011179,0.529411,1.702074,-0.131155,four
2013-01-06,-0.488253,-0.687002,-1.330808,-0.406675,three


In [39]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,1.202949,-1.968825,-0.807238,-0.305895,two
2013-01-05,0.011179,0.529411,1.702074,-0.131155,four


### Setting

La définition d'une nouvelle colonne aligne automatiquement les données par les index

In [40]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))

s1


2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [41]:
df['F'] = s1

Définition des valeurs par libellé

In [42]:
df.at[dates[0],'A'] = 0

Définition des valeurs par position

In [43]:
df.iat[0,1] = 0

Réglage par assignation avec un tableau numpy

In [44]:
df.loc[:,'D'] = np.array([5] * len(df))

Le résultat des opérations de réglage préalable

In [45]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.669254,5,
2013-01-02,-0.073216,-0.751255,-1.040283,5,1.0
2013-01-03,1.202949,-1.968825,-0.807238,5,2.0
2013-01-04,-0.229159,-0.808544,-0.819202,5,3.0
2013-01-05,0.011179,0.529411,1.702074,5,4.0
2013-01-06,-0.488253,-0.687002,-1.330808,5,5.0


A où opération avec réglage.

In [46]:
df2 = df.copy()

df2[df2 > 0] = -df2

df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.669254,-5,
2013-01-02,-0.073216,-0.751255,-1.040283,-5,-1.0
2013-01-03,-1.202949,-1.968825,-0.807238,-5,-2.0
2013-01-04,-0.229159,-0.808544,-0.819202,-5,-3.0
2013-01-05,-0.011179,-0.529411,-1.702074,-5,-4.0
2013-01-06,-0.488253,-0.687002,-1.330808,-5,-5.0


## Missing Data

Pandas utilise principalement la valeur np.nan pour représenter les données manquantes. Il est par défaut non inclus dans les calculs. Voir la section Données manquantes
La réinitialisation vous permet de modifier / ajouter / supprimer l'index sur un axe spécifié. Cela retourne une copie des données.

In [47]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

df1.loc[dates[0]:dates[1],'E'] = 1

df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.669254,5,,1.0
2013-01-02,-0.073216,-0.751255,-1.040283,5,1.0,1.0
2013-01-03,1.202949,-1.968825,-0.807238,5,2.0,
2013-01-04,-0.229159,-0.808544,-0.819202,5,3.0,


Pour supprimer les lignes dont les données manquent.

In [48]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,-0.073216,-0.751255,-1.040283,5,1.0,1.0


Remplir les données manquantes

In [49]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.669254,5,5.0,1.0
2013-01-02,-0.073216,-0.751255,-1.040283,5,1.0,1.0
2013-01-03,1.202949,-1.968825,-0.807238,5,2.0,5.0
2013-01-04,-0.229159,-0.808544,-0.819202,5,3.0,5.0


Pour obtenir le masque booléen où les valeurs sont nan

In [50]:
pd.isnull(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


## Operations

Voir la section de base sur les opérations binaires

### Stats

Les opérations en général excluent les données manquantes.
Effectuer une statistique descriptive

In [51]:
df.mean()

A    0.070583
B   -0.614369
C   -0.494118
D    5.000000
F    3.000000
dtype: float64

Même opération sur l'autre axe

In [52]:
df.mean(1)

2013-01-01    1.082687
2013-01-02    0.827049
2013-01-03    1.085377
2013-01-04    1.228619
2013-01-05    2.248533
2013-01-06    1.498787
Freq: D, dtype: float64

Fonctionnement avec des objets qui ont une dimension différente et ont besoin d'alignement. En outre, les pandas diffusent automatiquement le long de la dimension spécifiée.

In [53]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)

s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [54]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,0.202949,-2.968825,-1.807238,4.0,1.0
2013-01-04,-3.229159,-3.808544,-3.819202,2.0,0.0
2013-01-05,-4.988821,-4.470589,-3.297926,0.0,-1.0
2013-01-06,,,,,


### Apply

Application des fonctions aux données

In [55]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.669254,5,
2013-01-02,-0.073216,-0.751255,-1.709537,10,1.0
2013-01-03,1.129732,-2.72008,-2.516774,15,3.0
2013-01-04,0.900574,-3.528624,-3.335976,20,6.0
2013-01-05,0.911753,-2.999213,-1.633902,25,10.0
2013-01-06,0.4235,-3.686215,-2.96471,30,15.0


In [56]:
df.apply(lambda x: x.max() - x.min())

A    1.691201
B    2.498236
C    3.032882
D    0.000000
F    4.000000
dtype: float64

### Histogramming

Voir plus sur Histogramme et discrétisation

In [57]:
s = pd.Series(np.random.randint(0, 7, size=10))

s

0    3
1    2
2    2
3    3
4    3
5    5
6    0
7    6
8    1
9    0
dtype: int32

In [58]:
s.value_counts()

3    3
2    2
0    2
6    1
5    1
1    1
dtype: int64

### String Methods

Series est équipé d'un ensemble de méthodes de traitement de chaîne dans l'attribut str qui le rendent facile à utiliser sur chaque élément du tableau, comme dans l'extrait de code ci-dessous. Notez que le pattern-matching dans str utilise généralement des expressions régulières par défaut (et dans certains cas les utilise toujours). Voir plus dans les Méthodes Vectorized String.

In [59]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## Merge

### Concat

Pandas offre diverses facilités pour combiner facilement des objets Series, DataFrame et Panel avec différents types de logique de consigne pour les index et la fonctionnalité d'algèbre relationnelle dans le cas d'opérations de type join / merge.
Voir la section Merging
Concaténation des objets pandas avec concat ():

In [60]:
df = pd.DataFrame(np.random.randn(10, 4))

df

Unnamed: 0,0,1,2,3
0,-0.158595,1.066116,-1.825571,-1.166748
1,0.69312,0.077536,-0.434621,-0.226527
2,-1.388055,1.51118,-0.026274,-0.277973
3,0.493187,-0.566673,-0.961685,0.871837
4,1.017744,-0.638493,0.107441,0.58605
5,1.589695,-1.100687,-1.844268,0.613436
6,1.822882,-1.882043,2.503544,0.290014
7,0.107257,-1.082356,-1.486529,-0.692317
8,-0.478631,-0.478898,-1.3886,0.36705
9,0.045675,-0.078599,-1.511145,0.162743


In [61]:
#Le briser en morceaux
pieces = [df[:3], df[3:7], df[7:]]

pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.158595,1.066116,-1.825571,-1.166748
1,0.69312,0.077536,-0.434621,-0.226527
2,-1.388055,1.51118,-0.026274,-0.277973
3,0.493187,-0.566673,-0.961685,0.871837
4,1.017744,-0.638493,0.107441,0.58605
5,1.589695,-1.100687,-1.844268,0.613436
6,1.822882,-1.882043,2.503544,0.290014
7,0.107257,-1.082356,-1.486529,-0.692317
8,-0.478631,-0.478898,-1.3886,0.36705
9,0.045675,-0.078599,-1.511145,0.162743


### Join

Le style SQL fusionne. Voir la jointure de style de base de données

In [62]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [63]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [64]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


Un autre exemple qui peut être donné est:

In [65]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [66]:
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [67]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


### Append

Ajouter des lignes à un dataframe. Voir les annexes

In [68]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

df

Unnamed: 0,A,B,C,D
0,0.70956,0.722854,0.720359,1.882481
1,0.751386,-0.107418,0.407156,0.092315
2,-0.287529,1.292807,-0.87395,-0.873379
3,-0.592531,-1.049499,0.664698,-0.053651
4,-0.267936,-0.442063,-0.376466,-0.006823
5,1.08123,0.645526,-2.616634,-0.490601
6,-0.727826,0.134475,0.694449,-1.222044
7,0.650361,-0.627098,0.335281,0.074654


In [69]:
s = df.iloc[3]

df.append(s, ignore_index=True)

Unnamed: 0,A,B,C,D
0,0.70956,0.722854,0.720359,1.882481
1,0.751386,-0.107418,0.407156,0.092315
2,-0.287529,1.292807,-0.87395,-0.873379
3,-0.592531,-1.049499,0.664698,-0.053651
4,-0.267936,-0.442063,-0.376466,-0.006823
5,1.08123,0.645526,-2.616634,-0.490601
6,-0.727826,0.134475,0.694449,-1.222044
7,0.650361,-0.627098,0.335281,0.074654
8,-0.592531,-1.049499,0.664698,-0.053651


## Grouping

Par "groupe par", on entend un processus impliquant une ou plusieurs des étapes suivantes:
    .Diviser les données en groupes en fonction de certains critères
    .Appliquer une fonction à chaque groupe indépendamment
    .Combiner les résultats dans une structure de données
Voir la section Groupes

In [70]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                              'foo', 'bar', 'foo', 'foo'],
                       'B' : ['one', 'one', 'two', 'three',
                              'two', 'two', 'one', 'three'],
                      'C' : np.random.randn(8),
                      'D' : np.random.randn(8)})
   

df

Unnamed: 0,A,B,C,D
0,foo,one,-0.554958,-0.197644
1,bar,one,-0.451381,-0.725389
2,foo,two,-0.55781,0.106356
3,bar,three,-0.783231,1.104198
4,foo,two,-1.785985,-0.769639
5,bar,two,-0.738284,0.28029
6,foo,one,0.144103,-0.468469
7,foo,three,-0.255985,1.386526


Grouper puis appliquer une somme de fonction aux groupes résultants.

In [71]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-1.972896,0.659099
foo,-3.010634,0.057131


Le regroupement par plusieurs colonnes forme un index hiérarchique, que nous appliquons ensuite à la fonction.

In [72]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.451381,-0.725389
bar,three,-0.783231,1.104198
bar,two,-0.738284,0.28029
foo,one,-0.410855,-0.666113
foo,three,-0.255985,1.386526
foo,two,-2.343795,-0.663282


## Reshaping

Voir les sections sur l'indexation hiérarchique et le remodelage.

### Stack

In [73]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                         'foo', 'foo', 'qux', 'qux'],
                        ['one', 'two', 'one', 'two',
                         'one', 'two', 'one', 'two']]))
    

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

df2 = df[:4]

df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.478613,1.074105
bar,two,-0.044169,0.236359
baz,one,0.885309,0.946321
baz,two,0.749757,1.521945


La méthode stack () "compresse" un niveau dans les colonnes du DataFrame.

In [74]:
stacked = df2.stack()

stacked

first  second   
bar    one     A   -0.478613
               B    1.074105
       two     A   -0.044169
               B    0.236359
baz    one     A    0.885309
               B    0.946321
       two     A    0.749757
               B    1.521945
dtype: float64

Avec un DataFrame ou une série "empilés" (ayant un index MultiIndex), l'opération inverse de stack () est unstack (), qui désempile par défaut le dernier niveau:

In [75]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.478613,1.074105
bar,two,-0.044169,0.236359
baz,one,0.885309,0.946321
baz,two,0.749757,1.521945


In [76]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.478613,-0.044169
bar,B,1.074105,0.236359
baz,A,0.885309,0.749757
baz,B,0.946321,1.521945


In [77]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.478613,0.885309
one,B,1.074105,0.946321
two,A,-0.044169,0.749757
two,B,0.236359,1.521945


### Pivot Tables

Reportez-vous à la section Tableaux croisés dynamiques.

In [78]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                    'B' : ['A', 'B', 'C'] * 4,
                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                    'D' : np.random.randn(12),
                    'E' : np.random.randn(12)})
    

df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,1.21743,1.021358
1,one,B,foo,0.59618,-0.664654
2,two,C,foo,-0.612292,0.118237
3,three,A,bar,-0.555846,0.587183
4,one,B,bar,2.410945,-0.816545
5,one,C,bar,-1.408918,-2.358052
6,two,A,foo,-0.132141,-1.318866
7,three,B,foo,-0.6565,0.974259
8,one,C,foo,-1.268667,-2.139096
9,one,A,bar,1.069043,-1.721776


Nous pouvons produire des tableaux croisés à partir de ces données très facilement:

In [79]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.069043,1.21743
one,B,2.410945,0.59618
one,C,-1.408918,-1.268667
three,A,-0.555846,
three,B,,-0.6565
three,C,-0.341961,
two,A,,-0.132141
two,B,-1.713228,
two,C,,-0.612292


## Time Series

Les pandas ont des fonctionnalités simples, puissantes et efficaces pour effectuer des opérations de rééchantillonnage pendant la conversion de fréquence (par exemple, la conversion de secondes données en données de 5 minutes). Ceci est extrêmement commun dans, mais sans s'y limiter, les applications financières. Voir la section Série chronologique.

In [80]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')

ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

ts.resample('5Min').sum()

2012-01-01    23070
Freq: 5T, dtype: int32

Représentation des fuseaux horaires

In [81]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')

ts = pd.Series(np.random.randn(len(rng)), rng)

ts

2012-03-06    0.237895
2012-03-07    1.112471
2012-03-08    2.580847
2012-03-09    0.454443
2012-03-10   -1.410571
Freq: D, dtype: float64

In [82]:
ts_utc = ts.tz_localize('UTC')

ts_utc

2012-03-06 00:00:00+00:00    0.237895
2012-03-07 00:00:00+00:00    1.112471
2012-03-08 00:00:00+00:00    2.580847
2012-03-09 00:00:00+00:00    0.454443
2012-03-10 00:00:00+00:00   -1.410571
Freq: D, dtype: float64

Convertir en un autre fuseau horaire

In [83]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00    0.237895
2012-03-06 19:00:00-05:00    1.112471
2012-03-07 19:00:00-05:00    2.580847
2012-03-08 19:00:00-05:00    0.454443
2012-03-09 19:00:00-05:00   -1.410571
Freq: D, dtype: float64

Conversion entre représentations temporelles

In [84]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')

ts = pd.Series(np.random.randn(len(rng)), index=rng)

ts

2012-01-31   -0.746656
2012-02-29   -0.923302
2012-03-31   -1.190065
2012-04-30    0.501720
2012-05-31   -0.345538
Freq: M, dtype: float64

In [85]:
ps = ts.to_period()

ps

2012-01   -0.746656
2012-02   -0.923302
2012-03   -1.190065
2012-04    0.501720
2012-05   -0.345538
Freq: M, dtype: float64

In [86]:
ps.to_timestamp()

2012-01-01   -0.746656
2012-02-01   -0.923302
2012-03-01   -1.190065
2012-04-01    0.501720
2012-05-01   -0.345538
Freq: MS, dtype: float64

La conversion entre la période et l'horodatage permet d'utiliser certaines fonctions arithmétiques. Dans l'exemple suivant, nous convertissons une fréquence trimestrielle avec l'année se terminant en novembre à 9 heures de la fin du mois suivant la fin du trimestre:

In [87]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')

ts = pd.Series(np.random.randn(len(prng)), prng)

ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9

ts.head()

1990-03-01 09:00    1.471237
1990-06-01 09:00    1.480095
1990-09-01 09:00   -0.665956
1990-12-01 09:00    2.240850
1991-03-01 09:00    0.577343
Freq: H, dtype: float64

## Categoricals

Depuis la version 0.15, les pandas peuvent inclure des données catégoriques dans un DataFrame. Pour les documents complets, consultez l'introduction catégorique et la documentation de l'API.

In [88]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

Convertir les notes brutes en un type de données catégorique.

In [89]:
df["grade"] = df["raw_grade"].astype("category")

df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

Renommez les catégories à des noms plus significatifs (affecter à Series.cat.categories est inplace!)

In [90]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

Réorganisez les catégories et ajoutez simultanément les catégories manquantes (les méthodes de la série .cat renvoient une nouvelle série par défaut).

In [91]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

Le tri est par ordre dans les catégories, pas l'ordre lexical.

In [92]:
df.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
5,6,e,very bad
1,2,b,good
2,3,b,good
0,1,a,very good
3,4,a,very good
4,5,a,very good


Le regroupement par colonne catégorique montre également les catégories vides.

In [93]:
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

## Plotting

Tracer des docs.

In [94]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum()

ts.plot()

<matplotlib.axes._subplots.AxesSubplot at 0x2352f4d7940>

In [98]:
import numpy as np
import matplotlib.pyplot as plt