# DataFrame de pandas
## 1.1 Complément - niveau intermédiaire
### 1.1.1 Création d’une DataFrame

Une DataFrame est un tableau numpy à deux dimensions avec un index pour les lignes et un index
pour les colonnes. Il y a de nombreuses manières de construire une DataFrame.

In [1]:
# Regardons la construction d'une DataFrame
import numpy as np
import pandas as pd

# Créons une Series pour définir des âges
age = pd.Series([30, 20, 50], index=['alice', 'bob', 'julie'])

# et une Series pour définir des tailles
height = pd.Series([150, 170, 168], index=['alice', 'marc', 'julie'])

# On peut maintenant combiner ces deux Series en DataFrame,
# chaque Series définissant une colonne, une manière de le faire est
# de définir un dictionnaire qui contient pour clef le nom de la colonne
# et pour valeur la Series correspondante
stat = pd.DataFrame({'age': age, 'height': height})
print(stat)

        age  height
alice  30.0   150.0
bob    20.0     NaN
julie  50.0   168.0
marc    NaN   170.0


On remarque que pandas fait automatiquement l’alignement des index, lorsqu’une valeur n’est pas
présente, elle est automatiquement remplacée par NaN. Panda va également broadcaster une valeur
unique définissant une colonne sur toutes les lignes. Regardons cela :

In [2]:
stat = pd.DataFrame({'age': age, 'height': height, 'city': 'Nice'})
print(stat)

        age  height  city
alice  30.0   150.0  Nice
bob    20.0     NaN  Nice
julie  50.0   168.0  Nice
marc    NaN   170.0  Nice


In [3]:
 # On peut maintenant accéder aux index des lignes et des colonnes
# l'index des lignes
print(stat.index)

Index(['alice', 'bob', 'julie', 'marc'], dtype='object')


In [4]:
# l'index des colonnes
print(stat.columns)

Index(['age', 'height', 'city'], dtype='object')


Il y a de nombreuses manières d’accéder aux éléments de la DataFrame, certaines sont bonnes et
d’autres à proscrire, commençons par prendre de bonnes habitudes. Comme il s’agit d’une structure
à deux dimensions, il faut donner un indice de ligne et de colonne :

In [144]:
# Quel est l'âge de alice
a = stat.loc['alice', 'age']

In [6]:
# a est un flottant
type(a), a

(numpy.float64, 30.0)

In [7]:
# Quel est la moyenne de tous les âges
c = stat.loc[:, 'age']
m = c.mean()
print(f"L'âge moyen est de {m:.1f} ans.")

L'âge moyen est de 33.3 ans.


In [8]:
# c est une Series
type(c)

pandas.core.series.Series

In [9]:
# et m est un flottant
type(m)

float

On peut déjà noter plusieurs choses intéressantes :
* On peut utiliser .loc[] et .iloc comme pour les Series. Pour les DataFrame c’est encore
plus important parce qu’il y a plus de risques d’ambiguïtés (notamment entre les lignes et les
colonnes, on y reviendra) ;
* la méthode mean calcule la moyenne, ça n’est pas surprenant, mais ignore les NaN. C’est en
général ce que l’on veut. Si vous vous demandez comment savoir si la méthode que vous
utilisez ignore ou pas les NaN, le mieux est de regarder l’aide de cette méthode. Il existe pour
un certain nombre de méthodes deux versions : une qui ignore les NaN et une autre qui les
prend en compte ; on en reparlera.

Une autre manière de construire une DataFrame est de partir d’un array de numpy, et de spécifier
les index pour les lignes et les colonnes avec les arguments index et columns :

In [10]:
a = np.random.randint(1, 20, 9).reshape(3, 3)
p = pd.DataFrame(a, index=['a', 'b', 'c'], columns=['x', 'y', 'z'])
print(p)

    x   y   z
a  15   9   4
b   8   2   1
c  14  17  16


### 1.1.2 Importation et exportation de données
En pratique, il est très fréquent que les données qu’on manipule soient stockées dans un fichier ou
une base de données. Il existe en pandas de nombreux utilitaires pour importer et exporter des
données et les convertir automatiquement en DataFrame. Vous pouvez importer ou exporter du
CSV, JSON, HTML, Excel, HDF5, SQL, Python pickle, etc.
À titre d’illustration écrivons la DataFrame p dans différents formats.

In [11]:
# écrivons notre DataFrame dans un fichier CSV
p.to_csv('my_data.csv')
!cat my_data.csv

,x,y,z
a,15,9,4
b,8,2,1
c,14,17,16


In [12]:
# et dans un fichier JSON
p.to_json('my_data.json')
!cat my_data.json

{"x":{"a":15,"b":8,"c":14},"y":{"a":9,"b":2,"c":17},"z":{"a":4,"b":1,"c":16}}

In [13]:
# on peut maintenant recharger notre fichier
# la conversion en DataFrame est automatique
new_p = pd.read_json('my_data.json')
print(new_p)

    x   y   z
a  15   9   4
b   8   2   1
c  14  17  16


Pour la gestion des autres formats, comme il s’agit de quelque chose de très spécifique et sans
difficulté particulière, je vous renvoie simplement à la documentation :
http://pandas.pydata.org/pandas-docs/stable/io.html

### 1.1.3 Manipulation d’une DataFrame

In [14]:
# construisons maintenant une DataFrame jouet
# voici une liste de prénoms
names = ['alice', 'bob', 'marc', 'bill', 'sonia']

# créons trois Series qui formeront les trois colonnes
age = pd.Series([12, 13, 16, 11, 16], index=names)
height = pd.Series([130, 140, 176, 120, 165], index=names)
sex = pd.Series(list('fmmmf'), index=names)

# créons maintenant la DataFrame
p = pd.DataFrame({'age': age, 'height': height, 'sex': sex})
print(p)

       age  height sex
alice   12     130   f
bob     13     140   m
marc    16     176   m
bill    11     120   m
sonia   16     165   f


In [15]:
# et chargeons le jeux de données sur les pourboires de seaborn
import seaborn as sns
tips = sns.load_dataset('tips')

pandas offre de nombreuses possibilités d’explorer les données. Attention, dans mes exemples je
vais alterner entre le DataFrame p et le DataFrame tips suivant les besoins de l’explication.

In [16]:
# afficher les premières lignes
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [17]:
# et les dernière lignes
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [18]:
# l'index des lignes
p.index

Index(['alice', 'bob', 'marc', 'bill', 'sonia'], dtype='object')

In [19]:
# et l'index des colonnes
p.columns

Index(['age', 'height', 'sex'], dtype='object')

In [20]:
# et afficher uniquement les valeurs
p.values

array([[12, 130, 'f'],
       [13, 140, 'm'],
       [16, 176, 'm'],
       [11, 120, 'm'],
       [16, 165, 'f']], dtype=object)

In [21]:
# échanger lignes et colonnes
# cf. la transposition de matrices
p.T

Unnamed: 0,alice,bob,marc,bill,sonia
age,12,13,16,11,16
height,130,140,176,120,165
sex,f,m,m,m,f


Pour finir, il y a la méthodes describe qui permet d’obtenir des premières statistiques sur un
DataFrame. describe permet de calculer des statistiques sur des type numériques, mais aussi sur
des types chaînes de caractères.

In [22]:
# par défaut describe ne prend en compte que les colonnes numériques
p.describe()

Unnamed: 0,age,height
count,5.0,5.0
mean,13.6,146.2
std,2.302173,23.605084
min,11.0,120.0
25%,12.0,130.0
50%,13.0,140.0
75%,16.0,165.0
max,16.0,176.0


In [23]:
# mais on peut le forcer à prendre en compte toutes les colonnes
p.describe(include='all')

Unnamed: 0,age,height,sex
count,5.0,5.0,5
unique,,,2
top,,,m
freq,,,3
mean,13.6,146.2,
std,2.302173,23.605084,
min,11.0,120.0,
25%,12.0,130.0,
50%,13.0,140.0,
75%,16.0,165.0,


### 1.1.4 Requêtes sur une DataFrame
On peut maintenant commencer à faire des requêtes sur les DataFrames. Les DataFrame supportent
la notion de masque que l’on a vue pour les ndarray de numpy et pour les Series.

In [24]:
# p.loc prend soit un label de ligne
print(p.loc['sonia'])

age        16
height    165
sex         f
Name: sonia, dtype: object


In [25]:
# ou alors un label de ligne ET de colonne
print(p.loc['sonia', 'age'])

16


On peut mettre à la place d’une label :
* une liste de labels ;
* un slice sur les labels ;
* un masque (c’est-à-dire un tableau de booléens) ;
* un callable qui retourne une des trois premières possibilités.

Noter que l’on peut également utiliser la notation .iloc[] avec les mêmes règles, mais elle est
moins utile.
Il est recommandé de toujours utiliser la notation .loc[lignes, colonnes] pour éviter toute ambiguïté. Les notations .loc[lignes] ou pire seulement [label] sont sources d’erreurs.
Regardons maintenant d’autres exemples plus complexes :


In [26]:
# un masque sur les femmes
p.loc[:, 'sex'] == 'f'

alice     True
bob      False
marc     False
bill     False
sonia     True
Name: sex, dtype: bool

In [27]:
# si bien que pour construire un tableau
# avec uniquement les femmes
p.loc[p.loc[:, 'sex'] == 'f', :]

Unnamed: 0,age,height,sex
alice,12,130,f
sonia,16,165,f


In [28]:
# si on veut ne garder uniquement
# que les femmes de plus de 14 ans
p.loc[(p.loc[:, 'sex'] == 'f') & (p.loc[:, 'age'] > 14), :]

Unnamed: 0,age,height,sex
sonia,16,165,f


In [29]:
# quelle est la moyenne de 'total_bill' pour les femmes
addition_f = tips.loc[tips.loc[:, 'sex'] == 'Female', 'total_bill'].mean()
print(f"addition moyenne des femmes : {addition_f:.2f}")

addition moyenne des femmes : 18.06


In [30]:
# quelle est la note moyenne des hommes
addition_h = tips.loc[tips.loc[:, 'sex'] == 'Male', 'total_bill'].mean()
print(f"addition moyenne des hommes : {addition_h:.2f}")

addition moyenne des hommes : 20.74


In [31]:
# qui laisse le plus grand pourcentage de pourboire :
# les hommes ou les femmes ?

pourboire_f = tips.loc[tips.loc[:, 'sex'] == 'Female', 'tip'].mean()
pourboire_h = tips.loc[tips.loc[:, 'sex'] == 'Male', 'tip'].mean()

print(f"Les femmes laissent {pourboire_f/addition_f:.2%} de pourboire")
print(f"Les hommes laissent {pourboire_h/addition_h:.2%} de pourboire")

Les femmes laissent 15.69% de pourboire
Les hommes laissent 14.89% de pourboire


### 1.1.5 Erreurs fréquentes et ambiguïtés sur les requêtes
Nous avons vu une manière simple et non ambiguë de faire des requêtes sur les DataFrame. Nous allons voir qu’il existe d’autres manières qui ont pour seul avantage d’être plus concises, mais sources de nombreuses erreurs.

Prévilégiez toujours la notation .loc[lignes, colonnes] sinon, soyez sûr de savoir ce qui est réellement calculé.

In [32]:
# commençons par la notation la plus classique
p['sex'] # prend forcément un label de colonne

alice    f
bob      m
marc     m
bill     m
sonia    f
Name: sex, dtype: object

In [33]:
# mais par contre, si on passe un slice, c'est forcément des lignes,
# assez perturbant et source de confusion.
p['alice': 'marc']

Unnamed: 0,age,height,sex
alice,12,130,f
bob,13,140,m
marc,16,176,m


In [34]:
# on peut même directement accéder à une colonne par son nom
p.age

alice    12
bob      13
marc     16
bill     11
sonia    16
Name: age, dtype: int64

Mais c’est fortement déconseillé parce que si un attribut de même nom existe sur une DataFrame,
alors la priorité est donnée à l’attribut, et non à la colonne :

In [35]:
# ajoutons une colonne qui a pour nom une méthode qui existe sur
# les DataFrame
p['mean'] = 1
print(p)

       age  height sex  mean
alice   12     130   f     1
bob     13     140   m     1
marc    16     176   m     1
bill    11     120   m     1
sonia   16     165   f     1


In [36]:
# je peux bien accéder
# à la colonne sex
p.sex

alice    f
bob      m
marc     m
bill     m
sonia    f
Name: sex, dtype: object

In [37]:
# mais pas à la colonne mean
p.mean

<bound method DataFrame.mean of        age  height sex  mean
alice   12     130   f     1
bob     13     140   m     1
marc    16     176   m     1
bill    11     120   m     1
sonia   16     165   f     1>

In [38]:
# à nouveau, la seule méthode non ambiguë est d'utiliser .loc
p.loc[:, 'mean']

alice    1
bob      1
marc     1
bill     1
sonia    1
Name: mean, dtype: int64

In [39]:
# supprimons maintenant la colonne mean *en place* (par défaut,
# drop retourne une nouvelle DataFrame)
p.drop(columns='mean', inplace=True)
print(p)

       age  height sex
alice   12     130   f
bob     13     140   m
marc    16     176   m
bill    11     120   m
sonia   16     165   f


Pour aller plus loin, vous pouvez lire la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/indexing.html

### 1.1.6 Universal functions et pandas

Ça n’est pas une surprise, les Series et DataFrame de pandas supportent les ufunc de numpy. Mais il y a une subtilité. Il est parfaitement légitime et correct d’appliquer une ufunc de numpy sur les éléments d’une DataFrame :

In [40]:
d = pd.DataFrame(np.random.randint(1, 10, 9).reshape(3, 3), columns=list('abc'))
print(d)

   a  b  c
0  2  3  8
1  5  6  5
2  9  9  3


In [41]:
np.log(d)

Unnamed: 0,a,b,c
0,0.693147,1.098612,2.079442
1,1.609438,1.791759,1.609438
2,2.197225,2.197225,1.098612


Nous remarquons que comme on s’y attend, la ufunc a été appliquée à chaque élément de la
DataFrame et que les labels des lignes et colonnes ont été préservés.
Par contre, si l’on a besoin d’alignement de labels, c’est le cas avec toutes les opérations qui s’appliquent sur deux objets comme une addition, alors les ufunc de numpy ne vont pas faire ce à quoi on s’attend. Elles vont faire les opérations sur les tableaux numpy sans prendre en compte les labels.
Pour avoir un alignement des labels, il faut utiliser les ufunc de pandas.

In [42]:
# prenons deux Series
s1 = pd.Series([10, 20, 30],
index=list('abc'))
print(s1)

a    10
b    20
c    30
dtype: int64


In [43]:
#
s2 = pd.Series([12, 22, 32],
index=list('acd'))
print(s2)

a    12
c    22
d    32
dtype: int64


In [44]:
# la ufunc numpy fait la somme
# des arrays sans prendre en compte
# les labels, donc sans alignement
np.add(s1, s2)

a    22.0
b     NaN
c    52.0
d     NaN
dtype: float64

In [45]:
# la ufunc pandas va faire
# un alignement des labels
# cet appel est équivalent à s1 + s2
s1.add(s2)

a    22.0
b     NaN
c    52.0
d     NaN
dtype: float64

In [46]:
# comme on l'a vu sur le complément précédent, les valeurs absentes sont
# remplacées par NaN, mais on peut changer ce comportement lors de
# l'appel de .add
s1.add(s2, fill_value=0)

a    22.0
b    20.0
c    52.0
d    32.0
dtype: float64

In [47]:
# regardons un autre exemple sur des DataFrame
# on affiche tout ça dans les cellules suivantes
names = ['alice', 'bob', 'charle']

bananas = pd.Series([10, 3, 9], index=names)
oranges = pd.Series([3, 11, 6], index=names)
fruits_jan = pd.DataFrame({'bananas': bananas, 'orange': oranges})

bananas = pd.Series([6, 1], index=names[:-1])
apples = pd.Series([8, 5], index=names[1:])
fruits_feb = pd.DataFrame({'bananas': bananas, 'apples': apples})

In [48]:
# ce qui donne
fruits_jan

Unnamed: 0,bananas,orange
alice,10,3
bob,3,11
charle,9,6


In [49]:
# et
fruits_feb

Unnamed: 0,bananas,apples
alice,6.0,
bob,1.0,8.0
charle,,5.0


In [50]:
# regardons maintenant la somme des fruits mangés
eaten_fruits = fruits_jan + fruits_feb
print(eaten_fruits)

        apples  bananas  orange
alice      NaN     16.0     NaN
bob        NaN      4.0     NaN
charle     NaN      NaN     NaN


In [51]:
# On a bien un alignement des labels, mais il y a beaucoup de valeurs
# manquantes. Corrigeons cela on remplaçant les valeurs manquantes par 0
eaten_fruits = fruits_jan.add(fruits_feb, fill_value=0)
print(eaten_fruits)

        apples  bananas  orange
alice      NaN     16.0     3.0
bob        8.0      4.0    11.0
charle     5.0      9.0     6.0


Notons que lorsqu’une valeur est absente dans toutes les DataFrame, NaN est conservé.
Un dernière subtilité à connaître lors de l’alignement des labels intervient lorsque vous faites une opération sur une DataFrame et une Series. pandas va considérer la Series comme une ligne et va la broadcaster sur les autres lignes. Par conséquent, l’index de la Series va être considéré comme des colonnes et aligné avec les colonnes de la DataFrame.

In [52]:
dataframe = pd.DataFrame(
    np.random.randint(1, 10, size=(3, 3)),
    columns=list('abc'), index=list('xyz'))
dataframe

Unnamed: 0,a,b,c
x,9,2,7
y,8,2,3
z,2,4,4


In [53]:
series_row = pd.Series(
    [100, 200, 300],
    index=list('abc'))
series_row

a    100
b    200
c    300
dtype: int64

In [54]:
series_col = pd.Series(
    [400, 500, 600],
    index=list('xyz'))
series_col

x    400
y    500
z    600
dtype: int64

In [55]:
# la Series est considérée comme une ligne et son index
# s'aligne sur les colonnes de la DataFrame
# la Series va être broadcastée
# sur les autres lignes de la DataFrame

dataframe + series_row

Unnamed: 0,a,b,c
x,109,202,307
y,108,202,303
z,102,204,304


In [56]:
# du coup si les labels ne correspondent pas,
# le résultat sera le suivant

dataframe + series_col

Unnamed: 0,a,b,c,x,y,z
x,,,,,,
y,,,,,,
z,,,,,,


In [57]:
# on peut dans ce cas, changer le comportement par défaut en forçant
# l'alignement de la Series suivant un autre axe avec l'argument axis

dataframe.add(series_col, axis=0)

Unnamed: 0,a,b,c
x,409,402,407
y,508,502,503
z,602,604,604


Ici, axis=0 signifie que la Series est considérée comme une colonne est qu’elle va être broadcastée sur les autres colonnes (le long de l’axe de ligne).

### 1.1.7 Opérations sur les chaînes de caractères
Nous allons maintenant parler de la vectorisation des opérations sur les chaînes de caractères. Il y
a plusieurs choses importantes à savoir :
* les méthodes sur les chaînes de caractères ne sont disponibles que pour les Series et les
Index, mais pas pour les DataFrame ;
* ces méthodes ignorent les NaN et remplacent les valeurs qui ne sont pas des chaînes de carac-
tères par NaN ;
* ces méthodes retournent une copie de l’objet (Series ou Index), il n’y a pas de modification
en place ;
* la plupart des méthodes Python sur le type str existe sous forme vectorisée ;
* on accède à ces méthodes avec la syntaxe :
    – Series.str.<vectorized method name>
    – Index.str.<vectorized method name>
Regardons quelques exemples :

In [58]:
# Créons une Series avec des noms ayant une capitalisation inconsistante
# et une mauvaise gestion des espaces

names = ['alice ', ' bOB', 'Marc', 'bill', 3, ' JULIE ', np.NaN]
age = pd.Series(names)

In [59]:
# nettoyons maintenant ces données

# on met en minuscule
a = age.str.lower()

# on enlève les espaces
a = a.str.strip()
a

0    alice
1      bob
2     marc
3     bill
4      NaN
5    julie
6      NaN
dtype: object

In [60]:
# comme les méthodes vectorisées retournent un objet de même type, on
# peut les chaîner comme ceci

[x for x in age.str.lower().str.strip()]

['alice', 'bob', 'marc', 'bill', nan, 'julie', nan]

On peut également utiliser l’indexation des str de manière vectorisée :

In [61]:
print(a)

0    alice
1      bob
2     marc
3     bill
4      NaN
5    julie
6      NaN
dtype: object


In [62]:
print(a.str[-1])

0      e
1      b
2      c
3      l
4    NaN
5      e
6    NaN
dtype: object


Pour aller plus loin vous pouvez lire la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/text.html

### 1.1.8 Gestion des valeurs manquantes
Nous avons vu que des opérations sur les DataFrame pouvaient générer des valeurs NaN lors de
l’alignement. Il est également possible d’avoir de telles valeurs manquantes dans votre jeu de don-
nées original. pandas offre plusieurs possibilités pour gérer correctement ces valeurs manquantes.
Avant de voir ces différentes possibilités, définissons cette notion de valeur manquante.
Une valeur manquante peut-être représentée avec pandas soit par np.NaN soit par l’objet Python
None.
* np.NaN est un objet de type float, par conséquent il ne peut apparaître que dans un array de
float ou un array d’object. Notons que np.NaN apparaît avec pandas comme simplement
NaN et que dans la suite on utilise de manière indifférente les deux notations, par contre, dans
du code, il faut obligatoirement utiliser np.NaN ;
– si on ajoute un NaN dans un array d’entier, ils seront convertis en float64 ;
– si on ajoute un NaN dans un array de booléens, ils seront convertis en object ;
* NaN est contaminant, toute opération avec un NaN a pour résultat NaN ;
* lorsque l’on utilise None, il est automatiquement converti en NaN lorsque le type de l’array est numérique.

Illustrons ces propriétés :


In [63]:
# une Series d'entiers
s = pd.Series([1, 2])
s

0    1
1    2
dtype: int64

In [64]:
# on insère un NaN, la Series est alors convertie en float64
s[0] = np.NaN
s

0    NaN
1    2.0
dtype: float64

In [65]:
# on réinitialise
s = pd.Series([1, 2])
s

0    1
1    2
dtype: int64

In [66]:
# et on insère None
s[0] = None

# Le résultat est le même
# None est converti en NaN
s

0    NaN
1    2.0
dtype: float64

Regardons maintenant, les méthodes de pandas pour gérer les valeurs manquantes (donc NaN ou None) :
* isna() retourne un masque mettant à True les valeurs manquantes (il y a un alias isnull()) ;
* notna() retourne un masque mettant à False les valeurs manquantes (il y a un alias notnull()) ;
* dropna() retourne un nouvel objet sans les valeurs manquantes ;
* fillna() retourne un nouvel objet avec les valeurs manquantes remplacées.
On remarque que l’ajout d’alias pour les méthodes est de nouveau une source de confusion avec
laquelle il faut vivre.
On remarque également qu’alors que isnull() et notnull() sont des méthodes simples, dropna()
et fillna() impliquent l’utilisation de stratégies. Regardons cela :

In [67]:
# créons une DataFrame avec quelques valeurs manquantes
names = ['alice', 'bob', 'charles']
bananas = pd.Series([6, 1], index=names[:-1])
apples = pd.Series([8, 5], index=names[1:])
fruits_feb = pd.DataFrame({'bananas': bananas, 'apples': apples})
print(fruits_feb)

         bananas  apples
alice        6.0     NaN
bob          1.0     8.0
charles      NaN     5.0


In [68]:
fruits_feb.isna()

Unnamed: 0,bananas,apples
alice,False,True
bob,False,False
charles,True,False


In [69]:
fruits_feb.notna()

Unnamed: 0,bananas,apples
alice,True,False
bob,True,True
charles,False,True


Par défaut, dropna() va enlever toutes les lignes qui contiennent au moins une valeur manquante.
Mais on peut changer ce comportement avec des arguments :

In [70]:
p = pd.DataFrame([[1, 2, np.NaN], [3, np.NaN, np.NaN], [7, 5, np.NaN]])
print(p)

   0    1   2
0  1  2.0 NaN
1  3  NaN NaN
2  7  5.0 NaN


In [71]:
# comportement par défaut, j'enlève toutes les lignes avec au moins
# une valeur manquante; il ne reste rien !
p.dropna()

Unnamed: 0,0,1,2


In [72]:
# maintenant, je fais l'opération par colonne
p.dropna(axis=1)

Unnamed: 0,0
0,1
1,3
2,7


In [73]:
# je fais l'opération par colonne si toute la colonne est manquante
p.dropna(axis=1, how='all')

Unnamed: 0,0,1
0,1,2.0
1,3,
2,7,5.0


In [74]:
# je fais l'opération par ligne si au moins 2 valeurs sont manquantes
p.dropna(thresh=2)

Unnamed: 0,0,1,2
0,1,2.0,
2,7,5.0,


Par défaut, fillna() remplace les valeurs manquantes avec un argument pas défaut. Mais on peut ici aussi changer ce comportement. Regardons cela :

In [75]:
print(p)

   0    1   2
0  1  2.0 NaN
1  3  NaN NaN
2  7  5.0 NaN


In [76]:
# je remplace les valeurs manquantes par -1
p.fillna(-1)

Unnamed: 0,0,1,2
0,1,2.0,-1.0
1,3,-1.0,-1.0
2,7,5.0,-1.0


In [77]:
# je remplace les valeurs manquantes avec la valeur suivante sur la colonne
# bfill est pour back fill, c'est-à-dire remplace en arrière à partir des
# valeurs existantes
p.fillna(method='bfill')

Unnamed: 0,0,1,2
0,1,2.0,
1,3,5.0,
2,7,5.0,


In [78]:
# je remplace les valeurs manquantes avec la valeur précédente sur la ligne
# ffill est pour forward fill, remplace en avant à partir des valeurs
# existantes
p.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2
0,1.0,2.0,2.0
1,3.0,3.0,3.0
2,7.0,5.0,5.0


Regardez l’aide de ces méthodes pour aller plus loin.

In [79]:
p.dropna?

[0;31mSignature:[0m [0mp[0m[0;34m.[0m[0mdropna[0m[0;34m([0m[0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mhow[0m[0;34m=[0m[0;34m'any'[0m[0;34m,[0m [0mthresh[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0msubset[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
----------
axis : {0 or 'index', 1 or 'columns'}, default 0
    Determine if rows or columns which contain missing values are
    removed.

    * 0, or 'index' : Drop rows which contain missing values.
    * 1, or 'columns' : Drop columns which contain missing value.

    .. versionchanged:: 1.0.0

       Pass tuple or list to drop on multiple axes.
       Only a single axis is allowed.

how : {'any', 'all'}, default 'any'
    Determine if row or column

In [80]:
p.fillna?

[0;31mSignature:[0m
[0mp[0m[0;34m.[0m[0mfillna[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mvalue[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmethod[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mlimit[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdowncast[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m [0;34m->[0m [0mUnion[0m[0;34m[[0m[0mForwardRef[0m[0;34m([0m[0;34m'DataFrame'[0m[0;34m)[0m[0;34m,[0m [0mNoneType[0m[0;34m][0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Fill NA/NaN values using the specified method.

Parameters
----------
value : scalar, dict, Series, or DataFrame
    Value to use to fill holes (e.g. 0), alternately a
    dict/Series/DataFrame of values specifying which v

### 1.1.9 Analyse statistique des données
Nous n’avons pas le temps de couvrir les possibilités d’analyse statistique de la suite data science de Python. pandas offre quelques possibilités basiques avec des calculs de moyennes, d’écarts types ou de covariances que l’on peut éventuellement appliquer par fenêtres à un jeux de données. Pour avoir plus de détails dessus vous pouvez consulter cette documentation :
http://pandas.pydata.org/pandas-docs/stable/computation.html
Dans la suite data science de Python, il a aussi des modules spécialisés dans l’analyse statistique
comme :
* StatsModels
* ScikitLearn
ou des outils de calculs scientifiques plus génériques comme SciPy.
De nouveau, il s’agit d’outils appliqués à des domaines spécifiques et ils se basent tous sur le couple
numpy/pandas.

## 1.2 Complément - niveau avancé
## 1.2.1 Les MultiIndex
pandas avait historiquement d’autres structures de données en plus des Series et des DataFrame permettant d’exprimer des dimensionnalités supérieures à 2, comme par exemple les Panel. Mais pour des raisons de maintenance du code et d’optimisation, les développeurs ont décidé de ne garder que les Series et les DataFrame. Alors, comment exprimer des données avec plus de deux dimensions ?
On utilise pour cela des MultiIndex. Un MultiIndex est un index qui peut être utilisé partout où l’on utilise un index (dans une Series, ou comme ligne ou colonne d’une DataFrame) et qui a pour caractéristique d’avoir plusieurs niveaux.
Comme tous types d’index, et parce qu’un MultiIndex est une sous classe d’Index, pandas va correctement aligner les Series et les DataFrame avec des MultiIndex.
Regardons tout de suite un exemple :


In [81]:
# construisons une DataFrame jouet

# voici une liste de prénoms
names = ['alice', 'bob', 'sonia']

# créons trois Series qui formeront trois colonnes
age = pd.Series([12, 13, 16], index=names)
height = pd.Series([130, 140, 165], index=names)
sex = pd.Series(list('fmf'), index=names)

# créons maintenant la DataFrame
p = pd.DataFrame({'age': age, 'height': height, 'sex': sex})
print(p)

       age  height sex
alice   12     130   f
bob     13     140   m
sonia   16     165   f


In [82]:
# unstack, en première approximation, permet de passer d'une DataFrame à
# une Series avec un MultiIndex
s = p.unstack()
print(s)

age     alice     12
        bob       13
        sonia     16
height  alice    130
        bob      140
        sonia    165
sex     alice      f
        bob        m
        sonia      f
dtype: object


In [83]:
# et voici donc l'index de cette Series
s.index

MultiIndex([(   'age', 'alice'),
            (   'age',   'bob'),
            (   'age', 'sonia'),
            ('height', 'alice'),
            ('height',   'bob'),
            ('height', 'sonia'),
            (   'sex', 'alice'),
            (   'sex',   'bob'),
            (   'sex', 'sonia')],
           )

Il existe évidemment des moyens de créer directement un MultiIndex et ensuite de le définir comme index d’une Series ou comme index de ligne ou colonne d’une DataFrame :

In [84]:
# on peut créer un MultiIndex à partir d'une liste de liste
names = ['alice', 'alice', 'alice', 'bob', 'bob', 'bob']
age = [2014, 2015, 2016, 2014, 2015, 2016]
s_list = pd.Series([40, 42, 45, 38, 40, 40], index=[names, age])
print(s_list)

alice  2014    40
       2015    42
       2016    45
bob    2014    38
       2015    40
       2016    40
dtype: int64


In [85]:
# ou à partir d'un dictionnaire de tuples
s_tuple = pd.Series({('alice', 2014): 40,
    ('alice', 2015): 42,
    ('alice', 2016): 45,
    ('bob', 2014): 38,
    ('bob', 2015): 40,
    ('bob', 2016): 40})
print(s_tuple)

alice  2014    40
       2015    42
       2016    45
bob    2014    38
       2015    40
       2016    40
dtype: int64


In [86]:
# ou avec la méthode from_product()
name = ['alice', 'bob']

In [87]:
year = [2014, 2015, 2016]
i = pd.MultiIndex.from_product([name, year])
s = pd.Series([40, 42, 45, 38, 40, 40], index=i)
print(s)

alice  2014    40
       2015    42
       2016    45
bob    2014    38
       2015    40
       2016    40
dtype: int64


On peut même nommer les niveaux d’un MultiIndex.

In [88]:
name = ['alice', 'bob']
year = [2014, 2015, 2016]
i = pd.MultiIndex.from_product([name, year], names=['name', 'year'])
s = pd.Series([40, 42, 45, 38, 40, 40], index=i)
print(s)

name   year
alice  2014    40
       2015    42
       2016    45
bob    2014    38
       2015    40
       2016    40
dtype: int64


In [89]:
# on peut changer le nom des niveaux du MultiIndex
s.index.names = ['NAMES', 'YEARS']
print(s)

NAMES  YEARS
alice  2014     40
       2015     42
       2016     45
bob    2014     38
       2015     40
       2016     40
dtype: int64


Créons maintenant une DataFrame jouet avec des MultiIndex pour étudier comment accéder aux éléments de la DataFrame.

In [90]:
index = pd.MultiIndex.from_product([[2013, 2014],
        [1, 2, 3]],
        names=['year',
            'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Sue'],
        ['avant', 'arrière']],
        names=['client',
            'pression'])

# on crée des pressions de pneus factices
data = 2 + np.random.rand(6, 4)

# on crée la DataFrame
mecanics_data = pd.DataFrame(data, index=index, columns=columns)
print(mecanics_data)

client           Bob                 Sue          
pression       avant   arrière     avant   arrière
year visit                                        
2013 1      2.381456  2.558584  2.652647  2.906294
     2      2.580988  2.643620  2.023643  2.163930
     3      2.278479  2.266754  2.695780  2.015532
2014 1      2.765197  2.491359  2.732499  2.117015
     2      2.244327  2.970323  2.499082  2.562914
     3      2.862907  2.550609  2.887255  2.631992


Il y a plusieurs manières d’accéder aux éléments, mais une seule que l’on recommande :
utilisez la notation .loc[ligne, colonne], .iloc[ligne, colonne].

In [91]:
# pression en 2013 pour Bob
mecanics_data.loc[2013, 'Bob']

pression,avant,arrière
visit,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2.381456,2.558584
2,2.580988,2.64362
3,2.278479,2.266754


In [92]:
# pour accéder aux sous niveaux du MultiIndex, on utilise des tuples
mecanics_data.loc[(2013, 2), ('Bob', 'avant')]

2.580987625880451

Le slice sur le MultiIndex est un peu délicat. On peut utiliser la notation : si on veut slicer sur tous les éléments d’un MultiIndex, sans prendre en compte un niveau. Si on spécifie les niveaux, il faut utiliser un objet slice ou pd.IndexSlice :

In [93]:
# slice(None) signifie tous les éléments du niveau
print(mecanics_data.loc[slice((2013, 2), (2014, 1)), ('Sue', slice(None))])

client           Sue          
pression       avant   arrière
year visit                    
2013 2      2.023643  2.163930
     3      2.695780  2.015532
2014 1      2.732499  2.117015


In [94]:
# on peut utiliser la notation : si on ne distingue par les niveaux
print(mecanics_data.loc[(slice(None), slice(1, 2)), :])

client           Bob                 Sue          
pression       avant   arrière     avant   arrière
year visit                                        
2013 1      2.381456  2.558584  2.652647  2.906294
     2      2.580988  2.643620  2.023643  2.163930
2014 1      2.765197  2.491359  2.732499  2.117015
     2      2.244327  2.970323  2.499082  2.562914


In [95]:
# on peut aussi utiliser pd.IndexSlice pour slicer avec une notation
# un peu plus concise
idx = pd.IndexSlice
print(mecanics_data.loc[idx[:, 1:2], idx['Sue', :]])

client           Sue          
pression       avant   arrière
year visit                    
2013 1      2.652647  2.906294
     2      2.023643  2.163930
2014 1      2.732499  2.117015
     2      2.499082  2.562914


Pour aller plus loin, regardez la documentation des MultiIndex :
http://pandas.pydata.org/pandas-docs/stable/advanced.html

## 1.3 Conclusion
La DataFrame est la structure de données la plus souple et la plus puissante de pandas. Nous avons
vu comment créer des DataFrame et comment accéder aux éléments. Nous verrons dans le prochain
complément les techniques permettant de faire des opérations complexes (et proches dans l’esprit
de ce que l’on peut faire avec une base de données) comme les opérations de merge ou de groupby.

# 2 Opération avancées en pandas
## 2.1 Complément - niveau intermédiaire
### 2.1.1 Introduction
pandas supporte des opérations de manipulation des Series et DataFrame qui sont similaires dans l’esprit à ce que l’on peut faire avec une base de données et le langage SQL, mais de manière plus intuitive et expressive et beaucoup plus efficacement puisque les opérations se déroulent toutes en mémoire.
Vous pouvez concaténer (concat) des DataFrame, faire des jointures (merge), faire des regroupe-
ments (groupby) ou réorganiser les index (pivot).
Nous allons dans la suite développer ces différentes techniques.

In [96]:
import numpy as np
import pandas as pd

### 2.1.2 Concaténations avec concat
concat est utilisé pour concaténer des Series ou des DataFrame. Regardons un exemple.

In [97]:
s1 = pd.Series([30, 35], index=['alice', 'bob'])
s2 = pd.Series([32, 22, 29], index=['bill', 'alice', 'jo'])

In [98]:
s1

alice    30
bob      35
dtype: int64

In [99]:
s2

bill     32
alice    22
jo       29
dtype: int64

In [100]:
pd.concat([s1, s2])

alice    30
bob      35
bill     32
alice    22
jo       29
dtype: int64

On remarque, cependant, que par défaut il n’y a pas de contrôle sur les labels d’index dupliqués.
On peut corriger cela avec l’argument verify_integrity, qui va produire une exception s’il y a des labels d’index communs. Évidemment, cela a un coût de calcul supplémentaire, ça n’est donc à utiliser que si c’est nécessaire.

In [101]:
try:
    pd.concat([s1, s2], verify_integrity=True)
except ValueError as e:
    print(f"erreur de concaténation:\n{e}")

erreur de concaténation:
Indexes have overlapping values: Index(['alice'], dtype='object')


In [102]:
# créons deux Series avec les index sans recouvrement
s1 = pd.Series(range(1000), index=[chr(x) for x in range(1000)])
s2 = pd.Series(range(1000), index=[chr(x+2000) for x in range(1000)])

In [103]:
# temps de concaténation avec vérification des recouvrements
%timeit pd.concat([s1, s2], verify_integrity=True)

557 µs ± 45 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [104]:
# temps de concaténation sans vérification des recouvrements
%timeit pd.concat([s1, s2])

321 µs ± 91.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Par défaut, concat concatène les lignes, c’est-à-dire que s2 sera sous s1, mais on peut changer ce comportement en utilisant l’argument axis :

In [105]:
p1 = pd.DataFrame(np.random.randint(1, 10, size=(2,2)),
columns=list('ab'), index=list('xy'))
p2 = pd.DataFrame(np.random.randint(1, 10, size=(2,2)),
columns=list('ab'), index=list('zt'))

In [106]:
p1

Unnamed: 0,a,b
x,9,7
y,6,9


In [107]:
p2

Unnamed: 0,a,b
z,2,6
t,9,8


In [108]:
# équivalent à pd.concat([p1, p2], axis=0)
# concaténation des lignes
pd.concat([p1, p2])

Unnamed: 0,a,b
x,9,7
y,6,9
z,2,6
t,9,8


In [109]:
p1

Unnamed: 0,a,b
x,9,7
y,6,9


In [110]:
p2

Unnamed: 0,a,b
z,2,6
t,9,8


In [111]:
# concaténation des colonnes
pd.concat([p1, p2], axis=1)

Unnamed: 0,a,b,a.1,b.1
x,9.0,7.0,,
y,6.0,9.0,,
z,,,2.0,6.0
t,,,9.0,8.0


Regardons maintenant ce cas :

In [112]:
pd.concat([p1, p2])

Unnamed: 0,a,b
x,9,7
y,6,9
z,2,6
t,9,8


Vous remarquez que lors de la concaténation, on prend l’union des tous les labels des index de p1 et p2, il y a donc des valeurs absentes qui sont mises à NaN. On peut contrôler ce comportement de plusieurs manières comme nous allons le voir ci-dessous.
Par défaut (ce que l’on a fait ci-dessus), join utilise la stratégie dite outer, c’est-à-dire qu’on prend
l’union des labels.

In [113]:
# on concatène les lignes, l'argument join décide quels labels on garde
# sur l'autre axe (ici sur les colonnes).
# si on spécifie 'inner' on prend l'intersection des labels
# du coup il ne reste rien ..
pd.concat([p1, p2], join='inner')

Unnamed: 0,a,b
x,9,7
y,6,9
z,2,6
t,9,8


Avec join_axes, on peut spécifier les labels qu’on veut garder, sous la forme d’un objet Index :

In [114]:
#pd.concat([p1, p2], join_axes=[p1.columns])

In [115]:
# du coup je peux choisir très finement
# Ancienne syntax pandas :
# pd.concat([p1, p2], join_axes=[pd.Index(['a', 'c'])])

** Exercice : Trouver les syntaxes correctes ** 


Notons que les Series et DataFrame ont une méthode append qui est un raccourci vers concat, mais avec moins d’options.
Pour aller plus loin, voici la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/merging.html#concatenating-objects

### 2.1.3 Jointures avec merge
merge est dans l’esprit similaire au JOIN en SQL. L’idée est de combiner deux DataFrame en fonction d’un critère d’égalité sur des colonnes. Regardons un exemple :

In [116]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Sue'],
'hire_date': [2004, 2008, 2014]})

In [117]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Lisa,Engineering
2,Sue,HR


In [118]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Sue,2014


On souhaite ici combiner df1 et df2 de manière à ce que les lignes contenant le même employee soient alignées. Notre critère de merge est donc l’égalité des labels sur la colonne employee.

In [119]:
pd.merge(df1, df2)

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Lisa,Engineering,2004
2,Sue,HR,2014


Par défaut, merge fait un inner join (ou jointure interne) en utilisant comme critère de jointure les colonnes de même nom (ici employee). inner join veut dire que pour joindre deux lignes il faut que le même employee apparaisse dans les deux DataFrame.

Il existe trois type de merges :
* one-to-one, c’est celui que l’on vient de voir. C’est le merge lorqu’il n’y a pas de labels dupliqués dans les colonnes utilisées comme critère de merge ;
* many-to-one, c’est le merge lorsque l’une des deux colonnes contient des labels dupliqués, dans ce cas, on applique la stratégie one-to-one pour chaque label dupliqué, donc les entrées dupliquées sont préservées ;
* many-to-many, c’est la stratégie lorsqu’il y a des entrées dupliquées dans les deux colonnes. Dans ce cas, on fait un produit cartésien des lignes.

D’une manière générale, gardez en tête que pandas fait essentiellement ce à quoi on s’attend.
Regardons cela sur des exemples :

In [120]:
df1 = pd.DataFrame({'patient': ['Bob', 'Lisa', 'Sue'],
    'repas': ['SS', 'SS', 'SSR']})
df2 = pd.DataFrame({'repas': ['SS', 'SSR'],
    'explication': ['sans sel', 'sans sucre']})

In [121]:
df1

Unnamed: 0,patient,repas
0,Bob,SS
1,Lisa,SS
2,Sue,SSR


In [122]:
df2

Unnamed: 0,repas,explication
0,SS,sans sel
1,SSR,sans sucre


In [123]:
# la colonne commune pour le merge est 'repas' et dans une des colonnes
# (sur df1), il y a des labels dupliqués, on applique la stratégie many-to-one
pd.merge(df1, df2)

Unnamed: 0,patient,repas,explication
0,Bob,SS,sans sel
1,Lisa,SS,sans sel
2,Sue,SSR,sans sucre


In [124]:
df1 = pd.DataFrame({'patient': ['Bob', 'Lisa', 'Sue'],
    'repas': ['SS', 'SS', 'SSR']})
df2 = pd.DataFrame({'repas': ['SS', 'SS', 'SSR'],
    'explication': ['sans sel', 'légumes', 'sans sucre']})

In [125]:
df1

Unnamed: 0,patient,repas
0,Bob,SS
1,Lisa,SS
2,Sue,SSR


In [126]:
df2

Unnamed: 0,repas,explication
0,SS,sans sel
1,SS,légumes
2,SSR,sans sucre


In [127]:
# la colonne commune pour le merge est 'repas' et dans les deux colonnes
# il y a des labels dupliqués, on applique la stratégie many-to-many
pd.merge(df1,df2)

Unnamed: 0,patient,repas,explication
0,Bob,SS,sans sel
1,Bob,SS,légumes
2,Lisa,SS,sans sel
3,Lisa,SS,légumes
4,Sue,SSR,sans sucre


Dans un merge, on peut contrôler les colonnes à utiliser comme critère de merge. Regardons ces différents cas sur des exemples :

In [128]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'HR']})

In [129]:
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Sue'],
    'hire_date': [2004, 2008, 2014]})

In [130]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Lisa,Engineering
2,Sue,HR


In [131]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Sue,2014


In [132]:
# on décide d'utiliser la colonne 'employee' comme critère de merge
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Lisa,Engineering,2004
2,Sue,HR,2014


In [133]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
    'group': ['Accounting', 'Engineering', 'HR']})
df2 = pd.DataFrame({'name': ['Lisa', 'Bob', 'Sue'],
    'hire_date': [2004, 2008, 2014]})

In [134]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Lisa,Engineering
2,Sue,HR


In [135]:
df2

Unnamed: 0,name,hire_date
0,Lisa,2004
1,Bob,2008
2,Sue,2014


In [136]:
# mais on peut également définir un nom de colonne différent
# à gauche et à droite
m = pd.merge(df1,df2, left_on='employee', right_on='name')
m

Unnamed: 0,employee,group,name,hire_date
0,Bob,Accounting,Bob,2008
1,Lisa,Engineering,Lisa,2004
2,Sue,HR,Sue,2014


In [137]:
# dans ce cas, comme on garde les colonnes utilisées comme critère dans
# le résultat du merge, on peut effacer la colonne inutile ainsi
m.drop('name', axis=1)

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Lisa,Engineering,2004
2,Sue,HR,2014


merge permet également de contrôler la stratégie à appliquer lorsqu’il y a des valeurs dans une colonne utilisée comme critère de merge qui sont absentes dans l’autre colonne. C’est ce que l’on appelle jointure à gauche, jointure à droite, jointure interne (comportement par défaut) et jointure externe. Pour ceux qui ne sont pas familiers avec ces notions, regardons des exemples :

In [138]:
df1 = pd.DataFrame({'name': ['Bob', 'Lisa', 'Sue'],
        'pulse': [70, 63, 81]})
df2 = pd.DataFrame({'name': ['Eric', 'Bob', 'Marc'],
        'weight': [60, 100, 70]})


In [139]:
df1

Unnamed: 0,name,pulse
0,Bob,70
1,Lisa,63
2,Sue,81


In [140]:
df2

Unnamed: 0,name,weight
0,Eric,60
1,Bob,100
2,Marc,70


In [141]:
# la colonne 'name' est le critère de merge dans les deux DataFrame.
# Seul Bob existe dans les deux colonnes. Dans un inner join
# (le cas par défaut) on ne garde que les lignes pour lesquelles il y a une
# même valeur présente à gauche et à droite
pd.merge(df1, df2) # équivalent à pd.merge(df1, df2, how='inner')

Unnamed: 0,name,pulse,weight
0,Bob,70,100
