In [1]:
import pandas as pd

In [30]:
A = pd.DataFrame({
    'X1': [1,2,3,10],
    'X2': [4,5,6,11]
}, index=['R1', 'R2', 'R3', 'R4'])
B = pd.DataFrame({
    'X1': [21,22,23,210],
    'X2': [24,25,26,211]
}, index=['R1', 'R2', 'R3', 'R4'])

# Where

In [25]:
(A.X1 % 2 == 0)

R1    False
R2     True
R3    False
R4     True
Name: X1, dtype: bool

In [26]:
# les lignes qui ne respectent pas la condition ne sont pas conservées
A[(A.X1 % 2 == 0)]

Unnamed: 0,X1,X2
R2,2,5
R4,10,11


In [27]:
# à la différence avec une sélection booléenne, where conserve même les lignes qui ne vérifient pas la condition
# ça permet de retourner un résultat de la même taille que la df initiale
A.where(A.X1 % 2 == 0)

Unnamed: 0,X1,X2
R1,,
R2,2.0,5.0
R3,,
R4,10.0,11.0


In [31]:
# boucher les trous avec une valeur
# une dataframe
A.where(A.X1 % 2 == 0, B)

Unnamed: 0,X1,X2
R1,21,24
R2,2,5
R3,23,26
R4,10,11


In [32]:
# ou une valeur simple
A.where(A.X1 % 2 == 0, -1)

Unnamed: 0,X1,X2
R1,-1,-1
R2,2,5
R3,-1,-1
R4,10,11


# Mask
`Mask` est l'inverse de `Where`

In [37]:
# Utile pour remplir des éléments qui respectent une condition
A.mask(A % 2 == 0)

Unnamed: 0,X1,X2
R1,1.0,
R2,,5.0
R3,3.0,
R4,,11.0


# Query
Performant pour les gros DataFrame

In [58]:
# Permet de faire des conditions de sélection plus facilement
# à partir des colonnes
A.query('X1 % 2 == 0 & X2 % 2 != 0')

Unnamed: 0,X1,X2
R2,0,5
R4,0,11


In [59]:
A.query('X1 < X2')

Unnamed: 0,X1,X2
R2,0,5
R4,0,11


In [60]:
A.query("X1 < X2 & index in ['R3', 'R4', 'R5']")

Unnamed: 0,X1,X2
R4,0,11


# Select
Ne devrait être utilisé qu'en dernier recourt

In [62]:
# Permet de faire une condition sur les labels (nom de colonnes ou index de ligne)
# sur un axis au choix (axis=1 colonne, axis=0 lignes)
A.select(lambda x: x == 'R4')

Unnamed: 0,X1,X2
R4,0,11


In [64]:
A.select(lambda x: x == 'X2', axis=1)

Unnamed: 0,X2
R1,0
R2,5
R3,0
R4,11
