In [10]:
import pandas as pd

# Selection de donnée : l'indexation avec Pandas

L'opération la plus simple qu'il est possible de faire avec un DataFrame est de selectionner des données. Nous avons vu qu'il était possible de selectionner une colonne en utilisant le DataFrame comme un dictionnaire, avec `df["col_name"]`. Il est possible de faire des requètes plus complexes également.

## Indexation simple, `loc`, `iloc`

`df.loc["idx_name", "col_name"]` permet de selectionner des données avec *les noms* des indices et colonnes, là où `df.iloc[i_idx, j_col]` permet de selectionner des données avec *la position* des indices et colonnes.

In [13]:
df = pd.read_csv("../../data/temperatures.csv", index_col=0)
df

Unnamed: 0_level_0,temp_inside,temp_outside
date and time,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-01-01 00:00:00,23.0,7.5
2018-01-01 00:01:00,23.0,7.5
2018-01-01 00:02:00,23.0,7.3
2018-01-01 00:03:00,23.0,7.4
2018-01-01 00:04:00,23.0,7.4
...,...,...
2018-01-31 23:55:00,23.0,8.6
2018-01-31 23:56:00,23.0,8.6
2018-01-31 23:57:00,23.0,8.8
2018-01-31 23:58:00,23.0,8.7


In [14]:
df["temp_inside"] # on récupère la colonne "embark_town"

date and time
2018-01-01 00:00:00    23.0
2018-01-01 00:01:00    23.0
2018-01-01 00:02:00    23.0
2018-01-01 00:03:00    23.0
2018-01-01 00:04:00    23.0
                       ... 
2018-01-31 23:55:00    23.0
2018-01-31 23:56:00    23.0
2018-01-31 23:57:00    23.0
2018-01-31 23:58:00    23.0
2018-01-31 23:59:00    23.0
Name: temp_inside, Length: 44640, dtype: float64

In [15]:
df.loc["2018-01-01 00:00:00", "temp_outside"] # on récupère l'indice "3" et la colonne "pclass"

7.5

In [16]:
df.iloc[-1, 0] # on récupère la dernière ligne et la 1ère colonne

23.0

Il est également possible d'utiliser le *slicing*

In [22]:
df.loc["2018-01-01 00:00:00":"2018-01-01 00:04:00",
       "temp_inside":"temp_outside"]

Unnamed: 0_level_0,temp_inside,temp_outside
date and time,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-01-01 00:00:00,23.0,7.5
2018-01-01 00:01:00,23.0,7.5
2018-01-01 00:02:00,23.0,7.3
2018-01-01 00:03:00,23.0,7.4
2018-01-01 00:04:00,23.0,7.4


In [23]:
df.iloc[:10, 0]

date and time
2018-01-01 00:00:00    23.0
2018-01-01 00:01:00    23.0
2018-01-01 00:02:00    23.0
2018-01-01 00:03:00    23.0
2018-01-01 00:04:00    23.0
2018-01-01 00:05:00    23.0
2018-01-01 00:06:00    23.0
2018-01-01 00:07:00    23.0
2018-01-01 00:08:00    23.0
2018-01-01 00:09:00    23.0
Name: temp_inside, dtype: float64

## Indexation *fancy*, conditions booléenne

Il est également d'utiliser le *fancy indexing* de la même façon que pour un array numpy : en fournissant

- une liste d'indices (nom ou position)

ou

- une série de booléens

In [28]:
is_Tout_min = df.temp_outside == df.temp_outside.min()
is_Tout_min

date and time
2018-01-01 00:00:00    False
2018-01-01 00:01:00    False
2018-01-01 00:02:00    False
2018-01-01 00:03:00    False
2018-01-01 00:04:00    False
                       ...  
2018-01-31 23:55:00    False
2018-01-31 23:56:00    False
2018-01-31 23:57:00    False
2018-01-31 23:58:00    False
2018-01-31 23:59:00    False
Name: temp_outside, Length: 44640, dtype: bool

In [29]:
df[is_Tout_min]

Unnamed: 0_level_0,temp_inside,temp_outside
date and time,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-01-13 06:37:00,22.8,-0.7
2018-01-13 06:52:00,22.8,-0.7


On observe donc que deux dates correspondent à un même minimum de température extérieur. On peut accéder directement au *premier* indice avec la méthode `idxmin`.

In [32]:
df.temp_outside.idxmin()

'2018-01-13 06:37:00'

In [33]:
df.loc[df.temp_outside.idxmin()]

temp_inside     22.8
temp_outside    -0.7
Name: 2018-01-13 06:37:00, dtype: float64