# Introduction

La sélection de valeurs spécifiques d'une DataFrame ou d'une Series de pandas sur lesquelles travailler est une étape implicite dans presque toutes les opérations de données que vous effectuerez. L'une des premières choses que vous devez apprendre en travaillant avec des données en Python est donc de savoir comment sélectionner rapidement et efficacement les points de données qui vous concernent.

In [2]:
import pandas as pd
reviews = pd.read_csv("C:/Users/utilisateur/Desktop/Formation Développeur IA/Brief/4_Notebooks Pandas/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

# Les accesseurs naïfs

Les objets Python natifs fournissent de bons moyens d'indexer les données. Pandas les transporte tous, ce qui facilite le démarrage.

Considérez cette DataFrame :

In [2]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


En Python, nous pouvons accéder à la propriété d'un objet en y accédant comme un attribut. Un objet `book`, par exemple, peut avoir une propriété `title`, à laquelle nous pouvons accéder en appelant `book.title`. Les colonnes d'un DataFrame de pandas fonctionnent à peu près de la même manière.

Ainsi, pour accéder à la propriété du `country` de `reviews` que nous pouvons utiliser :

In [3]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Si nous disposons d'un dictionnaire Python, nous pouvons accéder à ses valeurs en utilisant l'opérateur d'indexation (`[]`). Nous pouvons faire la même chose avec les colonnes d'un DataFrame :

In [4]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Ce sont les deux façons de sélectionner une Series spécifique dans un DataFrame. Aucune des deux n'est plus ou moins syntaxiquement valable que l'autre, mais l'opérateur d'indexation `[]` a l'avantage de pouvoir traiter les noms de colonnes contenant des caractères réservés (par exemple, si nous avions une colonne `country providence`, `reviews.country providence` ne fonctionnerait pas).

Une série de pandas ne ressemble-t-elle pas un peu à un dictionnaire de fantaisie ? C'est à peu près le cas, il n'est donc pas surprenant que, pour descendre jusqu'à une valeur spécifique, il suffise d'utiliser une fois de plus l'opérateur d'indexation `[]` :

In [5]:
reviews['country'][0]

'Italy'

# Indexation dans Pandas

L'opérateur d'indexation et la sélection d'attributs sont sympathiques car ils fonctionnent comme dans le reste de l'écosystème Python. Pour un novice, cela les rend faciles à prendre et à utiliser. Cependant, les pandas ont leurs propres opérateurs d'accès, `loc` et `iloc`. Pour les opérations plus avancées, ce sont ceux que vous êtes censé utiliser.

## Sélection basée sur un index

L'indexation pandas fonctionne selon l'un des deux paradigmes suivants. Le premier est la sélection basée sur l'index : il s'agit de sélectionner des données en fonction de leur position numérique dans les données. `iloc`
 suit ce paradigme.

Pour sélectionner la première ligne de données dans un DataFrame, nous pouvons utiliser ce qui suit :

In [8]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

`loc` et `iloc` sont tous deux row-first, column-second. C'est le contraire de ce que nous faisons dans le python natif, qui est column-first, row-second.

Cela signifie qu'il est légèrement plus facile de récupérer des lignes et légèrement plus difficile de récupérer des colonnes. Pour obtenir une colonne avec `iloc`, nous pouvons faire ce qui suit :

In [9]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

À lui seul, l'opérateur `:` qui vient aussi du python natif, signifie "tout". Combiné à d'autres sélecteurs, il peut cependant être utilisé pour indiquer une plage de valeurs. Par exemple, pour sélectionner la colonne `country` à partir de la première, deuxième et troisième ligne seulement, nous ferions :

In [10]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Ou, pour sélectionner seulement les deuxième et troisième entrées, nous ferions :

In [11]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

Il est également possible de passer une liste :

In [12]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Enfin, il faut savoir que les nombres négatifs peuvent être utilisés dans la sélection. Le décompte commence alors à partir de la fin des valeurs. Voici donc par exemple les cinq derniers éléments de l'ensemble de données.

In [11]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Sélection basée sur le label

Le deuxième paradigme de la sélection d'attributs est celui suivi par l'opérateur `loc` : la sélection basée sur le label. Dans ce paradigme, c'est la valeur de l'index des données, et non sa position, qui importe.

Par exemple, pour obtenir la première entrée dans `reviews`, nous ferions maintenant ce qui suit :

In [12]:
reviews.loc[0, 'country']

'Italy'

`iloc` est conceptuellement plus simple que `loc` car il ignore les indices de l'ensemble des données. Lorsque nous utilisons `iloc`, nous traitons l'ensemble de données comme une grande matrice (une liste de listes), que nous devons indexer par position. `loc`, en revanche, utilise les informations des index pour faire son travail. Comme votre ensemble de données comporte généralement des indices significatifs, il est généralement plus facile de faire les choses en utilisant `loc` à la place. Par exemple, voici une opération qui est beaucoup plus facile en utilisant `loc` :

In [13]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


## Choisir entre `loc` et `iloc`

Lors du choix ou de la transition entre `loc` et `iloc`, il y a un "gotcha" qu'il faut garder à l'esprit, c'est que les deux méthodes utilisent des schémas d'indexation légèrement différents.

`iloc` utilise le schéma d'indexation Python stdlib, où le premier élément de la gamme est inclus et le dernier exclu. Donc `0:10` sélectionnera les entrées `0,...,9`. `loc`, pendant ce temps, indexe de manière inclusive. Donc `0:10` sélectionnera les entrées `0,...,10`.

Pourquoi ce changement ? Rappelez-vous que `loc`
 peut indexer tout type de stdlib : des chaînes de caractères, par exemple. Si nous avons une DataFrame avec des valeurs d'index `Apples, ..., Potatoes, ...`, et que nous voulons sélectionner "tous les choix de fruits alphabétiques entre Apples et Potatoes", alors il est beaucoup plus pratique d'indexer `df.loc['Apples':'Potatoes']` que d'indexer quelque chose comme `df.loc['Apples', 'Potatoet']` (`t` venant après `s` dans l'alphabet).

Cela est particulièrement déroutant lorsque l'index DataFrame est une simple liste numérique, par exemple `0,...,1000`. Dans ce cas, `df.iloc[0:1000]` renvoie 1000 entrées, tandis que `df.loc[0:1000]` en renvoie 1001 ! Pour obtenir 1000 éléments en utilisant `loc`, vous devrez taper `df.loc[0:999]`.

Sinon, la sémantique de l'utilisation de `loc` est la même que celle de `iloc`.

# Manipulation de l'index

La sélection basée sur les labels tire son pouvoir des étiquettes de l'index. Il est important de noter que l'index que nous utilisons n'est pas immuable. Nous pouvons le manipuler comme bon nous semble.

La méthode `set_index()` peut être utilisée à cet effet. Voici ce qui se passe lorsque nous `set_index` au champ `title` :

In [14]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


Ceci est utile si vous pouvez trouver un index pour l'ensemble de données qui soit meilleur que l'index actuel.

# Sélection conditionnelle

Jusqu'à présent, nous avons indexé différentes étapes de données, en utilisant les propriétés structurelles du DataFrame lui-même. Cependant, pour faire des choses intéressantes avec les données, nous devons souvent poser des questions basées sur les conditions.

Par exemple, supposons que nous nous intéressions spécifiquement aux vins supérieurs à la moyenne produits en Italie.

Nous pouvons commencer par vérifier si chaque vin est italien ou non :

In [15]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Cette opération a produit une série de booléens True/False basée sur le pays de chaque enregistrement. Ce résultat peut ensuite être utilisé à l'intérieur du `loc` pour sélectionner les données pertinentes :

In [14]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Cette DataFrame compte environ 20 000 lignes. L'original en avait ~130 000. Cela signifie qu'environ 15% des vins sont originaires d'Italie.

Nous voulions aussi savoir lesquels sont meilleurs que la moyenne. Les vins sont évalués sur une échelle de 80 à 100 points, ce qui pourrait signifier que les vins ont obtenu au moins 90 points.

Nous pouvons utiliser l'esperluette (&) pour rapprocher les deux questions :

In [15]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Supposons que nous achetions n'importe quel vin fabriqué en Italie ou ayant une note supérieure à la moyenne. Pour cela, nous utilisons l'opérateur 'pipe' (|) :

In [16]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Pandas est livré avec quelques sélecteurs conditionnels intégrés, dont deux que nous allons souligner ici.

Le premier est `isin`.`isin` vous permet de sélectionner des données dont la valeur "est dans" ('is in') une liste de valeurs. Par exemple, voici comment nous pouvons l'utiliser pour sélectionner des vins provenant uniquement d'Italie ou de France :

In [17]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


The second is isnull (and its companion notnull). These methods let you highlight values which are (or are not) empty (NaN). For example, to filter out wines lacking a price tag in the dataset, here's what we would do:

Le second est `isnull` (et son compagnon `notnull`). Ces méthodes vous permettent de mettre en évidence les valeurs qui sont (ou ne sont pas) vides (NaN). Par exemple, pour filtrer les vins qui n'ont pas de prix dans l'ensemble de données, voici ce que nous ferions :

In [20]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


# Affectation des données

Dans l'autre sens, il est facile d'attribuer des données à un DataFrame. Vous pouvez attribuer une valeur constante ou non :

In [21]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

Ou avec un itérateur de valeurs :

In [22]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64