# Indexation, sélection et attribution
Les data scientists professionnels le font des dizaines de fois par jour. Vous pouvez aussi !

## Introduction
La sélection de valeurs spécifiques d’un DataFrame ou d’une Series avec pandas pour les manipuler est une étape implicite dans presque toutes les opérations de données que vous effectuerez. C’est pourquoi l’une des premières choses à apprendre en travaillant avec les données en Python est de savoir comment sélectionner rapidement et efficacement les points de données qui vous intéressent.

**Accesseurs natifs**

Les objets Python natifs offrent de bonnes façons d'indexer les données, et pandas reprend toutes ces fonctionnalités, ce qui facilite les premiers pas.

Prenons cet exemple de DataFrame :

In [10]:
import pandas as pd
reviews = pd.read_csv('winemag_data_130k_v2.csv')
print(reviews.head())

   Unnamed: 0   country                                        description  \
0           0     Italy  Aromas include tropical fruit, broom, brimston...   
1           1  Portugal  This is ripe and fruity, a wine that is smooth...   
2           2        US  Tart and snappy, the flavors of lime flesh and...   
3           3        US  Pineapple rind, lemon pith and orange blossom ...   
4           4        US  Much like the regular bottling from 2012, this...   

                          designation  points  price           province  \
0                        Vulkà Bianco      87    NaN  Sicily & Sardinia   
1                            Avidagos      87   15.0              Douro   
2                                 NaN      87   14.0             Oregon   
3                Reserve Late Harvest      87   13.0           Michigan   
4  Vintner's Reserve Wild Child Block      87   65.0             Oregon   

              region_1           region_2         taster_name  \
0              

En Python, nous pouvons accéder à une propriété d’un objet en la considérant comme un attribut. Par exemple, un objet livre peut avoir une propriété titre, que nous pouvons obtenir avec livre.titre. Les colonnes dans un DataFrame pandas fonctionnent de manière similaire.

Ainsi, pour accéder à la propriété country dans reviews, nous pouvons écrire :

In [12]:
reviews.country

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Si nous avons un dictionnaire Python, nous pouvons accéder à ses valeurs en utilisant l’opérateur d’indexation []. Nous pouvons faire de même avec les colonnes d’un DataFrame :

In [15]:
reviews['country']

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Ces deux méthodes permettent de sélectionner une **Series spécifique** dans un DataFrame. Les deux sont valides syntaxiquement, mais l'opérateur [] a l'avantage de gérer les noms de colonnes contenant des caractères réservés (par exemple, reviews['country providence'] fonctionnera là où reviews.country providence échouera).

Une **Series** pandas ressemble beaucoup à un dictionnaire sophistiqué. Ce n'est donc pas surprenant que, pour accéder à une valeur spécifique, il suffise d'utiliser à nouveau l’opérateur d’indexation [] :

In [23]:
reviews['country'][0]

'Italy'

### Indexation dans pandas
L'opérateur d’indexation et la sélection d’attributs sont pratiques parce qu'ils fonctionnent comme dans le reste de l’écosystème Python. Cela les rend faciles à apprendre pour les débutants. Cependant, pandas propose ses propres opérateurs, ***loc*** et ***iloc***, qui sont à privilégier pour les opérations plus avancées.

### Sélection basée sur les index
La première méthode est la ***sélection basée sur l’index*** : sélectionner des données en fonction de leur position numérique. La méthode iloc suit ce paradigme.

Pour sélectionner la première ligne d’un DataFrame, on peut utiliser :

In [39]:
reviews.iloc[0]

Unnamed: 0                                                               0
country                                                              Italy
description              Aromas include tropical fruit, broom, brimston...
designation                                                   Vulkà Bianco
points                                                                  87
price                                                                  NaN
province                                                 Sicily & Sardinia
region_1                                                              Etna
region_2                                                               NaN
taster_name                                                  Kerin O’Keefe
taster_twitter_handle                                         @kerinokeefe
title                                    Nicosia 2013 Vulkà Bianco  (Etna)
variety                                                        White Blend
winery                   

Les méthodes loc et iloc sont **ligne d’abord, colonne ensuite**, contrairement au Python natif qui est **colonne d’abord, ligne ensuite**.

Pour sélectionner une colonne avec iloc, voici un exemple :

In [44]:
reviews.iloc[:, 1]

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object