# **<h1><center><span style="color:#3775a8"><u>SORBONNE DATA ANALYTIC : Le Datamanagement</u></span></center></h1>**
# **<span style="color:#3775a8">La sélection et les filtres</span>**

Bienvenue dans le suite du cours. **Sélectionner** et **filtrer** la données sont des tâches courantes mais il existe différentes manières pour le faire.

Quelles sont les techniques à privilégier et pourquoi ? A l'ici de ce notebook vous serez en mesure de vous faire votre propre avis !

# **<span style="color:#3775a8">1. La sélection </span>**
## **<span style="color:#3775a8">1.1. Sélectionner une colonne </span>**

Pour sélectionner une colonne vous pouvez utiliser le `.` les `[""]`. Le résultat est alors identique.

In [1]:
import pandas as pd # Import de la librairie Pandas

In [2]:
# On importe les données
df = pd.read_csv('sda_base_DM.csv') 

df['Date'] = pd.to_datetime(df['Date']) 

print(f"La base fait {df.shape[0]} lignes et {df.shape[1]} colonnes")

df.head()

La base fait 210926 lignes et 10 colonnes


Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,2011-01-01 01:00:00,0.0,97.0,0.0,BORDEAUX-MERIGNAC,5.6,47,-0.691333,44.830667,Nouvelle-Aquitaine
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
2,2011-01-01 01:00:00,0.0,87.0,0.0,MARIGNANE,8.0,9,5.216,43.437667,Provence-Alpes-Côte d'Azur
3,2011-01-01 01:00:00,3.1,84.0,,JUAN DE NOVA,27.9,9,42.712,-17.054667,
4,2011-01-01 01:00:00,1.0,92.0,0.0,STRASBOURG-ENTZHEIM,-0.4,150,7.640333,48.5495,Grand Est


In [3]:
df['Nom'].head() # Sélection d'une colonne avec les [""]

0      BORDEAUX-MERIGNAC
1                   ORLY
2              MARIGNANE
3           JUAN DE NOVA
4    STRASBOURG-ENTZHEIM
Name: Nom, dtype: object

In [4]:
df.Nom.head() # Sélection d'une colonne avec le .

0      BORDEAUX-MERIGNAC
1                   ORLY
2              MARIGNANE
3           JUAN DE NOVA
4    STRASBOURG-ENTZHEIM
Name: Nom, dtype: object

Comme vous l'avez vu il préférable d'utiliser `df["colname"]` plutot que `df.colname`. En effet, la technique du `.` présente plusieurs inconvénients :
- Si le nom de colonne contient un espace ça ne fonctionne pas.
- Si le nom de colonne est identique à celui d'une méthode, c'est problématique.
- On ne peut pas utiliser de variable globale comme nom.

Il est temps d'illustrer cela.

In [5]:
col = "Region" # Vous stockez le nom d'une colonne dans une variable

df[col].head() # Ca fonctionne

0            Nouvelle-Aquitaine
1                 Île-de-France
2    Provence-Alpes-Côte d'Azur
3                           NaN
4                     Grand Est
Name: Region, dtype: object

In [6]:
df.col.head() # Ca ne fonctionne pas !

AttributeError: 'DataFrame' object has no attribute 'col'

## **<span style="color:#3775a8">1.2. Explorez le contenu des Series</span>**

Vous savez maintenant comment sélectionner les colonnes d'un `DataFrame`, vous allez voir maintenant quelques unes des fonctions utiles pour explorer le contenu de vos `Series`.

#### **Accéder au type d'une d'une Series**

In [7]:
df['Altitude'].dtype # Pour un dataframe dtypes prend un "s"

dtype('int64')

#### **Accéder à la liste des modalités d'une variable**

In [8]:
df["Region"].unique() # Attention ici la fonction ajoute à la liste nan : pour les valeurs manquantes

array(['Nouvelle-Aquitaine', 'Île-de-France',
       "Provence-Alpes-Côte d'Azur", nan, 'Grand Est', 'Bretagne',
       'Auvergne-Rhône-Alpes'], dtype=object)

#### **le nombre de modalités uniques d'une variable**

In [9]:
df["Region"].nunique() # Avec le nunique on ne compte pas les nan

6

Vous pouvez maintenant automatiser quelques bout de code. Par exemple, affichez le nombre de modalités uniques de toutes les variables catégorielles.

Cela peut-être utile notamment pour des questions de choix d'encoding que vous verrez lors des cours sur la modélisation.

In [10]:
col_object_l = df.select_dtypes(include='object').columns # Stock les colonnes

for col in col_object_l:
    print(f"La colonne {col} a {df[col].nunique()} modalités")
    print("")

La colonne Nom a 8 modalités

La colonne Region a 6 modalités



#### **La répartition des observations dans les différentes modalités**

In [11]:
df['Region'].value_counts() # Affiche le nombre d'obs dans chaque modalité

Provence-Alpes-Côte d'Azur    29195
Île-de-France                 29188
Nouvelle-Aquitaine            29178
Bretagne                      29119
Grand Est                     29049
Auvergne-Rhône-Alpes          28916
Name: Region, dtype: int64

In [12]:
df['Region'].value_counts(normalize=True) # La même chose en %, ce qui est plus facil à lire
                                          # C'est également très utilisé pour calculer les taux de cible

Provence-Alpes-Côte d'Azur    0.167168
Île-de-France                 0.167128
Nouvelle-Aquitaine            0.167070
Bretagne                      0.166733
Grand Est                     0.166332
Auvergne-Rhône-Alpes          0.165570
Name: Region, dtype: float64

In [13]:
df['Region'].value_counts(normalize=True, dropna=False) # On prend maintenant en compte les valeurs manquantes


NaN                           0.172008
Provence-Alpes-Côte d'Azur    0.138413
Île-de-France                 0.138380
Nouvelle-Aquitaine            0.138333
Bretagne                      0.138053
Grand Est                     0.137721
Auvergne-Rhône-Alpes          0.137091
Name: Region, dtype: float64

## **<span style="color:#3775a8">1.3. Sélectionner plusieurs colonnes</span>**

Vous pouvez également sélectionner plusieurs colonnes. Il suffit d'utiliser une liste : `df[liste_colonnes]`

In [14]:
df[["Nom", "Region"]].head() # Affiche les 5 premières lignes des colonnes selectionnées

Unnamed: 0,Nom,Region
0,BORDEAUX-MERIGNAC,Nouvelle-Aquitaine
1,ORLY,Île-de-France
2,MARIGNANE,Provence-Alpes-Côte d'Azur
3,JUAN DE NOVA,
4,STRASBOURG-ENTZHEIM,Grand Est


In [15]:
df[col_object_l].head() # Même chose

Unnamed: 0,Nom,Region
0,BORDEAUX-MERIGNAC,Nouvelle-Aquitaine
1,ORLY,Île-de-France
2,MARIGNANE,Provence-Alpes-Côte d'Azur
3,JUAN DE NOVA,
4,STRASBOURG-ENTZHEIM,Grand Est


**Remarque :** Jusqu'à présent lorsque nous avons sélectionner nos colonnes, nous avons fait que des **affichages**, notre jeu de données reste inchangé !

In [16]:
df_2 = df[col_object_l].head() # Là on réaffecte

In [17]:
df_2 # affiche le dataframe en entier

Unnamed: 0,Nom,Region
0,BORDEAUX-MERIGNAC,Nouvelle-Aquitaine
1,ORLY,Île-de-France
2,MARIGNANE,Provence-Alpes-Côte d'Azur
3,JUAN DE NOVA,
4,STRASBOURG-ENTZHEIM,Grand Est


# **<span style="color:#3775a8">2. Filtrer les observations </span>**
## **<span style="color:#3775a8">2.1. L'utilisation du slice </span>**

Vous pouvez **filtrer** vos données à l'aide du `slice` en indiquant les lignes à conserver : `df[première ligne inclue : dernière ligne exclue]`

In [18]:
df[0:5] # Conserve que les 5 premières lignes

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,2011-01-01 01:00:00,0.0,97.0,0.0,BORDEAUX-MERIGNAC,5.6,47,-0.691333,44.830667,Nouvelle-Aquitaine
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
2,2011-01-01 01:00:00,0.0,87.0,0.0,MARIGNANE,8.0,9,5.216,43.437667,Provence-Alpes-Côte d'Azur
3,2011-01-01 01:00:00,3.1,84.0,,JUAN DE NOVA,27.9,9,42.712,-17.054667,
4,2011-01-01 01:00:00,1.0,92.0,0.0,STRASBOURG-ENTZHEIM,-0.4,150,7.640333,48.5495,Grand Est


In [19]:
df[:5] # Idem

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,2011-01-01 01:00:00,0.0,97.0,0.0,BORDEAUX-MERIGNAC,5.6,47,-0.691333,44.830667,Nouvelle-Aquitaine
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
2,2011-01-01 01:00:00,0.0,87.0,0.0,MARIGNANE,8.0,9,5.216,43.437667,Provence-Alpes-Côte d'Azur
3,2011-01-01 01:00:00,3.1,84.0,,JUAN DE NOVA,27.9,9,42.712,-17.054667,
4,2011-01-01 01:00:00,1.0,92.0,0.0,STRASBOURG-ENTZHEIM,-0.4,150,7.640333,48.5495,Grand Est


## **<span style="color:#3775a8">2.2. Boolean indexing </span>**

L'idée est de filtrer les données en utilisant une ou plusieurs conditions, vous tester un **prédicat** et vous stocker le résultat dans un vecteur.

Si la valeur vaut `True` vous conserver l'observation. 

Pour filtrer : `df[condition]`

#### **Filtrer sur une condition**

In [20]:
df["Region"]=="Île-de-France" # Test si la région est égale Île-de-France

0         False
1          True
2         False
3         False
4         False
          ...  
210921    False
210922    False
210923     True
210924    False
210925    False
Name: Region, Length: 210926, dtype: bool

In [21]:
df[df["Region"]=="Île-de-France"].head() # On affiche les 5 premières lignes du Dataframe filtré sur une condition

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
14,2011-01-01 04:00:00,1.0,97.0,0.0,ORLY,-0.6,89,2.384333,48.716833,Île-de-France
21,2011-01-01 07:00:00,2.1,94.0,0.0,ORLY,-0.8,89,2.384333,48.716833,Île-de-France
24,2011-01-01 10:00:00,0.5,97.0,0.0,ORLY,-0.5,89,2.384333,48.716833,Île-de-France
33,2011-01-01 13:00:00,1.5,92.0,0.0,ORLY,1.5,89,2.384333,48.716833,Île-de-France


In [22]:
df[df["Region"]=="Île-de-France"][['Date', 'Region']].head(2) 

Unnamed: 0,Date,Region
1,2011-01-01 01:00:00,Île-de-France
14,2011-01-01 04:00:00,Île-de-France


Certaines méthodes renvoient directement des `booleans`. C'est le cas par exemple de `isna` et `notna`.

**Remarque :** Comme leurs noms l'indiquent ces fonctions permettent de savoir si une valeur est manquante ou non. 

Pour illustrer la complexité de Pandas nous allons nous arréter quelques instants. Ces fonctions ont des **alias** : `isnull` et `notnull`, c'est à dire que seul le nom change mais le code source est le même! 

Nous vous recommandons d'utiliser celles avec `na` car comme vous le verrez il existe `fillna` et `dropna` et non `fillnull` et `dropnull`. (Simple soucis de cohérence dans vos codes)

Vous verrez le fonctionnement de ces méthodes dans le prochain chapitre.

In [23]:
df['Region'].isna() # Renvoie True si la valeur est manquante

0         False
1         False
2         False
3          True
4         False
          ...  
210921    False
210922    False
210923    False
210924    False
210925    False
Name: Region, Length: 210926, dtype: bool

In [24]:
print("isna et isnull sont des alias, illustration :")

print(f"Il y a {df['Region'].isna().sum()} valeurs manquantes avec isna")
print("-------")
print(f"Il y a {df['Region'].isnull().sum()} valeurs manquantes avec isnull")

isna et isnull sont des alias, illustration :
Il y a 36281 valeurs manquantes avec isna
-------
Il y a 36281 valeurs manquantes avec isnull


In [25]:
df[df['Region'].isna()][['Region', 'Nom']].head()

Unnamed: 0,Region,Nom
3,,JUAN DE NOVA
7,,DUMONT D'URVILLE
13,,JUAN DE NOVA
15,,DUMONT D'URVILLE
20,,DUMONT D'URVILLE


#### **Filtrer sur plusieurs conditions**

Vous pouvez filtrer sur plusieurs conditions en utilisant les opérateurs logiques, par exemple `|` ou `&`.

Exemple : `df[condition_1 & condition_2]`

In [26]:
df[(df["Region"]=="Île-de-France") & (df["Date"]>"2019-01-01")].head() # On conserve les observation d'ile de France et postérieur
                                                                       # au premier janvier 2019

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
171274,2019-01-01 01:00:00,2.6,84.0,0.0,ORLY,7.9,89,2.384333,48.716833,Île-de-France
171286,2019-01-01 04:00:00,2.3,91.0,-0.1,ORLY,7.0,89,2.384333,48.716833,Île-de-France
171293,2019-01-01 07:00:00,2.0,89.0,0.0,ORLY,7.1,89,2.384333,48.716833,Île-de-France
171299,2019-01-01 10:00:00,2.3,84.0,0.0,ORLY,7.8,89,2.384333,48.716833,Île-de-France
171307,2019-01-01 13:00:00,3.4,77.0,0.0,ORLY,8.1,89,2.384333,48.716833,Île-de-France


In [27]:
df_2 = df[(df["Region"]=="Île-de-France") & (df["Date"]>"2019-01-01")] # On stock les résultats dans un nouveau dataframe

print(f"Il y a {df_2.shape[0]} observations dans le dataframe filtré")

df_2.head()

Il y a 5841 observations dans le dataframe filtré


Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
171274,2019-01-01 01:00:00,2.6,84.0,0.0,ORLY,7.9,89,2.384333,48.716833,Île-de-France
171286,2019-01-01 04:00:00,2.3,91.0,-0.1,ORLY,7.0,89,2.384333,48.716833,Île-de-France
171293,2019-01-01 07:00:00,2.0,89.0,0.0,ORLY,7.1,89,2.384333,48.716833,Île-de-France
171299,2019-01-01 10:00:00,2.3,84.0,0.0,ORLY,7.8,89,2.384333,48.716833,Île-de-France
171307,2019-01-01 13:00:00,3.4,77.0,0.0,ORLY,8.1,89,2.384333,48.716833,Île-de-France


Vous remarquez que l'index du dataframe d'origine est conservé. Pour différentes raisons, vous pouvez vouloir le faire à nouveau partir de 0, vous pouvez alors utiliser la méthode `reset_index` :

In [28]:
df_2.reset_index(drop=True).head() # On réindex les données et on supprime l'ancien

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,2019-01-01 01:00:00,2.6,84.0,0.0,ORLY,7.9,89,2.384333,48.716833,Île-de-France
1,2019-01-01 04:00:00,2.3,91.0,-0.1,ORLY,7.0,89,2.384333,48.716833,Île-de-France
2,2019-01-01 07:00:00,2.0,89.0,0.0,ORLY,7.1,89,2.384333,48.716833,Île-de-France
3,2019-01-01 10:00:00,2.3,84.0,0.0,ORLY,7.8,89,2.384333,48.716833,Île-de-France
4,2019-01-01 13:00:00,3.4,77.0,0.0,ORLY,8.1,89,2.384333,48.716833,Île-de-France


In [29]:
df_2.reset_index(drop=False).head() # On réindex les données et on conserve l'ancien dans une nouvelle variable
                                    # Utile pour des jointures ultérieurs

Unnamed: 0,index,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,171274,2019-01-01 01:00:00,2.6,84.0,0.0,ORLY,7.9,89,2.384333,48.716833,Île-de-France
1,171286,2019-01-01 04:00:00,2.3,91.0,-0.1,ORLY,7.0,89,2.384333,48.716833,Île-de-France
2,171293,2019-01-01 07:00:00,2.0,89.0,0.0,ORLY,7.1,89,2.384333,48.716833,Île-de-France
3,171299,2019-01-01 10:00:00,2.3,84.0,0.0,ORLY,7.8,89,2.384333,48.716833,Île-de-France
4,171307,2019-01-01 13:00:00,3.4,77.0,0.0,ORLY,8.1,89,2.384333,48.716833,Île-de-France


Encore une fois, ici vous ne faites que des affichages. Si vous souhaitez écraser le DataFrame, deux possibilités :
- `df = df.reset_index()`
- Utiliser un paramètre présent dès qu'une fonction altère les dimensions : `inplace`. `df.reset_index(inplace=True)`. Meilleure allocation de la mémoire

In [30]:
df_2.reset_index(drop=True, inplace=True)

df_2.head()

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
0,2019-01-01 01:00:00,2.6,84.0,0.0,ORLY,7.9,89,2.384333,48.716833,Île-de-France
1,2019-01-01 04:00:00,2.3,91.0,-0.1,ORLY,7.0,89,2.384333,48.716833,Île-de-France
2,2019-01-01 07:00:00,2.0,89.0,0.0,ORLY,7.1,89,2.384333,48.716833,Île-de-France
3,2019-01-01 10:00:00,2.3,84.0,0.0,ORLY,7.8,89,2.384333,48.716833,Île-de-France
4,2019-01-01 13:00:00,3.4,77.0,0.0,ORLY,8.1,89,2.384333,48.716833,Île-de-France


## **<span style="color:#3775a8">2.3. Sélection & filtre via les index : iloc </span>**

Les fonctions `loc` et `iloc` permettent de selectionner de manière explicite les lignes et les colonnes d'un DataFrame en faisant référence à leurs index :
- **Le loc indexer** permet de pointer sur les index des lignes et des colonnes par leur nom
- **L'iloc indexer** le fait par leur indice

**Syntaxe :** `df.iloc[row selection, column selection]`

In [31]:
df.iloc[3] # Selectionne la 4ème ligne comme une Series

Date                            2011-01-01 01:00:00
Vitesse_Vent_Moyen_10min                        3.1
Humidite                                         84
Precipitation_derniere_heure                    NaN
Nom                                    JUAN DE NOVA
Temperature_dC                                 27.9
Altitude                                          9
Longitude                                    42.712
Latitude                                   -17.0547
Region                                          NaN
Name: 3, dtype: object

In [32]:
df.iloc[[1, 2, 3]] # selectionne la 2ème la 3ème et la 4ème ligne

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
2,2011-01-01 01:00:00,0.0,87.0,0.0,MARIGNANE,8.0,9,5.216,43.437667,Provence-Alpes-Côte d'Azur
3,2011-01-01 01:00:00,3.1,84.0,,JUAN DE NOVA,27.9,9,42.712,-17.054667,


In [33]:
df.iloc[1:4] # La même chose mais en utilisant le slice

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
1,2011-01-01 01:00:00,2.1,94.0,0.0,ORLY,-0.7,89,2.384333,48.716833,Île-de-France
2,2011-01-01 01:00:00,0.0,87.0,0.0,MARIGNANE,8.0,9,5.216,43.437667,Provence-Alpes-Côte d'Azur
3,2011-01-01 01:00:00,3.1,84.0,,JUAN DE NOVA,27.9,9,42.712,-17.054667,


In [34]:
df.iloc[210922:] # Selection des lignes 210922 à la fin

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
210922,2020-12-31 22:00:00,1.4,95.0,0.0,BORDEAUX-MERIGNAC,2.8,47,-0.691333,44.830667,Nouvelle-Aquitaine
210923,2020-12-31 22:00:00,1.9,92.0,0.0,ORLY,1.1,89,2.384333,48.716833,Île-de-France
210924,2020-12-31 22:00:00,0.8,93.0,0.0,STRASBOURG-ENTZHEIM,2.4,150,7.640333,48.5495,Grand Est
210925,2020-12-31 22:00:00,3.3,95.0,0.0,BREST-GUIPAVAS,1.7,94,-4.412,48.444167,Bretagne


In [35]:
df.iloc[210922::2] # Selection des lignes 210922 à la fin par pas de 2

Unnamed: 0,Date,Vitesse_Vent_Moyen_10min,Humidite,Precipitation_derniere_heure,Nom,Temperature_dC,Altitude,Longitude,Latitude,Region
210922,2020-12-31 22:00:00,1.4,95.0,0.0,BORDEAUX-MERIGNAC,2.8,47,-0.691333,44.830667,Nouvelle-Aquitaine
210924,2020-12-31 22:00:00,0.8,93.0,0.0,STRASBOURG-ENTZHEIM,2.4,150,7.640333,48.5495,Grand Est


In [36]:
df.iloc[:,2] # Selectionne toute les lignes de la 3ème colonne

0         97.0
1         94.0
2         87.0
3         84.0
4         92.0
          ... 
210921    82.0
210922    95.0
210923    92.0
210924    93.0
210925    95.0
Name: Humidite, Length: 210926, dtype: float64

In [37]:
df.iloc[[6, 7],[2, 4]] # Selectionne 2 lignes, 2 colonnes

Unnamed: 0,Humidite,Nom
6,98.0,CLERMONT-FD
7,42.0,DUMONT D'URVILLE


In [38]:
df.iloc[1:3,2:4] # Selectionne 2 lignes, 2 colonnes avec des slices

Unnamed: 0,Humidite,Precipitation_derniere_heure
1,94.0,0.0
2,87.0,0.0


In [39]:
df.iloc[0,0] # Selectionne la première valeur de la première colonne

Timestamp('2011-01-01 01:00:00')

## **<span style="color:#3775a8">2.4. Sélection & filtre via les index : loc </span>**

L'utilisation de `loc` est similaire de celle de `iloc`. On selectionne une partie des lignes, des colonnes, des deux en utilisant **le nom des index**.

On peut donc sélectionner une donnée par son nom de ligne et de colonne.

**Remarque :** Si l'index des lignes est numérique on n'utilise pas de guillemet

In [40]:
df.loc[1] # Selectionne la première ligne

Date                            2011-01-01 01:00:00
Vitesse_Vent_Moyen_10min                        2.1
Humidite                                         94
Precipitation_derniere_heure                      0
Nom                                            ORLY
Temperature_dC                                 -0.7
Altitude                                         89
Longitude                                   2.38433
Latitude                                    48.7168
Region                                Île-de-France
Name: 1, dtype: object

In [41]:
df.loc[:,'Region'] # Selectionne toutes les lignes de la colonne Region

0                 Nouvelle-Aquitaine
1                      Île-de-France
2         Provence-Alpes-Côte d'Azur
3                                NaN
4                          Grand Est
                     ...            
210921    Provence-Alpes-Côte d'Azur
210922            Nouvelle-Aquitaine
210923                 Île-de-France
210924                     Grand Est
210925                      Bretagne
Name: Region, Length: 210926, dtype: object

### *En conclusion*

`loc` et `iloc` permettent de selection des sous ensemble d'un DataFrame à partir des indice des index ou de leur nom.

# **<span style="color:#37a871">Félicitations !</span>**

Félicitations vous disposez maintenant d'une large palette de techniques pour manipuler vos données! Vous êtes prets à passer au nettoyage !