# La sélection de données grâce à Pandas

Il n'est pas toujours aisé d'arriver à sélectionner les lignes et/ou colonnes que l'on souhaite lorsque l'on commence à utiliser la librairie Pandas. Voici les principales commandes à connaitre.

Tout d'abord, nous allons importer la librairie :

```
import pandas as pd
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous allons ensuite créér un DataFrame (= un tableau de données) qui nous servira pour la suite de ce notebook.


```
df = pd.DataFrame(data = {"eleves": ["Amandine", "Arthur", "Benjamin", "Elisa", "Mathilde", "Perrine", "Pierre"],
                          "age": [20, 0, 21, 19, 20, 18, 5]}  )
df
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Maintenant que nous avons un DataFrame de départ, nous allons pouvoir aller chercher des valeurs à l'intérieur.

---
## L'instruction "iloc"

Elle permet d'obtenir une valeur en donnant la position de l'index et éventuellement des colonnes que l'on souhaite afficher.

Par exemple, pour afficher la ligne à l'index 2, il suffit d'indiquer :

```
df.iloc[2]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Python nous renvoie bien les 2 éléments de la ligne, le prénom (= Benjamin) et son âge (=19)

---

Recommençons la même opération en demandant les lignes de 1 à 3 :

```
df.iloc[1:3]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous pouvons remarquer que Pandas exclut toujours la borne supérieure ! Si nous voulons vraiment récupérer les 3 lignes, il nous faut donc écrire :

```
df.iloc[1:4]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Si nous souhaitons ne récupérer les valeurs que pour une colonne en particulier, nous pouvons l'indiquer à Pandas ainsi :

```
df["eleves"].iloc[1:4]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Cette première méthode peut se lire ainsi :
```
df["eleves"].iloc[1:4]
```
* df["eleves"] => Dans la colonne "eleves",
* .iloc[1:4] => Je souhaite obtenir toutes les valeurs entre 0 et 4 (exclus)
---
Une seconde méthode consiste à indiquer, à travers la fonction "iloc", les lignes et colonnes qui nous intéressent :

```
df.iloc[1:4, 0]
```

* 1:4 => désigne toujours les valeurs entre 0 et 4 (exclus)
* 0 => désigne la première colonne

**/!\ il y a un ordre à respecter, nous indiquons d'abord les lignes, ensuite les colonnes.**

In [None]:
# Insère ton code ci-dessous et exécute la cellule


---
## L'instruction "loc"

Une autre méthode consiste à utiliser la fonction "loc" qui est très similaire. Cependant, au lien d'appeler les valeurs par leurs coordonnées "numériques", nous allons utiliser leurs noms.

```
df.loc[2, "eleves"]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Cette méthode nous renvoie bien la valeur située dans le tableau à l'index = 2 de la colonne "eleves".

Essaie de faire la même chose pour retrouve l'âge de la personne se situant à l'index 4:

In [None]:
# Insère ton code ci-dessous et exécute la cellule


De la même manière, nous pouvons demander plusieurs lignes en 1 seule fois :

```
df.loc[[0:3], "eleves"]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous pouvons d'ailleurs remarquer que la fonction "loc" renvoie toutes les valeurs entre 0 et 3 (y compris 3) ; il faut être vigilent !

---
## Sélection via des conditions / critères

Parfois, lorsque l'on traite un grand nombre de données ou que l'on ignore à quelles places se trouvent les valeurs, il peut être utile de donner des critères à Pandas qui va effectuer la recherche pour nous.

Par exemple, l'instruction ci-dessous demande à ce que Pandas nous renvoie uniquement les lignes du tableau pour les personnes ayant plus de 18 ans :

```
df[df["age"] > 18]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Comme Perrine a 18 ans, elle n'a pas été inclue dans la sélection. Nous pouvons facilement corriger cela en utilisant "supérieur ou égal" :

```
df[df["age"] >= 18]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous pouvons également demander à Pandas qu'il nous renvoie une seule valeur en particulier :

```
df[df["age"] == 20]
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


/!\ Nous remarquons que nous avons utilisé deux signes "=" à la suite.

Rappel :
* si j'utilise "variable = 2", j'assigne la valeur 2 à la variable
* si j'utilise "variable == 2", je teste si la variable est également à 2

Tu peux tester cela en tapant la suite d'instructions suivante :

**1ère cellule :** (tu assignes la valeur 2 à "variable")
```
variable = 2
print (variable)
```
**2ème cellule :** (tu testes si la variable est bien égale à 2)
```
variable == 2
```
**3ème cellule :** (tu testes si la variable est bien égale à 2)
```
variable == 3
```

In [None]:
# Cellule 1
# Insère ton code ci-dessous et exécute la cellule


In [None]:
# Cellule 2
# Insère ton code ci-dessous et exécute la cellule


In [None]:
# Cellule 3
# Insère ton code ci-dessous et exécute la cellule


---
## Correction de valeurs via des conditions / critères

De la même manière que nous avons appris à sélectionner des valeurs, nous pouvons enrichir cette méthode pour filtrer **et corriger** des valeurs erronées.

Par exemple, nous savons qu'Amandine a en fait "21" ans. Nous allons sélectionner la valeur correspondante et lui affecter la valeur 21.

```
df.loc[0, "age"] = 21

df
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Désormais, l'âge d'Amandine est devenu 21 ans !

---

Cependant, dans la précédente manipulation, nous savions exactement quelle était la position de la valeur à corriger mais ce n'est pas toujours possible.

Nous pouvons donc également demander à Pandas de faire une correction en fonction d'un critère.

Par exemple, demandons à Pandas de passer à 18 tous les âges inférieurs à 10 car ce sont probablement des valeurs erronées :

```
df.loc[ df["age"] < 10, "age" ] = 18

df
```

Note : nous reprenons la même syntaxe mais au lieu d'indiquer l'index 0, nous demandons à Python de sélectionner toutes les lignes où la valeur de l'âge est inférieure à 10.

In [None]:
# Insère ton code ci-dessous et exécute la cellule


**Voilà ! Désormais, la sélection et la correction de valeurs dans Pandas n'a plus de secret pour toi !** 🙌