# Explorons les prénoms qui ont été donnés depuis 1900 en France

Les données ont été récupérées sur le site de **l'INSEE** : Institut national de la statistique et des études économiques.  
**Attention, la base de données étant incomplète, il est possible que vous ne trouviez pas un prénom**


**Nous allons utiliser la librairie `pandas` afin d'explorer les données !**

In [None]:
import pandas as pd

# Chargement des données

Cette cellule permet de charger les données. `prenoms` sera donc une tableau qui contiendra des informations sur les prénoms.
On a nettoyé les données, explication à l'oral.

In [None]:
prenoms = (
    pd.read_csv("./nat2019.csv",  encoding='latin-1', sep=";", names=["genre", "prenom", "annee", "nombre"])
    .loc[lambda df: df.prenom != "_PRENOMS_RARES"]
    .loc[lambda df: ~df.annee.isin(["XXXX", "annais"])]
    .sort_values(["prenom", "annee"])
    .astype({"annee": "int", "nombre": "int"})
)

# Exploration des données

La commande `.head(5)` à la fin d'un tableau permet d'aficher les 5 premières lignes du tableau.  
La commande `.tail()` permet, elle, d'afficher les dernières lignes.

In [None]:
prenoms.head(5)

### Question n°1 : 
Afficher les 10 dernières lignes du tableau

Nous avons vu qu'il y a 4 colonnes : 

- genre
- prenom
- annee
- nombre

Il s'agit d'un tableau qui compte pour pour chaque prénom, le nombre de fois qu'il a été donné à chaque année

### Est-il possible de trouver son prénom dans cette base de données ? 

Pour trouver son prénom, il suffit d'utiliser `.loc` et d'entrer un condition.
Ici la condition veut dire : 
```
Trouve moi toutes les lignes du tableau dont le prenom vaut ADAM
```

In [None]:
prenoms.loc[lambda df: df.prenom == "ADAM"]

### Question n° 2 : 
Trouvez-vous votre prénom dans la base de donnée ? S'inspirer de la cellule précédente.  
*N'oubliez pas de mettre le prénom en majuscule sans les caractère spéciaux --> e à la place de é*

### Utilisons maintenant les années
On peut trier un tableau par année, pour obtenir la première année où un prénom a été donné ! 
La commande `sort_values` permet de trier la table selon une colonne, le paramètre `ascending` permet de dire si on veut trier dans l'ordre croissant ou décroissant, il peut valoir `True` (croissant) ou `False` (décroissant).

In [None]:
prenoms.loc[lambda df: df.prenom == "ADAM"].sort_values(["annee"], ascending=True).head(1)

### Question n°3
En quelle année votre prénom a-t-il été donnée pour la première fois selon cette base de donnée ? 

Trouvons les prénoms qui a été donné le plus de fois dans une année. Pour cela, il va falloir filtrer les données sur l'année voulue grace à la commande `.loc` comme précédemment.
Rappel pour filter les données sur le prénom ADAM, on a utilisé la colonne "prenom" et le mot "IMEN"
```
prenoms.loc[lambda df: df.prenom == "IMEN"]
```

### Question n°4
Trouver le prénom le plus donné en 2019. 
Pour cela, il va falloir filtrer les données sur 2019, et trier les valeurs de manière décroissante selon la colonne `nombre`. Demander de l'aide si besoin.