# Exercice Prénoms

Le but de cet exercice est d'utiliser les graphiques que nous avons précédemment vu sur notre dataset de prénoms ensemble, je coderai, et vous vous poserez les bonnes questions, dans une bonne démarche de data-scientifique.

Quelle est l'évolution de tel prénom ? Quels sont les prénoms les plus populaires de l'année 2016 ?... Il y a plein de questions que nous pouvons nous poser et associer à un graphique.

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour charger un fichier local, il faudra rajouter les lignes de codes suivantes :

```python
from google.colab import files
uploaded = files.upload()

import io
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé sinon, 
# vous aurez forcément une erreur
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```
- **Ces lignes doivent être avant la manipulation d'un DataFrame et de préférence dans une cellule dédiée pour éviter d'uploader votre fichier à chaque fois**
- **Vous ne pouvez pas importer de fichiers en navigation privée**

- [Voir plus d'informations sur le chargement de fichiers externes avec Google colab - anglais](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

In [37]:
# On importe les bibliothèques dont nous aurons besoin
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import random

# Le fichier étant contenu dans un fichier zip, 
# nous allons désarchiver le tout avec python
# On import donc la bibliothèque zipfile
import zipfile

chemin_zip = "data/naissances-par-departement-1900-2019.zip"
try:
    with zipfile.ZipFile(chemin_zip, 'r') as zip_ref:
        zip_ref.extractall("data/")
except:
    print("L'archive n'est pas présente")

# le fichier est chargé et devient DataFrame
liste_prenoms_source = pd.read_csv("data/_tmp-naissances-par-departement-1900-2019.csv", sep=";")
display(liste_prenoms_source.dtypes)

L'archive n'est pas présente


sexe         int64
preusuel    object
annais      object
dpt         object
nombre       int64
dtype: object

# Nettoyage des données
Déjà fait pour vous. Il est dans la cellule ci-dessous.

In [44]:
liste_prenoms_nettoyage = liste_prenoms_source.copy()

# On supprime les colonnes avec les lignes ayant des données manquantes
liste_prenoms_nettoyage.dropna(inplace = True) 

# On supprime les lignes avec la valeur "_PRENOMS_RARES" pour la colonne "preusuel" ou
# XXXX comme valeur pour l'année ou 
# XX comme valeur pour le département
liste_prenoms_nettoyage = liste_prenoms_source[
       (liste_prenoms_source["preusuel"] != "_PRENOMS_RARES") &
        (liste_prenoms_source["annais"] != "XXXX") &
    (liste_prenoms_source["dpt"] != "XX")
]
# Il est tout à fait possible de nettoyer d'une autre façon, nous aurions pu, par exemple, remplacer 
# les années XXXX par une année définie si ceci ne vous dérange pas. 

liste_prenoms_df = liste_prenoms_nettoyage.copy()

display(liste_prenoms_df.tail(3))

Unnamed: 0,sexe,preusuel,annais,dpt,nombre,personnalite
3676676,2,ZYA,2017,974,3,"Têtu(e), Téméraire"
3676677,2,ZYA,2018,59,3,"Déterminé(e), Têtu(e)"
3676679,2,ZYNA,2013,93,3,"Intuitif/Intuitive, Perceptif/Perceptive"


# Ajout de données
Pour voir plus de cas lors de notre exercice, nous allons ajouter des colonnes à notre DataFrame.

In [46]:
# Rajout d'une colonne concernant les traits de personnalités liés à une personne. 
liste_traits_personnalite = ["Bienveillance", "Empathique", 
                             "Téméraire", "Gentillesse", 
                             "Romantique", "Têtu(e)", "Déterminé(e)",
                             "Drôle", "Naïf/Naïve", "Charismatique",
                             "Aventureux/Aventureuse", "Autonome", "Courtois(e)",
                             "Créatif/Créative", "Efficace", "Amical(e)",
                             "Intuitif/Intuitive", "Méticuleux/Méticuleuse", "Persuasif/Persuasive",
                             "Bavard(e)", "Patient(e)", "Travailleur/Travailleuse",
                             "Paresseux/Paresseuse", "Sérieux/Sérieuse", "Patient(e)", 
                             "Vif/Vive", "Perceptif/Perceptive", "Pudique",
                             "Impulsive/Impulsif", "Timide", "Respecteux/Respecteuse",
                             "Bienveillant(e)", "Extraverti(e)", "Consciencieux/Conscieuseuse"
                            ]

colonne_traits_personnalite = np.random.choice(liste_traits_personnalite, size=(len(liste_prenoms_df)))
colonne_traits_personnalite = [
    f"{s}, {random.choice(colonne_traits_personnalite)}" for s in colonne_traits_personnalite
]

liste_prenoms_df['personnalite'] = colonne_traits_personnalite

display(liste_prenoms_df) 

Unnamed: 0,sexe,preusuel,annais,dpt,nombre,personnalite
10784,1,AADIL,1983,84,3,"Efficace, Drôle"
10785,1,AADIL,1992,92,3,"Patient(e), Perceptif/Perceptive"
10787,1,AAHIL,2016,95,3,"Charismatique, Drôle"
10790,1,AARON,1962,75,3,"Créatif/Créative, Bienveillance"
10791,1,AARON,1976,75,3,"Sérieux/Sérieuse, Vif/Vive"
...,...,...,...,...,...,...
3676674,2,ZYA,2013,44,4,"Vif/Vive, Aventureux/Aventureuse"
3676675,2,ZYA,2013,59,3,"Naïf/Naïve, Patient(e)"
3676676,2,ZYA,2017,974,3,"Travailleur/Travailleuse, Empathique"
3676677,2,ZYA,2018,59,3,"Sérieux/Sérieuse, Persuasif/Persuasive"


# Exercice 1 - Ligne (line chart)

Afficher un graphique de type ligne. Posons-nous des questions !

In [2]:
# Notre code

# Exercice 2 - Diagramme en bâtons

Afficher un graphique de type bâtons. Posons-nous des questions !

In [None]:
# Notre code

# Exercice 3 - Diagramme circulaire

Afficher un graphique de type bâtons. Posons-nous des questions !

In [None]:
# Notre code