# pandas - partie 2

![logo pandas](https://pandas.pydata.org/docs/_static/pandas.svg)

Dans la première partie, nous avons vous l'objet qui se trouve au coeur de la librairie pandas, cousine de numpy. Pour rappel, un dataframe (ou jeu de données) ressemble à un tableau excel où chaque colonne possède un nom. Ainsi, il est dit que les données d'un dataframe sont tabulaires.

La partie 1 du TP pandas a été l'occasion de travailler avec de petits dataframes (écrits à la main), toutefois en Big Data, ce n'est pas des dataframes de moins de 10 lignes avec lesquels nous travaillons, mais en général plus de 100 000. Bien évidemment, nous n'allons pas écrire des fichiers de plus de 100 000 à la main et encore moins dans un notebook, et ici qu'entre en jeu le format csv.

Comma-separated values ou csv est un format de fichier représentant des valeurs tabulaires sous forme de valeurs séparées par des virgules. 
![csv](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/csv.jpg)
- [En savoir plus sur le format csv (wikipedia)](https://fr.wikipedia.org/wiki/Comma-separated_values)

Il est possible de transformer un fichier tableur (.xls, .xslx, .odf...) en fichier csv, il suffit juste à la sauvegarde de préciser le format csv. 

![sauvegarde-csv](../_images/sauvegarde-csv.jpg)

Et ce format est très bien géré par pandas, et ce, même quand le fichier possède des millions de lignes. Pour ce faire il nous faut utiliser la méthode `pd.read_csv("chemin-du-fichier.csv")`. Bien évidemment, il faut penser à importer pandas avant avec la ligne suivante `import pandas as pd`.

Note : Il est possible de charger des fichiers .xls(x) ou encore .json, mais _historiquement_ on utilise plus le format csv.

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour utiliser la méthode `pd.read_csv()`, il faudra rajouter quelques lignes de codes supplémentaires pour pouvoir charger un fichier, les voici.


```python
# Première cellule jupyter
from google.colab import files
uploaded = files.upload()
```

```python
# Seconde cellule jupyter
import io
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```

- [Voir plus  d'informations sur le chargement de fichiers externes avec Google colab](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

# Pour charger un fichier distant (un serveur)

Bien que nous fassions du Python depuis Jupyter, nous avons toujours accès aux méthodes et classes natives de Python dont "request". Elle nous permet d'effectuer des rêquetes serveurs et donc de charger des fichiers

request.urlretrieve ("https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/Parcours_data_scientist/decouvrez-les-librairies-python-pour-la-data-science/hubble_data.csv", "be.csv")
hubble = pd.read_csv("ble.csv")

Et ces données, on les trouve où ? Il existe beaucoup de sources, dans le cadre de cette pratique, nous allons utiliser le site des données ouvertes du gouvernement français (et de l'insee, les deux sont liés). Et plus précisément celui des naissances de 1900 et 2019 par département (fichier présent dans la ressource).

- [Voir site des données ouvertes du gouvernement](https://www.data.gouv.fr/)
- [Voir site des données ouvertes de l'insee](https://www.insee.fr/fr/statistiques?categorie=1)
- [Voir moteur de recherche de Google dédié aux datasets](https://datasetsearch.research.google.com/)
- [Voir site des données ouvertes de l'éducation nationale](https://data.education.gouv.fr/)
- [Voir site de données ouvertes (souvent anglophones)](https://github.com/awesomedata/awesome-public-datasets)


- [Voir source du fichier de données des prénoms - Ficher que nous allons utiliser pour la suite du TP](https://www.insee.fr/fr/statistiques/2540004?sommaire=4767262#consulter)

- **Petite note** : Malgré la taille du fichier (~9 Mo), ce dernier possède plus de 3 500 000 lignes. Si on essaye d'ouvrir le fichier avec OpenOffice Calc (équivalent Open Source d'Excel), on a le droit au message suivant :
![erreur chargement](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/erreur-chargement-calc.jpg)
Heureusement, nous utilisons pandas nous allons pouvoir ouvrir le fichier sans encombres.

# Phase 1 : Récupération / Chargement du fichier

In [None]:
# Utilisateurs de Google Colab
# pensez bien à uploader le fichier dans cette cellule
# avec le code plus haut

In [1]:
# On importe pandas, pas de pandas, pas de DataFrame donc pas de manipulation de données tabulaires
import pandas as pd
# On charge le fichier dans une cellule spécifique. Pourquoi ? On veut éviter de charger ce gros fichier régulièrement.
# Si nous utilisez Google Colab, ça devrait aller plus vite.
liste_prenoms_source = pd.read_csv("datasets/naissances-par-departement-1900-2019.csv", sep=";") # le fichier est chargé en tant que DataFrame

# Phase 2 : Exploration des données
Après avoir chargé un DataFrame, la première chose à faire est de l'explorer. Cette phase nous permet de savoir assez facilement et rapidement quel jeu de données on manipule, on essaye de répondre aux questions suivantes :
- A quoi ressemble notre DataFrame ? # `df.head()` ou `df.tail()` ou `display(df)` / `display(df)` équivaut à faire `df.head()` et `df.tail()`
- Combien de lignes/colonnes possède-t-il ? # `df.shape`
- Quel est le type des données ? # `df.dtypes`
- Quels sont les noms des colonnes ? # `df.columns`
- Existe-il des données absentes ? # `df.isnull().sum()` ou `df.isna().sum()`
- Quelles données statistiques ressortent de mon jeu de données ? # `df.describe()`
- Combien de valeurs uniques existe-t-il ? # `df.value_counts()`
- Quelle est valeur min/max de certaines colonnes ? # `df['colonne'].min()/.max()`
- Quelles sont les valeurs uniques pour une colonne ? # `df['colonne'].unique()`

Il n'est pas utile de répondre à toutes ces questions, toutefois, il faut au moins répondre aux questions suivantes : 
- A quoi ressemble notre DataFrame ?
- Existe-il des données absentes ?

Ces deux questions nous aideront beaucoup pour la phase suivante

## A vous de coder
Répondre en code aux questions posées plus haut, inutile de stocker ceci dans une variable, utiliser un simplement la fonction `display()`

In [2]:
# Codez ici

Qu'observez-vous ?

# Pourquoi les index ?

Dans la précédente partie, nous avons vu qu'il était possible de définir des index dans un DataFrame, une fois défini, nous avions accès à la syntaxe `df.loc['mon_index']`. **Il faut comprendre que la définition de l'index a une importance quant aux performances de pandas.** Prenons le cas suivant : Nous souhaitons chercher toutes les occurences du prénom "Pauline" dans notre DataFrame. Nous pouvons écrire le code suivant.
```python
    liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]
```
Ou nous pouvons définir la colonne "preusuel" en tant qu'index puis faire une rechercher grâce à la propriété ".loc".
```python
    liste_prenoms_source.set_index("preusuel").loc['PAULINE']
    # Note : L'opération "set_index" est coûteuse en terme de temps
```
Comparons les deux instructions (il est possible d'exécuter plusieurs cellules en même temps). L'opération `set_index` étant coûteuse, on va effectuer trois tests et calculer le temps d'exécution :
- La recherche du prénom "PAULINE" sans index
- La recherche du prénom "PAULINE" avec la colonne "preusuel" indexée + indexation de la colonne "preusuel"
- La recherche du prénom "PAULINE" avec la colonne "preusuel" indexée

In [11]:
%timeit liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]
display(liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"])

197 ms ± 5.32 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Unnamed: 0,sexe,preusuel,annais,dpt,nombre
3350517,2,PAULINE,1900,01,7
3350518,2,PAULINE,1900,02,35
3350519,2,PAULINE,1900,03,7
3350520,2,PAULINE,1900,04,10
3350521,2,PAULINE,1900,05,6
...,...,...,...,...,...
3356649,2,PAULINE,2019,93,6
3356650,2,PAULINE,2019,94,13
3356651,2,PAULINE,2019,95,5
3356652,2,PAULINE,2019,974,14


In [6]:
%timeit liste_prenoms_source.set_index("preusuel").loc['PAULINE']

435 ms ± 7.77 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [7]:
preusuel_index = liste_prenoms_source.set_index("preusuel")
%timeit preusuel_index.loc['PAULINE']

53.1 ms ± 586 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


Quels résultats observez-vous ?

# Commandes magiques

Vous avez remarqué que dans les cellules précédentes, nous avons utilisé `%timeit`, cette syntaxe est propre à jupyter, on appelle ceci une commande magique. Elles ajoutent de nouvelles fonctionnalités aux notebooks de façon très simple, ces fonctionnalités peuvent s'appliquer sur **une seule ligne de code** comme le code ci-dessous.

```python
%ma_commande_magique mon_code_python
```

ou du code sur plusieurs lignes (remarquez bien la présence double du signe pourcentage `%%`).

```python
%%ma_commande_magique 
mon_code_python
```
Dans le cas ci-dessus la commande magique s'applique sur toute la cellule. Ainsi le code de la première cellule contenant `%timeit` aurait pu être écrit de de la façon suivante.


```python
%%timeit 
liste_prenoms_source[liste_prenoms_source['preusuel'] == "PAULINE"]
```

**Attention :** Toutes les commandes magiques ne sont pas elligibles à la gestion multilignes.

In [3]:
# Il est possible de lister les commandes magiques avec la commande : %lsmagic
%lsmagic

# la commande %quickref affiche la documention des commandes
%quickref

# Phase 3 : Nettoyage de données

Dans les grandes lignes, le nettoyage de données consiste à supprimer/modifier les mauvaises de données, elles peuvent être de plusieurs formes : 
- Une donnée / colonne manquante
- Des données dupliquées
- Une donnée au mauvais format
- Une donnée incorrecte

Il est préférable de nettoyer les données pour plusieurs raisons :
- Eviter les problèmes de calculs (données manquantes, données aberrantes...)
- Eviter les affichages étranges de graphiques

### Exemples de code pour nettoyer les données

- Permet de supprimer lignes avec des données absentes
Le paramètre "inplace" permet de faire muter le dataframe quand le paramètre est égale à "True", inplace=False renvoie un nouveau dataframe
```python 
df.dropna(inplace = True)
```

- Permet de supprimer lignes avec des données non conformes
```python 
df.drop(df[<nos conditions>].index)
```

- Permet de supprimer lignes avec des données dupliquées
```python 
df.drop_duplicates()
```

- Permet de remplir les cases vides d'une colonne, par la valeur moyenne de la colonne
La fonction retourne un nouveau dataframe, toutefois, il est possible de faire muter le dataframe en rajoutant le paramètre "inplace = True"
```python 
df['nom_de_la_colonne'].fillna(df['nom_de_la_colonne'].mean())
```

- Permet de changer le type d'une colonne
Ceci peut permettre, notamment de diminuer la taille en mémoire d'un dataset (`df.info(memory_usage='deep')`)
```python 
df['nom_de_la_colonne'] = df['nom_de_la_colonne'].astype(nom_du_type)
```

- Permet d'appliquer une fonction sur une colonne (ne pas oublier de retourner la valeur)
```python
def ma_fonction(val):
    return val + 2
df['nom_de_la_colonne'] = df['nom_de_la_colonne'].apply(ma_fonction)
```

- Permet de filtrer les lignes par condition (& pour "et", | pour "ou")
```python
df[(df["nom_de_la_colonne"] == "valeur") | (df["nom_de_la_colonne"] == "valeur")]
```

# A vous de coder

A partir du DataFrame des prénoms, définir des dataframes correspondants aux critères suivants (une ligne, un nouvel dataframe) :

- Contient 10 000 premières entrées concernant les naissances d'enfants de sexe féminin dans toute la France
- Contient toutes les naissances d'enfants ayant votre prénom dans toute la France
- Contient toutes les naissances de l'année 2001 dans le département du Val-d'Oise (95)
- Contient toutes les naissances de l'année 2001 dans la région de votre choix (plusieurs départements) + une colonne contenant le nom de la région.
- Contient toutes les naissances des années 1991, 2001 et 2011 dans toute la France

In [None]:
# Contient 10 000 premières entrées concernant les naissances d'enfants de sexe féminin dans toute la France

In [36]:
# Contient toutes les naissances d'enfants ayant votre prénom dans toute la France

In [None]:
# Contient toutes les naissances de l'année 2001 dans le département du Val-d'Oise (95)

In [35]:
# Contient toutes les naissances de l'année 2001 dans la région de votre choix (plusieurs départements) 
# + une colonne contenant le nom de la région

In [34]:
# Contient toutes les naissances des années 1991, 2001 et 2011 dans toute la France

En analyse de données, notre but est de se poser des questions et bien évidemment d'y répondre grâce à la donnée, pour enfin en conclure quelque chose. N'oubliez pas _qu'un problème bien posé est à moitié résolu_. Ce sont des questions qui vont piloter vos DataFrame, votre code, vos articles.

# A vous de coder

A partir du DataFrame des prénoms, répondre aux questions suivantes avec une variable ou un DataFrame :
- Quel est le prénom masculin et féminin le plus populaire de l'année 1995 ?
- Quel département a vu naître le plus de "Jean" (toutes années confondues) ?

In [130]:
# Quel est le prénom masculin et féminin le plus populaire de l'année 1995 ?

In [125]:
# Quel département a vu naître le plus de "Jean" (toutes années confondues) ?