# Librairie tableaux, statistiques et data science : pandas

> pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

In [None]:
# On importe le module principal du package et on affiche la version de pandas
import pandas as pd
print(pd.__version__)

In [None]:
# On affiche l'aide
?pd

## Nouveaux types d'objets fournis par pandas

Pandas fourni principalement le type (classe) d'objet `DataFrame`.

In [None]:
# On créé un DataFrame vide qu'on enregistre dans la variable df, puis on l'affiche
df = pd.DataFrame()
print(df)

On peux créer un DataFrame à partir d'un dictionnaire existant. Les clés du dictionnaire doivent correspondre aux colonnes, et les valeurs aux lignes.

In [None]:
inventaire_arbres = {
    'espece': ['chêne', 'charme', 'hêtre', 'cocotier'],
    'nombre': [15, 24, 2, 0]
}

df_arbres = pd.DataFrame(inventaire_arbres)
print(df_arbres)

La [pandas cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) résume beaucoup de méthodes et à avoir toujours sous la main.

Par exemple, pour ajouter des lignes à un DataFrame :

In [None]:
inventaire_nouveaux_arbres = {
    'espece': ['pommier', 'poirier', 'bananier', 'manguier'],
    'nombre': [15, 24, 54, 26]
}

# En réalité, on va concaténer deux DataFrames ayant les mêmes colonnes
df_nouveaux_arbres = pd.DataFrame(inventaire_nouveaux_arbres)
df_arbres = pd.concat([df_arbres, df_nouveaux_arbres])

print(df_arbres)

Notez qu'après une concaténation, les index pandas ne sont plus uniques, contrairement aux index Python qui le sont toujours.

In [None]:
print(df_arbres.loc[1])
print('---')
print(df_arbres.iloc[1])

On peux reset les index pandas. Une colonne index sera alors créée pour conserver les anciens index.

In [None]:
df_arbres.reset_index(inplace = True)
print(df_arbres)

> ✍️ Transformer le dictionnaire ci-dessous en DataFrame pandas.

In [None]:
infos_personnelles = {
    'id': ['jdupont', 'gabitbol'],
    'nom': ['Dupont', 'Abitbol'],
    'prenom': ['Jean', 'Georges'],
    'age': [37, 71],
}



> ✍️ Ajouter une personne à ce tableau en utilisant la fonction concat(). Faire en sorte que les index soient uniques pour chaque ligne.

Les tableaux pandas sont dits "tidy". Exemple :

In [None]:
# Faire référence à une colonne
df_arbres['espece']

In [None]:
# Multiplier 2 colonnes
print(df_arbres['index'] * df_arbres['nombre'])

Pour supprimer une colonne dont on n'a plus besoin :

In [None]:
df_arbres.drop(columns=['index'], inplace = True)
print(df_arbres)

Pour résumer des variables selon un champ catégoriel :

In [None]:
# Rajoutons quelques lignes à notre tableau
df_arbres = pd.concat([
    df_arbres, 
    pd.DataFrame({
    'espece': ['chêne', 'charme', 'hêtre', 'cocotier'],
    'nombre': [15, 24, 2, 0]
    })
])

print(df_arbres)

In [None]:
# Résumons en faisant une somme par catégorie
somme_arbres = df_arbres.groupby('espece').sum()
print(somme_arbres)

En faisant cela, l'index pandas est devenu une chaine de caractère correspondant au nom du groupe au moment du `groupby`.

In [None]:
somme_arbres.index

In [None]:
somme_arbres.loc['charme']

Pour réaliser des graphiques, on peux utiliser matplotlib via une méthode des DataFrames pandas :

In [None]:
df_arbres.plot.bar(x='espece', title='Nombre d\'especes')

In [None]:
# Avec des lignes dupliquées
mon_histo = df_arbres.plot.bar(x='espece', y='nombre', title='Nombre d\'individus recensés par espèce')

In [None]:
# Avec le résumé statistique
mon_histo = somme_arbres.sort_values('nombre', ascending=False).plot.bar(y='nombre', title='Nombre d\'individus recensés par espèce')

## Lire et écrire dans des fichiers avec pandas

Pandas peut générer des tableaux de données directement depuis des fichiers : par exemple csv, presse-papier, excel, sql, json, xml, ...
Nous allons travailler avec un jeu de données de l'agence ORE (https://www.data.gouv.fr/fr/datasets/consommation-annuelle-delectricite-et-gaz-par-departement-et-par-secteur-dactivite/).

In [None]:
df_conso = pd.read_csv('datasets/conso-elec-gaz-annuelle-par-secteur-dactivite-agregee-departement.csv', sep=';', encoding='UTF-8')
print(df_conso)

La sauvegarde d'un tableau de données dans un fichier est également extrêmement simple.

In [None]:
df_arbres.to_csv('datasets/output/inventaire.csv', sep=',')

## Visualiser des données avec pandas
### Table

Les tableaux pandas s'intègrent bien dans les Jupyter notebook si on enlève la fonction `print()`.

In [None]:
df_conso

Les méthodes head et tail permettent de récupérer les premières et dernières lignes.

In [None]:
df_conso.head(15)

In [None]:
df_conso.tail(15)

On obtient la liste des variables (colonnes) du tableau avec l'attribut ```.columns```

In [None]:
df_conso.columns

On accède aux lignes via leur index grâce à la propriété `.loc[]`

In [None]:
df_conso.loc[30:40]

In [None]:
somme_arbres

In [None]:
# Cela fonctionne aussi avec les index de type str
somme_arbres.loc['charme':'poirier']

On peux filtrer les lignes de ces différentes façons :

In [None]:
df_conso[df_conso['filiere'] == "Electricité"]

In [None]:
df_conso.query('consoa > 20000')

### Charts

Voici quelques possibilités simples de plot avec pandas. Ces fonctionnalités sont utiles pour visualiser l'état de vos données en cours de traitement, mais je conseille plutôt d'utiliser R et ggplot pour réaliser vos graphiques pour vos rapports et publications.

Toutes les possibilités de plotting de pandas sont [détaillées ici](https://pandas.pydata.org/docs/user_guide/visualization.html) et [là](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html#pandas-dataframe-plot).

In [None]:
df_isere = df_conso.query('code_departement == "38" and filiere == "Electricité" and operateur == "Enedis"')
df_isere

In [None]:
df_isere.plot.scatter(x='annee', y='consoa')

> ✍️ Filtrer le dataset df_conso pour ne garder que les données de la filière électricité de l'opérateur Enedis. Tracer des boxplot par année pour une des variables à l'aide de la méthode de DataFrame `.boxplot()`. Utilisez l'aide pour trouver les arguments dont vous avez besoin pour choisir la variable à afficher et la variable catégorielle.

> ✍️ Calculer les moyennes de la consommation annuelle de gaz industrielle par année par région et tracer le résultat sur un graphique.

> ✍️ Enregistrer le DataFrame des moyennes dans un fichier csv.

## Ajouter des géométries spatiales avec geopandas

Le package geopandas ajoute la gestion des géométries spatiales à pandas.

In [None]:
import geopandas as gpd

### Ouvrir un shapefile comme GeoDataFrame

In [None]:
adminexpress = gpd.read_file('datasets/DEPARTEMENT.shp')
print(adminexpress.info())

In [None]:
adminexpress

### Réaliser une jointure avec les données de l'agence ORE

> ✍️ Filtrer les données de l'agence ORE pour n'obtenir la somme de consommation électrique de l'année 2020 par département (tous opérateurs confondus). Utiliser la méthode pd.merge pour faire une jointure avec ADMINEXPRESS (consulter la documentation de pandas)

### Produire des cartes avec geopandas

On peux utiliser un dataset fourni dans le package geopandas comme fond de carte et utiliser matplotlib pour générer une carte.

In [None]:
# On peux simplement afficher les géométries de cette façon en colorant les polygones selon la consommation électrique annuelle agricole
map = gdf.plot(column='consoa', legend=True)

In [None]:
# On peux utiliser le package contextily pour ajouter un fond OSM
import contextily as cx

# Il faut pour cela reprojeter nos points en Pseudo-Mercator
gdf_pm = gdf.to_crs(epsg=3857)

# On refait ensuite la même carte que précédemment avec la consommation électrique du secteur tertiaire
map = gdf_pm.plot(column='consot', legend=True)

# Et on ajoute la basemap
cx.add_basemap(map)

La méthode `explore()` permet de générer rapidement un leaflet. Cette méthode fait appel au package ipyleaflet.

In [None]:
gdf_pm.explore(     
    column="consototale", # Utiliser le champ consototale pour la couleur des polygones
    tooltip=["NOM", "consoa", 'consoi', 'consot', 'consor', 'consona'], # Sélectionner les variables à afficher dans le tooltip
    popup=True, # Montrer toutes les valeurs dans le popup (lorsque l'on clique sur le polygone)
    tiles="CartoDB positron", # Choix du fond de carte
)

### Enregistrer et lire un fichier avec geopandas

On peux enregistrer notre tableau de données spatiales sur le disque (shp, gpkg, sql, ...).

In [None]:
gdf.to_file('datasets/output/conso_electrique_departements_2020.gpkg')
gdf = None

print(gdf)

Et bien sûr, recharger en mémoire un fichier existant.

In [None]:
gdf = gpd.read_file('datasets/output/conso_electrique_departements_2020.gpkg')
gdf

### Pour aller plus loin avec geopandas

Geopandas permet de faire énormément de chose que l'on fait classiquement dans un SIG avec des méthodes très simples à utiliser : jointures spatiales, buffer, calculs de distance, etc.

Pour en savoir plus, [rendez-vous dans la doc !](https://geopandas.org/en/stable/getting_started/introduction.html)

#### TP Bonus

> ✍️ Réaliser une carte de l'évolution globale de la consommation électrique annuelle sur la période 2011-2021 par département, pour un secteur d'activité au choix