# Librairie tableaux, statistiques et data science : pandas

> pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

In [None]:
# On importe le module principal du package et on affiche la version de pandas
import pandas as pd
print(pd.__version__)

In [None]:
# On affiche l'aide
?pd

## Nouveaux types d'objets fournis par pandas

Pandas fourni principalement le type (classe) d'objet `DataFrame`.

In [None]:
# On créé un DataFrame vide qu'on enregistre dans la variable df, puis on l'affiche
df = pd.DataFrame()
print(df)

On peux créer un DataFrame à partir d'un dictionnaire existant. Les clés du dictionnaire doivent correspondre aux colonnes, et les valeurs aux lignes.

In [None]:
inventaire_arbres = {
    'espece': ['chêne', 'charme', 'hêtre', 'cocotier'],
    'nombre': [15, 24, 2, 0]
}

df_arbres = pd.DataFrame(inventaire_arbres)
print(df_arbres)

La [pandas cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) résume beaucoup de méthodes et à avoir toujours sous la main.

Par exemple, pour ajouter des lignes à un DataFrame :

In [None]:
inventaire_nouveaux_arbres = {
    'espece': ['pommier', 'poirier', 'bananier', 'manguier'],
    'nombre': [15, 24, 54, 26]
}

# En réalité, on va concaténer deux DataFrames ayant les mêmes colonnes
df_nouveaux_arbres = pd.DataFrame(inventaire_nouveaux_arbres)
df_arbres = pd.concat([df_arbres, df_nouveaux_arbres])

print(df_arbres)

Notez qu'après une concaténation, les index pandas ne sont plus uniques, contrairement aux index Python qui le sont toujours.

In [None]:
print(df_arbres.loc[1])
print('---')
print(df_arbres.iloc[1])

On peux reset les index pandas. Une colonne index sera alors créée pour conserver les anciens index.

In [None]:
df_arbres.reset_index(inplace = True)
print(df_arbres)

> ✍️ Transformer le dictionnaire ci-dessous en DataFrame pandas.

In [None]:
infos_personnelles = {
    'id': ['jdupont', 'gabitbol'],
    'nom': ['Dupont', 'Abitbol'],
    'prenom': ['Jean', 'Georges'],
    'age': [37, 71],
}



> ✍️ Ajouter une personne à ce tableau en utilisant la fonction concat(). Faire en sorte que les index soient uniques pour chaque ligne.

Les tableaux pandas sont dits "tidy". Exemple :

In [None]:
# Faire référence à une colonne
df_arbres['espece']

In [None]:
# Multiplier 2 colonnes
print(df_arbres['index'] * df_arbres['nombre'])

Pour supprimer une colonne dont on n'a plus besoin :

In [None]:
df_arbres.drop(columns=['index'], inplace = True)
print(df_arbres)

Pour résumer des variables selon un champ catégoriel :

In [None]:
# Rajoutons quelques lignes à notre tableau
df_arbres = pd.concat([
    df_arbres, 
    pd.DataFrame({
    'espece': ['chêne', 'charme', 'hêtre', 'cocotier'],
    'nombre': [15, 24, 2, 0]
    })
])

print(df_arbres)

In [None]:
# Résumons en faisant une somme par catégorie
somme_arbres = df_arbres.groupby('espece').sum()
print(somme_arbres)

En faisant cela, l'index pandas est devenu une chaine de caractère correspondant au nom du groupe au moment du `groupby`.

In [None]:
somme_arbres.index

In [None]:
somme_arbres.loc['charme']

Pour réaliser des graphiques, on peux utiliser matplotlib via une méthode des DataFrames pandas :

In [None]:
df_arbres.plot.bar(x='espece', title='Nombre d\'especes')

In [None]:
# Avec des lignes dupliquées
mon_histo = df_arbres.plot.bar(x='espece', y='nombre', title='Nombre d\'individus recensés par espèce')

In [None]:
# Avec le résumé statistique
mon_histo = somme_arbres.sort_values('nombre', ascending=False).plot.bar(y='nombre', title='Nombre d\'individus recensés par espèce')

## Lire et écrire dans des fichiers avec pandas

Pandas peut générer des tableaux de données directement depuis des fichiers : par exemple csv, presse-papier, excel, sql, json, xml, ...

In [None]:
df_iris = pd.read_csv('datasets/iris.csv', sep=',', encoding='UTF-8')
print(df_iris)

La sauvegarde d'un tableau de données dans un fichier est également extrêmement simple.

In [45]:
df_arbres.to_csv('datasets/output/inventaire.csv', sep=',')

## Visualiser des données avec pandas
### Table

Les tableaux pandas s'intègrent bien dans les Jupyter notebook si on enlève la fonction `print()`.

In [None]:
df_iris

Les méthodes head et tail permettent de récupérer les premières et dernières lignes.

In [None]:
df_iris.head(15)

In [None]:
df_iris.tail(15)

On accède aux lignes via leur index grâce à la propriété `.loc[]`

In [None]:
df_iris.loc[30:40]

In [None]:
somme_arbres

In [None]:
# Cela fonctionne aussi avec les index de type str
somme_arbres.loc['charme':'poirier']

On peux filtrer les lignes de cette façon :

In [None]:
df_iris[df_iris['Petal.Length'] > 5]

### Charts

Voici quelques possibilités simples de plot avec pandas. Ces fonctionnalités sont utiles pour visualiser l'état de vos données en cours de traitement, mais je conseille plutôt d'utiliser R et ggplot pour réaliser vos graphiques pour vos rapports et publications.

Toutes les possibilités de plotting de pandas sont [détaillées ici](https://pandas.pydata.org/docs/user_guide/visualization.html) et [là](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html#pandas-dataframe-plot).

In [None]:
df_iris.plot.scatter(x='Sepal.Length', y='Sepal.Width')

In [None]:
df_iris[df_iris.Species == "virginica"].plot.scatter(x='Sepal.Length', y='Sepal.Width')

> ✍️ Ouvrir le dataset iris.csv dans un DataFrame. Tracer des boxplot pour une des variables à l'aide de la méthode de DataFrame `.boxplot()`. Utilisez l'aide pour trouver les arguments dont vous avez besoin pour choisir la variable à afficher et la variable catégorielle.

> ✍️ Calculer les moyennes de toutes les variables par espèce et tracer le résultat sur un graphique.

> ✍️ Enregistrer le DataFrame des moyennes dans un fichier csv.

## Exemple d'application : Récupérer des données via une API

Pour récupérer des données directement depuis une API, on va utiliser le package requests. Par exemple, l'[API des stations Velo'V](https://transport.data.gouv.fr/datasets/velos-libre-service-lyon-velov-disponibilite-en-temps-reel).

In [None]:
# On importe tout le package requests
import requests

# On récupère les informations temps réel sur les stations Velo'V
reponse = requests.get('https://transport.data.gouv.fr/gbfs/lyon/station_status.json')

# La fonction get du package requests va renvoyer un objet de type Reponse
print(reponse)

On peux vérifier à quoi correspond le code HTTP de la réponse dans la documentation de l'API. Puis on vérifie ce quelle contient.

In [None]:
print(reponse.status_code)

In [None]:
print(reponse.json())

Pour stocker le contenu de cette réponse dans un DataFrame : 

In [None]:
import pandas as pd

donnees_velov = pd.DataFrame(reponse.json()['data']['stations'])
donnees_velov

On a récupéré un certain nombre d'informations sur l'état en temps réel des stations. On peux faire un boxplot pour le nombre de vélos actuellement disponibles par station comme ci-desous.

In [None]:
graph_chronique = donnees_velov.boxplot(column=['num_bikes_available', 'num_docks_available'], rot=45)

Les dates (colonnes `last_reported` dans le DataFrame) sont dans un format particulier : le [timestamp](https://en.wikipedia.org/wiki/Unix_time) (nombre de secondes écoulées depuis l'epoch UNIX : le 1er Janvier 1970).

On peux utiliser la méthode `info()` pour vérifier le type d'objet des dates.

In [None]:
print(donnees_velov.info())

Il existe en Python un type d'objet `datetime` spécialement concu pour les dates, fourni par le package du même nom. Pas besoin de l'importer pour l'utiliser avec pandas car pandas propose des méthodes de plus haut niveau pour effectuer la conversion.

Nous allons l'utiliser pour transformer ces timestamps en dates.

In [None]:
donnees_velov['last_reported'] = pd.to_datetime(donnees_velov['last_reported'], unit='s', utc=True)
print(donnees_velov.info())

In [None]:
donnees_velov

Pour remettre nos dates sur la bonne timezone :

In [None]:
donnees_velov['last_reported'] = donnees_velov['last_reported'].dt.tz_convert('Europe/Paris')

print(donnees_velov.info())
donnees_velov

Les colonnes `is_installed`, `is_renting` et `is_returning` sont probablement des booléens codés sur les entiers 0 (False) et 1 (True). On le vérifie comme ceci : 

In [None]:
# On lance une boucle sur les noms des troic colonnes qui nous intéressent
for col in ['is_installed', 'is_renting', 'is_returning']:
    
    # On vérifie les valeurs uniques de cette colonne
    print(f'valeurs uniques de la colonne {col} : {donnees_velov[col].unique()}')

On peux aussi réaliser un boxplot par catégorie pour vérifier si c'est cohérent.

In [None]:
donnees_velov.groupby('is_installed').boxplot(column=['num_bikes_available', 'num_docks_available'], rot=45)

> ✍️ Réalisez la conversion des colonnes `is_installed`, `is_renting` et `is_returning` en booléens. Il faudra refaire la boucle sur les trois colonnes, et utiliser la méthode `.astype(bool)` pour transformer les valeurs. Vérifiez le résultat en affichant les informations du DataFrame avec la méthode `.info()`, puis en affichant le DataFrame.

> ✍️ Ajoutez une colonne `num_docks_total` : la somme de `num_bikes_available`	et de `num_docks_available`.

> ✍️ Créez un nouveau DataFrame ne contenant que les lignes correspondant à des stations installées et fonctionnelles. Utilisez la [pandas cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) pour vous aider.

Dans notre tableau, les stations sont identifiées par leur id. Pour savoir à quoi correspondent ces id, il faut récupérer des données sur un autre point de terminaison de l'API : 

In [None]:
reponse = requests.get('https://transport.data.gouv.fr/gbfs/lyon/station_information.json')

infos_stations = pd.DataFrame(reponse.json()['data']['stations'])
infos_stations

On réalise ensuite une jointure attributaire avec la fonction `merge()` du module principal de pandas :

In [None]:
donnees_velov_completes = pd.merge(donnees_velov, infos_stations, how='left', on='station_id')
donnees_velov_completes

## Ajouter des géométries spatiales avec geopandas

Le package geopandas ajoute la gestion des géométries spatiales à pandas.

In [72]:
import geopandas as gpd

### Transformer un DataFrame en GeoDataFrame

On va créer un GeoDataFrame avec des géométries spatiales de type point à partir des données latitude et longitude renvoyées par l'API.

In [None]:
gdf_velov = gpd.GeoDataFrame(donnees_velov_completes, 
                             crs="EPSG:4326", 
                             geometry=gpd.points_from_xy(donnees_velov_completes['lon'], 
                                                         donnees_velov_completes['lat']))
print(gdf_velov.info())

In [None]:
gdf_velov['geometry']

### Produire des cartes avec geopandas

On peux utiliser un dataset fourni dans le package geopandas comme fond de carte et utiliser matplotlib pour générer une carte.

In [None]:
# On peux simplement afficher les points de cette façon
stations_map = gdf_velov.plot(marker='o', color='red', markersize=1)

In [None]:
# On peux utiliser le package contextily pour ajouter un fond OSM
import contextily as cx

# Il faut pour cela reprojeter nos points en Pseudo-Mercator
gdf_pm = gdf_velov.to_crs(epsg=3857)

# On refait ensuite la même carte que précédemment
stations_map = gdf_pm.plot(marker='o', color='red', markersize=1)

# Et on ajoute la basemap
cx.add_basemap(stations_map)

La méthode `explore()` permet de générer rapidement un leaflet. Cette méthode fait appel au package ipyleaflet.

Sur DataCamp, il faudra peut-être passer en vue Jupyter Lab (`View > Switch to Jupyter Lab`) pour voir la carte, et éventuellement installer le package ipyleaflet avec la commande `!pip install ipyleaflet`.

In [None]:
# On supprime la colonne last_reported car la méthode .explore() ne sais pas gérer le type datetime
gdf_pm.drop(columns='last_reported').explore(     
    column="num_bikes_available", # Utiliser le champ num_bikes_available pour la couleur des points
    tooltip=["name", 'num_bikes_available', 'num_docks_available'], # <Sélectionner les colonnes à afficher dans le tooltip
    popup=True, # Montrer toutes les valeurs dans le popup (lorsque l'on clique sur le point)
    tiles="CartoDB positron", # Choix du fond de carte
)

### Enregistrer et lire un fichier avec geopandas

On peux enregistrer notre tableau de données spatiales sur le disque (shp, gpkg, sql, ...).

In [None]:
gdf_velov.to_file('datasets/output/stations.gpkg')
gdf_velov = None

print(gdf_velov)

Et bien sûr, recharger en mémoire un fichier existant.

In [None]:
gdf_velov = gpd.read_file('datasets/output/stations.gpkg')
gdf_velov.head()

### Pour aller plus loin avec geopandas

Geopandas permet de faire énormément de chose que l'on fait classiquement dans un SIG avec des méthodes très simples à utiliser : jointures spatiales, buffer, calculs de distance, etc.

Pour en savoir plus, [rendez-vous dans la doc !](https://geopandas.org/en/stable/getting_started/introduction.html)

## TP bonus

> ✍️ Réalisez une boucle qui requête l'API Velo'V une fois par minute pendant 30 minutes. A chaque itération, ajoutez une ligne à votre tableau de données avec les nouvelles valeurs récupérées.

> ✍️ A la fin des 30 minutes, affichez un graphique du nombre de vélos disponibles en fonction du temps pour quelques stations que vous aurez choisi. 

> ✍️ Avec votre tableau de données complet, calculez la variance du nombre de vélo disponible au cour de ces 30 minutes pour chaque station. Il faudra utiliser les méthodes `.group_by()` pour regrouper les données par station, et `.var()` pour caluler la variance. 

> ✍️ Créez une carte interactive de la variance du nombre de vélos par station Velo'V au cours de ces 30 minutes.