![lyon2 geonum](https://perso.liris.cnrs.fr/lmoncla/GEONUM/fig/logos.png)

# 2A3 – Modélisation et structuration de données géographiques et applications SGBD spatiaux


## Tutoriel : Analyse des données des disponibilités des stations Vélo'v de la Métropole de Lyon


# Partie 1 : Exploration de données


L'objectif de ce tutoriel est d'appréhender la problématique d'analyse de données spatio-temporelles grâce à l'utilisation de librairies Python.
Pour cela nous allons travailler sur un cas d'étude visant la visualisation et le traitement des données de disponibilités des stations Vélo'v de la Métropole de Lyon. 

Les données que nous allons utilisées proviennent de la [plateforme data du Grand Lyon](https://data.grandlyon.com). Elles sont mises à disposition gratuitement par la métropole de Lyon et peuvent être téléchargées dans différents formats : https://data.grandlyon.com/jeux-de-donnees/historique-disponibilites-stations-velo-v-metropole-lyon/donnees
Depuis le site du Grand Lyon, seuls les 7 derniers jours sont disponibles.


![site du grand lyon](https://perso.liris.cnrs.fr/lmoncla/GEONUM/fig/grandlyon.png)


Dans le cadre de ce TP,  vous avez à votre disposition l'ensemble des données pour la période du 7 octobre 2020 au 31 janvier 2021.


Les objectifs de ce tutoriel sont les suivants : 

* Récupérer le jeu de données, analyser sa structure et le charger dans un dataframe
* Explorer et visualiser les données
* Analyser les données : requêter le jeu de données pour générer des graphiques, des cartes et des cartes animées.






## 1. Configurer l'environnement

### 1.2 Télécharger les fichiers et installer les librairies (seulement pour Google Colab)

* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier [README.md](https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing/-/blob/main/README.md)), vous pouvez ignorer la section suivante et passer directement à la section 1.2.
* Si vous exécutez ce notebook depuis Google Colab, vous devez exécuter les cellules suivantes :

In [None]:
! git clone https://github.com/ludovicmoncla/master-geonum-tutorials.git

In [None]:
! pip install -r master-geonum-tutorials/requirements.txt

### 1.2 Importer les librairies

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime, timezone

import folium
import plotly
import plotly.express as px
import geopandas

## 2. Récupération du jeu de données

Pour palier la limite des 7 jours de disponibilité sur le site du Grand Lyon, j'ai développé un script qui récupère et stocke automatiquement les données chaque jour. Vous aurez ainsi accès aux données pour l'ensemble de l'année 2021. 
Je propose également les données au format CSV (plus simple à charger dans un dataframe qui le format JSON d'origine). Nous verrons la transformation du format de données lors de la dernière séance.

L'ensemble des données utilisées dans ce tutoriel est disponible à cette adresse : 
https://perso.liris.cnrs.fr/lmoncla/GEONUM/

* Télécharger les archives contenant les données
1. data-stations.zip
2. data-bikes.zip

Ces 2 archives contiennent chacune un fichier CSV contenant respectivement la liste des stations vélov (et leur localisation) et la liste des disponibilités de chaque station par tranche de 30 minutes.


In [None]:
## On commence par créer un dossier dans lequel on va télécharger les données
## Peut être fait directement depuis l'explorateur de fichiers
!mkdir data

In [None]:
## on se déplace dans le nouveau dossier
%cd data

In [None]:
## On télécharge l'archive contenant la liste des stations
!wget https://perso.liris.cnrs.fr/lmoncla/GEONUM/data-stations.zip
    
## On télécharge l'archive contenant la liste des disponibilité des stations par tranche de 5 minutes
!wget https://perso.liris.cnrs.fr/lmoncla/GEONUM/data-bikes.zip

### 2.1. Chargement des données

Dans ce tutoriel nous n'allons pas utiliser de SGBD. L'objectif est de charger l'ensemble des données en mémoire dans une structure Python et de l'interroger directement. 

On distingue deux types de données :
1. les stations vélo'v (id station, latitude, longitude),
2. leurs historiques (id station, année, mois, jour, heure, minute, date, vélos disponibles, places disponibles).

Pour manipuler ces données nous allons utiliser les [dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) de la librairie Pandas.

Pandas est une librairie Python spécialisée dans l'analyse et la manipulation de données. Elle fourni en particulier un objet de type 'dataframe' qui permet de réaliser des opérations de prétraitement et de filtrage que nous utiliserons pour requêter les données.

Les premiers objectifs sont les suivants :

1. Stocker dans un premier dataframe la liste des stations velo'v et leurs coordonnées latitude / longitude associées.
2. Stocker dans un second dataframe pour chaque station et chaque pas de temps les données suivantes : 
    * id de la station
    * année
    * mois
    * jour
    * heure
    * minute
    * date complète (format d'origine)
    * nombre de vélos disponibles
    * nombre de places libres
    * nombre de départs des 30 dernières minutes
    * nombre d'arrivées des 30 dernières minutes


Pour charger les données il suffit d'utiliser la méthode [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv) de la librairie `Pandas`. Elle prend en paramètre le chemin du fichier que l'on souhaite charger. Ce fichier peut être de 2 formats, soit directement un fichier CSV, soit un fichier ZIP contenant un CSV. Dans notre, cas il est donc inutile de dézipper les archives téléchargées précédemment.


In [None]:
## On charge les données des stations dans un dataframe
df_stations = pd.read_csv('data-stations.zip')

## On crée maintenant le dataframe avec les données d'historique
df_bikes = pd.read_csv('data-bikes.zip')

In [None]:
## On vérifie le type de notre variable
type(df_stations)

In [None]:
## On affiche la liste des colonnes
df_stations.columns

In [None]:
## On affiche les premières lignes
df_stations.head()

* Combien y a-t-il de stations velo'v ?

In [None]:
## On affiche la taille du dataframe
## La méthode shape retourne les dimensions (lignes / colonnes)
print(df_stations.shape)

## La fonction len() retourne le nombre de ligne
print(len(df_stations))

In [None]:
## On affiche les premières lignes
df_bikes.head()

### 2.2. Premier apercu des données d'historique

In [None]:
## On affiche les information sur les données
df_bikes.info()

In [None]:
# Réduction de la taille en mémoire

## on transforme le type des colonnes en entier ou float lorsque cela est nécessaire
df_bikes.bikes = df_bikes.bikes.apply(lambda x: int(float(x)))
df_bikes.bike_stands = df_bikes.bike_stands.apply(lambda x: np.int32(float(x)))

df_bikes['year'] = df_bikes['year'].astype('int16')
df_bikes[['month','day','hour','minute', 'bikes', 'bike_stands', 'departure30min','arrival30min']] = df_bikes[['month','day','hour','minute', 'bikes', 'bike_stands', 'departure30min','arrival30min']].astype('int8')


In [None]:
## On affiche les information sur les données
df_bikes.info()

In [None]:
## Description des données
df_bikes.describe()

In [None]:
## On affiche 5 lignes sélectionnées de manière aléatoire
df_bikes.sample(5)

### 2.3. Manipulation d'un dataframe

In [None]:
## Accès à une colonne
df_bikes['time']

In [None]:
## Accès à une colonne (autre manière en utilisant le .)
df_bikes.time

In [None]:
## Accès à un ensemble de colonnes
df_bikes[['time', 'bikes']]

In [None]:
## Récupérer les valeurs d'un ensemble de colonnes
df_bikes[['time', 'bikes']].values

Une colonne (ou variable) est un vecteur de données (Series dans la terminologie de la librarie Pandas).

In [None]:
## Affichage des premières valeurs d'une seule colonne
df_bikes['time'].head()

In [None]:
## Affichage des dernières valeurs de la colonne
df_bikes['time'].tail()

In [None]:
## On trie les valeurs d'une colonne de manière croissante
df_bikes['time'].sort_values()

In [None]:
## Le tri peut également être généralisé aux DataFrame
## Tri du jeu de données selon l'id de la station et la date
df_bikes.sort_values(by=['id_velov', 'time'])

In [None]:
## Alternative permettant de remettre l'index des lignes à zéro
df_bikes = df_bikes.sort_values(by=['id_velov', 'time']).reset_index(drop=True)
df_bikes

In [None]:
## Comptage des valeurs
df_bikes['id_velov'].value_counts()

In [None]:
## une colonne étant un vecteur il est possible d'utiliser des indices pour accèder aux éléments
## Affichage de la première valeur de la colonne time
df_bikes['time'][0]

In [None]:
## Affichage des 3 premières valeurs de la colonne time
df_bikes['time'][0:3]

#### 2.3.1 Itérations sur les colonnes (variables)

Les itérations sur les variables peuvent se faire via une boucle, ou via l'utilisation de fonctions callback appelée à l'aide d'une fonction `.apply()`.


In [None]:
## Boucler sur l'ensemble des colonne pour afficher leur nom et leur type
for col in df_bikes.columns:
    print(col, ": ", df_bikes[col].dtype)

#### 2.3.2 Itérations sur les lignes (\*\*déconseillé dans le cas des grands dataframe**)


Il est possible de parcourir les lignes d'un dataframe, mais attention, l'itération sur un dataframe est lent. Mieux vaut utiliser des opérations vectorielles ! Si on ne peut pas, on préfére utiliser une fonction callback appelée à l'aide d'une fonction `.apply()`.

Remarque : on ne peut pas modifier un dataframe sur lequel on boucle.



In [None]:
## Pour l'exemple, on itère sur le dataframe des stations (car celui de l'historique est trop grand)
for index, row in df_stations.iterrows():
    print('ID :', row.id_velov, '\t lat :', row.latitude,'\t lng :', row.longitude)


#### 2.3.3 Accès indicé aux données d'un DataFrame

On peut accéder aux valeurs du DataFrame via des indices ou plages d'indices. 
La structure se comporte alors comme une matrice. La cellule en haut à gauche est de coordonnées (0,0).
Il y a différentes manières de le faire, l'utilisation de `.iloc[,]` constitue une des solutions les plus simples.
Rappel : la méthode `shape()` permet d'obtenir les dimensions (lignes et colonnes) du DataFrame.


In [None]:
## Accès à la valeur située en (0,0) (première ligne, première colonne)
df_bikes.iloc[0,0]

In [None]:
## Valeur située en dernière ligne, première colonne
## Utilisation de l'indiçage négatif
df_bikes.iloc[-1,0]

In [None]:
## Alternative avec shape, valeur située en dernière ligne, première colonne
## shape[0] renvoie le nombre de lignes (première dimension)
## il faut réduire de -1 parce le premier indice est égal à 0 sinon on déborde
df_bikes.iloc[df_bikes.shape[0]-1,0]

In [None]:
## Affichage des 5 premières valeurs de toutes les colonnes
## lignes => 0:5 (0 à 5 [non inclus])
## colonnes = : (toutes les colonnes)
df_bikes.iloc[0:5,:]

In [None]:
## Avec l'indiçage négatif, on peut facilement accéder aux 5 dernières lignes
df_bikes.iloc[-5:,:]

In [None]:
## 5 premières lignes et colonnes 0, 6, 7 et 8
## on a une liste d'indices en colonne
df_bikes.iloc[0:5,[0,6,7,8]]

#### 2.3.4 Filtrage avec des conditions - Les requêtes

Nous pouvons isoler les sous-ensembles d'observations répondant à des critères définis sur les champs. Nous utiliserons préférentiellement la méthode `.loc[,]` dans ce cadre.

In [None]:
## Liste des données d'historique pour la station 'velov-10001'
df_bikes.loc[df_bikes['id_velov']=="velov-10001",:]

In [None]:
## Pour un ensemble de valeurs de la même variable, on utilise la méthode isin()
df_bikes.loc[df_bikes['id_velov'].isin(['velov-10001','velov-10002']),:]

Des opérateurs logiques permettent de combiner les conditions. 
On utilise respectivement : & pour ET, | pour OU, et ~ pour la négation.

In [None]:
## Liste des données pour la station 'velov-10001' et hour = 8
df_bikes.loc[(df_bikes['id_velov']=="velov-10001") & (df_bikes['hour'] == 8),:]

In [None]:
## Liste des données datant d'après juillet
df_bikes.loc[(df_bikes['month'] > 7),:]

In [None]:
#on peut n'afficher qu'une partie des colonnes
#on définit la projection dans une liste
colonnes = ['id_velov','time','bikes','bike_stands']
#que l'on utilise en paramètre dans .loc[]
#pour la même restruction que précédemment
df_bikes.loc[(df_bikes['month'] > 7),colonnes]

#### 2.3.5 Regroupement des variables

L'utilisation de `groupby()` permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement. Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.

In [None]:
#regroupement des données selon le l'id de la station
g = df_bikes.groupby('id_velov')

g.size()

In [None]:
#calculer la dimension du sous-DataFrame associé à la station 'velov_10001'
g.get_group('velov-10001').shape

### 2.4. Visualisation des localisations des stations

Maintenant que vous avez chargé les données en mémoire et vue comment manipuler un `DataFrame`, vous allez produire votre première carte.



#### 2.4.1 Utilisation des librairies GeoPandas et Plotly 

La librairie [GeoPandas](https://geopandas.org/) est conçu pour faciliter la manipulation de données spatiales. La particularité de GeoPandas est qu'elle permet de manipuler les données spatiales comme s'il s'agissait de données traditionnelles. 

Par rapport à un `DataFrame` standard, un `GeoDataFrame`, comporte une colonne supplémentaire: `geometry`. Comme dans un SGBD spatial, cette colonne permet de stocker les contours (la géométrie) d'un objet géographique. Un objet `GeoDataFrame` hérite des propriétés d'un `DataFrame` mais propose des méthodes adaptées au traitement des données spatiales.

Ainsi en plus des manipulations déjà possible avec pandas, on pourra manipulation la dimension spatiale : 
- calculer des distances et des surfaces,
- agréger rapidement des zonages (regrouper les départements en région par exemple),
- rechercher une zone à partir des coordonnées d'un point,
- convertir les données dans différents systèmes de projection,
- faire une carte.

Pour le moment on s'intèresse au dernier point afin de produire une carte des stations Velo'v.

![stations velov avec GeoPandas](https://perso.liris.cnrs.fr/lmoncla/GEONUM/fig/geopandas_stations.png)

* Affichez les stations vélo'v sur une carte. Utiliser la librairie [GeoPandas](https://geopandas.org/gallery/create_geopandas_from_pandas.html#sphx-glr-gallery-create-geopandas-from-pandas-py). Vous devez obtenir le résultat ci-dessus.

In [None]:
## On transforme le dataframe des stations en geodataframe (https://geopandas.org/gallery/create_geopandas_from_pandas.html#sphx-glr-gallery-create-geopandas-from-pandas-py)
gdf_stations = geopandas.GeoDataFrame(
    df_stations, 
    geometry=geopandas.points_from_xy(df_stations.longitude, df_stations.latitude))


In [None]:
## On affiche les premières lignes du GeoDataFrame pour vérifier l'existance de la colonne géométrie
gdf_stations.head()

In [None]:
## On affiche directement les données du geodataframe sur une carte 
## avec la méthode scatter_mapbox() de la librairie plotly.express:
fig = px.scatter_mapbox(gdf_stations,
                        lat=gdf_stations.geometry.y,
                        lon=gdf_stations.geometry.x,
                        hover_name="id_velov",
                        zoom=12, mapbox_style="carto-positron")

## On supprime les marges autour de la carte
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

## On affiche la carte
fig.show()

## 3. Préparation des données

### 3.1. Ajout d'information

Avant de pouvoir analyser les données d'historique, on souhaite ajouter quelques informations. Par exemple, le jeu de données initial ne fournit pas directement les trajets (départs / arrivées) des utilisateurs mais seulement le nombre de vélos ou de places disponibles à un instant t (par tranche de 5 minutes). Pour faire une analyse de la fréquentation ou des zones de départs et d'arrivées en fonction du moment de la journée ou de la semaine j'ai calculé les départs et arrivées par tranches de 30min.

A partir des tranches de 30 min nous pouvons par exemple inférer le nombre quotidien.


In [None]:
## On commence par faire une copie de notre DataFrame, pour pouvoir revenir aux données initiales si besoin
df_sampled = df_bikes.copy()

#### 3.1.1 Calcul du nombre d'arrivées et de départs quotidiens


On peut faire des calculs directement en groupant les lignes grâce à la méthode `groupby()`.

Quelles colonnes faut-il regrouper pour pouvoir calculer les départs et arrivées quotidiens ?

In [None]:
df_sampled.head()

In [None]:
## La méthode 'transform' permet d'appliquer un calcul au dataframe d'origine (non groupé). 
## Dans notre cas, on souhaite effectuer une somme sur les colonnes departure30min et arrival30min.

## Compléter la liste des colonnes
df_sampled["daily_departure"] = df_sampled.groupby([****])['departure30min'].transform('sum')
df_sampled["daily_arrival"] = df_sampled.groupby([****])['arrival30min'].transform('sum')


In [None]:
## On affiche 15 lignes aléatoirement pour visualiser le résultat
df_sampled.sample(15)

#### 3.1.2 Distinction semaine / weekend

Afin d'analyser les données on souhaite pouvoir distinguer les jours de la semaine des jours de weekend, pour cela nous devons préparer les données afin d'identifier les jours de weekend.

1. On défini une fonction qui retourne vrai lorsque la date est un jour de la semaine et faux lorsque c'est le weekend
2. On applique cette fonction sur chaque ligne de notre dataframe

In [None]:
## La fonction weekDay, prend 3 paramètres : l'année, le mois et le jour
def weekDay(year, month, day):
    ## Cette méthode retourne vrai (True) si la date correspond à un jour de la semaine, faux (False) sinon
    ## On utilise la fonction datetime() et la méthode weekday()
    ## https://docs.python.org/fr/3/library/datetime.html#datetime.datetime
    
    ****

## On vectorise la fonction afin de l'appliquer de manière efficace (en terme de temps de calcul) sur le dataframe
isWeekDay = np.vectorize(weekDay)

In [None]:
## On ajoute une nouvelle colonne à partir du résultat de la fonction appliquée sur l'ensemble des lignes du dataframe
df_sampled['IsWeekday'] = isWeekDay(****)


In [None]:
## on affiche un échantillon du dataframe
df_sampled.sample(10)

* Créer une nouvelle colonne `day_of_week` qui contient le jour de la semaine (0 pour lundi, 1 pour mardi, etc.)

In [None]:
df_sampled['day_of_week'] = df_sampled.apply(lambda row: datetime(row['year'], row['month'], row['day']).weekday(), axis=1)

In [None]:
## on affiche un échantillon du dataframe
df_sampled.sample(10)

## 4. Sauvegarde du jeu de données préparé

Afin de pouvoir réutiliser le jeu de données sans refaire tous les traitements on l'enregistre dans un fichier CSV.

Utiliser la méthode [to_csv()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html) de la librairie Pandas pour enregistrer le dataframe modifié dans un fichier.

In [None]:
## On enregistre le dataframe modifié

compression_opts = dict(method='zip', archive_name='data-bikes-2.csv')  
df_sampled.to_csv('data-bikes-2.zip', index=False, compression=compression_opts)