![lyon2 geonum](https://perso.liris.cnrs.fr/lmoncla/GEONUM/fig/logos.png)

# 2A3 – Modélisation et structuration de données géographiques et applications SGBD spatiaux

## Tutoriel : Analyse des données des disponibilités des stations Vélo'v de la Métropole de Lyon

# Partie 3 : Un peu de science des données


L'objectif de cette partie du tutoriel est de continuer l'analyse des données velo'v et d'expérimenter des méthodes d'intelligence artificielle pour faire de la prédiction des disponibilités vélo'v en ajoutant les données des conditions météo.

Les objectifs de cette partie sont les suivants : 

* Récupérer le jeu de données météo et l'associer à celui des velo'v.
* Visualiser les données selon cette nouvelle couche météo.
* Entraîner un modèle de prédiction de la demande des vélo'v.


## 1. Configurer l'environnement

### 1.2 Télécharger les fichiers et installer les librairies (seulement pour Google Colab)

* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier [README.md](https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing/-/blob/main/README.md)), vous pouvez ignorer la section suivante et passer directement à la section 1.2.
* Si vous exécutez ce notebook depuis Google Colab, vous devez exécuter les cellules suivantes :

In [None]:
! git clone https://github.com/ludovicmoncla/master-geonum-tutorials.git

In [None]:
! pip install -r master-geonum-tutorials/requirements.txt

### 1.2 Importer les librairies

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import folium
import plotly
import plotly.express as px
import geopandas

import seaborn as sn

import sklearn.cluster

## 2. Récupération des jeux de données

Comme pour la Partie 1, l'ensemble des données utilisées dans ce tutoriel est disponible à cette adresse : 
https://perso.liris.cnrs.fr/lmoncla/GEONUM/

* Télécharger les fichiers contenant les données
1. data-stations.zip
2. data-bikes-2.zip
3. data-weather-lyon.csv

Les 2 zip contiennent chacun un fichier CSV contenant respectivement la liste des stations vélov (et leur localisation) et la liste des disponibilités de chaque station par tranche de 30 minutes.


In [None]:
## On commence par créer un dossier dans lequel on va télécharger les données
## Peut être fait directement depuis l'explorateur de fichiers
!mkdir data

In [None]:
## on se déplace dans le nouveau dossier
%cd data

In [None]:
## On télécharge l'archive contenant la liste des stations
!wget https://perso.liris.cnrs.fr/lmoncla/GEONUM/data-stations.zip
    
## On télécharge l'archive contenant la liste des disponibilité des stations par tranche de 5 minutes
!wget https://perso.liris.cnrs.fr/lmoncla/GEONUM/data-bikes-2.zip


### 2.1. Chargement des données

Nous chargeons les mêmes jeux de données que dans le tutoriel précédent :

1. les stations vélo'v (id station, latitude, longitude),
2. leurs historiques (id station, année, mois, jour, heure, minute, date, vélos disponibles, places disponibles).


In [None]:
## On charge les données des stations dans un dataframe
df_stations = *****

## On crée maintenant le dataframe avec les données d'historique
df_bikes = *****

In [None]:
## On affiche les premières lignes
*****

In [None]:
# Réduction de la taille en mémoire

## on transforme le type des colonnes en entier ou float lorsque cela est nécessaire
df_bikes['time'] = pd.to_datetime(df_bikes['time']) 
df_bikes[['year', 'daily_departure', 'daily_arrival']] = df_bikes[['year', 'daily_departure', 'daily_arrival']].astype('int16')
df_bikes[['month','day','hour','minute', 'bikes', 'bike_stands', 'departure30min','arrival30min', 'day_of_week']] = df_bikes[['month','day','hour','minute', 'bikes', 'bike_stands', 'departure30min','arrival30min', 'day_of_week']].astype('int8')


## 3. Ajout d'une couche de données supplémentaire : la météo


### 3.1 Chargement des données


Le fichier `data-weather-lyon.csv` contient les données météo par heure pour l'année 2021 pour Lyon.

Le jeu de données météo correspond au dataset `NASA/POWER CERES/MERRA2 Native Resolution Hourly Data` récupéré grâce à l'API du site POWER Project de la NASA : https://power.larc.nasa.gov/.




In [None]:
## On télécharge l'archive contenant les données météo
!wget https://perso.liris.cnrs.fr/lmoncla/GEONUM/data-weather-lyon.csv

In [None]:
## On charge les données météo dans un dataframe
df_weather = pd.read_csv('data-weather-lyon.csv')

In [None]:
## On affiche les premières lignes
df_weather.head()

### 3.2. Premier apercu des données météo

Les colonnes du jeu de données météo sont les suivantes : 

- WD10M           MERRA-2 Wind Direction at 10 Meters (Degrees) 
- T2M             MERRA-2 Temperature at 2 Meters (C) 
- RH2M            MERRA-2 Relative Humidity at 2 Meters (%) 
- QV2M            MERRA-2 Specific Humidity at 2 Meters (g/kg) 
- T2MDEW          MERRA-2 Dew/Frost Point at 2 Meters (C) 
- U10M            MERRA-2 Eastward Wind at 10 Meters (m/s) 
- PS              MERRA-2 Surface Pressure (kPa) 
- T2MWET          MERRA-2 Wet Bulb Temperature at 2 Meters (C) 
- WS10M           MERRA-2 Wind Speed at 10 Meters (m/s) 
- V10M            MERRA-2 Northward Wind at 10 Meters (m/s) 
- PRECTOTCORR     MERRA-2 Precipitation Corrected (mm/hour) 


Utiliser la méthode [drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) pour supprimer les colonnes que l'on ne souhaite pas conserver.

In [None]:
## On supprime les colonnes inutiles
## On ne souhaite conserver que les colonnes température, vitesse du vent et pluviométrie.

df_weather = *****

df_weather.head()

 Utiliser la méthode [rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html) pour renommer les colonnes restantes afin de pouvoir faire une jointure avec les données de disponibilité vélo'v.

In [None]:
## On renomme les colonnes pour ensuite faire une jointure de ce dataframe avec celui des données vélo'v

df_weather = *****

df_weather.head()


In [None]:
## On affiche les moyennes des températures, précipitation et vent par mois sur 3 graphiques différents

fig,(ax1,ax2,ax3)= plt.subplots(nrows=3)
fig.set_size_inches(12,20)

monthAggregated = pd.DataFrame(*****).reset_index()
monthSorted = monthAggregated.sort_values(by='temperature', ascending = False) 
sn.barplot(data=monthSorted, x = 'month', y = 'temperature', ax=ax1)
ax1.set(xlabel='Month', ylabel='Average Temperature', title='Average Temperature by Month') 

monthAggregated = pd.DataFrame(*****).reset_index()
monthSorted = monthAggregated.sort_values(by='precipitation', ascending = False) 
sn.barplot(data=monthSorted, x = 'month', y = 'precipitation', ax=ax2)
ax2.set(xlabel='Month', ylabel='Average Precipitation', title='Average Precipitation by Month') 

monthAggregated = pd.DataFrame(*****).reset_index()
monthSorted = monthAggregated.sort_values(by='vent', ascending = False) 
sn.barplot(data=monthSorted, x = 'month', y = 'vent', ax=ax3)
ax3.set(xlabel='Month', ylabel='Average Wind Speed', title='Average Wind Speed by Month') 

Utiliser la méthode [merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) pour combiner les données de disponibilité des velo'v avec les données méteo.

In [None]:
## On ajoute les données météo dans le dataframe qui contient les données de disponibilité
df_bikes = *****
df_bikes.head()

## 4. Entraînement d'un modèle de prédiction

### 4.1 Import de la librairie (scikit-learn)

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

### 4.2 Préparation des données pour l'apprentissage

In [None]:
## On fait une copie de notre DataFrame, pour pouvoir revenir aux données initiales si besoin
df_data = df_bikes.copy()

In [None]:
# On sépare le jeu de données en entrées et sorties pour l'apprentissage

# les inputs correspondent aux données fournis au modèle pour pouvoir apprendre. 
inputs = *****

# les labels correspondent aux valeurs que l'on souhaite prédire et donc que le modèle doit apprendre
labels = *****



La plupart des méthodes d'apprentissage ne peuvent utiliser que des variables numériques. Il faut donc transformer les variables catégorielles telle que `id_velov` ou `day_of_week` afin qu'elles puissent servir lors de l'apprentissage. 

Pour cela on utilise la fonction [LabelEncoder()](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) de la librairie scikit-learn. Elle permet de transformer des valeurs de type chaine de caractère en numérique par association. Par exemple : lundi -> 0, mardi -> 1, etc...

In [None]:
# On transforme les variables catégorielles en variables numériques
encoder = LabelEncoder()

# on entraîne l'encoder pour qu'il ai vu toutes les valeurs possibles
encoder.fit(df_stations.id_velov)

# on transforme la colonne id_velov
inputs['id_velov'] = encoder.transform(inputs['id_velov'])

inputs.head()

Une fois que les données sont prêtes et que les variables sont au bon format. Il faut maintenant séparer le jeu de données pour utiliser une partie des données pour l'entraînement et une autre partie pour l'évaluation. 

Pour cela on utilise la méthode [train_test_split()](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) qui permet de séparer le jeu de données en 2 de manière aléatoire pour que les jeux d'entrainement et d'évaluation aient les mêmes caractéristiques.

In [None]:
# On sépare le jeu de données en 2 : un jeu d'entraînement et un jeu de test
x_train, x_test, y_train, y_test = *****


### 4.3 Entraînement supervisé des modèles

L'ensemble des algoritmes d'apprentissage supervisée implémentés dans la librairie Scikit-Learn sont disponibles ici : https://scikit-learn.org/stable/supervised_learning.html

Dans notre cas, nous souhaitons prédire des valeurs continues par opposition aux valeurs discrètes. Nous allons donc utiliser des modèles de régression et non pas des modèles de classification.

Je vous propose de tester et comparer 2 méthodes : [Linear Regression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) et [RandomForestRegressor](https://scikit-learn.org/0.15/modules/generated/sklearn.ensemble.RandomForestRegressor.html).

#### 4.3.1 Linear Regression

In [None]:
# On déclare un modèle de type RadomForestRegressor et on l'entraîne sur le jeu d'entraînement
clf_lr = *****

*****

In [None]:
# On utilise le modèle pour faire la prédiction sur le jeu de test
predictions_lr = *****

#### 4.3.2 Random Forest Regressor

In [None]:
# On déclare un modèle de type RadomForestRegressor et on l'entraîne sur le jeu d'entraînement
clf_rf = *****
*****

# !! Cette cellule peut mettre plusieurs minutes à s'executer (entre 5 et 10 min) !! #

* Enregistrer le modèle dans un fichier pour pouvoir le réutiliser plus tard :

In [None]:
from joblib import dump
dump(clf_rf, './model-velov-demand-prediction.joblib') 

* Charger le modèle depuis le fichier :

In [None]:
from joblib import load
clf_rf = load('./model-velov-demand-prediction.joblib') 

In [None]:
# On utilise le modèle pour faire la prédiction sur le jeu de test
predictions_rf = *****

### 4.4 Evaluation et comparaison

Afin d'évaluer nos modèles de prédiction, on utilise la mesure [MAE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) (Mean Absolute Error) : 
$$\frac{\sum_{i=1}^n \left\lvert \hat{y}_i - y_i \right\rvert}{n}$$ 
qui permet de mesurer l'écart moyen absolu entre les prédictions et les valeurs à prédire. Plus cette valeur est faible, meilleur est notre modèle.




In [None]:
# On calcule l'erreur moyenne en comparant les prédictions avec les valeurs qu'il fallait prédire

mae_lr = *****

print('linear regression mae : ', mae_lr)

In [None]:
# On calcule l'erreur moyenne en comparant les prédictions avec les valeurs qu'il fallait prédire

mae_rf = *****

print('random forest regression mae : ', mae_rf)

On observe que l'erreur moyenne est nettement plus faible pour le modèle random forest ! En moyenne l'écart entre la prédiction et la réalité est de 1. Ce qui parait plutôt satisfaisant pour notre tâche. Dans le cas de l'utilisation de ce modèle dans une application, il faudrait prévenir l'utilisateur que la prédiction est en moyenne correcte à plus ou moins 1 vélo !

On souhaite maintenant afficher une évaluation sous forme de graphique. Le jeu de test contenant plus d'un million de lignes, on isole au préalable un échantillon de 100 données.

In [None]:
# On regroupe les valeurs à prédire et les prédictions au sein d'un même tableau
t = np.stack((y_test, predictions_rf, predictions_lr), axis=0)

In [None]:
# On vérifie la taille du tableau
t.shape

In [None]:
# On affiche un aperçu des valeurs
t

In [None]:
# On sélectionne un échantillon de 100 prédictions pour afficher la comparaison

idx = np.random.randint(t.shape[1], size=100)
sample = t[:,idx]

In [None]:
plt.figure(figsize=(10,7))
plt.title("Comparaison des prédictions")
plt.xlabel("Echantillon")
plt.ylabel("Vélos disponibles")
plt.plot(range(100), sample[0], color ="green", label="Vérité")
plt.plot(range(100), sample[1], color ="blue", label="Random Forest")
plt.plot(range(100), sample[2], color ="red", label="Linear Regression")
plt.legend()
plt.show()

On souhaite maintenant afficher le même type de graphique mais au lieu d'afficher la prédiction on veut afficher l'erreur.

In [None]:
err_rf = abs(sample[0]-sample[1])
err_lr = abs(sample[0]-sample[2])

In [None]:
plt.figure(figsize=(10,7))
plt.title("Comparaison des prédictions")
plt.xlabel("Echantillon")
plt.ylabel("Erreur")
plt.plot(range(100), err_rf, color ="blue", label="Random Forest")
plt.plot(range(100), err_lr, color ="red", label="Linear Regression")
plt.legend()
plt.show()

### 4.5 Utilisation du modèle

La météo a-t-elle un impact sur la prédiction ?

Pour le savoir, nous pouvons faire une prédiction de la disponibilité à une station pour une certaine date en faisant varier la météo et observer s'il y a des différences entre les prédictions.

Le modèle prend en entrée 10 paramètres :
- id_velov
- year
- month
- day
- hour
- minute
- day_of_week
- temperature
- vent
- precipitation

On se propose de faire une prédiction pour samedi prochain à 8h à la station 3094 (Gare Part-Dieu). 
On fait la prédiction pour 2 cas différents : beau et mauvais temps
1. Beau temps : température = 20, vent = 1, précipitations = 0
2. Mauvais temps : température = 8, vent = 3, précipitations = 0.10

In [None]:

# encoder le nom de la station
st = encoder.transform(['velov-3094'])


d_nice = [[st, 2021, 2, 10, 8, 0, 5, 20, 1, 0]]
d_bad = [[st, 2021, 2, 10, 8, 0, 5, 8, 3, 0.10]]

# on calcule les prédictions
p_nice = *****
p_bad = *****


In [None]:
print(p_nice)
print(p_bad)

On remarque donc que la météo a bien un impact sur la prédiction. Il y aura plus de vélos disponibles en cas de mauvais temps que de beau temps !

## Exercices

En reprenant le code des séances précédentes proposer une carte de la disponibilité des vélo'v pour l'ensemble des stations basée sur les prédictions de samedi prochain à 8h.

In [None]:
# A COMPLETER





Proposer une carte permettant de visualiser la différence entre beau et mauvais temps pour la même date.

In [None]:
# A COMPLETER

