# <a id='toc1_'></a>[Modélisation des mobilités quotidiennes des individus](#toc0_)

Le but de ce notebook est d'explorer une méthodologie pour prédire les séquences de déplacements d'un individu à partir de ses caratéristiques socio-économiques.  
Ces premiers travaux ont pour objectifs de qualifier la pertinence de l'utilisation des algorithmes du traitement du langage naturel pour cette tâche.  


Définitions : 
- **Déplacement** : un déplacement est défini par un triplet (mode de déplacement, motif de déplacement, distance parcourue)
- **Séquence de déplacements** : c'est une suite ordonnée de déplacement effectué par un individu sur une journée.

Cette métohodologie se divise en 2 parties :
1. Apprentissage d'un modèle d'embedding pour effectuer un plongement sémentique des couples (mode, motif)
2. Apprentissage d'un RNN "vector to sequence" pour la prédiction d'une séquence de déplacement à partir d'un vecteur de caratistique socio-économique 

**Sommaire**<a id='toc0_'></a>    
- [Création dataset](#toc1_1_)    
  - [Récupération Data from mobility](#toc1_1_1_)    
  - [Préprocessing des données](#toc1_1_2_)    
- [Embedding des couples (MODE, MOTIF)](#toc1_2_)    
  - [Description du modèle](#toc1_2_1_)    
  - [Entrainement du modèle](#toc1_2_2_)    
  - [Data viz des 2 premières dimensions de l'emmbedings](#toc1_2_3_)    
- [RNN vector to Sequence](#toc1_3_)    
  - [Description du modèle](#toc1_3_1_)    
  - [Entrainement du modèle](#toc1_3_2_)    
  - [Exemple de prédiction](#toc1_3_3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

In [1]:
import pandas as pd
import plotly.express as px
from core import DataGetter, Mob2Vec, Features2Trajectory

## <a id='toc1_1_'></a>[Création dataset](#toc0_)

### <a id='toc1_1_1_'></a>[Récupération des données](#toc0_)
Les données utilisées sont issues de l'Enquète Mobilité des Personnes 2019 (EMP). Elles sont récupérées via le package mobility.

In [2]:
data = DataGetter(n_individus=10000, group_modalities=True)
data.get_features()
data.get_trajectories()

  self.trajectories.groupby(self.column_id)[


### <a id='toc1_1_2_'></a>[Préprocessing des données](#toc0_)

In [3]:
data.pad_trajectories()
data.distance_standardization()

## <a id='toc1_2_'></a>[Embedding des couples (MODE, MOTIF)](#toc0_)

L'objectif de ce modèle est d'apprendre un plongement sémentique de notre vocabulaire de déplacements.

Nous apprenons un modèle équivalent à word2vec : "un déplacement, définit par le couple (motif, mode), est à une trajectoire, ce qu'un mot est à une phrase"

### <a id='toc1_2_1_'></a>[Description du modèle](#toc0_)

In [4]:
mob2vec = Mob2Vec(data, window_size=2, embedding_dim=2)
mob2vec.model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 4, 2)              164       
                                                                 
 global_average_pooling1d (G  (None, 2)                0         
 lobalAveragePooling1D)                                          
                                                                 
 dense (Dense)               (None, 82)                246       
                                                                 
Total params: 410
Trainable params: 410
Non-trainable params: 0
_________________________________________________________________


### <a id='toc1_2_2_'></a>[Entrainement du modèle](#toc0_)

In [5]:
mob2vec.fit()

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [6]:
px.line(pd.DataFrame(mob2vec.history.history))

### <a id='toc1_2_3_'></a>[Data viz des 2 premières dimensions de l'emmbedings](#toc0_)

In [7]:
df_embedding = pd.DataFrame(columns=["Mode", "Motif", "x", "y"])
df_embedding[["x", "y"]] = mob2vec.embedding_layer.embeddings[:, :2]
df_embedding[["Mode", "Motif"]] = list(data.vocab.keys())

px.scatter(df_embedding, x="x", y="y", color="Motif", symbol="Mode")

## <a id='toc1_3_'></a>[RNN vector to Sequence](#toc0_)

### <a id='toc1_3_1_'></a>[Description du modèle](#toc0_)

Instanciation d'un RNN "vector to sequence".

Input : données scoio économique d'un individu (csp, nb de voitures, type de commune) à l'instant t=0, et 0 à l'instant t>0.  
Output : séquence de déplacements sur une journée. Un déplacement est défini par le triplet (motif, mode, distance).


In [8]:
feats2traj = Features2Trajectory(data, mob2vec)
feats2traj.get_trajectories_for_rnn()
feats2traj.get_feature_for_rnn()

In [9]:
feats2traj.model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm (LSTM)                 (None, 18, 10)            1080      
                                                                 
 dense_1 (Dense)             (None, 18, 3)             33        
                                                                 
Total params: 1,113
Trainable params: 1,113
Non-trainable params: 0
_________________________________________________________________


### <a id='toc1_3_2_'></a>[Entrainement du modèle](#toc0_)

In [10]:
feats2traj.fit(test_size=0.33, batch_size=100, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [11]:
px.line(pd.DataFrame(feats2traj.history.history))

### <a id='toc1_3_3_'></a>[Exemple de prédiction](#toc0_)

In [31]:
trajectory_pred_lib, trajectory_true_lib = feats2traj.compare_pred_true(indiv=0)
print("Vérité :")
trajectory_true_lib


Vérité :


[('3', '7', array([5.])),
 ('3', '1', array([5.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.])),
 ('<pad>', '<pad>', array([0.]))]

In [32]:
print("Prédiction :")
trajectory_pred_lib

Prédiction


[('3', '8', 8.85818),
 ('3', '8', 6.799532),
 ('<pad>', '<pad>', 4.3625536),
 ('<pad>', '<pad>', 2.3071275),
 ('<pad>', '<pad>', 0.95579445),
 ('<pad>', '<pad>', 0.2500274),
 ('<pad>', '<pad>', -0.041931383),
 ('<pad>', '<pad>', -0.12851933),
 ('<pad>', '<pad>', -0.131903),
 ('<pad>', '<pad>', -0.10916446),
 ('<pad>', '<pad>', -0.08325182),
 ('<pad>', '<pad>', -0.06183087),
 ('<pad>', '<pad>', -0.046351917),
 ('<pad>', '<pad>', -0.03605597),
 ('<pad>', '<pad>', -0.029641822),
 ('<pad>', '<pad>', -0.025890995),
 ('<pad>', '<pad>', -0.023858305),
 ('<pad>', '<pad>', -0.022870993)]