## Semaine 2 : Premier algorithme 

#### Contexte : 

Après avoir réalisé des sipmles méthodes de prédictions et de classifications, nous allons s'intersser aujourd'hui à réaliser un premier algorithme qui permettra aux utilisateurs d'extraire les trajectoires principaux et leurs caractéristiques à partir d'un jeu de données.

#### Objectifs : 

Extraire pour chaque trajectoire :
* Le point de départ et d'arrivée (approximatif)
* Si plusieurs trajectoires sont similaires alors et les grouper (et grouper leurs points de départ/arrivée)
* Indiquez les heures et durées de ces trajectoires

Tout d'abord je vous invite vivement à revoir les détails de la page suivante [Filtre et staypoint](https://github.com/AmigoCap/GPSFlow/blob/master/notebooks/4-StayPoint.ipynb) car la totalité du travail est basée sur cette dernière.

### 1. Outils et bibliothèques nécessaires

In [55]:
import gmplot
import filters
import extraire
import distance
import colors
import datetime
import time
import numpy as np
from projectColors import defineColorsList
import matplotlib.pyplot as plt
from IPython.display import IFrame
import method12
import trajec

In [2]:
lColors=defineColorsList()

### 2. Chargement des données :

Nous avons essayé de travailler sur les mêmes données des mêmes journées que le projet [GPSFLow](https://github.com/AmigoCap/GPSFlow/blob/master/notebooks/4-StayPoint.ipynb)

In [4]:
android_df = extraire.importJson("data/android_small.json", True)

### 3. Chargement d'un jour particulier 

In [5]:
day_df = extraire.selectDate("14-12-2017", android_df)

In [6]:
gmap = gmplot.GoogleMapPlotter(45.764376, 4.810495, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df['latitude'],day_df['longitude'], 'cornflowerblue', edge_width=3)
gmap.draw("figure/4-day-df-wofilter.html")
IFrame('figure/4-day-df-wofilter.html', width=990, height=500)

### 4. Detection des Stay Points

Nous allons , dans un premier temps, détectés les points pour lesquels l'utilisateur est immobile. [Algorithme détailler ici](https://github.com/AmigoCap/GPSFlow/blob/master/notebooks/4-StayPoint.ipynb)

In [7]:
import staypoint as st

Avant nous allons appliqué un mean filter sur la journée avec un fenêtre assez large, ici de 10 points. Cela permet de rapprocher les points "immobiles" et d'éliminer le bruitage

In [9]:
day_df = filters.meanFilter(day_df, 10)

In [12]:
stay_point_df = st.findStayPoints(day_df, 3, 50, 5)
stay_point_df.head()

Unnamed: 0,timestampMs,latitude,longitude,date,time,delay,distance,velocity,acceleration,lat_mean_filt,lng_mean_filt,is_mouvement,segment_mouvement
0,1513292391181,45.761797,4.826769,14-12-2017,23:59:51,21.185,6.389155,1.103164,0.190474,45.761797,4.826769,False,1
1,1513292370331,45.761831,4.826702,14-12-2017,23:59:30,20.85,1.641587,0.283698,0.049029,45.761831,4.826702,False,1
2,1513292349500,45.761825,4.826721,14-12-2017,23:59:09,20.831,4.079515,0.885995,0.192422,45.761825,4.826721,False,1
3,1513292332924,45.76186,4.82671,14-12-2017,23:58:52,16.576,0.0,0.0,0.0,45.76186,4.82671,False,1
4,1513292329379,45.76186,4.82671,14-12-2017,23:58:49,3.545,0.0,0.0,0.0,45.76186,4.82671,False,1


Donc maintenant on pourra exploiter nos données car le **stay_point_df** est segmenté en deux catégories (les points en mouvement et les points immobile)

In [11]:
trajectoire = stay_point_df[stay_point_df["is_mouvement"] == True] # Variable contenant toutes les coordonnées en mouvement 
stay_point = stay_point_df[stay_point_df["is_mouvement"] == False] # Variable contenant toutes les coordonnées immobiles 

### 5. Points départ et points d'arrivé

Pour estimer les points de départ et d'arrivé des trajectoires, nous avons essayé de partir sur le raisonnement le plus naturel et intuitive. C'est d'utilister la moyenne des points proches en eux et appartenant au même segment de mouvement

In [13]:
stay_point_mark = method12.approxiamtion(stay_point_df,False)

La méthode **approximation** , définie sur le module **method12**, transforme les données en liste d'élément et chaque élément est représenté sur forme d'une liste contenant (latitude, longitude, delay, la vitesse, la date, le segement de mouvement)

In [18]:
print(stay_point_mark[0]) # Le premier élément est la somme de toute les caractérisques appartenant au même segment de mouvement divisé par le nombre de points du segment

[45.76185844083698, 4.8267118091162295, 34.21510511627907, 2.1278324385664393, '18:23:36.347907', 1.0]


In [23]:
gmap = gmplot.GoogleMapPlotter(45.764376, 4.810495, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df['lat_mean_filt'],day_df['lng_mean_filt'], 'cornflowerblue', edge_width=3)
gmap.scatter(method12.lat(stay_point_mark),method12.log(stay_point_mark), '#FF0000', size = 20, marker = False)
gmap.draw("figure/4-day-df-wofilter.html")
IFrame('figure/4-day-df-wofilter.html', width=990, height=500)

On remarque d'après la figure obtenue qu'il existe plusieurs staypoint qui sont confondus dans un même endroit. Donc si nous voulons estimer des points de départ et d'arrivé, il faut essayer de regrouper ces staypoints confondus. Pour cela nous allons utilisé une autre méthode **filtrer** du module **mehod12** afin de réduires le nombre des staypoints proches.

Cette méthode filtrer prends deux arguments (les données, seuil de regoupement).
Le seuil de regroupement permet d'éliminer chaque staypoint proche à une autre si la différence entre les coordonnées des points est supérieur à ce seuil.

##### !!! à ce stade ce coefficient est choisi d'une manière arbitraire

### 6. Determination des trajectoires principales :

**1. Algorithme de Ramer-Douglas-Peucker**

L’algorithme de Ramer-Douglas-Peucker sert à simplifier un polygone ou une polyligne par la suppression de nœud. Il est beaucoup utilisé en compression de données vectorielles et en généralisation cartographique.

L'algorithme travaille de manière récursive par la méthode « diviser pour régner ».

À l'initialisation on sélectionne le premier et le dernier nœud (cas d'une polyligne), ou un nœud quelconque (cas d'un polygone). Ce sont les bornes.

À chaque étape on parcourt tous les nœuds entre les bornes et on sélectionne le nœud le plus éloigné du segment formé par les bornes :

s'il n'y a aucun nœud entre les bornes l'algorithme se termine,
si cette distance est inférieure à un certain seuil on supprime tous les nœuds entre les bornes,
si elle est supérieure la polyligne n'est pas directement simplifiable. On appelle de manière récursive l'algorithme sur deux sous-parties de la polyligne : de la première borne au nœud distant, et du nœud distant à la borne finale.

In [26]:
stay_point_traj_filter = trajec.methoderdp(trajectoire,0.004)

Le seuil dans cette méthode est aussi choisi d'une manière arbitraire

In [29]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(method12.lat(stay_point_traj_filter),method12.log(stay_point_traj_filter),'cornflowerblue', edge_width=1)
gmap.draw("figure/2-lyon-map-data-an.html")
from IPython.display import IFrame
IFrame('figure/2-lyon-map-data-an.html', width=990, height=500)

Concernant les autres caractéristiques du trajectoire (vitesse, durée), nous allons procédé sur le principe de la moyenne sur le segment de mouvement

In [30]:
stay_point_mark_filter = method12.filtrer(stay_point_mark,0.0032)

Trajectoire  1
point depart : lat =  45.787961188235286 long =  4.775714067647059
point d'arrive : lat =  45.75870296666667 long =  4.822558022222221
Heure de depart :  12:13:52.764706
Heure d'arrive :  13:35:58.444444
Duree :  4:37:32
Trajectoire  2
point depart : lat =  45.78436824709294 long =  4.768336674999994
point d'arrive : lat =  45.787961188235286 long =  4.775714067647059
Heure de depart :  10:37:32.040698
Heure d'arrive :  12:13:52.764706
Duree :  0:10:06
Trajectoire  3
point depart : lat =  45.780787 long =  4.7752099999999995
point d'arrive : lat =  45.78436824709294 long =  4.768336674999994
Heure de depart :  8:28:29.250000
Heure d'arrive :  10:37:32.040698
Duree :  0:26:34
Trajectoire  4
point depart : lat =  45.788277975 long =  4.771291799999999
point d'arrive : lat =  45.780787 long =  4.7752099999999995
Heure de depart :  8:11:42.750000
Heure d'arrive :  8:28:29.250000
Duree :  0:01:36
Trajectoire  5
point depart : lat =  45.7802575111111 long =  4.803862311111112


### Resultat obtenu sur une journée

In [31]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.scatter(method12.lat(stay_point_mark_filter),method12.log(stay_point_mark_filter), '#3B0B39', size = 20, marker = False)
gmap.plot(method12.lat(stay_point_traj_filter),method12.log(stay_point_traj_filter),'cornflowerblue', edge_width=1)
gmap.draw("figure/2-lyon-map-data-an.html")
from IPython.display import IFrame
IFrame('figure/2-lyon-map-data-an.html', width=990, height=500)

### Application de la même procedure sur une autre journée 

In [47]:
day_df2 = extraire.selectDate("28-11-2017", android_df) # 28 novembre 2017

In [48]:
day_df2 = filters.meanFilter(day_df2, 10)

In [49]:
stay_point_df2 = st.findStayPoints(day_df2, 3, 50, 5)

In [50]:
trajectoire2 = stay_point_df2[stay_point_df2["is_mouvement"] == True]
stay_point2 = stay_point_df2[stay_point_df2["is_mouvement"] == False]

In [51]:
stay_point_mark2 = method12.approxiamtion(stay_point_df2,False)
stay_point_traj2 = method12.approxiamtion(stay_point_df2,True)

In [52]:
stay_point_mark_filter2 = method12.filtrer(stay_point_mark2,0.002)
stay_point_traj_filter2 = trajec.methoderdp(trajectoire2,0.004)

Trajectoire  1
point depart : lat =  45.78523429772727 long =  4.856807427272728
point d'arrive : lat =  45.76189571226416 long =  4.826664564150942
Heure de depart :  12:23:28.590909
Heure d'arrive :  16:39:28.679245
Duree :  4:16:00


In [54]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.scatter (method12.lat(stay_point_mark_filter2),method12.log(stay_point_mark_filter2), '#3B0B39', size = 20, marker = False)
gmap.plot(method12.lat(stay_point_traj_filter2),method12.log(stay_point_traj_filter2),'cornflowerblue', edge_width=1)
gmap.plot(stay_point_df2["lat_mean_filt"],stay_point_df2["lng_mean_filt"],'#FF0000', edge_width=1)
gmap.draw("figure/2-lyon-map-data-an.html")
from IPython.display import IFrame
IFrame('figure/2-lyon-map-data-an.html', width=990, height=500)

### Conclusion

On constate que le choix des seuils influence d'une manière énorme sur les résultats obtenus. Pour cela nous devons penser à améliorer nos méthodes à travers la mise en place d'un outil qui permettra de terminer d'une façon optimale nos seuils