<div class="clearfix" style="padding: 10px; padding-left: 0px">
<img src="http://corporate.renault-trucks.com/media/image/CP-jpg/logo_ecole_centrale_lyon.jpg" width="450px" style="display: inline-block; margin-top: 5px;"/>
<br/>
<br/>
<br/>
<h1 style="color:rgb(150,0,0);text-align:center">  Séance 3 : Différents Filtres et Segmentations</h1>
<h1 style="color:rgb(150,0,0);text-align:center"> 3 Février </h1>
</div>

<h1 style="color:rgb(150,0,0)">  I. Présentation de la séance  </h1>

<h2 style="color:rgb(0,0,150)"> A. Objectifs</h2>

Les objectifs définis à la dernière séance étaient :

- Commencer à identifier des modes de transport grâce aux vitesses
- Calculer l'angle de la direction pour détecter les centres d'interets
- Changer de jeu de données pour avoir de meilleurs données 
- Travailler sur une approche vitesse pour reconnaitre les points aberrants

Cette séance nous avons décidé de travailler sur :
- Sélection d'un certain nombre de trajectoires intéressantes 
- Début du travail sur la segmentation des trajectoires
- Evaluation de différents filtres, calcul d'erreur



<h2 style="color:rgb(0,0,150)"> B. Analyse technique</h2>

### Filtrage 

#### Average & Median

Une première approche pour nettoyer les données serait d'appliquer un filtre sur l'ensemble des données.
L'objectif de ce filtre serait de filtrer réduire les variations haute-fréquences (assimilables au bruit) et d'amoidrir l'importance des acquisitions aberrantes.

Nous pouvons alors distinguer deux filtres :
- Average filter 
- Median filter 
Que nous définissons comme suit:

<p>
  Average filter :
  $$x_{n} = {\sum\limits_{i=-k}^k x_{n+i}  \over 2k+1}.$$
</p>

<p>
  Median filter :
  $$x_{n} = median  [x_{n-k}:x_{n+k}] $$
</p>

<p>
  Dans la suite, nous choisirons $k$=2
</p>

Le filtre Average recalcule une position pour tous les points. On peut également noter qu'il a tendance à lisser de manière importante les courbes. 
Le filtre Median lui, remplace les points non satisfaisants par des points réels. Ainsi, les hautes fréquences peuvent être conservées et les points aberrants efficacement éliminées.

On distingue le mean de l'average. En revanche, le mean modifie les données alors que l'average prend des données qui existent vraiment.
Faut faire attention parce que par défaut on remplace tous les points. Ce qu'on veut faire c'est reconnaitre les points aberratns (distance trop grande par rapport aux points précédents) et de les enlever.
On aura donc d'un coté les points 'biens' filtrés et de l'autre les points aberrants enlevés.

 #### Heuristics Based Outlier Detection

Plutot que de recalculer l'ensemble des points, comme avec les filtres précédents, nous pouvons établir un certain de tests que chaque point doit vérifier pour ne pas être considéré comme un point aberrant.

C'est la démarche des Heuristics Based Outlier Detection. Nous allons établir une valeur seuille sur la vitesse ou sur l'accélération, si cette valeur pour le point considéré est supérieure au seuil choisi, alors ce point sera éliminé.

Une application pourrait être par exemple, d'effacer les points avec une vitesse supérieure à 9km/h sur un parcours de marche. 

On peut noter que cette démarche laisse intacte les variations hautes fréquences, mais qu'elle peut traiter efficacement les points aberrants.

#### Kalmon et filtre à particules

Cette méthode s'appuie sur un mélange d'une approche baysienne et des filtres de Markov pour prédire la position probable du point suivant. Si ce dernier se retrouve trop éloigné de la zone de prédiction, il sera corrigé ou considéré comme aberrant.

Dans un premier temps, nous avons choisi de ne pas explorer cette méthode : elle semble trop complexe pour notre niveau d'avancement actuel.

#### Evaluation des filtres

Pour évaluer la qualité des filtres, on peut faire des parcours vraiment déterminé dans Lyon pour évaluer la qualité du débruitage.

### Segmentation des trajectoires

#### Définition

La segmentation des trajectoires correspond au calcul, sur l'ensemble des points enregistrés le long d'une journée, des trajets distincts entrepris par la personne.  
Pour être satisfaisant, le trajet calculé doit être :
- <b>réel </b>: la personne doit s'être déplacé effectivement de ce point là 
- <b> précis </b>: les localisations de la personne ne doivent pas être corrompus par du bruit
- <b> discriminant </b>: les points utilisés pour décrire un trajet, doivent correspondre au déplacement réel pour ce trajet. Et non pas par exemple à l'attente en fin de trajet.

####  Approche délai

Une première approche pour segmenter les trajectoires est d'exploiter les délais entre l'acquisition des différents points. Nous pouvons en effet corréler un délai plus long à plusieurs évenements : 
- arrêt au sein d'un batiment (travail, domicile,...)
- arrêt de l'utilisation du gps car la personne a atteint le centre d'intéret 
- présence d'un tunnel

Les deux premiers évenements peuvent s'assimiler à des coupures entre différents trajets. En revanche, la présence d'un tunnel ne renvoie pas du tout à la fin du trajet.

#### Algorithme

On regarde la distance orthogonal entre chaque point et le vol d'oiseau entre les 2 points extremes de la trajectoire. 
Si la distance est trop grande, c'est qu'on peut pas expliquer la trajectoire par une seulement une ligne droite. 

#### Evaluation moyen de transport

Pour évaluer les différents trajets, il pourrait être efficace de déterminer les différents modes de transport utilisés par une personne. 
Pour ce faire, une première étape serait de distinguer la marche de l'ensemble des autres modes de transport.

<h1 style="color:rgb(150,0,0)">  II. Code  </h1>


### Imports

In [None]:
import gmplot
import parser
import matplotlib.pyplot as plt

### Chargement des données

In [None]:
df = parser.importJson("Data/Takout/anonymous_2015.json")

In [None]:
data = parser.selectDate("21-09-2015", df)

In [None]:
data

### Présentation des données

In [None]:
plt.figure(figsize=(12,8))
plt.subplot(211)
plt.hist(data["velocity"], 100)
plt.grid(True)
plt.xlabel('Vitesse (km/h)')
plt.ylabel('Nombre d\'échantillons')
plt.subplot(212)
plt.hist(data["acceleration"], 100)
plt.grid(True)
plt.xlabel('Acceleration (km/h^2)')
plt.ylabel('Nombre d\'échantillons')
#plt.savefig('2-Preprocessing/distribVitessJournee.png')
plt.show()

La vitesse et l'accélération sont la plupart du temps très proches de 0.

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(12,8))
plt.hist(data["delay"], 100)
plt.grid(True)
plt.xlabel('Delai entre deux échantillons (secondes)')
plt.ylabel('Echantillons au cours de la journée')
plt.show()

Les echantillons sont échantillonnés pour la plupart toutes les 100 secondes.

<h2 style="color:rgb(0,0,150)"> A. Filtrage des données : Average & Mean </h2>

Dans cette partie on se propose de comparer les trajectoires filtrées avec les mean et median filters avec la trajectoire initiales en calculant la distance entre chaque point avant et après filtrage.

In [None]:
import filters
import parser
android_df = parser.importJson("Data/Takout/android_2017.json", True)
day_df = parser.selectDate("17-08-2017", android_df)

### Mean filter

In [None]:
day_df_filtered = filters.meanFilter(day_df)

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 15, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df_filtered['latitude'],day_df_filtered['longitude'], 'cornflowerblue', edge_width=3)
gmap.plot(day_df_filtered['lat_mean_filt'],day_df_filtered['lng_mean_filt'], 'red', edge_width=2)
gmap.draw("3-files/meanFilter.html")
from IPython.display import IFrame
IFrame('3-files/meanFilter.html', width=990, height=500)

Les trajets rouges sont ceux filtrés et les bleux sont les données originelles.

On peut évaluer l'amplitude de la correction appliquée par le filtre en calculant la distance pour chaque point entre sa position initiale et sa position après filtrage, distance qui correspond à "l'erreur" du GPS selon le filtre.

In [None]:
errorMean = filters.errorDistances(day_df_filtered, "lat_mean_filt", "lng_mean_filt")
plt.figure(figsize=(12,8))
plt.grid(True)
plt.xlabel('Numéro du point')
plt.ylabel('Distance entre le point d\'origine et le point filtré (m)')
plt.plot(error)
plt.show()

On remarque que certaines séquences ne subissent que des corrections minimes (notamment pour les points 100 à 500) mais que la différence peut atteindre les 400 mètres dans le pire cas.

### Median filter

In [None]:
day_df_filtered = filters.medianFilter(day_df_filtered)

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 15, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df_filtered['latitude'],day_df_filtered['longitude'], 'cornflowerblue', edge_width=3)
gmap.plot(day_df_filtered['lat_med_filt'],day_df_filtered['lng_med_filt'], 'red', edge_width=2)
gmap.draw("3-files/medianFilter.html")
from IPython.display import IFrame
IFrame('3-files/medianFilter.html', width=990, height=500)

Les trajets rouges sont ceux filtrés et les bleux sont les données originelles.

De même on peut afficher la distance entre les points filtrés et originels.

In [None]:
errorMed = filters.errorDistances(day_df_filtered, "lat_med_filt", "lng_med_filt")
plt.figure(figsize=(12,8))
plt.grid(True)
plt.xlabel('Numéro du point')
plt.ylabel('Distance entre le point d\'origine et le point filtré (m)')
plt.plot(error2)
plt.show()

Par rapport au filtre précédent, on a moins de pics mais ceux ici sont plus grands. En effet puisqu'on utilise les points médians, il arrive souvent que le poitfiltré soit exactement celui d'origine, en revanche lorsqu'on corrige, on ne moyenne pas et donc le point corrigier ne participe pas à sa correction, elle est d'autant plus importante. Cela montre que le median filter est moins sensible aux point aberrants.

### Comparaison des filtres

Pour comparer les filtres on commence par afficher les deux trajectoires filtrées : celle du mean filter est en bleu et celle du median filter en rouge.

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 15, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df_filtered['lat_mean_filt'],day_df_filtered['lng_mean_filt'], 'cornflowerblue', edge_width=2)
gmap.plot(day_df_filtered['lat_med_filt'],day_df_filtered['lng_med_filt'], 'red', edge_width=2)
gmap.draw("3-files/bothFilters.html")
from IPython.display import IFrame
IFrame('3-files/bothFilters.html', width=990, height=500)

On constate d'une part que les trajectoires du mean filter sont plus courbées là où celles du median filter présentent des angles droits plus en accords avec le tracé des rues. De plus on voit bien que le median filter est plus robuste face aux outliers, notamment au niveau du pont Wilson. Dans l'ensemble le median filter semble donner des résultats plus satisfaisants. 

On peut également comparer la fidélité aux données d'origine en comparant la somme des distance de corrections sur l'ensemble des points pour chaque filter :

In [None]:
sumErrorMean = sum(errorMean)
sumErrorMed = sum(errorMed)
print("Distance totale pour le mean filter :"+str(sumErrorMean))
print("Distance totale pour le median filter :"+str(sumErrorMed))

Comme on s'y attendait le median filter est plus fidèle aux données d'origine.

<h2 style="color:rgb(0,0,150)"> B. Filtrage des données : Heuristics Based Outliners </h2>

### Speed Thereshold

In [None]:
filteredData = day_df[day_df.velocity < 2]

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.heatmap(filteredData['latitude'], filteredData['longitude'])
gmap.draw("3-files/immobility.html")
from IPython.display import IFrame
IFrame('3-files/immobility.html', width=990, height=500)

In [None]:
filteredData = day_df[day_df.velocity < 9]

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df['latitude'],day_df['longitude'], 'cornflowerblue', edge_width=5)
gmap.plot(filteredData['latitude'],filteredData['longitude'], 'red', edge_width=2)
gmap.draw("3-files/lowSpeed.html")
from IPython.display import IFrame
IFrame('3-files/lowSpeed.html', width=990, height=500)

### Acceleration Thereshold

In [None]:
accFilteredData = day_df[day_df.acceleration < 1]

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 13, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df['latitude'],day_df['longitude'], 'cornflowerblue', edge_width=5)
gmap.plot(accFilteredData['latitude'],accFilteredData['longitude'], 'red',edge_width=2)
gmap.draw("3-files/lowAcceleration.html")
from IPython.display import IFrame
IFrame('3-files/lowAcceleration.html', width=990, height=500)

<h2 style="color:rgb(0,0,150)"> C. Première segmentation des trajets </h2>

Dans un premier temps, nous avons cherché à obtenir une journée avec un grand nombre de points, en effet la journée du 21 sept 2015 avait très peu de points. (moins de 5 points pour le trajet du matin et idem pour le trajet du soir)

Pour cela nous avons pris deux ensemble des données Google Takeout :
- Un jeu de données d'un téléphone Android de mi-2015 à debut-1018 (dataset #1)
- Un jeu de données d'un iPhone de mi-2016 à debut-2018 (dataset #2)

In [None]:
# C'est très long
android_df = parser.importJson("Data/Takout/android.json")
iphone_df = parser.importJson("Data/Takout/iphone.json")

In [None]:
android_df

On crée une fonction qui retourne le nombre de points par jour pour un dataframe donné.

In [None]:
def compute_points_per_day(df) :
    points_per_day = []
    current_day = ""
    j = -1

    for i in range(df["date"].size) :
        if (df["date"][i] == current_day) :
            points_per_day[j] += 1
        else :
            j += 1
            current_day = df["date"][i]
            points_per_day.append(1)
    
    return points_per_day

In [None]:
android_points = compute_points_per_day(android_df)
iphone_points = compute_points_per_day(iphone_df)

In [None]:
plt.figure(figsize=(12,8))
plt.plot(android_points, '-')
plt.grid(True)
plt.ylabel('Android Points Count')
plt.xlabel('Days')
plt.ylim((0, 3500))
plt.show()

In [None]:
plt.figure(figsize=(12,8))
plt.plot(iphone_points, '-')
plt.grid(True)
plt.ylabel('iPhone Points Count')
plt.xlabel('Days')
plt.ylim((0, 3500))
plt.show()

On constate donc un grand écart entre les deux téléphones, et suivant les périodes.

Pour l'iPhone on a environ 200 points par jours, tandis que pour l'Androïd on a environ 500 points par jour.
De plus, il y a une grande différence suivant si on utilise googleMaps, ou si le téléphone est juste allumé sans googleMaps activé.

Pour la suite, on a décidé de trouver un jour avec un grand nombre de données. Par la suite, on reviendra à d'autres journées avec moins de données, quand nos algorithmes fonctionneront déjà bien sur des données plus complètes.

On choisi le 17 Aout 2017 de l'Android. 

In [None]:
day_df = parser.selectDate("17-08-2017", android_df)

In [None]:
day_df

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 14, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")
gmap.plot(day_df["latitude"],day_df["longitude"], 'cornflowerblue', edge_width=2)
gmap.draw("3-files/day_android.html")
from IPython.display import IFrame
IFrame('3-files/day_android.html', width=990, height=500)

Cette journée comporte beaucoup de déplacements, probablement à pied.

On va essayer de segmenter cette journée. On commence par l'approche naïve :

Hypothèse : Entre deux trajets, l'utilisateur rentre à intérieur d'un batiment, ce qui augmente le délai entre deux mesures (à cause des difficultés à recevoir le signal gps en intérieur)

On découpe donc les segments de manière à ce que deux segments soient séparés par des delay élevés. On cherche à fixer arbitrairement une limite de délai. Pour cela, on affiche les délais sur la journée :

In [None]:
plt.figure(figsize=(12,8))
plt.plot(day_df["delay"])
plt.grid(True)
plt.ylabel('Delay')
plt.xlabel('Numéro de Mesure')
plt.show()

In [None]:
max(data["delay"])

Un des délai est d'environs 4 heures. Il s'agit probablement du fait que le téléphone s'est éteint. On limite l'axe des y à des délai inférieur à 400 secondes.

In [None]:
plt.figure(figsize=(12,8))
plt.plot(day_df["delay"])
plt.grid(True)
plt.ylabel('Delay')
plt.xlabel('Numéro de Mesure')
plt.ylim((0, 400))
plt.show()

On remarque que Google Maps tente de prendre des mesures toutes les 20 secondes avec parfois :
- des temps plus court que 20 sec (probablement lorsque l'application Google Maps est en premier plan)
- des temps plus longs que 20 sec (probablement à cause d'une mauvaise réception dans un batiment)

On s'intéresse également à une approche basée sur la vitesse pour créer des segments :

In [None]:
plt.figure(figsize=(12,8))
plt.plot(day_df["velocity"])
plt.grid(True)
plt.ylabel('Velocity')
plt.xlabel('Numéro de Mesure')
plt.ylim((0,150))
plt.show()

La trajectoire n'étant pas encore filtrée, la vitesse semble très volatile, donc peu utilisable pour la segmentation.

On crée une fonction permettant de segmenter un dataframe. Dès qu'un delay est > à 100 secondes (choisi par rapport au graphique des délais), un nouveau segment est créé.

In [None]:
def delay_segment_dataframe(df, limit) :
    segnum = 0
    segments = []

    for i in range(df["time"].size) :
        if (df["delay"][i] > limit) :
            segments.append(segnum)
            segnum += 1;
        else :
            segments.append(segnum)

    df["segment"] = segments
    return df

In [None]:
day_df = delay_segment_dataframe(day_df, limit=100)

In [None]:
segment_count = max(day_df['segment'])
segment_count

On a 25 segments pour la journée. Cela semble beaucoup mais on pourra considérer supprimer les segments trop court.

On cherche à afficher la carte de la journée, mais avec une couleur différente par trajet.

In [None]:
import colors
colors_list = []

for key in colors.color_codes.keys():
     colors_list.append(colors.color_codes[key])

In [None]:
gmap = gmplot.GoogleMapPlotter(45.757589, 4.831689, 14, apikey="AIzaSyDsYwvF3UUxTx8RB40wd4SnUVzfnbW66LM")

for i in range(segment_count) :
    start_index = day_df[day_df['segment'] == i].index.tolist()[0]
    end_index = day_df[day_df['segment'] == i + 1].index.tolist()[0]

    segment_df = day_df.loc[start_index:(end_index - 1),]
    gmap.plot(segment_df["latitude"], segment_df["longitude"], colors_list[i], edge_width=4)

gmap.draw("3-files/segmented_day_df.html")
from IPython.display import IFrame
IFrame('3-files/segmented_day_df.html', width=990, height=500)

La segmentation semble cohérente. Certaines trajets restent très étranges (aller-retour au dessus de la Saone).

Cependant l'approche que nous avons utiisé (limite sur les délais) ne fonctionne que si la personne rentre dans un batiment, et la limite que nous avons fixée est arbitraire. On peut réfléchir à une autre méthode basée sur la vitesse filtrée, ou les points d'intérêts. 

<h1 style="color:rgb(150,0,0)">  III. Conclusion</h1>


<h2 style="color:rgb(0,0,150)"> A. Bilan</h2>


Concernant la partie segmentation :
- Nous avons remarqué qu'en général sur des trajets très peu de points sont présents, ainsi un certains nombre de question se pose : que peut-on vraiment tirer comme information de ces trajets ? Cela a t-il du sens de les filtrer ? (un filtrage considère beaucoup de points comme abérants, alors qu'ils ne le sont pas)
- L'approche naïve de la segmentation basée sur la limite sur les delays semble bien fonctionner, il serait intéressant de pouvoir fixer cette limite de manière moins arbitraire et de travailler sur d'autres algorithmes de segmentation.

<h2 style="color:rgb(0,0,150)"> B. Travail à faire de la prochaine séance </h2>


Pour la prochaine séance nous devons :
- faire tourner nos algorithmes sur un plus grand nombre de trajets 
- améliorer la segmentation 
- proposer d'autres algorithmse de segmentation
- filtrer les données, puis étudier la vitesse sur les données filtrées, et regarder en particulier si on peut en déduire le mode de transport