# Prise en main des données

In [1]:
import pandas as pd
import numpy as np
import datetime
import warnings
import math
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt

les dataframes sont chargées, concaténées et la variable 'Unnamed: 0' est retirée

In [4]:
df1 = pd.read_csv('datasets/df1.csv')
df2 = pd.read_csv('datasets/df2.csv')
df3 = pd.read_csv('datasets/df3.csv')
df4 = pd.read_csv('datasets/df4.csv')
df5 = pd.read_csv('datasets/df5.csv')
df6 = pd.read_csv('datasets/df6.csv')

data_frames = [df1, df2, df3, df4, df5, df6]

merged_df = pd.concat(data_frames)
merged_df.drop(['Unnamed: 0'], axis = 1, inplace = True)

In [5]:
merged_df.head()

Unnamed: 0,id,lat,long,ts
0,66,48.84646,2.306055,1556661600
1,66,48.846442,2.306054,1556661640
2,66,48.846465,2.306093,1556661690
3,66,48.846485,2.306105,1556661740
4,66,48.84645,2.30607,1556661880


In [6]:
print('nombre de lignes:', merged_df.shape[0])

nombre de lignes: 1175842


Pour avoir une vue plus simple sur les timestamps, nous ajoutons une colonne représentant le datetime sous forme YYYY-MM-DD HH:MM:SS

In [7]:
merged_df['timestamp'] = (pd.to_datetime(merged_df['ts'], unit='s'))    


In [9]:
merged_df.head()

Unnamed: 0,id,lat,long,ts,timestamp
0,66,48.84646,2.306055,1556661600,2019-04-30 22:00:00
1,66,48.846442,2.306054,1556661640,2019-04-30 22:00:40
2,66,48.846465,2.306093,1556661690,2019-04-30 22:01:30
3,66,48.846485,2.306105,1556661740,2019-04-30 22:02:20
4,66,48.84645,2.30607,1556661880,2019-04-30 22:04:40


Il n'est pas précisé si l'enregistrement GPS est continue même si le moteur est à l'arret ou non, nous allons donc le déterminer si après en calculant la différence maximale entre 2 timestamps et pour chaque vehicule.

In [10]:
def max_diff_ts():
    
    max_diff_ts = {}

    for vehicule in merged_df['id'].unique():

        diff_ts = []

        df_vehicule_targeted = merged_df[merged_df['id'] == vehicule]
        df_vehicule_targeted.sort_values(by = 'ts', inplace = True)
        df_vehicule_targeted.reset_index(inplace = True)

        for row in range(df_vehicule_targeted.shape[0]):

            try:

                diff = (df_vehicule_targeted['ts'][row+1] - df_vehicule_targeted['ts'][row]) / 60

                diff_ts.append(diff)

            except: continue

        max_diff_ts['{}'.format(vehicule)] = max(diff_ts)

    return max_diff_ts
    
    

In [12]:
max_value = max_diff_ts()

print('Temps maximum de la perte de signal GPS: {0:.2f} min'.format(max(max_value.values())))

Temps maximum de la perte de signal GPS: 11.33 min


Au maximum, un vehicule n'a émis aucun signal GPS pendant seulement 11 minutes, nous pouvons considérer que le tracking est donc fait en continue même si le moteur est éteint.

Remarque: Cette perte de signal GPS pourrait être dû au passage du véhicule dans un tunnel par exemple

### 1.       Quelles sont les étapes du trajet du véhicule n°78 lors de la journée du 2 mai?

Nous définissons un nouveau dataframe propre au vehicule 78 sur la journée du 2 mai ordonnée dans l'ordre chronologique.

En unix epoch, le 2 mai à minuit correspond à 1556755200
et le 3 mai à minuit correspond à 1556841600

Nous définissons le concept de "étape du trajet" comme un arrêt prolongé ou un mouvement prolongé de l'ordre de quelques minutes.

In [14]:
df_78_2_mai = merged_df[(merged_df['id'] == 78) 
                        & (merged_df['ts'] >= 1556755200)
                        & (merged_df['ts'] < 1556841600)]

df_78_2_mai.sort_values(by = 'ts', inplace = True)
df_78_2_mai.reset_index(inplace = True, drop = True)


Nous définissons ensuite une fonction qui donne la distance séparant deux plots GPS

In [15]:
def distance(origin, destination):
    lat1, lon1 = origin[0], origin[1]
    lat2, lon2 = destination[0], destination[1]
    radius = 6371000 # metres

    dlat = math.radians(lat2-lat1)
    dlon = math.radians(lon2-lon1)
    a = math.sin(dlat/2) * math.sin(dlat/2) + math.cos(math.radians(lat1)) \
        * math.cos(math.radians(lat2)) * math.sin(dlon/2) * math.sin(dlon/2)
    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
    d = radius * c

    return d

