# Travail Basique sur peu de données et familiarisation avec de nouveaux outils

L'objectif principal de la séance est de travailler sur un jeu de données.

Afin de nous familiariser avec les notebooks python et les pandas

## Import des bibliothèques utiles

In [1]:
import pandas as pd
import glob
import gmaps
import gmaps.datasets
from datetime import datetime
from datetime import timedelta
from dateutil.parser import parse

## Import des données dans une unique dataframe

In [2]:
path = "Data/Privamov"
allFiles = glob.glob(path + "/privamov*")
frame = pd.DataFrame()
list_= []

for file_ in allFiles:
    df = pd.read_csv(file_,sep="\t", header=None,  names = ["Id", "DateTime", "Longitude", "Latitude"])
    list_.append(df)
frame = pd.concat(list_)

frame.head()

Unnamed: 0,Id,DateTime,Longitude,Latitude
0,2,2014-12-07 10:23:17.124,4.878128,45.78205
1,1,2014-12-07 10:23:17.282,-97.750368,30.257302
2,1,2014-12-07 10:23:17.302,-97.750368,30.257302
3,11,2014-12-07 10:23:17.635,4.868195,45.774855
4,11,2014-12-07 10:23:17.658,4.868195,45.774855


## Quelques opérations


### Différents IDs des personnes concernées

In [3]:
frame.Id.unique()

array([ 2,  1, 11])

### Nombre de personnes dans le jeu de données

In [4]:
len(frame.Id.unique())

3

### Début et fin du jeu de données

In [5]:
print("Début du jeu de données " + frame.DateTime.min())
print("Fin du jeu de données " + frame.DateTime.max())

Début du jeu de données 2014-12-07 05:20:23.792
Fin du jeu de données 2014-12-07 12:10:50.413


### Durée totale entre la première date et la dernière date du jeu de données

In [6]:
deltaT = datetime.strptime(frame.DateTime.max(), '%Y-%m-%d %H:%M:%S.%f') - datetime.strptime(frame.DateTime.min(), '%Y-%m-%d %H:%M:%S.%f')
print("Durée avec format heure:minutes:secondes:milliemes  :"+ str(deltaT))
#print(frame.DateTime.max())
#print(frame.DateTime.min())
#print(datetime.strptime(frame.DateTime.max()) - datetime.strptime(frame.DateTime.min()))

Durée avec format heure:minutes:secondes:milliemes  :6:50:26.621000


On remarque donc finalement que le jeu de données ne concerne que 3 personnes,
et que la durée est de moins de 7 heures, insuffisant donc pour faire des études poussées dessus.

On va quand même travailler un peu dessus pour se familiariser avec les différents outils comme base pour le reste du POM.

## Affichage des coordonnées GPS

On va maintenant afficher une Heatmap des différentes coordonnées, grâce au plugin gmap

In [7]:
df = frame[["Latitude", "Longitude"]]
df.head()

Unnamed: 0,Latitude,Longitude
0,45.78205,4.878128
1,30.257302,-97.750368
2,30.257302,-97.750368
3,45.774855,4.868195
4,45.774855,4.868195


In [8]:
gmaps.configure(api_key="AIzaSyDm-b-Wg34YmbNWba0I7WJqE9fOhdQ7VZk") # Your Google API key
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df)
fig.add_layer(heatmap_layer)

#fig

![heatmap_all](./Images/heatmap_all.png)

On remarque 2 localisations, la première à Austin aux USA et l'autre à Lyon. On va maintenant travailler sur les différentes personnes pour connaître plus précisément leur position.

### Positions de la personne ID 1

In [9]:
df1 = frame[["Latitude", "Longitude"]][frame["Id"] == 1]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df1)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

#fig

![heatmap_id_1](./Images/heatmap_id_1.png)
En prenant en compte les horaires (5h à midi) le décalage horaire (d'environ 7 heures de moins) et la proximité des coordonnées avec un hôtel, on peut vraisemblablement penser que la personne dort.

D'où le fait que la HeatMap reste sur un point relativement fixe.

### Position de la personne ID 11



In [10]:
df11 = frame[["Latitude", "Longitude"]][frame["Id"] == 11]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df11)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

fig

![heatmap_id_11](./Images/heatmap_id_11.png)
On remarque tout d'abord 2 points principaux d'attente.

Nous avons ensuite changé l'intensité du HeatMap à 100 pour pouvoir visualiser les points où la personne n'est pas resté longtemps, ce que l'on peut considérer comme des déplacements.

Il faudra étudier à quelle heure la personne "attend", ce qu'on pourrait considérer comme maison ou lieu de travail.

### Position de la personne ID 2


In [11]:
df2 = frame[["Latitude", "Longitude"]][frame["Id"] == 2]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df2)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

#fig

![heatmap_id_2](./Images/heatmap_id_2.png)

Sur ces données là il est plus compliqué de conclure, on aperçoit un point d'attente conséquent à proximité de résidence étudiante, ainsi qu'un déplacement vers les restaurants universitaires.

### Quelques traitements sur la personne à Austin
Pour nous entraîner pour la suite, nous allons essayer de calculer la vitesse moyenne de la personne qui est censée dormir

In [12]:
from geopy.geocoders import Nominatim
df1.head(1)
geolocator = Nominatim()
location = geolocator.reverse(str(df1['Latitude'].iloc[0]) + " , " + str(df1['Longitude'].iloc[0]))
print(location.address)
print(location.latitude, location.longitude)
print(df1.shape[0])

507, South 1st Street, Bouldin, Austin, Travis County, Texas, 78704, United States of America
30.25702945 -97.7502422424148
47308


In [13]:
from geopy.distance import vincenty
frame1 = frame[frame["Id"] == 1]
liste = []
for i in range(1, len(frame1)):
    deltaT = datetime.strptime(frame.DateTime.iloc[i], '%Y-%m-%d %H:%M:%S.%f') - datetime.strptime(frame.DateTime.iloc[i-1], '%Y-%m-%d %H:%M:%S.%f')
    if deltaT.total_seconds() == 0:
        continue
    #print(deltaT)
    iterloc1 = (frame1.Latitude.iloc[i], frame1.Longitude.iloc[i])
    iterloc2 = (frame1.Latitude.iloc[i], frame1.Longitude.iloc[i-1])
    #print("kilometres "  +str(vincenty(iterloc1, iterloc2).kilometers))
    #print("metres " + str(vincenty(iterloc1, iterloc2).meters))
    speed = (vincenty(iterloc1, iterloc2).kilometers) / (deltaT.total_seconds() / 3600)
    liste.append(speed)
    #print("vitesse en km/h= " + str(speed))

#print(vincenty(iterloc1, iterloc2).kilometers)

In [15]:
import matplotlib.pyplot as plt
plt.figure(figsize=(12,8))
plt.xlabel('Echantillons')
plt.ylabel('Vitesse (km/h)')
plt.plot(liste)
plt.show()
max(liste)

<matplotlib.figure.Figure at 0x7f4273631320>

19054.69871627287

On remarque que les vitesses ne sont pas forcément bonnes (10000 km/h au maximum) dûes au bruit des données GPS.

Il y a aussi le problème des vitesses négatives, qui est sûrement dû au fait que les données envoient des temps qui ne sont pas forcément dans l'ordre.

Il nous faudra donc faire du nettoyage sur les données.