# Travail Basique sur peu de données et familiarisation avec de nouveaux outils

L'objectif principal de la séance est de travailler sur un jeu de données.
Nous allons essayer de démontrer que ce jeu de données n'est pas suffisant pour une étude poussée.

Néanmoins, ce jeu va nous servir comme outil pour nous familiariser avec les notebooks python et les pandas

## Import des bibliothèques utiles

In [98]:
import pandas as pd
import glob
import gmaps
import gmaps.datasets
from datetime import datetime
from datetime import timedelta
from dateutil.parser import parse


## Import des données dans une unique dataframe

In [2]:
path = "Data/Privamov/"
allFiles = glob.glob(path + "/*")
frame = pd.DataFrame()
list_= []

for file_ in allFiles:
    df = pd.read_csv(file_,sep="\t", header=None,  names = ["Id", "DateTime", "Longitude", "Latitude"])
    list_.append(df)
frame = pd.concat(list_)

frame

Unnamed: 0,Id,DateTime,Longitude,Latitude
0,11,2014-12-07 06:13:14.924,4.870933,45.775957
1,11,2014-12-07 06:13:14.946,4.870933,45.775957
2,1,2014-12-07 06:13:15.289,-97.750433,30.257068
3,1,2014-12-07 06:13:15.381,-97.750433,30.257068
4,11,2014-12-07 06:13:15.924,4.870933,45.775957
5,11,2014-12-07 06:13:15.95,4.870933,45.775957
6,1,2014-12-07 06:13:16.282,-97.750450,30.257075
7,1,2014-12-07 06:13:16.293,-97.750450,30.257075
8,11,2014-12-07 06:13:16.923,4.870933,45.775957
9,11,2014-12-07 06:13:16.95,4.870933,45.775957


## Quelques opérations


### Différents IDs des personnes concernées

In [3]:
frame.Id.unique()

array([11,  1,  2])

### Nombre de personnes dans le jeu de données

In [4]:
len(frame.Id.unique())

3

### Début et fin du jeu de données

In [5]:
print("Début du jeu de données " + frame.DateTime.min())
print("Fin du jeu de données " + frame.DateTime.max())

Début du jeu de données 2014-12-07 05:20:23.792
Fin du jeu de données 2014-12-07 12:10:50.413


### Durée totale entre la première date et la dernière date du jeu de données

In [6]:
deltaT = datetime.strptime(frame.DateTime.max(), '%Y-%m-%d %H:%M:%S.%f') - datetime.strptime(frame.DateTime.min(), '%Y-%m-%d %H:%M:%S.%f')
print("Durée avec format heure:minutes:secondes:milliemes  :"+ str(deltaT))
#print(frame.DateTime.max())
#print(frame.DateTime.min())
#print(datetime.strptime(frame.DateTime.max()) - datetime.strptime(frame.DateTime.min()))

Durée avec format heure:minutes:secondes:milliemes  :6:50:26.621000


On remarque donc finalement que le jeu de données ne concerne que 3 personnes,
et que la durée est de moins de 7 heures, insuffisant donc pour faire des études poussées dessus.

On va quand même travailler un peu dessus pour se familiariser avec les différents outils comme base pour le reste du POM.

## Affichage des coordonnées GPS

On va maintenant afficher une Heatmap des différentes coordonnées, grâce au plugin gmap

In [7]:
df = frame[["Latitude", "Longitude"]]
df

Unnamed: 0,Latitude,Longitude
0,45.775957,4.870933
1,45.775957,4.870933
2,30.257068,-97.750433
3,30.257068,-97.750433
4,45.775957,4.870933
5,45.775957,4.870933
6,30.257075,-97.750450
7,30.257075,-97.750450
8,45.775957,4.870933
9,45.775957,4.870933


In [8]:
gmaps.configure(api_key="AIzaSyDm-b-Wg34YmbNWba0I7WJqE9fOhdQ7VZk") # Your Google API key
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df)
fig.add_layer(heatmap_layer)

fig

On remarque 2 localisations, la première à Austin aux USA et l'autre à Lyon. On va maintenant travailler sur les différentes personnes pour connaître plus précisément leur position.

### Positions de la personne ID 1

In [9]:
df1 = frame[["Latitude", "Longitude"]][frame["Id"] == 1]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df1)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

fig

En prenant en compte les horaires (5h à midi) le décalage horaire (d'environ 7 heures de moins) et la proximité des coordonnées avec un hôtel, on peut vraisemblablement penser que la personne dort.

D'où le fait que la HeatMap reste sur un point relativement fixe.

### Position de la personne ID 11



In [10]:
df11 = frame[["Latitude", "Longitude"]][frame["Id"] == 11]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df11)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

fig

On remarque tout d'abord 2 points principaux d'attente.

Nous avons ensuite changé l'intensité du HeatMap à 100 pour pouvoir visualiser les points où la personne n'est pas resté longtemps, ce que l'on peut considérer comme des déplacements.

Il faudra étudier à quelle heure la personne "attend", ce qu'on pourrait considérer comme maison ou lieu de travail.

### Position de la personne ID 2


In [11]:
df2 = frame[["Latitude", "Longitude"]][frame["Id"] == 2]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(df2)
heatmap_layer.max_intensity = 100
heatmap_layer.min_intensity = 100
fig.add_layer(heatmap_layer)

fig

Sur ces données là il est plus compliqué de conclure, on aperçoit un point d'attente conséquent à proximité de résidence étudiante, ainsi qu'un déplacement vers les restaurants universitaires.

In [46]:
from geopy.geocoders import Nominatim
df1.head(1)
geolocator = Nominatim()
location = geolocator.reverse(str(df1['Latitude'].iloc[0]) + " , " + str(df1['Longitude'].iloc[0]))
print(location.address)
print(location.latitude, location.longitude)
print(df1.shape[0])

507, South 1st Street, Bouldin, Austin, Travis County, Texas, 78704, United States of America
30.25702945 -97.7502422424148
47309


In [151]:
from geopy.distance import vincenty
iterloc1 = (df1["Latitude"].iloc[0], df1["Longitude"].iloc[0])
iterloc2 = (df1["Latitude"].iloc[1], df1["Longitude"].iloc[1])
frame1 = frame[frame["Id"] == 1]
frame1
oneHour = timedelta(seconds = 3600)
print(oneHour)
print(oneHour.total_seconds())
liste = []
print(len(frame1))
print(frame1.iloc[8916])
for i in range(1, len(frame1)):
    deltaT = datetime.strptime(frame.DateTime.iloc[i], '%Y-%m-%d %H:%M:%S.%f') - datetime.strptime(frame.DateTime.iloc[i-1], '%Y-%m-%d %H:%M:%S.%f')
    #print(deltaT)
    iterloc1 = (df1.Latitude.iloc[i], df1.Longitude.iloc[i])
    iterloc2 = (df1.Latitude.iloc[i], df1.Longitude.iloc[i-1])
    #print("kilometres "  +str(vincenty(iterloc1, iterloc2).kilometers))
    #print("metres " + str(vincenty(iterloc1, iterloc2).meters))
    speed = (vincenty(iterloc1, iterloc2).kilometers) / (deltaT.total_seconds() / 3600)
    liste.append(speed)
    #print("vitesse en km/h= " + str(speed))

#print(vincenty(iterloc1, iterloc2).kilometers)

1:00:00
3600.0
47309
Id                                 1
DateTime     2014-12-07 09:34:07.301
Longitude                   -97.7503
Latitude                     30.2573
Name: 6446, dtype: object


ValueError: time data '2014-12-07 06:51:36' does not match format '%Y-%m-%d %H:%M:%S.%f'

In [154]:
sum(liste) / len(liste)

7.293674129698832