# XYT Mining op de weg

In dit project identificeren we start- en stoplocaties op basis van XYT gegevens. Het doel van deze opdracht is het ontwikkelen van een generiek model waarbij de computer zelf stoplocaties gaat identificeren (met zo min mogelijke menselijke aannames). Aan de hand van een literatuuronderzoek, kozen wij om de stoplocaties te identificeren via de clustertechniek DBScan. Hoe deze techniek werkt, zullen we later in dit script bespreken. 

Als eerst voeren we een data pre-processing uit. Daarna zullen we de parameters voor de DBScan selecteren doormiddel van de Mann Whitney U-test. Wanneer de parameters zijn gekozen, voeren we DBScan uit. De clusters die daaruit volgen, plotten we via de Google Maps API. Ook plotten we de clusters via ArcGis, maar deze koppeling is niet meegenomen in dit script (voor meer details vraag Marius). 

## Pre-processing data

De eerste stap om stoplocaties te identificeren is data pre-processing. Doormiddel van deze stap, zullen we de data voorbereiden voor de DBScan. Wij zullen nu per stap een korte uitleg geven. 

##### Stap 1: data samenvoegen
We beginnen met het samenvoegen van csv-bestanden.

In [None]:
##importeren van packages
import pandas as pd
pd.set_option('mode.chained_assignment', None)
import pandas as pd
import os
import datetime
import fnmatch
import concurrent.futures
import numpy as np
from geopy.distance import geodesic
import matplotlib.pyplot as plt
from matplotlib.ticker import NullFormatter
import mpld3

In [None]:
##samenvoegen van csv bestanden
path ='C:/Users/candy/ID Lab/Taxi/csv'

with concurrent.futures.ProcessPoolExecutor() as executor:
    configfiles = [os.path.join(dirpath, f)
        for dirpath, dirnames, files in os.walk(path)
        for f in fnmatch.filter(files, '*.csv')]
        
list = []
for file in configfiles:
    df = pd.read_csv(file,index_col=None, header=0, usecols=[0,1,2,3])
    list.append(df)
    df = pd.concat(list)
    
##drop index + create index
df.reset_index(inplace=True)
df['index'] = df.index

##### Stap 2: omzetten tijd
Daarna zetten we UTC tijd om naar locale tijd (Amsterdam) en splitten we de tijdgegevens in verschillende kolommen.

In [None]:
# Omzetten van UTC tijd naar locale tijd (Amsterdam) en verwijderen overbodige kolommen
df['Time'] = pd.DatetimeIndex(df['Dt']).time
df['Date'] = pd.DatetimeIndex(df['Dt']).date
df['DateTime_UTC'] = df.apply(lambda r : pd.datetime.combine(r['Date'],r['Time']),1)
df['DateTime_Local'] = df['DateTime_UTC'].dt.tz_localize('utc').dt.tz_convert('Europe/Amsterdam')
del df['DateTime_UTC']
del df['Time']
del df['Date']

In [None]:
# splitten tijdgegevens in kolommen
df['Date'] = pd.DatetimeIndex(df['DateTime_Local']).date
df['Time'] = pd.DatetimeIndex(df['DateTime_Local']).time
df['DateTime'] = df.apply(lambda r : pd.datetime.combine(r['Date'],r['Time']),1)

## Hieronder nog meer code om tijd op te splitten
df['Year'] = pd.DatetimeIndex(df['DateTime']).year
df['Month'] = pd.DatetimeIndex(df['DateTime']).month
df['Day'] = pd.DatetimeIndex(df['DateTime']).day
df['Weeknr'] = pd.DatetimeIndex(df['DateTime']).week
df['Weekdag'] = pd.DatetimeIndex(df['DateTime']).weekday
df['Hour'] = pd.DatetimeIndex(df['DateTime']).hour
df["minute"] = pd.DatetimeIndex(df["DateTime"]).minute
df["sec"] = pd.DatetimeIndex(df["DateTime"]).second

#Verwijderen kolommen 
del df['DateTime_Local']
del df["Dt"]

In [None]:
# Bereken datum in minuten
Year_min = df["Year"] * 365 * 24 * 60
Month_min = df["Month"] * 31 * 24 * 60
Day_min = df["Day"] * 24 * 60
Hour_min = df["Hour"] * 60
min_min = df["minute"]

df["date_in_min"] = Year_min + Month_min + Day_min + Hour_min + min_min

##### Stap 5: Bereken afstand tussen twee XY punten

Daarna bereken we de afstand tussen twee XY punten aan de hand van de geodesics formule van Karney (2013). Deze formule zit in de package Geopy.

In [None]:
## Nieuwe kolom (van a naar b) --> drop na 
df = df.rename(index=str, columns={"Lon": "Lon_a", "Lat": "Lat_a"})
df["Lat_b"] = df["Lat_a"].shift(-1)
df["Lon_b"] = df["Lon_a"].shift(-1)
df = df.dropna()

## Bereken afstand (van a naar b)
def distancer_km(row):
    coords_1 = (row['Lat_a'], row['Lon_a'])
    coords_2 = (row['Lat_b'], row['Lon_b'])
    return geodesic(coords_1, coords_2).km
    #return vincenty(coords_1, coords_2).km

def distancer_m(row):
    coords_1 = (row['Lat_a'], row['Lon_a'])
    coords_2 = (row['Lat_b'], row['Lon_b'])
    return geodesic(coords_1, coords_2).m
    #return vincenty(coords_1, coords_2).km

df['distance_km'] = df.apply(distancer_km, axis=1)
df['distance_m'] = df.apply(distancer_m, axis=1)

##### Stap 6: berekenen van tijd tussen twee XY punten
Om de tijd tussen twee XY punten te berekenen gebruiken we de package Numpy.

In [None]:
##verander het data type
df["date_a"] = np.array(df["DateTime"], dtype="datetime64")

##verschil in seconden tussen twee XY punten
df["date_b"] = df["date_a"]
df["date_b"] = df["date_b"].shift(-1)
df["date_b"] = df["date_b"].dropna()
df["diff"] = df["date_b"] - df["date_a"]
df["diff_sec"] = df["diff"].astype('timedelta64[s]')

##### Stap 7: bereken snelheid tussen twee XY punten

In [None]:
## meters per seconde / km per uur
df["speed_ms"] = df["distance_m"]/df["diff_sec"]
df["speed_kmu"] = df["distance_km"]/df["diff_sec"].divide(60*60)

##### Stap 8: Maak csv preprocessing

In [None]:
df.to_csv("XYT_preprocessing.csv")

## Select parameters voor DBScan

In deze stap zullen we parameters selecteren voor de DBScan. In de literatuur (zie puntje artikelen) wordt DBScan regelmatig gebruikt om stoplocaties te vinden. Met behulp van de DBScan zijn GPS-punten te groeperen in clusters (stoplocaties) en ruis (bewegende punten). Hiervoor gaat het algoritme uit van een verschil in spatial density. Binnen het algoritme zijn er 3 elementen die je kunt aanpassen. Dit zijn de variablen en de parameters epsilon (afstand tussen twee XY punten) en minimale punten binnen de epsilon.   

Om de juiste parameters te selecteren, hebben wij gekeken naar het verschil in gemiddelde snelheid tussen clusters en ruis. Dit hebben wij gedaan doormiddel van het uitvoeren van de Mann Whitney U-test. Deze test laat aan de hand van de grote van de U-waarde het verschil tussen beide groepen zien. Kortom, hoe groter de U-waarde, des te groter het verschil in snelheid tussen clusters en ruis. 

Verder, hebben wij verschillende variablen meegenomen in de DBScan. Hieruit bleek dat een combinatie van afstand, snelheid en tijd (volgnummer) tussen twee XY punten leidde tot de meest geschikte resultaten. Dit zorgde namelijk dat die punten werden geclusterd die bij elkaar lagen qua afstand,  snelheid en tijdsvolgorde.

Maar let op: het is verstandig om per opdracht te onderzoeken welke variablen/ parameters tot de juiste resultaten leiden. Het script hieronder gaat daarbij helpen!

##### Articles
https://www.sciencedirect.com/science/article/pii/S0957417417307698
https://www.sciencedirect.com/science/article/pii/S2352146518301820
https://www.sciencedirect.com/science/article/pii/S1877050915008741
https://github.com/turi-code/userguide/blob/master/clustering/dbscan.md


##### Installeren packages
    1. link voor download packages  https://www.lfd.uci.edu/~gohlke/pythonlibs/
    2. installeer: geopandas, GDAL, Fiona, Basemap, Shapely, Pyproj, wheel 
    3. Bestand van download naar script map anaconda 
    4. pip install bestand.whl (behalve bij geopandas, deze moet je installeren via GitHub)


##### Stap 1: Inladen packages en pre-processed data --> voor installatie issues zie hierboven

In [None]:
import pandas as pd, numpy as np, matplotlib.pyplot as plt
from scipy.stats import mannwhitneyu
from sklearn.cluster import DBSCAN
from geopy.distance import great_circle
from shapely.geometry import MultiPoint
from sklearn import preprocessing

In [None]:
#inladen csv (resultaat script "00_bereken_afstand_snelheid_tussen_XYT_punten.ipynb")
df = pd.read_csv('XYT_preprocessing.csv')
df = df[:-1] #Laatste regel is NAN
#df_org = df #Orginele df ivm merge

##### Stap 2: Selecteren van variablen

In het algoritme van DBScan kun je variablen selecteren die de clusters gaan vormen. In deze opdracht zijn dat de lat/ lon, de snelheid en VgNr van een XY punt. 

In [None]:
#Schalen van XYV punten 
coords_speed = np.asarray(df[['Lat_a', 'Lon_a', "speed_kmu", "VgNr"]])
coords = preprocessing.scale(coords_speed)

##### Stap 3: Selecteren van parameters

Om de juiste parameters te selecteren, hebben wij een loop geschreven om verschillende combinates van parameters te testen. Om die parameters te selecteren die zorgen voor het grootste verschil in snelheid tussen clusters en ruis voeren we de Mann Whitney U-test uit. Deze resulten plotten we in een heatmap, zodat visueel wordt welke parameters het meest geschikt zijn. 

In [None]:
# Functie maken om tabel te creëren met resultaten DBScan, u waarden en gemiddelde snelheden
def gemiddelde_kmu_per_eps(df, coords, eps, min_samples, speed_column="speed_kmu"):
    model = DBSCAN(eps=eps, min_samples=min_samples, algorithm="auto").fit(coords)
    cluster_labels = model.labels_
    num_clusters = len(set(cluster_labels))
    df["cluster"] = cluster_labels
    clusters = df.speed_kmu[df["cluster"] > -1]   
    ruis =df.speed_kmu[df["cluster"] == -1]
    u, prob = mannwhitneyu(clusters, ruis)
    kmu_per_cluster = df.groupby('cluster')["speed_kmu"].mean().reset_index(name='kmu_per_cluster')
    mean_kmu = kmu_per_cluster["kmu_per_cluster"].mean()
    return (eps, min_samples, num_clusters, mean_kmu, u)

# Bovenstaande functie uitvoeren voor 500 verschillende epsilons en 7 verschillende MinPoints
output_list = []
for epsilon in np.linspace(0.10, 0.5, 500):
    for min_samples in range(1, 8, 1):
        output = gemiddelde_kmu_per_eps(df=df, coords=coords, eps=epsilon, min_samples=min_samples)
        output_list.append(output)

# Resultaten functie naar tabel
output_df = pd.DataFrame(output_list, columns = ["eps", "min_samples", "NoP_cluster", "mean_kmu_speed", "MannWhitney_U"])

In [None]:
# Creëer heatmap om zo de juiste parameters te kunnen selecteren. 
x = np.array(output_df["eps"])
y = np.array(output_df["min_samples"])
z = np.array(output_df["MannWhitney_U"])
results = pd.DataFrame.from_dict(np.array([x,y,z]).T)
results.columns = ['x','y','z']
pivotted = results.pivot('y','x','z')

import seaborn as sns
sns.set()

sns.heatmap(pivotted, cmap="RdBu")

In [None]:
# Print per MinPoints de EPS met de hoogste u waarde

indices = results.groupby('y')['z'].idxmax; indices
hoi = results.loc[indices]

print(hoi)

# results.to_csv("result_find_eps.csv")

## Cluster tabel maken

In deze stap zullen we de DBScan uitvoeren. Daarna zullen we de cluster verfijnen aan de hand van post-processing. In dit proces zullen we clusters die overlappen in tijd veranderen naar unieke clusters. Gezien binnen de tijden van 1 stoplocatie, niet een andere stoplocatie kan beginnen. Deze stoplocaties zijn uniek (Zie bokeh plot voor verdere uitleg). Daarna selecteren we van elk cluster het middelste XY punt. Aan dit XY Punt, kunnen we data linken zoals streetview foto's, CBS data, lijst met bedrijven, etc. Ook maken we voor de middelste XY punten een cluster tabel, zodat er een overzicht is per luster wat de gemiddelde snelheid is en het aantal punten per cluster. 


##### Stap 1: packages + data importeren

In [None]:
import pandas as pd, numpy as np, matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
from geopy.distance import great_circle
from shapely.geometry import MultiPoint
from sklearn import preprocessing
# from bokeh.plotting import figure, show, output_file
from bokeh.plotting import figure, output_file, show
from bokeh.io import push_notebook, show, output_notebook, curdoc, show
from bokeh.models import ColumnDataSource, Plot, LinearAxis, Grid
from bokeh.models.glyphs import VBar
output_notebook()

In [None]:
#inladen csv (uitkomst vorige script)
df = pd.read_csv('XYT_preprosessing.csv')
df = df[:-1] #Laatste regel is NAN
df_old = df #Nodig voor merge verderop in script

##### Stap 2: Parameters selecteren + DBScan runnen 

In [None]:
#Variabelen invoeren DBScan en schalen
coords_speed = np.asarray(df[['Lat_a', 'Lon_a', "speed_kmu", "VgNr"]])
coords = preprocessing.scale(coords_speed)

In [None]:
# Selecteer beste parameters uit vorige stap (heatmap/ lijst beste parameters - U waarden)
# Binnen deze opdracht is past MinSamples 2 het beste bij het gewenste resultaat. MinSamples 2 heeft niet de hoogste U waarde (niet de hoogste percision), maar vind wel de meeste/ kleinste clusters (hoogste recall).
epsilon = 0.233868
min_samples = 2

# run DBScan 
db = DBSCAN(eps=epsilon, min_samples=min_samples, algorithm='auto').fit(coords)
cluster_labels = db.labels_
num_clusters = len(set(cluster_labels))
print('Number of clusters: {}'.format(num_clusters))

#Clusterlabels naar column in df
df["cluster"] = cluster_labels

##### Stap 3: raw data opslaan

In [None]:
#merge met de oude gegevens 
df = df[["VgNr", "cluster"]]
df_new = pd.merge(df_old, df, on="VgNr", how="left")

# Opslaan raw data
df_new.to_csv("FINAL_raw_eps023_MinSamples2.csv")

##### Stap 4: Post-processing
We willen dat clusters op een volgend zijn en elkaar niet overlappen qua start en stop tijd. Daarvoor voeren we een post-processing stap uit.

In [None]:
# maken van copy van df_total en sorteren op kolom clusters en tijd
Add_clusters = df_new.copy()
Add_clusters.sort_values(['VgNr'])
Add_clusters.head()

#Vinden van verschillen in kolom cluster_x
Add_clusters["Check_overlap"] = Add_clusters['cluster_x'].diff()
#Clusters nieuwe clusterwaarden geven als er een verschil is met vorige rij in kolom Check_overlap.
#Let op nieuwe clusternummers komen niet overeen met de oude clusternummers!
Add_clusters['Cluster_new']= (Add_clusters['Check_overlap'] != 0).astype(int).cumsum()

# De oorspronkelijke cluster -1 (=ruis) overnemen als None waarden in kolom Cluster_new
Add_clusters['Cluster_new'] = np.where(Add_clusters['cluster_x'] == -1, -1, (Add_clusters['Cluster_new']))

# Verwerken van de modelresultaten tot nieuwe clusters
result_total = Add_clusters.sort_values(['Cluster_new'])

df_vgnr = result_total.groupby('Cluster_new')['VgNr'].agg(['min','max']).rename(columns={'min': 'vgnr_min', 'max': 'vgnr_max'}).reset_index()
df_dt = result_total.groupby('Cluster_new')['DateTime'].agg(['min','max']).rename(columns={'min': 'dt_min', 'max': 'dt_max'}).reset_index()
df_concat = pd.merge(df_dt, df_vgnr, left_on='Cluster_new', right_on='Cluster_new')
Add_clusters["start"] = Add_clusters.DateTime.isin(df_concat.dt_min).astype(int)
Add_clusters["end"] = Add_clusters.DateTime.isin(df_concat.dt_max).astype(int)
Add_clusters["start"] = Add_clusters['start'].replace(0, np.nan)
Add_clusters["end"] = Add_clusters['end'].replace(0, np.nan)
Add_clusters.sort_values(['DateTime'], inplace=True)

##### Stap 5: Opslaan totale dataset

In [None]:
Add_clusters.to_csv("FINAL_total_eps023_MinSamples2.csv")

##### Stap 6: Vind middelste XY punt

Om de clusters overzichtelijk te maken, selecteren wij het middelste XY punt. Aan dit punten kunnen we cluster tabel koppelen, maar ook informatie vanuit Google Maps en CBS.

In [None]:
#Maak een array van lat/ lon en clusterslabels
coords_new = np.asarray(Add_clusters[['Lat_a', 'Lon_a']])
cluster_array = np.asarray(Add_clusters["Cluster_new"])
num_cluster_array = len(set(cluster_array))
num_cluster_array_2 = 530
clusters = pd.Series([coords_new[cluster_array == n] for n in range(num_cluster_array_2)])
clusters = clusters[clusters.astype(str) != '[]']

#selecteer middelste XY punt
def get_centermost_point(cluster):
    centroid = (MultiPoint(cluster).centroid.x, MultiPoint(cluster).centroid.y)
    centermost_point = min(cluster, key=lambda point: great_circle(point, centroid).m)
    return tuple(centermost_point)
centermost_points = clusters.map(get_centermost_point)

# maak dataframe
lats, lons = zip(*centermost_points)
rep_points = pd.DataFrame({'Lon_a':lons, 'Lat_a':lats})

# print(pd.DataFrame(list(centermost_points))

##### Stap 7: Cluster tabel maken
Koppel nu een cluster tabel aan de middelste XY punten. Het cluster tabel maakt inzichtelijk wat de gemiddelde snelheid en aantal XY punten per cluster zijn. 

In [None]:
##Bereken gemiddelde snelheid en aantal XY punten per cluster
kmu_per_cluster = Add_clusters.groupby('Cluster_new')['speed_kmu'].mean().reset_index(name='kmu_per_cluster')
NoP_per_cluster = Add_clusters.groupby('Cluster_new')["Cluster_new"].count().reset_index(name='NoP_per_cluster')
NoP_kmu_per_cluster = pd.merge(kmu_per_cluster, NoP_per_cluster, on=["Cluster_new"], how="left")

# koppel deze resultaten aan cluster tabel
ID_centerpoint = Add_clusters[["VgNr", "Lat_a", "Lon_a", "Lat_b", "Lon_b", "Cluster_new"]]
ID_centerpoint_2 = pd.merge(rep_points, ID_centerpoint, on=["Lon_a", "Lat_a"], how="left")
cluster_table = pd.merge(ID_centerpoint_2, NoP_kmu_per_cluster, on=["Cluster_new"], how="left")

##### Stap 8: Verwijder clusters met 1 punt
Wij hebben besloten om clusters met 1 punt te verwijderen uit het clustertabel. Dit doen we omdat deze clusters zijn afgesplitst van een groot cluster tijdens de post-processing stap. Wij verwachten daarom dat deze clusters geen stoplocaties zijn. 

In [None]:
cluster_table_no_1 = cluster_table[cluster_table.NoP_per_cluster != 1]

##### Stap 9: Sla cluster tabel op

In [None]:
cluster_table_no_1.to_csv("FINAL_NOFILTER_ClusterTable_eps023_MinSampels_2.csv")

##### Stap 10: filter cluster met gemiddelde snelheid boven 10 km/u eruit
Wij nemen aan dat stoplocaties geen gemiddelde snelheden boven de 10 km/u hebben. Vandaar dat wij deze eruit filteren. 

In [None]:
ct = cluster_table_no_1[cluster_table["kmu_per_cluster"] <=10]

##### Stap 11: sla gefilterde cluster tabel op

In [None]:
ct.to_csv("FINAL_ClusterTable_eps023_MinSamples_2.csv")

## Koppeling Google Maps

In deze stap plotten we de gefilterde cluster tabel via Google Maps

##### Stap 1: Importeren van packages, Google API key en dataset

In [None]:
# Importeren van packages
import pandas as pd
import numpy as np
import googlemaps
import os
import gmaps
import gmaps.datasets
import google_streetview.api
import google_streetview.helpers
import urllib.request, json 
import urllib, json
import pprint
from pandas.io.json import json_normalize

# Google API Key
key = 'key"
gmaps.configure(api_key=key)

#Importeer clustertabel als dataframe
df = pd.read_csv("FINAL_ClusterTable_eps023_MinSamples_2.csv")

##### Stap 2: Plot stoplocaties via Google Maps API¶
Om de stoplocaties te plotten maken we gebruik van de Maps Javascript API (https://developers.google.com/maps/documentation/javascript/tutorial?hl=nl). Via deze API is het mogelijk om een interactieve kaart te plotten met daarop de stoplocaties vanuit de XYT data.

In [None]:
# Selecteer XY punten
locations = df[["Lat_a", "Lon_a"]]

# Gebruik kolom NoP_cluster(aantal punten in cluster) voor heatmap om zo de grootte van clusters te weergeven.
NoP_cluster = df["NoP_per_cluster"]

# Creëer kaart
fig = gmaps.figure()
fig.add_layer(gmaps.heatmap_layer(locations, weights=NoP_cluster))

# Plot kaart
fig

##### Stap 3: maak links naar Google + streetview

Via Maps-url's (geen key) (https://developers.google.com/maps/documentation/urls/guide?hl=nl) kun je een link maken naar Google Maps website + streetview link. Ook maak ik een link naar Streetview Static (handig voor opslaan van foto's naar PC) (https://developers.google.com/maps/documentation/streetview/intro?hl=nl) 

In [None]:
# Functie om link naar Google Maps web te maken en toevoegen aan dataframe

def MakeLinkToGoogle(df):
    google_link = "https://www.google.com/maps/search/?api=1&query="
    df["coords_text"] = df["Lat_a"].map(str) + "," + df["Lon_a"].map(str)
    location_link = df["coords_text"]
    df["link_google"] = google_link + location_link 
    return (df)

# Roep functie aan
output_google_link = MakeLinkToGoogle(df)

In [None]:
# Functie om link naar Google Maps Streetview te maken en toevoegen aan dataframe

def MakeLinkStreetview(df):
    google_link = "https://www.google.com/maps/@?api=1&map_action=pano&viewpoint="
    df["coords_text"] = df["Lat_a"].map(str) + "," + df["Lon_a"].map(str)
    location_link = df["coords_text"]
    heading_link = "&heading=0" 
    pitch_link = "&pitch=0"
    fov_link = "&fov=100"
    df["link_streetview"] = google_link + location_link + heading_link + pitch_link + fov_link
    return (df)

# Roep functie aan
output_streetview = MakeLinkStreetview(df)

In [None]:
# Functie om link naar Static Streetview foto's + toevoegen aan dataframe

def MakeLinkStreetviewStatic(df):
    google_link = "https://maps.googleapis.com/maps/api/streetview?location="
    df["coords_text"] = df["Lat_a"].map(str) + "," + df["Lon_a"].map(str)
    location_link = df["coords_text"]
    size_link = "&size=456x456"
    key_link = "&key=AIzaSyD22pmJQR0BqnzxzU_tSq6zLYv3wwUeBp8"
    df["link_streetview_static"] = google_link + location_link + size_link + key_link
    return (df)

# Roep functie aan
output_streetview_static = MakeLinkStreetviewStatic(df)

##### Stap 4: Sla Streetview foto's op
Via de Google_streetview package kun je Streetview foto's opslaan. Ook is het mogelijk om foto's te maken vanuit verschillende hoeken. Gezien de foto's allemaal dezelfde naam krijgen, hebben wij besloten om de foto's op te slaan in verschillende mappen. Deze moeten daarna samengevoegd in 1 map (met de hand).

Let op: lange laadtijd

In [None]:
# Foto's naar map heading 0
def Google_API_0(x):
    input_streetview_0 = {
        'location': x,
        'size': '640x640',
        'heading': '0',
        'fov': '120',
        'pitch': '0',
        'key': 'AIzaSyADs-yx2hrUKVQqdJYzdyJMxjgr8nu-IDw'
}
    return(input_streetview_0)
    
# Aanroepen functie    
output_GoogleAPI_0 = df.apply(lambda x: Google_API_0(x["coords_text"]), axis=1)

# Download foto's naar map
fotos_0 = google_streetview.api.results(output_GoogleAPI_0)
fotos_0.download_links('C:/Users/candy/ID Lab/Taxi/00_Python/Heading_0')
# fotos.preview()
# fotos.save_metadata('metadata.json')

# Foto's naar map heading 90
def Google_API_90(x):
    input_streetview_90 = {
        'location': x,
        'size': '640x640',
        'heading': '90',
        'fov': '120',
        'pitch': '0',
        'key': 'AIzaSyADs-yx2hrUKVQqdJYzdyJMxjgr8nu-IDw'
}
    return(input_streetview_90)

# Aanroepen functie    
output_GoogleAPI_90 = df.apply(lambda x: Google_API_90(x["coords_text"]), axis=1)

# Download foto's naar map
fotos_90 = google_streetview.api.results(output_GoogleAPI_90)
fotos_90.download_links('C:/Users/candy/ID Lab/Taxi/00_Python/Heading_90')
# fotos.preview()
# fotos.save_metadata('metadata.json')

# Foto's naar map heading 180
def Google_API_180(x):
    input_streetview_180 = {
        'location': x,
        'size': '640x640',
        'heading': '180',
        'fov': '120',
        'pitch': '0',
        'key': 'AIzaSyADs-yx2hrUKVQqdJYzdyJMxjgr8nu-IDw'
}
    return(input_streetview_180)

# Aanroepen functie    
output_GoogleAPI_180 = df.apply(lambda x: Google_API_180(x["coords_text"]), axis=1)

# Download foto's naar map
fotos_180 = google_streetview.api.results(output_GoogleAPI_180)
fotos_180.download_links('C:/Users/candy/ID Lab/Taxi/00_Python/Heading_180')
# fotos.preview()
# fotos.save_metadata('metadata.json')

# Foto's naar map heading 270
def Google_API_270(x):
    input_streetview_270 = {
        'location': x,
        'size': '640x640',
        'heading': '270',
        'fov': '120',
        'pitch': '0',
        'key': 'AIzaSyADs-yx2hrUKVQqdJYzdyJMxjgr8nu-IDw'
}
    return(input_streetview_270)

# Aanroepen functie    
output_GoogleAPI_270 = df.apply(lambda x: Google_API_270(x["coords_text"]), axis=1)

# Download foto's naar map
fotos_270 = google_streetview.api.results(output_GoogleAPI_270)
fotos_270.download_links('C:/Users/candy/ID Lab/Taxi/00_Python/Heading_270')
# fotos.preview()
# fotos.save_metadata('metadata.json')

##### Stap 5: Adres aan cluster toevoegen

Om een adres aan het cluster te voegen, maken we gebruik van de API Google Geocoding (https://developers.google.com/maps/documentation/geocoding/start?hl=nl).

In [None]:
# Functie om adres op te vragen
def GetGoogleAdres(df):
    #lat/ lon naar string
    df["coords_text"] = df["Lat_a"].map(str) + "," + df["Lon_a"].map(str)
    #maak google link
    google_link = 'https://maps.googleapis.com/maps/api/geocode/json?latlng=' 
    key = '&key=AIzaSyD22pmJQR0BqnzxzU_tSq6zLYv3wwUeBp8'
    location = df["coords_text"]
    df["link_adres"] = google_link + location + key
    #resultaten ophalen via link
    df["output_adres"] = df.apply(lambda x: json.load(urllib.request.urlopen(x["link_adres"])), axis=1)
    #samenvoegen van dataframes/ normaliseren van json format naar dataframe
    df_new = (pd.concat({i: pd.DataFrame(json_normalize(x["results"][0])) for i, x in df.pop("output_adres").items()})
           .reset_index(level=1, drop=True)
           .join(df)
           .reset_index(drop=True))   
    return(df_new)

#Voer functie uit
df_adres = GetGoogleAdres(df=df)

#Verwijderen van niet belangrijke kolommen
del df_adres["address_components"]
del df_adres["geometry.bounds.northeast.lat"]
del df_adres["geometry.bounds.northeast.lng"]
del df_adres["geometry.bounds.southwest.lat"]
del df_adres["geometry.bounds.southwest.lng"]
del df_adres["geometry.location_type"]
del df_adres["geometry.location.lng"]
del df_adres["geometry.viewport.northeast.lat"]
del df_adres["geometry.viewport.northeast.lng"]
del df_adres["geometry.viewport.southwest.lat"]
del df_adres["geometry.viewport.southwest.lng"]
del df_adres["plus_code.compound_code"]
del df_adres["plus_code.global_code"]
del df_adres["geometry.location.lat"]
del df_adres["types"]
del df_adres["Unnamed: 0"]
del df_adres["Lat_b"]
del df_adres["Lon_b"]

#Verander kolomnamen (belangrijk om dubbele kolommen te voorkomen)
df_adres.rename(columns={'formatted_address':"adres", "place_id":"adres_id", "Lon_a":"Lon", "Lat_a":"Lat", "Cluster_new":"Cluster_nummer"}, inplace=True)

In [None]:
Stap 6: Lijst met bedrijven in de omgeving van cluster
In deze stap koppelen we een lijst met bedrijven aan het cluster. Hiervoor gebruiken we de API Google Places (https://developers.google.com/places/web-service/intro?hl=nl).

In [None]:
def GetGooglePlaces(df):
    #maak string van lat/lon
    df["coords_text"] = df["Lat"].map(str) + "," + df["Lon"].map(str)
    #creëer google api link
    google_link = 'https://maps.googleapis.com/maps/api/place/nearbysearch/json?location=' 
    key = '&key=AIzaSyD22pmJQR0BqnzxzU_tSq6zLYv3wwUeBp8'
    location = df["coords_text"]
    radius = '&radius=50'
    df["link_places"] = google_link + location + radius + key
    #vraag json op via google api link
    df["output_places"] = df.apply(lambda x: json.load(urllib.request.urlopen(x["link_places"])), axis=1)
    #Maak van json een dataframe en voeg samen met oorspronkelijke dataframe
    df_new = (pd.concat({i: pd.DataFrame(json_normalize(x["results"])) for i, x in df.pop("output_places").items()})
           .reset_index(level=1, drop=True)
           .join(df)
           .reset_index(drop=True))   
    return(df_new)

# Voer functie uit
df_places = GetGooglePlaces(df=df_adres)

#Verwijder onbelangrijke columns
# del df_places["geometry.location.lat"] 
# del df_places["geometry.location.lng"]
del df_places["geometry.viewport.northeast.lat"]
del df_places["geometry.viewport.northeast.lng"]
del df_places["geometry.viewport.southwest.lat"]
del df_places["geometry.viewport.southwest.lng"]
del df_places["icon"]
del df_places["opening_hours.open_now"]
del df_places["id"]
del df_places["plus_code.compound_code"]
del df_places["plus_code.global_code"]
del df_places["reference"]
del df_places["scope"]
del df_places["coords_text"]

#Verander naam kolommen en volgorde
df_places.rename(columns={"geometry.location.lat": "lat_bedrijf", "geometry.location.lng": "lon_bedrijf", 'name':"naam_bedrijven_in_de_buurt", "photos":"JSON_foto_bedrijven", "price_level":"prijslevel_bedrijven", "rating":"rating_bedrijven","types":"type_bedrijven", "user_rating_total":"totale_score_rating_bedrijven", "vicinity":"adres_bedrijven", "adres":"adres_cluster", "adres_id": "cluster_id_google"}, inplace=True)
df_places = df_places[["VgNr", "cluster_id_google", "Cluster_nummer", "Lon", "Lat", "adres_cluster", "kmu_per_cluster", "NoP_per_cluster", "naam_bedrijven_in_de_buurt", "place_id", "type_bedrijven", "adres_bedrijven", "lon_bedrijf", "lat_bedrijf", "rating_bedrijven", "user_ratings_total", "prijslevel_bedrijven", "link_google", "link_streetview", "link_streetview_static", "link_adres", "link_places"]]

#Dataframe naar csv
df_places.to_csv("XYT_Google_04_sample.csv")