In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import requests
import json
import googlemaps
%matplotlib notebook

# Obtención de distancias con la API de googlemaps. 

La librería "googlemaps" de python nos proporciona una forma fácil de acceder a las distintas API de google maps sin necesidad de armar la url con la request y sin necesidad de parsear el json recibido. 

Particularmente usaremos la distance-matrix API.

## Cliente

Para el cliente necesitaremos una clave, que es la que identifica nuestros pedidos. y límites de uso. Nuestra clave será: `AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU`

Se le especifica que se podrán hacer como máximo 100 queries por segundo, que es el límite de la versión gratuita de la API

In [31]:
client = googlemaps.Client(key="AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU")

## Queries

Para los pedidos tendremos una lista de origenes en latitud y longitud y una de destinos en el mismo formato. Las obtendremos de station.csv.

In [32]:
# Nos interesan las distancias nomás, con lo cual con lat y long estamos.
station = pd.read_csv("Data/station.csv")
station = station[["id", "name", "lat", "long"]]
station.head(2)

Unnamed: 0,id,name,lat,long
0,2,San Jose Diridon Caltrain Station,37.329732,-121.901782
1,3,San Jose Civic Center,37.330698,-121.888979


In [33]:
# Transformamos latitud y longitud en una sola tupla.
station["lat_long"]= station[["lat","long"]].apply(tuple, axis=1)

In [34]:
station = station[["id","name","lat_long"]]

In [35]:
station.head(2)

Unnamed: 0,id,name,lat_long
0,2,San Jose Diridon Caltrain Station,"(37.329732, -121.901782)"
1,3,San Jose Civic Center,"(37.330698, -121.888979)"


In [36]:
# Acá van las consultas.
orig = list(station.lat_long)
dest = list(station.lat_long)

## División en días

Sin embargo, tenemos 70x70 queries (4900) y solo tenemos 2500 por día. Necesitaremos separar las queries en 2 días. El primero haremos los primeros 50x50 (m11) y luego el resto, del siguiente modo:

50x50 (m11) |50x20 (m12)
---|---
**20x50 (m21)** |**20x20 (m22)**

In [51]:
# separo los origenes y destinos según submatriz

# m11
orig_m11 = orig[0:10]
dest_m11 = dest[0:10]

# m12
orig_m12 = orig[0:50]
dest_m12 = dest[50:70]

# m21
orig_m21 = orig[50:70]
dest_m21 = dest[0:50]

# m22
orig_m22 = orig[50:70]
dest_m22 = dest[50:70]

## Matriz de distancias

Para pedir la matriz de distancias se le pasa a la función `distance_matrix` la lista de orígienes, la de destinos y el modo, en este caso, bicicleta.

Primero el día 1:

In [52]:
m11 = client.distance_matrix(origins=orig_m11, destinations=dest_m11, mode="bicycling")

In [53]:
m11

{'destination_addresses': ['514-590 Crandall St, San Jose, CA 95110, USA',
  '101-127 W San Carlos St, San Jose, CA 95113, USA',
  '244-276 W Santa Clara St, San Jose, CA 95110, USA',
  '151 Almaden Blvd, San Jose, CA 95113, USA',
  '75 N San Pedro St, San Jose, CA 95110, USA',
  '176-198 S 2nd St, San Jose, CA 95113, USA',
  '2-48 E San Salvador St, San Jose, CA 95112, USA',
  '195 Jackson St, San Jose, CA 95112, USA',
  '18-26 S 4th St, San Jose, CA 95112, USA',
  '158 E San Fernando St, San Jose, CA 95112, USA'],
 'origin_addresses': ['514-590 Crandall St, San Jose, CA 95110, USA',
  '101-127 W San Carlos St, San Jose, CA 95113, USA',
  '244-276 W Santa Clara St, San Jose, CA 95110, USA',
  '151 Almaden Blvd, San Jose, CA 95113, USA',
  '75 N San Pedro St, San Jose, CA 95110, USA',
  '176-198 S 2nd St, San Jose, CA 95113, USA',
  '2-48 E San Salvador St, San Jose, CA 95112, USA',
  '195 Jackson St, San Jose, CA 95112, USA',
  '18-26 S 4th St, San Jose, CA 95112, USA',
  '158 E San F

In [48]:
print(client.timeout)

None


NameError: name 'api_status' is not defined

In [7]:
ids_from = []
ids_to = []

for id1 in ids:
    for id2 in ids:
        ids_from.append(id1)
        ids_to.append(id2)

caminos = pd.DataFrame({"id_from": ids_from, "id_to": ids_to})

In [8]:
caminos.head(5)

Unnamed: 0,id_from,id_to
0,2,2
1,2,3
2,2,4
3,2,5
4,2,6


In [9]:
caminos = caminos.merge(station, left_on=["id_from"], right_on=["id"])[["id_from","id_to","lat","long"]]

In [10]:
caminos.rename(columns={"lat":"lat_from","long":"long_from"},inplace=True)

In [11]:
caminos = caminos.merge(station, left_on=["id_to"], right_on=["id"])[["id_from","id_to","lat_from","long_from", "lat","long"]]

In [12]:
caminos.rename(columns={"lat":"lat_to","long":"long_to"},inplace=True)

In [13]:
caminos.head(5)

Unnamed: 0,id_from,id_to,lat_from,long_from,lat_to,long_to
0,2,2,37.329732,-121.901782,37.329732,-121.901782
1,3,2,37.330698,-121.888979,37.329732,-121.901782
2,4,2,37.333988,-121.894902,37.329732,-121.901782
3,5,2,37.331415,-121.8932,37.329732,-121.901782
4,6,2,37.336721,-121.894074,37.329732,-121.901782


In [14]:
len(station)

70

### Consultas 

Google recibe una lista de origenes y una de destinos. No calcularemos los viajes redondos. Cada fila es un origen y un destino.

Tenemos un límite de 100 elementos (10 orígenes y 10 destinos) por segundo. Hay que cubrir 70 orígenes por 70 destinos. Son 49 pasadas.

Trato de tomar sublistas de 10 elementos de una lista.

In [15]:
lista20 = [i for i in range(0,21)]

In [16]:
from math import floor

# Devuelve sublistas de longitud l.
def slice(lista, l):
    return [lista[i:i+l] for i in range (0,len(lista),l)]

# Chunks de a 10.
chunks = slice([i for i in ids],10)

Pero pandas también hace slices, de forma automática!

In [21]:
caminosAbiertos = caminos[caminos.id_from != caminos.id_to]

In [None]:
for chunk_from in chunks:
    for chunk_to in chunks:
        

In [23]:
caminos_chunks = slice(caminosAbiertos,10)

In [28]:
len(caminos_chunks)

483

In [29]:
caminos_chunks[0]

Unnamed: 0,id_from,id_to,lat_from,long_from,lat_to,long_to
1,3,2,37.330698,-121.888979,37.329732,-121.901782
2,4,2,37.333988,-121.894902,37.329732,-121.901782
3,5,2,37.331415,-121.8932,37.329732,-121.901782
4,6,2,37.336721,-121.894074,37.329732,-121.901782
5,7,2,37.333798,-121.886943,37.329732,-121.901782
6,8,2,37.330165,-121.885831,37.329732,-121.901782
7,9,2,37.348742,-121.894715,37.329732,-121.901782
8,10,2,37.337391,-121.886995,37.329732,-121.901782
9,11,2,37.335885,-121.88566,37.329732,-121.901782
10,12,2,37.332808,-121.883891,37.329732,-121.901782


Necesito una función que dado un chunk devuelva dos strings. una de orígenes y una de destinos. O directamente toda la string que pide la api. Por ahora los strings separados

In [56]:
str_origenes

'37.330698,-121.888979|37.333988,-121.894902|37.331415,-121.8932|37.336721,-121.894074|37.333798,-121.886943|37.330165,-121.885831|37.348742,-121.894715|37.337391,-121.886995|37.335885,-121.88566|37.332808,-121.883891|'

In [62]:
def request_from_chunk(chunk):
    # la primera string es la de orígenes.
    origenes = chunk.lat_from.astype(str) + "," + chunk.long_from.astype(str)
    origenes_str = "|".join(origenes)
    destinos = chunk.lat_to.astype(str) + "," + chunk.long_to.astype(str)
    destinos_str = "|".join(destinos)
    url = 'https://maps.googleapis.com/maps/api/distancematrix/json?units=metric&origins=@origins@&destinations=@destinations@&mode=bicycling&key=AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU'
    url = url.replace('@origins@', origenes_str)
    return url.replace('@destinations@', destinos_str)

In [63]:
r = requests.get(request_from_chunk(caminos_chunks[0]))

In [68]:
responses = [r]

In [69]:
def getDistancias(chunk):
    return requests.get(request_from_chunk(chunk))

In [72]:
responses.append(getDistancias(caminos_chunks[2]))

In [73]:
responses

[<Response [200]>, <Response [200]>, <Response [200]>]

In [80]:
for i in range(10,20):
    responses.append(getDistancias(caminos_chunks[i]))
    print(i)
    time.sleep(2)

10
11
12
13
14
15
16
17
18
19


In [79]:
responses[9].content

b'{\n   "destination_addresses" : [\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA",\n      "101-127 W San Carlos St, San Jose, CA 95113, USA"\n   ],\n   "origin_addresses" : [\n      "32 Showers Dr, Mountain View, CA 94040, USA",\n      "87 E Evelyn Ave, Mountain View, CA 94041, USA",\n      "2438-2498 Latham St, Mountain View, CA 94040, USA",\n      "900-998 Castro St, Mountain View, CA 94040, USA",\n      "255 S Rengstorff Ave, Mountain View, CA 94040, USA",\n      "394-450 Alma St, Palo Alto, CA 94301, USA",\

In [83]:
len(caminos_chunks)

483

Pero estoy haciendo esto mal... La idea acá no hay que darle las combinaciones servidas, sino los objetos a combinar. Chunks tiene las 70\*70 combinaciones. Nosotros queremos pasarle 10 estaciones y otras 10. Queremos algo de 7\*7. Vamos a generar eso.

station tiene las 70 estaciones. Vamos a dividir eso en chunks de a 10.

In [85]:
station_chunks = slice(station[["id", "lat", "long"]],10)

In [88]:
station_chunks[0]

Unnamed: 0,id,lat,long
0,2,37.329732,-121.901782
1,3,37.330698,-121.888979
2,4,37.333988,-121.894902
3,5,37.331415,-121.8932
4,6,37.336721,-121.894074
5,7,37.333798,-121.886943
6,8,37.330165,-121.885831
7,9,37.348742,-121.894715
8,10,37.337391,-121.886995
9,11,37.335885,-121.88566


In [89]:
len(station_chunks)

7

Perfecto. Son 7 chunks. Ahora vamos a definir una nueva función que tome dos chunks, tome al primero como de origenes, al segundo como de destinos y mande devuelva el resultado de la request.

In [94]:
def getDistances(chunk_from, chunk_to):
    origenes = chunk_from.lat.astype(str) + "," + chunk_from.long.astype(str)
    origenes_str = "|".join(origenes)
    destinos = chunk_to.lat.astype(str) + "," + chunk_to.long.astype(str)
    destinos_str = "|".join(destinos)
    url = 'https://maps.googleapis.com/maps/api/distancematrix/json?units=metric&origins=@origins@&destinations=@destinations@&mode=bicycling&key=AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU'
    url = url.replace('@origins@', origenes_str)
    url = url.replace('@destinations@', destinos_str)
    return requests.get(url)

In [96]:
responses = []

In [104]:
responses.append(getDistances(station_chunks[0],station_chunks[5]))

In [100]:
for i in range (0,1):
    for j in range(1,5):
        responses.append(getDistances(station_chunks[i],station_chunks[j]))
        time.sleep(2)

SSLError: ("bad handshake: SysCallError(-1, 'Unexpected EOF')",)

In [110]:
# Este es el primero que falló.
print(responses[5].content)

b'{\n   "destination_addresses" : [],\n   "error_message" : "You have exceeded your daily request quota for this API.",\n   "origin_addresses" : [],\n   "rows" : [],\n   "status" : "OVER_QUERY_LIMIT"\n}\n'


Por si sigo esto en algún momento, son las 16:40 y se hicieron los primeros 5 (del 0,0 al 0,4).

In [112]:
# Saco el 5to. Ya lo hice, no ejecutar de nuevo.
# responses.pop()

<Response [200]>