In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import requests
import json
import googlemaps
%matplotlib notebook

# Obtención de distancias con la API de googlemaps. 

La librería "googlemaps" de python nos proporciona una forma fácil de acceder a las distintas API de google maps sin necesidad de armar la url con la request y sin necesidad de parsear el json recibido (devuelve diccionarios de python como responses). 

Particularmente usaremos la distance-matrix API para obtener la distancia y la duración estimada entre dos estaciones cualesquiera.

## Cliente

Para el cliente necesitaremos una clave, que es la que identifica nuestros pedidos. y límites de uso. Nuestra clave será: `AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU`.

In [21]:
client = googlemaps.Client(key="AIzaSyClXE88owbhRnkRXhqK3Aiz1L1mTUgfRLU")

## Queries

Para los pedidos tendremos una lista de origenes en duplas (latitud, longitud) y una de destinos en el mismo formato. Las obtendremos de station.csv.

In [221]:
# Nos interesan las distancias nomás, con lo cual con lat y long estamos.
station = pd.read_csv("data/station.csv")
station = station[["id", "name", "lat", "long"]]
# Transformamos latitud y longitud en una sola tupla.
station["lat_long"] = station[["lat","long"]].apply(tuple, axis=1)
station = station[["id","name","lat_long"]]
station.head(2)

Unnamed: 0,id,name,lat_long
0,2,San Jose Diridon Caltrain Station,"(37.329732, -121.901782)"
1,3,San Jose Civic Center,"(37.330698, -121.888979)"


## División en días

El problema es que tenemos 70x70 queries (4900) y la API de google nos impone un límite de 2500 por día. Necesitaremos separar las queries en 2 días. El primero haremos los primeros 50x50 pedidos (m11) y el segundo día los restantes, del siguiente modo:

50x50 (m11)     |50x20 (m12)
----------------|---------------
**20x50 (m21)** |**20x20 (m22)**

A su vez, tenemos un límite de 100 pedidos por segundo, con lo cual subdividermos esas submatrices en otras más pequeñas de 10x10.

Para eso definimos una función accesoria que parte listas en otras más pequeñas (chunks).

In [222]:
# Devuelve sublistas de longitud l.
def slice(lista, l):
    return [lista[i:i+l] for i in range (0,len(lista),l)]

Además tendremos una función accesoria que toma chunks de origen y destino y arma una matriz de respuestas donde cada respuesta será una submatriz de 10x10.

In [43]:
def init_response_matrix(chunked_orig, chunked_dest):
    return [len(chunked_dest)*[0] for row in range(len(chunked_orig))]

La siguiente función toma el vector de ubicaciones y los índices de origen (x0,x1) y de destino(y0,y1) para los cuales pedir a la API las distancias. Por ejemplo, para m11 (x0,x1) = (y0,y1) = (0,50), ya que se quiere pedir la distancia entre los primeros 50 elementos.

In [135]:
import time
# Toma orígenes en chunks.
def get_responses(places, x0, x1, y0, y1):
    # extraigo origenes y destinos y luego los separo en chunks
    origs = slice(places[x0:x1],10)
    dests = slice(places[y0:y1],10)
    mats = init_response_matrix(origs, dests)
    for (i,orig) in enumerate(origs):
        for (j,dest) in enumerate(dests):
            # x,y son los índices del elemento superior izquierdo para la matriz grande.
            x,y = i+x0, j+y0
            print("Intento de pedido sobre la submatriz "+ str(x) + ";" + str(y))
            r = client.distance_matrix(origins=orig, destinations=dest, mode="bicycling")
            mats[i][j] = (x,y,r)
            print("get " + str(x) + ";" + str(y) + "satisfactorio.")
            time.sleep(2)
    return mats

Pedido del primer día:

In [85]:
m_11 = get_responses(station.lat_long,0,50,0,50)

Pedidos del segundo día:

In [None]:
m_12 = get_responses(station.lat_long,0,50,50,70)
m_21 = get_responses(station.lat_long,50,70,0,50)
m_22 = get_responses(station.lat_long,50,70,50,70)

## Extracción de Resultados

El resultado de cada query es un **diccionario**. Ese diccionario tiene un campo **'rows'** que es una lista de filas. 
Cada **fila** es un diccionario, con un campo 'elements' que tiene a los elementos de cada fila.
Cada **elemento** es también un diccionario, del cual nos interesarán sus campos 'distance' y 'duration'.

Primero definimos las matrices grandes que queremos llenar.

In [216]:
mat_dist = [70*[0] for fila in range(70)] # Matriz de distancias de 70x70
mat_dur = [70*[0] for fila in range(70)]  # Matriz de duraciones de 70x70

Ahora defino un extractor de matrices de distancias. Esto toma una de las submatrices de respuestas y pone los valores que corresponden en las matrices grandes.

In [217]:
def extract_dmatrix(m, mat_dist, mat_dur):    
    # Estas son filas de las submatrices.
    for fila in m:
        for tripla in fila:
            # Cada elemento es una tripla (x,y,diccionario).
            x = tripla[0]
            y = tripla[1]
            d = tripla[2]
            # Cada diccionario es una request, así que tiene empaquetada una matriz de 10x10.
            assert(len(d['rows']) == 10)
            # Ahora tenemos filas de verdad (en la matriz grande).
            for (i,row) in enumerate(d['rows']):
                # Extracción de una fila en distancia, en metros y su colocación en la matriz grande.
                distance_row = [element['distance']['value'] for element in row['elements']]
                assert(len(distance_row) == 10)
                mat_dist[x+i][y:y+10] = distance_row
                # Idem para duración, en segundos.
                duration_row = [element['duration']['value'] for element in row['elements']]
                assert(len(distance_row) == 10)
                mat_dur[x+i][y:y+10] = duration_row

Extracción del primer día:

In [234]:
extract_dmatrix(m_11, mat_dist, mat_dur)

Extracción del segundo día:

In [None]:
extract_dmatrix(m_12, mat_dist, mat_dur)
extract_dmatrix(m_21, mat_dist, mat_dur)
extract_dmatrix(m_22, mat_dist, mat_dur)

## Guardado
Por si hay que escribir provisoriamente la matriz en un archivo.

In [231]:
def escribirMatriz(file,mat):
    fout = open(file,'w')
    for row in mat:
        for el in row:
            fout.write(str(el) + " ")
        fout.write("\n")
    fout.close()

In [235]:
escribirMatriz("data/distancias", mat_dist)
escribirMatriz("data/duraciones", mat_dur)