# Obteniendo la información para el Scrapping

Importamos las librerias para el scrapping

In [76]:
import pandas as pd
import string
import googlemaps
import numpy as np
import os
import re

## Importando las provincias/distritos a analizar

Primero, leeremos un archivo que contiene los elementos de los ubigeos del INEI. Se puede descargar entrando [aquí](http://webinei.inei.gob.pe:8080/sisconcode/proyecto/index.htm?proyectoTitulo=UBIGEO&proyectoId=3) y dando click a la opción **Excel** en la pestaña *Busqueda por Ubicación Geográfica*

In [77]:
ubigeos = pd.read_excel('ubigeo_inei.xls',skiprows=1)
ubigeos.head()

Unnamed: 0.1,Unnamed: 0,DEPARTAMENTO,Unnamed: 2,Unnamed: 3,PROVINCIA,DISTRITO
0,,01 Amazonas,,,,
1,,01 Amazonas,,,01 Chachapoyas,
2,,01 Amazonas,,,01 Chachapoyas,01 Chachapoyas
3,,01 Amazonas,,,01 Chachapoyas,02 Asunción
4,,01 Amazonas,,,01 Chachapoyas,03 Balsas


Necesitamos las provincias y distritos de esta base, así que limpiaremos los valores de estas variables

In [78]:
ubigeos["PROVINCIA"] = ubigeos["PROVINCIA"].str.replace('^\d* ', "", flags=re.I, regex=True)
ubigeos["DISTRITO"] = ubigeos["DISTRITO"].str.replace('^\d* ', "", flags=re.I, regex=True)
ubigeos.head()

Unnamed: 0.1,Unnamed: 0,DEPARTAMENTO,Unnamed: 2,Unnamed: 3,PROVINCIA,DISTRITO
0,,01 Amazonas,,,,
1,,01 Amazonas,,,Chachapoyas,
2,,01 Amazonas,,,Chachapoyas,Chachapoyas
3,,01 Amazonas,,,Chachapoyas,Asunción
4,,01 Amazonas,,,Chachapoyas,Balsas


Necesitaremos estas dos columnas como listas, pues después las usaremos para crear un DataFrame donde guardaremos los resultados del scrapping

In [79]:
# Creando las listas
provincias = list(ubigeos['PROVINCIA'])
distritos = list(ubigeos['DISTRITO'])

Limpiando las listas

In [80]:
# Eliminando duplicados
provincias = set(provincias)
distritos = set(distritos)

# Eliminando algunos elementos inutiles ('', nan)
provincias = list(filter(lambda x: str(x) != 'nan', provincias))
distritos = list(filter(lambda x: str(x) != 'nan', distritos))

provincias.remove('')
provincias.remove('PROVINCIA')
distritos.remove('')

Eliminando las tildes

In [81]:
# Definimos una función para eliminar las tildes
def normalize(s):
    replacements = (
        ("á", "a"),
        ("à", "a"),
        ("é", "e"),
        ("è", "e"),
        ("í", "i"),
        ("ì", "i"),
        ("ó", "o"),
        ("ò", "o"),
        ("ú", "u"),
        ("ù", "u")
    )
    for a, b in replacements:
        s = s.replace(a, b).replace(a.upper(), b.upper())
    return s

In [82]:
# La aplicamos a cada elemento de nuestras provincias/distritos
nro_provs = len(provincias)
for i in range(nro_provs):
    provincias[i] = normalize(provincias[i])
    # De paso, les quitaremos espacios
    provincias[i] = provincias[i].strip()

nro_distrs = len(distritos)
for i in range(nro_distrs):
    distritos[i] = normalize(distritos[i])
    distritos[i] = distritos[i].strip()

In [83]:
print(provincias)
# print(distritos)

['Chepen', 'Huarochiri', 'Espinar', 'Castrovirreyna', 'Moyobamba', 'Caraveli', 'Palpa', 'Ocros', 'Manu', 'San Martin', 'Chachapoyas', 'Candarave', 'Paita', 'Cangallo', 'Angaraes', 'El Collao', 'Leoncio Prado', 'Tarma', 'Jaen', 'Pachitea', 'Cotabambas', 'Contralmirante Villar', 'San Ignacio', 'Condesuyos', 'Antabamba', 'Huallaga', 'Tacna', 'Tumbes', 'Chota', 'Huaura', 'Puerto Inca', 'Castilla', 'Huancane', 'Trujillo', 'Canas', 'Zarumilla', 'Pataz', 'Coronel Portillo', 'Pisco', 'Bongara', 'Yauyos', 'Ilo', 'Tarata', 'Jorge Basadre', 'Santa', 'Huacaybamba', 'Churcampa', 'Tayacaja', 'Moho', 'Cutervo', 'Cusco', 'Asuncion', 'Julcan', 'Huancabamba', 'Dos de Mayo', 'Huaraz', 'Sihuas', 'Aija', 'Cajamarca', 'Pacasmayo', 'Mariscal Ramon Castilla', 'Satipo', 'Cañete', 'Maynas', 'Ucayali', 'San Roman', 'Carlos Fermin Fitzcarrald', 'Tahuamanu', 'Contumaza', 'Lambayeque', 'Gran Chimu', 'Paucartambo', 'Bellavista', 'San Miguel', 'Islay', 'Cajabamba', 'Junin', 'Arequipa', 'Ambo', 'Purus', 'Aymaraes', 'A

# Scrapping de Distancias y Tiempos de viaje

Para realizar este scrapping, se tomará como referencia esta [guía](https://www.datahubbs.com/google-maps-python/)

## Matrices base a nivel de Provincias

Lo primero será crear un DataFrame con los distritos/provincias de origen y de llegada.

In [84]:
first_col = ["Origin Province\Destination Province"]
prov_distances = pd.DataFrame({"Origin Province\Destination Province": provincias}, 
                        columns = first_col+provincias)
prov_times = pd.DataFrame({"Origin Province\Destination Province": provincias}, 
                        columns = first_col+provincias)
prov_distances

Unnamed: 0,Origin Province\Destination Province,Chepen,Huarochiri,Espinar,Castrovirreyna,Moyobamba,Caraveli,Palpa,Ocros,Manu,...,Caylloma,Tocache,Puno,La Mar,Huamalies,Putumayo,Urubamba,Sullana,Quispicanchi,Otuzco
0,Chepen,,,,,,,,,,...,,,,,,,,,,
1,Huarochiri,,,,,,,,,,...,,,,,,,,,,
2,Espinar,,,,,,,,,,...,,,,,,,,,,
3,Castrovirreyna,,,,,,,,,,...,,,,,,,,,,
4,Moyobamba,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
191,Putumayo,,,,,,,,,,...,,,,,,,,,,
192,Urubamba,,,,,,,,,,...,,,,,,,,,,
193,Sullana,,,,,,,,,,...,,,,,,,,,,
194,Quispicanchi,,,,,,,,,,...,,,,,,,,,,


Creando listas con los origenes/destinos para reemplazar en el dataframe

In [85]:
# Como queremos iterar sobre los nombres de las provincias
origen_destino=[]

for prov_row in provincias:
    origen_destino.append(prov_row+"+"+"Peru")

origen_destino

['Chepen+Peru',
 'Huarochiri+Peru',
 'Espinar+Peru',
 'Castrovirreyna+Peru',
 'Moyobamba+Peru',
 'Caraveli+Peru',
 'Palpa+Peru',
 'Ocros+Peru',
 'Manu+Peru',
 'San Martin+Peru',
 'Chachapoyas+Peru',
 'Candarave+Peru',
 'Paita+Peru',
 'Cangallo+Peru',
 'Angaraes+Peru',
 'El Collao+Peru',
 'Leoncio Prado+Peru',
 'Tarma+Peru',
 'Jaen+Peru',
 'Pachitea+Peru',
 'Cotabambas+Peru',
 'Contralmirante Villar+Peru',
 'San Ignacio+Peru',
 'Condesuyos+Peru',
 'Antabamba+Peru',
 'Huallaga+Peru',
 'Tacna+Peru',
 'Tumbes+Peru',
 'Chota+Peru',
 'Huaura+Peru',
 'Puerto Inca+Peru',
 'Castilla+Peru',
 'Huancane+Peru',
 'Trujillo+Peru',
 'Canas+Peru',
 'Zarumilla+Peru',
 'Pataz+Peru',
 'Coronel Portillo+Peru',
 'Pisco+Peru',
 'Bongara+Peru',
 'Yauyos+Peru',
 'Ilo+Peru',
 'Tarata+Peru',
 'Jorge Basadre+Peru',
 'Santa+Peru',
 'Huacaybamba+Peru',
 'Churcampa+Peru',
 'Tayacaja+Peru',
 'Moho+Peru',
 'Cutervo+Peru',
 'Cusco+Peru',
 'Asuncion+Peru',
 'Julcan+Peru',
 'Huancabamba+Peru',
 'Dos de Mayo+Peru',
 'Huar

## TODO: Matrices base a nivel de distritos

## ¿Cómo usar el paquete `googlemaps`?

Ahora que ya tenemos todos los datos listos, nos falta activar la clase `googlemaps` para que podamos extraer tiempos y distancias. Ello se puede hacer así:

1. Importamos la librería googlemaps (Hecho al inicio de este jupyter)
1. Activamos el API `Distance Matrix API` en Google Cloud Platform (se puede encontrar una guía [aquí](https://www.youtube.com/watch?v=n1UorU1PALk))
1. Creamos una API key para poder usar el item anterior (guía [aquí](https://www.youtube.com/watch?v=2_HZObVbe-g))
1. Activaremos el cobro por el uso del API (Nos daran una prueba gratuita. La guía está [aquí](https://support.google.com/googleapi/answer/6158867?hl=en))

Sin un API key no podrán seguir el proceso, pero es de uso **personal**. Por ello, nunca la debemos escribir directamente en nuestro código; sin embargo, aprenderemos como utilizarla manteniendola privada y lo haremos usando **variables del sistema**

En el Menú de Inicio de Windows, busquen "environment" o "variables". Escojan la opción **"Editar las variables de entorno del sistema"**
![](images\env1.jpg)

Abranlo y entren a la pestaña `Opciones Avanzadas`

![](images\env2.jpg)

Hagan click a la opción `Variables de entornno`
![](images\env3.jpg)

Vayan a la sección `Variables de entorno` y denle click a **Nueva...**
![](images\env4.jpg)

Coloquen el nombre que prefieran (en mi caso, usé  `maps_key`) y, como valor, la API Key correspondiente (no la deben colocar entre comillas)
![](images\env5.jpg)

Denle Aceptar a esta ventana y luego a las anteriores hasta que se cierren todas. Cuando estén cerradas, reinicien su computadora y ya deberían poder usarla

## Usando `googlemaps` para crear una función que calcule distancias/tiempos

Cuando ya tengan su API Key lista, llamenla de la siguiente manera

In [86]:
key = os.environ.get('maps_key')

Ahora, activaremos la clase google maps usando nuestro key

In [87]:
gmaps = googlemaps.Client(key)

In [126]:
def matrix_blocks(first_row, first_column, final_row_plus_one, final_col, df_distances, df_times):
    """
    Función para completar la matriz por bloques que comiencen desde "first_row" y "first_column" hasta "iterations_row" 
    y "iterations_column". Se creó porque ejecutar el sgte codigo para todas las celdas toma mucho tiempo en ejecutarse.
    
    Para hacer más eficiente la tarea, se puede ejecutar esto por partes hasta completarlo. Además, permite convertir la tarea
    en una grupal. Un equipo puede hacer que cada uno de sus miembros complete ciertos bloques (e.g. linea 1 hasta 12, otro 
    linea 12 hasta 24, y así sucesivamente)
    """
    # Codigo base para cada fila (comenzando con la 0)
    for row in range(first_row, final_row_plus_one):
        print(row)
        for col in range(first_column, final_col):
            # Definiendo un índice para nuestra lista con los origenes/destinos en función a la columna del dataframe
            # en la que queremos el resultado
            index_destination = col-1

            # Si las filas y columnas son consecutivas, las distancias y tiempo son de un sitio al mismo sitio, asi que 
            # debemos controlar ese factir
            if col-1==row:
                df_distances.iloc[row,col] = '0 km'
                df_times.iloc[row,col] = '0 mins'

            else:
                # Obteniendo las distancias correspondientes: 
                provs_mat = gmaps.distance_matrix(origins=origen_destino[row], destinations=origen_destino[index_destination], mode='driving')
                distance_duration = provs_mat['rows'][0]['elements'][0]

                # No siempre es posible viajar de un lugar a otro por restricciones geográficas, así que debemos definir qué ocurre
                # en casos así
                if distance_duration.get('distance'):
                    df_distances.iloc[row,col] = distance_duration['distance']['text']
                else:
                    df_distances.iloc[row,col] = '-'

                if distance_duration.get('duration'):
                    df_times.iloc[row,col] = distance_duration['duration']['text']
                else:
                    df_times.iloc[row,col] = '-'            

                # Para debuggear:
                # print('Origen: '+origen_destino[row]+' | Destino: '+origen_destino[index_destination]) 
                # print(prov_distances.iloc[row,col])

### Aplicando la función a las Matrices para Provincias

In [123]:
primera_fila = 13
primera_col = 1
ult_fila_mas_uno = 25
ult_col = len(provincias)+1

matrix_blocks(primera_fila, primera_col, ult_fila_mas_uno, ult_col, prov_distances, prov_times)

13
14
15
16
17
18
19
20
21
22
23
24


In [124]:
prov_distances[0:24]

Unnamed: 0,Origin Province\Destination Province,Chepen,Huarochiri,Espinar,Castrovirreyna,Moyobamba,Caraveli,Palpa,Ocros,Manu,...,Caylloma,Tocache,Puno,La Mar,Huamalies,Putumayo,Urubamba,Sullana,Quispicanchi,Otuzco
0,Chepen,0 km,894 km,"1,776 km","1,196 km",673 km,"1,474 km","1,089 km",592 km,-,...,"1,698 km",673 km,"1,985 km",707 km,634 km,-,"1,801 km",325 km,"1,840 km",218 km
1,Huarochiri,896 km,0 km,"1,096 km",516 km,"1,294 km",794 km,409 km,487 km,-,...,"1,018 km",869 km,"1,305 km",189 km,674 km,-,"1,121 km","1,219 km","1,160 km",828 km
2,Espinar,"1,992 km","1,309 km",0 km,874 km,"2,068 km",663 km,895 km,"1,583 km",-,...,78.5 km,"1,643 km",252 km,"1,284 km","1,769 km",-,284 km,"2,315 km",198 km,"1,924 km"
3,Castrovirreyna,"1,083 km",400 km,"1,007 km",0 km,"1,336 km",705 km,320 km,674 km,-,...,929 km,911 km,"1,216 km",376 km,860 km,-,844 km,"1,406 km",883 km,"1,015 km"
4,Moyobamba,673 km,"1,291 km","2,173 km","1,335 km",0 km,"1,871 km","1,487 km","1,015 km",-,...,"2,095 km",425 km,"2,382 km","1,104 km",850 km,-,"1,916 km",716 km,"1,955 km",889 km
5,Caraveli,"1,483 km",800 km,662 km,702 km,"1,881 km",0 km,386 km,"1,074 km",-,...,431 km,"1,456 km",665 km,776 km,"1,260 km",-,743 km,"1,806 km",835 km,"1,415 km"
6,Palpa,"1,098 km",415 km,689 km,317 km,"1,496 km",387 km,0 km,689 km,-,...,611 km,"1,071 km",898 km,391 km,875 km,-,714 km,"1,421 km",753 km,"1,030 km"
7,Ocros,592 km,488 km,"1,370 km",790 km,"1,016 km","1,068 km",683 km,0 km,-,...,"1,292 km",591 km,"1,579 km",301 km,205 km,-,"1,395 km",915 km,"1,434 km",525 km
8,Manu,-,-,-,-,-,-,-,-,0 km,...,-,-,-,-,-,-,-,-,-,-
9,San Martin,949 km,"1,042 km","1,924 km","1,086 km",278 km,"1,622 km","1,237 km",766 km,-,...,"1,846 km",176 km,"2,133 km",855 km,601 km,-,"1,666 km",993 km,"1,705 km",772 km
