# Obteniendo la información para el Scrapping

Importamos las librerias para el scrapping

In [6]:
import pandas as pd
import googlemaps
import numpy as np
import re

## Importando las provincias/distritos a analizar

Primero, leeremos un archivo que contiene los elementos de los ubigeos del INEI. Se puede descargar entrando [aquí](http://webinei.inei.gob.pe:8080/sisconcode/proyecto/index.htm?proyectoTitulo=UBIGEO&proyectoId=3) y dando click a la opción **Excel** en la pestaña *Busqueda por Ubicación Geográfica*

In [18]:
ubigeos = pd.read_excel('ubigeo_inei.xls',skiprows=1)
ubigeos.head()

Unnamed: 0.1,Unnamed: 0,DEPARTAMENTO,Unnamed: 2,Unnamed: 3,PROVINCIA,DISTRITO
0,,01 Amazonas,,,,
1,,01 Amazonas,,,01 Chachapoyas,
2,,01 Amazonas,,,01 Chachapoyas,01 Chachapoyas
3,,01 Amazonas,,,01 Chachapoyas,02 Asunción
4,,01 Amazonas,,,01 Chachapoyas,03 Balsas


Necesitamos las provincias y distritos de esta base, así que limpiaremos los valores de estas variables

In [55]:
ubigeos["PROVINCIA"] = ubigeos["PROVINCIA"].str.replace('^\d* ', "", flags=re.I, regex=True)
ubigeos["DISTRITO"] = ubigeos["DISTRITO"].str.replace('^\d* ', "", flags=re.I, regex=True)
ubigeos.head()

Unnamed: 0.1,Unnamed: 0,DEPARTAMENTO,Unnamed: 2,Unnamed: 3,PROVINCIA,DISTRITO
0,,01 Amazonas,,,,
1,,01 Amazonas,,,Chachapoyas,
2,,01 Amazonas,,,Chachapoyas,Chachapoyas
3,,01 Amazonas,,,Chachapoyas,Asunción
4,,01 Amazonas,,,Chachapoyas,Balsas


Necesitaremos estas dos columnas como listas, pues después las usaremos para crear un DataFrame donde guardaremos los resultados del scrapping

In [61]:
# Creando las listas
provincias = list(ubigeos['PROVINCIA'])
distritos = list(ubigeos['DISTRITO'])

Limpiando las listas

In [62]:
# Eliminando duplicados
provincias = set(provincias)
distritos = set(distritos)

# Eliminando algunos elementos inutiles ('', nan)
provincias = list(filter(lambda x: str(x) != 'nan', provincias))
distritos = list(filter(lambda x: str(x) != 'nan', distritos))

provincias.remove('')
provincias.remove('PROVINCIA')
distritos.remove('')

Eliminando las tildes

In [63]:
# Definimos una función para eliminar las tildes
def normalize(s):
    replacements = (
        ("á", "a"),
        ("à", "a"),
        ("é", "e"),
        ("è", "e"),
        ("í", "i"),
        ("ì", "i"),
        ("ó", "o"),
        ("ò", "o"),
        ("ú", "u"),
        ("ù", "u")
    )
    for a, b in replacements:
        s = s.replace(a, b).replace(a.upper(), b.upper())
    return s

In [66]:
# La aplicamos a cada elemento de nuestras provincias/distritos
nro_provs = len(provincias)
for i in range(nro_provs):
    provincias[i] = normalize(provincias[i])

nro_distrs = len(distritos)
for i in range(nro_distrs):
    distritos[i] = normalize(distritos[i])
    
# print(provincias)
# print(distritos)

# Scrapping de Distancias y Tiempos de viaje

Para realizar este scrapping, se tomará como referencia esta [guía](https://www.datahubbs.com/google-maps-python/)

### A nivel de Provincias

1. Lo primero será crear un DataFrame con los distritos/provincias de origen y de llegada.

In [69]:
locations = pd.DataFrame({"origin_city": provincias,
                          "origin_country": "Peru",
                          "destination_city": provincias,
                          "destination_country": "Peru"
                         }, 
                        columns = ["origin_city", "origin_country",
                                  "destination_city", "destination_country"])
locations.head()

Unnamed: 0,origin_city,origin_country,destination_city,destination_country
0,Ocros,Peru,Ocros,Peru
1,Chincheros,Peru,Chincheros,Peru
2,Prov. Const. del Callao,Peru,Prov. Const. del Callao,Peru
3,Angaraes,Peru,Angaraes,Peru
4,Tarma,Peru,Tarma,Peru


In [None]:
def concat_cities(x, y):
    name = x + "+" + y
    return(re.sub(" ", "+", name))