# Ejercicio de geocodificación de direcciones postales

En el siguiente cuaderno se mostrará un ejemplo sencillo para geocodificar direcciones postales de establecimientos de Cantabria con Google Maps. Para ello, se utilizarán las siguientes bibliotecas de Python (cuya dependencia habrá que satisfacer previamente instalándolas):

- `pandas`: [Python Data Anaylsis Library](https://pandas.pydata.org/).
- `googlemaps`: [Python client library for Google Maps API Web Services](https://github.com/googlemaps/google-maps-services-python). 

Si es necesario instalar el paquete en el cuaderno, puede hacerse ejecutando el comando: `!pip install googlemaps`, por ejemplo.

## Importación del dataset

En primer lugar, es necesario importar el dataset o conjunto de datos de prueba en una estructura de tipo `dataframe` de pandas. Para ello, se utilizará el método `read_csv`.

La URL que contiene el dataset es la siguiente: [https://gist.githubusercontent.com/predicador37/b062c7b441831103b49d9065913dc52f/raw](https://gist.githubusercontent.com/predicador37/b062c7b441831103b49d9065913dc52f/raw)

Hay que prestar atención a las siguientes peculiaridades:

- No es deseable tratar el código postal como un número
- Tampoco es deseable tratar los elementos vacíos como un nan

Una vez leído, es conveniente explorar el dataset con head(), por ejemplo.


In [1]:
import pandas as pd
data_url = "https://gist.githubusercontent.com/predicador37/b062c7b441831103b49d9065913dc52f/raw"
addresses_df = pd.read_csv(data_url, dtype={'codigo_postal': object}, na_filter=False)
addresses_df.head()


Unnamed: 0,id,identificador,razon_social,nombre_comercial,nombre_establecimiento,provincia,cod_mun,municipio,tipo_via,nombre_via,portal,entrada,escalera,planta,puerta,finca,codigo_postal,localidad
0,146868,B39552039,"PERCO FRANK, S.L",,,CANTABRIA,39075,SANTANDER,CALLE,JUAN GUERRERO URRESTI,93,,,1,B,,39011,PEÑACASTILLO
1,197002,B39473657,SERFLUID CONTROL SL,,,CANTABRIA,39075,SANTANDER,BARRIO,SAN MARTIN DEL PINO,24,,,BAJO,,,39011,PEÑACASTILLO
2,151394,B39666219,ECOIBERIA SOLAR SL,,,CANTABRIA,39075,SANTANDER,,PARQUE CIENTIFICO Y TECNOLOGICO,25,,,,,,39011,PEÑACASTILLO
3,159229,J39329164,"REVESTIMIENTOS HERVI, S.C.",,,CANTABRIA,39027,CAMPOO DE ENMEDIO,CALLE,NESTAR,2,,,,,,39212,RIO
4,218605,B95665238,TROQUELMAIN XXI SL,,TROQUELMAIN XXI SL,CANTABRIA,39016,CAMARGO,POLIGONO INDUSTRIAL,LA CERRADA,12,,,,,,39600,MALIAÑO


## Instanciación de un cliente Google Maps

Usando la biblioteca `googlemaps`, es posible instanciar un cliente con una clave de API (API key) de geocodificación dada. Para ello, previamente será necesario que el alumno genere una clave de este tipo en Google Maps. El proceso de obtención de clave está bastante automatizado y documentado en [este enlace](https://developers.google.com/maps/documentation/javascript/get-api-key?hl=ES).

Una vez se disponga de una clave, se instanciará el cliente.



In [2]:
!pip install googlemaps
import googlemaps
gmaps = googlemaps.Client(key='AIzaSyDyRdlakYtTjTjKYj5SXVaEhsV64XGTEBI')

Collecting googlemaps
  Downloading googlemaps-2.5.1.tar.gz
Building wheels for collected packages: googlemaps
  Running setup.py bdist_wheel for googlemaps ... [?25ldone
[?25h  Stored in directory: /home/jovyan/.cache/pip/wheels/04/e8/d1/ae5577b5339873e6a5dd55141d56e507cf281b137ef09ba924
Successfully built googlemaps
Installing collected packages: googlemaps
Successfully installed googlemaps-2.5.1


## Geocodificación de las direcciones postales

### Ejemplo y exploración

A continuación se geocodificará la primera dirección incluida en el dataframe con objeto de inspeccionar la salida ofrecida por Google Maps y la biblioteca utilizada.

Para obtener mejores resultados, es conveniente pasar a Google Maps la dirección como una cadena de texto y dejar que sean sus propios parsers quienes la analicen. Por ello, será necesario generar una cadena con la dirección completa a partir de las columnas del dataframe de la siguiente manera:

        TIPO_VÍA NOMBRE_VÍA PORTAL, CÓDIGO_POSTAL LOCALIDAD 
        
**Importante**: es necesario respetar los espacios y las comas tal y como se disponen en la estructura anterior.

Muestre en el cuaderno el resultado de la concatenación.

In [3]:
formatted_address = str(addresses_df['tipo_via'].iloc[0]) + ' ' + str(addresses_df['nombre_via'].iloc[0]) + ' ' \
                        + str(addresses_df['portal'].iloc[0]) + ', ' + str(addresses_df['codigo_postal'].iloc[0]) + ' ' + \
                        str(addresses_df['localidad'].iloc[0])
print(formatted_address)

CALLE JUAN GUERRERO URRESTI 93, 39011 PEÑACASTILLO


A continuación, es posible llamar al método `geocode` del cliente instanciado previamente y pasarle como parámetro la dirección confeccionada.

Explore el resultado devuelto por la biblioteca y su tipo de datos.

In [4]:
raw_result = gmaps.geocode(formatted_address)
print(raw_result)
type(raw_result)

[{'address_components': [{'long_name': '93', 'short_name': '93', 'types': ['street_number']}, {'long_name': 'Calle Juan Guerrero Urreisti', 'short_name': 'Calle Juan Guerrero Urreisti', 'types': ['route']}, {'long_name': 'Santander', 'short_name': 'Santander', 'types': ['locality', 'political']}, {'long_name': 'Cantabria', 'short_name': 'S', 'types': ['administrative_area_level_2', 'political']}, {'long_name': 'Cantabria', 'short_name': 'Cantabria', 'types': ['administrative_area_level_1', 'political']}, {'long_name': 'Spain', 'short_name': 'ES', 'types': ['country', 'political']}, {'long_name': '39011', 'short_name': '39011', 'types': ['postal_code']}], 'formatted_address': 'Calle Juan Guerrero Urreisti, 93, 39011 Santander, Cantabria, Spain', 'geometry': {'location': {'lat': 43.4443931, 'lng': -3.8575758}, 'location_type': 'ROOFTOP', 'viewport': {'northeast': {'lat': 43.4457420802915, 'lng': -3.856226819708497}, 'southwest': {'lat': 43.4430441197085, 'lng': -3.858924780291502}}}, 'pa

list

Como se puede observar, Google puede devolver más de un resultado de geocodificación. En este caso, sólo interesará el primero. Para generar la salida final del ejercicio, se utilizará una lista de listas (cada una a modo de fila del dataframe resultado). Cada elemento lista asociado a una dirección postal contendrá los siguientes campos devueltos en la estructura de datos anterior:

        formatted_address, latitude, longitude
        
Extraiga dichos elementos de la estructura y añádalos a una lista. **Tenga en cuenta que Google puede devolver una estructura vacía...** En este caso, incluya la dirección formateada previamente y la latitud y longitud en blanco (vacías).

Muestre el resultado geocodificado con la estructura indicada como ejemplo.

In [5]:
if raw_result:
    element = [raw_result[0]['formatted_address'], 
               raw_result[0]['geometry']['location']['lat'], 
               raw_result[0]['geometry']['location']['lng']]
else:
    element = [formatted_address, '', '']
print(element)

['Calle Juan Guerrero Urreisti, 93, 39011 Santander, Cantabria, Spain', 43.4443931, -3.8575758]


### Geocodificación de todo el conjunto de datos

Una vez realizada una prueba con una dirección, aplique este proceso a todo el conjunto de direcciones del dataframe. Para ello, itere sobre cada fila y añada cada resultado en una variable de tipo lista llamada `results`.

Una vez finalizadas las iteraciones y completada la lista, genere un dataframe a partir de dicha lista usando como columnas las siguientes etiquetas:

        'address', 'latitude', 'longitude'
        
Explore el dataframe resultante con `head()`

In [6]:
results = []
for index, address in addresses_df.iterrows():
    formatted_address = str(address['tipo_via']) + ' ' + str(address['nombre_via']) + ' ' \
                        + str(address['portal']) + ', ' + str(address['codigo_postal']) + ' ' + \
                        str(address['localidad'])
    raw_result = gmaps.geocode(formatted_address)
    if raw_result:
        element = [raw_result[0]['formatted_address'], 
                   raw_result[0]['geometry']['location']['lat'], 
                   raw_result[0]['geometry']['location']['lng']]
    else:
        element = [formatted_address, '', '']
    results.append(element)

result_df = pd.DataFrame(results, columns=[ 'address', 'longitude', 'latitude'])
result_df.head()
    

Unnamed: 0,address,longitude,latitude
0,"Calle Juan Guerrero Urreisti, 93, 39011 Santan...",43.4444,-3.85758
1,"Barrio San Martín del Pino, 24, 39011 Santande...",43.4457,-3.85198
2,"Polígono Parque Científico y Tecnológico, 25, ...",43.4511,-3.87602
3,"R. Nestor, 2 - Santa Cruz, Rio de Janeiro - RJ...",-22.926,-43.6792
4,"Pol. Ind., 12, 39611 Astillero, Cantabria, Spain",43.4004,-3.84404


## Volcado del resultado

Finalmente, vuelque el contenido del dataframe a un archivo CSV (por ejemplo, `results.csv`) de manera que el índice aparezca como una columna etiquetada como 'id'.

In [7]:
result_df.to_csv('results.csv', index_label='id')