# Geocodificando dados com a API do Google

Frequentemente, nos deparamos com bases de dados que contêm informações espaciais, como endereços ou CEP's, por exemplo. Entretanto, para fazer análises de dados espaciais, essas informações não bastam e é necessário conhecermos a latitude e a longitude correspondentes. Assim, é comum que seja necessário converter enderços ou CEP's em latitudes e longitudes. Esse processo de conversão é chamado de **geocodificação** e, para realizá-lo, podemos utilizar a [API de Geocodificação do Google](https://developers.google.com/maps/documentation/geocoding/overview). Neste tutorial, faremos isso com Python e utilizaremos uma lista de CEP's como exemplo, entretanto, você pode utilizar uma lista de endereços e aplicar o mesmo código apresentando aqui.

## Conexão com o PostgreSQL
No nosso caso, a lista de CEP's está armazenada em uma tabela PostgreSQL. Por isso, primeiro precisamos realizar a conexão com o banco de dados e fazer com que o Python tenha acesso à lista de CEP's.

Para fazer essa conexão, estamos usando a biblioteca [Psycopg](https://www.psycopg.org/docs/), que permite que o Python conecte-se a um banco de dados PostgreSQL. A função `sql_conection()` realiza a conexão e será utilizada em todos os momento em que for necessário interagir com o banco de dados.

In [None]:
import psycopg2
def sql_connection():
    # Realiza a conexão com o banco de dados PostgreSQL e retorna a variável que será utilizada para interagir com o banco
    database = ''
    user = ''
    password = ''
    host = ''
    port = ''
    con = psycopg2.connect(database=database,
                           user=user,
                           password=password,
                           host=host,
                           port=port)
    return con

Vamos fazer uma query para o banco de dados e armazenar os CEP's em um dataframe.

In [None]:
import pandas as pd
import pandas.io.sql as sqlio
def query_to_df(query):
    # Dada uma query PostgreSQL, realiza a query no banco de dados e armazena o resultado em um dataframe
    con = sql_connection()
    data_set = sqlio.read_sql_query(query, con)
    return data_set


query = "select distinct(cd_cep), muni, uf from ligacoes_gd lg where muni = 'São Paulo' and uf = 'SP'"
df_ceps = query_to_df(query)
print('Total de CEPs únicos:', len(df_ceps))

Assim, nossa query retornou 1.352 CEP's no município de São Paulo. Agora iremos fazer requisições à API do Google e obter as latitudes e longitudes correspondentes a cada um desses CEP's.

## Fazendo requisições para a API do Google
A função `get_lat_long(cep)` utiliza a biblioteca [Requests](https://requests.readthedocs.io/en/master/) para realizar uma requisição à API, procurando por um CEP, e retorna os dados encontrados.  
  
Para utilizá-la, você deve inserir a sua chave de API no dicionário de parâmetros. Para obter uma chave da API de Geocodificação do Google, siga [este link](https://developers.google.com/maps/documentation/geocoding/get-api-key).

In [None]:
import requests
def get_lat_long(cep):
    # Dado um CEP, faz uma requisição para a API de Geocodificação do Google. Caso a requisição seja bem sucedida, retorna o conteúdo da requisição em formato json
    params = {
        'address': cep,
        'key': 'AIzaSyAhxHzeSMDP8vBDGjWRuPXz6wUttqj-Xr4'
    }
    geocode_api_url = 'https://maps.googleapis.com/maps/api/geocode/json'
    r = requests.post(geocode_api_url, params=params)
    if r.status_code == 200:
        return json.loads(r.content)

Para nos familiarizarmos com a resposta da API, vamos fazer uma requisição de exemplo e utilizar a função `jprint()` para gerar uma visualização amigável do objeto json retornado pela API.

In [None]:
import json
def jprint(obj):
    # Cria visualização amigável de um objeto json
    text = json.dumps(obj, sort_keys=True, indent=4, ensure_ascii=False)
    print(text)


cep_example = '05508-065'
response_example = get_lat_long(cep_example)
jprint(response_example)

## Obtendo latitudes e longitudes
Agora que fizemos uma requisição de exemplo e estamos familiarizados com a resposta da API, podemos seguir para a parte divertida e finalmente obter as latitudes e longitudes correspondentes aos 1.352 CEP's em nossa tabela.  
  
Primeiro, vamos criar uma tabela PostgreSQL para armazenar nossos dados. Utilizamos o método [connection.cursor()](https://www.psycopg.org/docs/cursor.html), que permite que o Python execute comandos em um banco de dados PostgreSQL. Repare que, após executar o comando, é necessário utilizar também o método [connection.commit()](https://www.psycopg.org/docs/connection.html#connection.commit) para garantir que as mudanças no banco de dados sejam feitas.

In [None]:
def create_sql_table():
    # Cria uma tabela PostgreSQL para armazenar os dados dos CEP's
    con = sql_connection()
    with con.cursor() as cur:
        create_table_command = 'create table if not exists cep_data('\
            'cep varchar(50),'\
            'muni varchar(250),'\
            'uf varchar(2),'\
            'lat float,'\
            'long float'\
            ')'
        cur.execute(create_table_command)
        con.commit()
create_sql_table()

Uma vez criada a tabela, podemos começar a alimentá-la com os dados dos CEP's. Para isso, vamos considerar a orientação da [documentação do PostgreSQL](https://www.postgresql.org/docs/current/populate.html#POPULATE-COPY-FROM) de que a melhor forma de alimentar uma tabela é usando o comando COPY FROM. Uma demonstração sobre o melhor desempenho do COPY FROM em relação a outros métodos pode ser encontrada [nesta análise](https://hakibenita.com/fast-load-data-python-postgresql), que avalia a performance de diferentes formas de importar dados de uma fonte remota para uma tabela PostgreSQL.  
  
Vamos começar definindo as funções que utilizaremos para armazenar os dados da resposta da API em um dataframe. Repare que, na função `cep_data_to_df()`, caso o CEP não seja encontrado e a resposta da API volte com valor nulo, iremos adicionar o CEP ao dataframe mesmo assim, porém com valores nulos nas colunas de informações. Isso nos ajudará a ter controle sobre quais CEP's foram encontrados e quais não foram.

In [None]:
def cep_data_to_df(df_ceps):
    # Recebe um dataframe contendo os CEP's e, a partir das requisições à API de Geocodificação do Google, estrutura um dataframe contendo os dados do CEP
    data_set = pd.DataFrame(columns=[
        'cep',
        'muni',
        'uf',
        'lat',
        'long'
    ])
    for cep in df_ceps['cd_cep']:
        cep_data = get_lat_long(cep)
        if len(cep_data['results']) != 0:
            new_row = {
                'cep': cep,
                'muni': df_ceps.loc[df_ceps['cd_cep'] == cep, 'muni'].iloc[0],
                'uf': df_ceps.loc[df_ceps['cd_cep'] == cep, 'uf'].iloc[0],
                'lat': cep_data['results'][0]['geometry']['location']['lat'],
                'long': cep_data['results'][0]['geometry']['location']['lng']
            }
        else:
            new_row = {'cep': cep}
        data_set = data_set.append(new_row, ignore_index=True)
    return data_set

Agora podemos definir a função `df_to_csv()`, que exporta o dataframe para um csv temporário, e a função `csv_to_sql_table()`, que utiliza o COPY FROM para alimentar a tabela PostgreSQL.

In [None]:
import csv
def df_to_csv(csv_path, data_set):
    # Exporta um dataframe para um arquivo csv
    data_set.to_csv(csv_path, header=False, index=False, sep=';',
                    encoding='utf-8', quoting=csv.QUOTE_MINIMAL)


def csv_to_sql_table(csv_path):
    # Alimenta a tabela PostgreSQL com os dados dos CEP's
    con = sql_connection()
    with con.cursor() as cur:
        cur.execute('copy cep_data from %s delimiter %s csv', [csv_path, ';'])
        con.commit()

Com todas as funções definidas, podemos agora iterar sobre o dataframe `df_ceps`, que contém os CEP's, e fazer requisições à API de Geocodificação do Google. Vamos armazenar as respostas na tabela PostgreSQL em lotes de 1000 CNPJ's para garantir que, caso ocorra um erro enquanto o código roda, não perderemos os dados das requisições já realizadas.

In [None]:
csv_path = r'\temp_cep_data.csv'
df_ceps_data = pd.DataFrame()
for i in range(0, len(df_ceps), 1000):
    new_batch = cep_data_to_df(df_ceps[i:i+1000])
    df_to_csv(csv_path, new_batch)
    csv_to_sql_table(csv_path)
    df_ceps_data = df_ceps_data.append(new_batch, ignore_index=True)
    print(i)

Para finalizar, vamos checar quantos CNPJ's foram encontrados e quantos não foram.

In [None]:
query = 'select * from cep_data'
df_cep_data = query_to_df(query)

empty_columns = ['muni',
                 'uf',
                 'lat',
                 'long'
                 ]

df_found_cep = df_cep_data.dropna(axis=0, how='all', subset=empty_columns)
percentage_not_found_cep = 100*(1 - (len(df_found_cep)/len(df_cep_data)))
print('De', len(df_cep_data), 'CEPs, foram encontrados', len(df_found_cep))
print('Não foram encontrados', round(percentage_not_found_cep, 2), '% dos CEPs buscados.')