# GoogleMaps API para obtenção de coordenadas geográficas

Na base de imóveis da cidade de Poços de Caldas, um dos dados que frequentemente está ausente é o das coordenadas geográficas. O problema é que este dada é bastante importante para a visuzalição da distribuição dos imóveis. Sendo assim, vamos utilizar a API do GoogleMaps para tentar encontrar um par de coordendas aproximado para cada imóvel e, assim, conseguirmos obter a ditribuição de preços.

In [3]:
import pandas as pd
import numpy as np

from tqdm import tqdm

from basix import parquet, gmaps
from basix.viz import ColorMix

# Mostrar todas as colunas no display do pandas
pd.options.display.max_columns = None

# Importando Base de Dados

In [8]:
df_raw = pd.read_parquet("data/raw")
df_raw.sample(5, random_state=1)

Unnamed: 0,id_zap,type,n_parking_spaces,n_bathrooms,n_bedrooms,area,n_floors,units_on_floor,n_suites,state,city,neighborhood,street,longitude,latitude,price,condo_fee,iptu,resale,buildings,plan_only,amenities,pois_list,link,description,search_date
1070,2503300978,APARTMENT,1.0,1.0,3.0,91.0,,0,1.0,MG,Poços de Caldas,Jardim Ipê,,,,289000.0,,,0,0,0,"[INTERCOM, BALCONY]","[{'class': 'BR', 'name': 'Tenda do Habibi'}, {...",/imovel/venda-apartamento-3-quartos-com-interf...,"Apartamento em Poços de Caldas, no bairro Jard...",2021-06-04
223,2475714291,APARTMENT,2.0,2.0,3.0,90.0,,0,1.0,MG,Poços de Caldas,Jardim Country Club,Rua Antônio Augusto Grillo,-46.60148,-21.79544,446800.0,250.0,0.0,0,0,0,"[ELEVATOR, INTERCOM]","[{'class': 'SC', 'name': 'Cá D'oro Cristais Ar...",/imovel/venda-apartamento-3-quartos-com-elevad...,O apartamento está localizado no bairro Jardim...,2021-06-04
4586,2528447858,APARTMENT,,1.0,2.0,77.0,,0,,MG,Poços de Caldas,Residencial Torre,Avenida Vereador Reynaldo Figueiredo Bastos,-46.538136,-21.788052,350000.0,,0.0,0,0,0,"[KITCHEN, ELEVATOR, LAUNDRY]",[],/imovel/venda-apartamento-2-quartos-com-cozinh...,"Excelente Apto localizado bairro Primavera, 2 ...",2021-07-31
4864,2529125510,APARTMENT,2.0,1.0,2.0,62.0,,0,,MG,Poços de Caldas,Residencial Greenville,,,,210000.0,,,0,0,0,"[BALCONY, SERVICE_AREA]","[{'class': 'SC', 'name': 'San Michel Supermerc...",/imovel/venda-apartamento-2-quartos-com-varand...,"Apartamento no bairro Green Ville, com:<br>2 q...",2021-07-31
9485,2539323161,APARTMENT,2.0,1.0,2.0,75.0,,0,1.0,MG,Poços de Caldas,Jardim Country Club,,,,320000.0,0.0,0.0,0,0,0,"[KITCHEN, ELEVATOR, INTERCOM, BALCONY, SERVICE...","[{'class': 'BR', 'name': 'Ollivia Gastronomia'...",/imovel/venda-apartamento-2-quartos-com-cozinh...,02 Dormitórios (sendo 01 suíte)<br>Sala (com s...,2021-12-30


Nota-se que muitas desses imóveis estão sem:
* nome da rua
* latitude e longitude

In [11]:
df_raw["street"].notna().sum()

1557

In [12]:
df_raw["longitude"].notna().sum()

978

In [13]:
df_raw["latitude"].notna().sum()

978

Queremos utilizar a API do google maps para preencher esses campos. Temos os possíveis casos

* se `(latitute == None) & (longitute == None)`:
   - se `street != None`:
       Pesquisar no googlemaps por `estado, cidade, bairro, rua`
   - se `street == None`:
       Pesquisar no googlemaps por `estado, cidade, bairro`
       
* se `(latitute != None) & (longitute != None)`:
   Não precisa consultar via googlemaps API

Para utilizar a API do google maps, é preciso instalar a biblioteca [googlemaps](https://pypi.org/project/googlemaps/).

```bash
pip install googlemaps
```

Além disso, é preciso ter uma chave registrada na Google Cloud. Salvei a minha chave em uma variável de ambiente chamada `GOOGLE_MAPS_KEY` que será lida na hora de executar o request. Pra quem tem o costume de iniciar o jupyter via linha de comando, basta
```
export GOOGLE_MAPS_KEY=<<digite_aqui_sua_chave>>
jupyter notebook path/to/this/notebook.ipynb
```
Por outro lado, de dentro do notebook mesmo, pode fazer assim:

```python
import os

os.environ["GOOGLE_MAPS_KEY"] = "<<digite_aqui_sua_chave>>"
```
Apenas certifique-se de apagar a chave assim que rodar. (Tome cuidado para não fazer nenhum commit com sua chave hardcodada no script pois ela se manterá no histórico do git)

Testando a função

In [11]:
gmaps.get_coord("Brazil", "SP", "São Paulo","Avenida Paulista")

(-23.5613462, -46.6564872)

A estratégia será a seguinte, vou importar as coordenadas de cada bairro e de todos os imóveis com rua e sem lat/long

### Lat / Long para as ruas

In [55]:

# Imóveis com nome da rua e sem lat/long
temp = df_raw[
    df_raw["street"].notna() & df_raw["longitude"].isna() & df_raw["longitude"].isna()
]


list_ = []

for id_, date_, state_, city_, neighbor_, street_ in tqdm(
    temp[["id_zap", "search_date", "state", "city", "neighborhood", "street"]].values
):

    lat, long = get_coord("Brazil", state_, city_, neighbor_, street_)

    list_.append(
        {
            "id_zap": id_,
            "search_date": date_,
            "latitude": lat,
            "longitude": long,
        }
    )

lat_long_street = pd.DataFrame(list_)
lat_long_street.to_csv("data/external/lat_long_street.csv")

 27%|██▋       | 156/579 [00:31<01:22,  5.12it/s]ERROR:root:list index out of range
100%|██████████| 579/579 [03:07<00:00,  3.08it/s]


### Lat / Long para os bairros

In [58]:
list_ = []
for neighbor_ in tqdm(df_raw['neighborhood'].unique()):

    lat, long = get_coord("Brazil", "MG", "Poços de Caldas", neighbor_)

    list_.append(
        {
            "neighborhood": neighbor_,
            "latitude": lat,
            "longitude": long,
        }
    )

lat_long_neighbor = pd.DataFrame(list_)
lat_long_neighbor.to_csv("data/external/lat_long_neighbor.csv")

100%|██████████| 155/155 [02:12<00:00,  1.17it/s]


### Imputando os valores faltates de Lat/Long

In [94]:

df_coord_street = (
    pd.read_csv("data/external/lat_long_street.csv")
    .rename(columns={"latitude": "latitude_s", "longitude": "longitude_s"})
    .drop(columns="Unnamed: 0")
)
df_coord_street["id_zap"] = df_coord_street["id_zap"].astype(str)

df_coord_neighbor = (
    pd.read_csv("data/external/lat_long_neighbor.csv")
    .rename(columns={"latitude": "latitude_n", "longitude": "longitude_n"})
    .drop(columns="Unnamed: 0")
)

df = (
    df_raw.copy()
    .merge(df_coord_street, on=["id_zap", "search_date"], how="left")
    .merge(df_coord_neighbor, on=["neighborhood"], how="left")
)

for _ in ["latitude", "longitude"]:
    df[_] = np.where(
        df[_].notna(),
        df[_],
        np.where(df[_ + "_s"].notna(), df[_ + "_s"], df[_ + "_n"]),
    )

    df = df.drop(columns=[_ + "_s", _ + "_n"])
    

## Exportanto a base

In [None]:
parquet.write(df, "data/interim", partition_cols=["search_date"])