In [1]:
import pandas as pd
import plotly.express as px
import json
import numpy as np

In [2]:
df = pd.read_csv('./data/train.csv', index_col = [0])

df.head(5)

Unnamed: 0,house_price,house_region,n_bedrooms,has_condominium,value_condominium,has_garage,n_garage,house_size,house_hyperlink,house_category,n_bathrooms,zip_code,street_address,metro_distance
1649,335000.0,Sul,2,Com condomínio,0.0,Com garagem,1,50.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72300533.0,Quadra 301 Conjunto 2,3
2761,440000.0,Norte,3,Com condomínio,0.0,Com garagem,1,119.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72318210.0,QR 406 Conjunto 9-A,2
223,290000.0,Norte,3,Com condomínio,385.0,Com garagem,1,,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72318230.0,QR 406 Conjunto 28,2
106,210000.0,Norte,3,Com condomínio,0.0,Com garagem,1,112.0,https://df.olx.com.br/distrito-federal-e-regia...,Casas,3,72322505.0,QS 602 Conjunto E Comércio,3
2541,183000.0,Norte,2,Com condomínio,0.0,Com garagem,1,33.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,1,72321000.0,QR 407,3


In [129]:
#Filtrando apenas as colunas desejadas
df_ = df[['street_address', 'house_category', 'house_region']].dropna().copy()

# Settando Samambaia sul e Samambaia norte para as regiões
df_['house_region'] = df['house_region']\
                        .apply(lambda region: 'Samambaia Sul' if region == 'Sul' else 'Samambaia Norte')

# Pegando apenas a quadra
df_['block_address'] = df_['street_address'].apply(lambda x: ' '.join(x.split()[:2]))

df_.head(5)

Unnamed: 0,street_address,house_category,house_region,block_address
1649,Quadra 301 Conjunto 2,Apartamentos,Samambaia Sul,Quadra 301
2761,QR 406 Conjunto 9-A,Apartamentos,Samambaia Norte,QR 406
223,QR 406 Conjunto 28,Apartamentos,Samambaia Norte,QR 406
106,QS 602 Conjunto E Comércio,Casas,Samambaia Norte,QS 602
2541,QR 407,Apartamentos,Samambaia Norte,QR 407


In [6]:
''' 
    * Sobre a Samambaia:
    * Na samambaia, QR QS e QN são variações de rua da mesma quadra
    * QR = residência, QS e QN = comerciais
    * Logo, QR 210 e QN 210 são da quadra 210. Para simplificar,
    * coloquei tudo na QR 210.
    * Essa mudança é apenas pra plotar no mapa.
'''

def simplify_smb_addresses(block):
    block_letter = block.split()[0]
    new_block = block
    number_block = block.split()[1]
    
    if block_letter == 'QS':
        new_block = 'QR '+number_block
    if block_letter == 'QN':
        new_block = 'QR ' +number_block
    return new_block
    
# Aplicando a mudança de tudo pra QR
df_['block_address'] = df_['block_address'].apply(simplify_smb_addresses)

# Juntando quadra com Samambaia norte/sul
df_['complete_address'] = df_['block_address'] + '- ' + df_['house_region']

addresses = df_[['complete_address', 'house_category']]

# Pegando cada endereço e agrupando por categoria
addresses = addresses.groupby(['complete_address', 'house_category']).sum().reset_index().copy()

'''
    * Salvando em arquivo. A ideia é salvar as localizações
    * da mesma quadra um pouco diferentes por categoria manualmente.
    * Ex: casa e apartamento na 210 vao ter pontos um pouco
    * diferentes só para separá-los um pouco na hora de plotar.
'''
# addresses.to_csv('enderecos.csv')

'\n    * Salvando em arquivo. A ideia é salvar as localizações\n    * da mesma quadra um pouco diferentes por categoria manualmente.\n    * Ex: casa e apartamento na 210 vao ter pontos um pouco\n    * diferentes só para separá-los um pouco na hora de plotar.\n'

In [8]:
'''
    Depois de ter salvo o arquivo e editado, 
    colocando as localizações manualmente
    olhando no maps, podemos carregá-lo novamente.
'''
df_enderecos = pd.read_csv('enderecos.csv', index_col = [0])
df_enderecos.head(5)

Unnamed: 0,complete_address,house_category,latitude,longitude
0,ADE Conjunto- Samambaia Sul,Apartamentos,"-15.882143905944265, -48.063501412766435",
1,ADE Conjunto- Samambaia Sul,Casas,"-15.882143905944265, -48.063501412766435",
2,QI 416- Samambaia Norte,Apartamentos,"-15.855954181583032, -48.06950116272218",
3,QI 416- Samambaia Norte,Casas,"-15.855044924934832, -48.06887953246958",
4,QNL 22- Samambaia Norte,Casas,,


In [9]:
# Agora, o objetivo é salvar as coordenadas no dataset total

# fazer a coluna all_together iguais em df_ e df_endereços, para pegar as coordenadas e salvar em df_
df_['all_together'] = df_['block_address'] + '- ' + df_['house_region'] + '- '+ df_['house_category']
df_enderecos['all_together'] = df_enderecos['complete_address'] + '- ' + df_enderecos['house_category']


def get_coordinates_from_enderecos(all_together_address):    
    return df_enderecos[df_enderecos['all_together'] == all_together_address]['latitude'].values.tolist()
    
df_['coordinates'] = df_['all_together'].apply(get_coordinates_from_enderecos)

In [10]:
# converter em string
df_['coordinates'] = df_['coordinates'].astype(str)

# separar em duas colunas
df_['latitude'] = df_['coordinates'].apply(lambda x: x.split(',')[0][2:] if x != '[nan]' else np.nan)
df_['longitude'] = df_['coordinates'].apply(lambda x: x.split(',')[1][:-2] if x != '[nan]' else np.nan)

# salvar de df_ para o df original
df['latitude'] = df_['latitude']
df['longitude'] = df_['longitude']
df['all_together'] = df_['all_together']
df.head()

Unnamed: 0,house_price,house_region,n_bedrooms,has_condominium,value_condominium,has_garage,n_garage,house_size,house_hyperlink,house_category,n_bathrooms,zip_code,street_address,metro_distance,latitude,longitude,all_together
1649,335000.0,Sul,2,Com condomínio,0.0,Com garagem,1,50.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72300533.0,Quadra 301 Conjunto 2,3,,,Quadra 301- Samambaia Sul- Apartamentos
2761,440000.0,Norte,3,Com condomínio,0.0,Com garagem,1,119.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72318210.0,QR 406 Conjunto 9-A,2,-15.8644295272935,-48.08242791463846,QR 406- Samambaia Norte- Apartamentos
223,290000.0,Norte,3,Com condomínio,385.0,Com garagem,1,,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,2,72318230.0,QR 406 Conjunto 28,2,-15.8644295272935,-48.08242791463846,QR 406- Samambaia Norte- Apartamentos
106,210000.0,Norte,3,Com condomínio,0.0,Com garagem,1,112.0,https://df.olx.com.br/distrito-federal-e-regia...,Casas,3,72322505.0,QS 602 Conjunto E Comércio,3,-15.861913080256768,-48.09197159899546,QR 602- Samambaia Norte- Casas
2541,183000.0,Norte,2,Com condomínio,0.0,Com garagem,1,33.0,https://df.olx.com.br/distrito-federal-e-regia...,Apartamentos,1,72321000.0,QR 407,3,-15.87605024134682,-48.10125828557616,QR 407- Samambaia Norte- Apartamentos


In [11]:
df.shape[0]

1991

In [47]:
# Remover endereços com locais nulos no sample
df_sample = df[~df['latitude'].isna() & ~df['longitude'].isna()]

# Escolher colunas que queremos ver
cols = ['house_category', 'latitude', 'longitude', 'house_price']

# #pegar local, lat e lon e calcular média dos preço, salvos em house_price
df_search = df_sample[cols].groupby(['house_category', 'latitude', 'longitude']).mean().reset_index()

# # take the number of houses by location and catogory
df_search[0] = df_sample[cols].groupby(['house_category', 'latitude', 'longitude']).value_counts().reset_index()[0]

df_search

Unnamed: 0,house_category,latitude,longitude,house_price,0
0,Apartamentos,-15.85281492934229,-48.07376479162934,209214.285714,4
1,Apartamentos,-15.854471390078723,-48.07604798580723,260000.000000,2
2,Apartamentos,-15.855954181583032,-48.06950116272218,320931.655172,2
3,Apartamentos,-15.857003580474384,-48.08264080274787,282450.000000,1
4,Apartamentos,-15.858894728758774,-48.0713784436007,181666.666667,1
...,...,...,...,...,...
192,Casas,-15.895386772393941,-48.117456544170416,102450.000000,1
193,Casas,-15.895469072861,-48.1467768004504,83960.000000,1
194,Casas,-15.896501853581654,-48.11368183905732,363333.333333,1
195,Casas,-15.896689896573,-48.12045088732199,220000.000000,1


In [28]:
df_search.isnull().sum()

house_category    0
latitude          0
longitude         0
house_price       0
n_houses          0
dtype: int64

In [124]:
fig = px.scatter_mapbox(df_search,
                       lon = df_search['longitude'],
                       lat = df_search['latitude'],
                       center={"lat": -15.878191211624543, "lon": -48.10520207922798},
                        zoom=12.5,
                       color = df_search['house_price'],
                       size = df_search[0],
                       color_continuous_scale=px.colors.diverging.Portland
                       )

fig.update_layout(mapbox_style="carto-positron")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

fig.show()

In [125]:
df_search = df_search[df_search['house_price'] < 690000]

fig = px.scatter_mapbox(df_search,
                       lon = df_search['longitude'],
                       lat = df_search['latitude'],
                       center={"lat": -15.878191211624543, "lon": -48.10520207922798},
                        zoom=12.5,
                       color = df_search['house_price'],
                       size = df_search[0],
                       color_continuous_scale=px.colors.diverging.Portland,
                       labels={'house_price': 'Preço dos imóveis'},
                       )

fig.update_layout(mapbox_style='carto-positron')
fig.update_layout(
    margin={"r":0,"t":0,"l":0,"b":0},
)

fig.show()