In [2]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import re

# Tratamento da base

In [3]:
# Abrindo o arquivo de imoveis salvos no arquivo de scraping
df = pd.read_csv('../dados/imoveis.csv',
                 sep=';')

In [4]:
# Limpando espaços e caracteres indesejados
for col in ['titulo', 'desc', 'desc2', 'espec', 'desc3', 'conteudo']:
    df[col] = df[col].apply(lambda x: re.sub(r'\s{2,}|\r\n|\n', '', x).replace('í', 'i'))

In [5]:
# Transformando todos os caracteres em minusculo
for col in df.columns:
    df[col] = df[col].apply(lambda x: x.lower())

In [6]:
# Transformando coluna de preco e valor_m2 em numericas
df.preco = df.preco.apply(lambda x: re.sub(r'[^\d]+', '', x))
df.valor_m2 = df.valor_m2.apply(lambda x: re.sub(r'[^\d]+', '', x))

df.preco = df.preco.astype('float64')
df.valor_m2 = df.valor_m2.astype('float64')

In [7]:
# Visualizando os dados
df.head()

Unnamed: 0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo
0,"quadra 209, sul, aguas claras",venda apartamento 93 m²,"fernanda (61) 98151-2321, residencial mirante ...",875000.0,9408.0,93 m²3 quartos2 suites2 vagas,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/72/73/74/75/76/77/7ligue agoraenviar emailin...
1,"rua 21, norte, aguas claras",venda apartamento 95 m²,"(61) 99639-9575, edificio villa grandino a 50 ...",650000.0,6842.0,95 m²3 quartos1 suite1 vaga,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/192/193/194/195/196/197/198/199/1910/1911/19...
2,"rua das carnaubas, norte, aguas claras",venda apartamento 32 m²,"fernanda (61) 98151-2321, edificio luna park e...",270000.0,8437.0,32 m²1 quarto1 suite1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/232/233/234/235/236/237/238/239/2310/2311/23...
3,"quadra 102, norte, aguas claras",venda apartamento 360 m²,", residencial matisse antares aguas claras lux...",3300000.0,9166.0,360 m²5 quartos5 suites3 vagas,a valle empreendimentos imobiliários apresenta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/432/433/434/435/436/437/438/439/4310/4311/43...
4,"rua 9, norte, aguas claras",venda apartamento 33 m²,"residencial easy - 98144-4558, easy residencia...",320000.0,9696.0,33 m²1 quarto1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/292/293/294/295/296/297/298/299/2910/2911/29...


In [8]:
# Verificando se todos os titulos sao referentes a imoveis de aguas claras
df[df.titulo.str.contains('aguas claras')]

Unnamed: 0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo
0,"quadra 209, sul, aguas claras",venda apartamento 93 m²,"fernanda (61) 98151-2321, residencial mirante ...",875000.0,9408.0,93 m²3 quartos2 suites2 vagas,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/72/73/74/75/76/77/7ligue agoraenviar emailin...
1,"rua 21, norte, aguas claras",venda apartamento 95 m²,"(61) 99639-9575, edificio villa grandino a 50 ...",650000.0,6842.0,95 m²3 quartos1 suite1 vaga,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/192/193/194/195/196/197/198/199/1910/1911/19...
2,"rua das carnaubas, norte, aguas claras",venda apartamento 32 m²,"fernanda (61) 98151-2321, edificio luna park e...",270000.0,8437.0,32 m²1 quarto1 suite1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/232/233/234/235/236/237/238/239/2310/2311/23...
3,"quadra 102, norte, aguas claras",venda apartamento 360 m²,", residencial matisse antares aguas claras lux...",3300000.0,9166.0,360 m²5 quartos5 suites3 vagas,a valle empreendimentos imobiliários apresenta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/432/433/434/435/436/437/438/439/4310/4311/43...
4,"rua 9, norte, aguas claras",venda apartamento 33 m²,"residencial easy - 98144-4558, easy residencia...",320000.0,9696.0,33 m²1 quarto1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/292/293/294/295/296/297/298/299/2910/2911/29...
...,...,...,...,...,...,...,...,...,...
4985,"quadra 103, norte, aguas claras",venda apartamento 138 m²,", residencial ipêsreformadissimo",1150000.0,8333.0,138 m²4 quartos1 suite2 vagas,você que já visitou vários imóveis de 4 quarto...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/1fotosvideoligue agoraenviar emailindique es...
4986,"rua 31, sul, aguas claras",venda apartamento 55 m²,", residencial ligia valois 31 novo - moderno",570000.0,10363.0,55 m²2 quartos1 suite1 vaga,daleprane inteligência imobiliária vende com e...,/imovel/apartamento-2-quartos-venda-sul-aguas-...,1/1ligue agoraenviar emailindique este imóvelc...
4987,"quadra 205, sul, aguas claras",venda apartamento 236 m²,", residencial resort aguarius",2190000.0,9279.0,236 m²4 quartos2 suites2 vagas,daleprane inteligência imobiliária vende com e...,/imovel/apartamento-4-quartos-venda-sul-aguas-...,1/1ligue agoraenviar emailindique este imóvelc...
4988,"avenida parque águas claras, norte, aguas claras",venda apartamento 92 m²,", condominio mansões paradiso",690000.0,7500.0,92 m²3 quartos1 suite1 vaga,lindo apartamento de 3 quartos sendo 1 suite c...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/1ligue agoraenviar emailindique este imóvelc...


In [9]:
# Extraindo a quantidade de quartos do texto
df['quartos'] = df.conteudo.apply(lambda x: list(set(re.findall(r'[\d][\s]{0,1}quarto', x)))[0])
df.quartos

0       3 quarto
1       3 quarto
2       1 quarto
3       5 quarto
4       1 quarto
          ...   
4985    4 quarto
4986    2 quarto
4987    4 quarto
4988    3 quarto
4989    3 quarto
Name: quartos, Length: 4990, dtype: object

In [10]:
# Extraindo a quantidade banheiros
df['banheiros'] = df.conteudo.apply(lambda x: list(set(re.findall(r'[\d][\s]{0,1}banheiro', x))))
df.banheiros

0                 []
1                 []
2                 []
3       [8 banheiro]
4                 []
            ...     
4985              []
4986              []
4987              []
4988              []
4989              []
Name: banheiros, Length: 4990, dtype: object

In [11]:
# Extraindo a quantidade suites
df['suites'] = df.conteudo.apply(lambda x: list(set(re.findall(r'[\d][\s]{0,1}suite', x))))
df.suites

0                         [2 suite, 3suite]
1                         [1 suite, 3suite]
2                         [1suite, 1 suite]
3       [4 suite, 5suite, 5 suite, 1 suite]
4                                        []
                       ...                 
4985                      [1 suite, 4suite]
4986                      [1 suite, 2suite]
4987                      [2 suite, 4suite]
4988                      [1 suite, 3suite]
4989                      [1 suite, 3suite]
Name: suites, Length: 4990, dtype: object

In [12]:
# Extraindo a quantidade de vagas de garagens
df['vagas'] = df.conteudo.apply(lambda x: list(set(re.findall(r'[\d][\s]{0,1}suite', x))))
df.vagas

0                         [2 suite, 3suite]
1                         [1 suite, 3suite]
2                         [1suite, 1 suite]
3       [4 suite, 5suite, 5 suite, 1 suite]
4                                        []
                       ...                 
4985                      [1 suite, 4suite]
4986                      [1 suite, 2suite]
4987                      [2 suite, 4suite]
4988                      [1 suite, 3suite]
4989                      [1 suite, 3suite]
Name: vagas, Length: 4990, dtype: object

In [13]:
# Extraindo o espaco de cada imovel
df['espaco'] = df.desc.apply(lambda x: re.findall(r'\d+.m²', x))
df['espaco'] = df['espaco'].apply(lambda x: float(x[0].replace(' m²', '')))

In [14]:
# Excluindo registros com mais de 500m2
lista_exc = list(df[df.espaco > 500].index)
df.drop(index=lista_exc, inplace=True)
df.reset_index(inplace=True)

In [15]:
df[df.espaco > 500]

Unnamed: 0,index,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,quartos,banheiros,suites,vagas,espaco


In [16]:
# Adicionando a data de criacao de cada anuncio
df['data'] = ''
df['data'] = df.conteudo.apply(lambda x: re.findall(r'[\d]{2}/[\d]{2}/[\d]{4}', x)[0])

In [17]:
df.head()

Unnamed: 0,index,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,quartos,banheiros,suites,vagas,espaco,data
0,0,"quadra 209, sul, aguas claras",venda apartamento 93 m²,"fernanda (61) 98151-2321, residencial mirante ...",875000.0,9408.0,93 m²3 quartos2 suites2 vagas,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/72/73/74/75/76/77/7ligue agoraenviar emailin...,3 quarto,[],"[2 suite, 3suite]","[2 suite, 3suite]",93.0,06/06/2023
1,1,"rua 21, norte, aguas claras",venda apartamento 95 m²,"(61) 99639-9575, edificio villa grandino a 50 ...",650000.0,6842.0,95 m²3 quartos1 suite1 vaga,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/192/193/194/195/196/197/198/199/1910/1911/19...,3 quarto,[],"[1 suite, 3suite]","[1 suite, 3suite]",95.0,06/06/2023
2,2,"rua das carnaubas, norte, aguas claras",venda apartamento 32 m²,"fernanda (61) 98151-2321, edificio luna park e...",270000.0,8437.0,32 m²1 quarto1 suite1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/232/233/234/235/236/237/238/239/2310/2311/23...,1 quarto,[],"[1suite, 1 suite]","[1suite, 1 suite]",32.0,06/06/2023
3,3,"quadra 102, norte, aguas claras",venda apartamento 360 m²,", residencial matisse antares aguas claras lux...",3300000.0,9166.0,360 m²5 quartos5 suites3 vagas,a valle empreendimentos imobiliários apresenta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/432/433/434/435/436/437/438/439/4310/4311/43...,5 quarto,[8 banheiro],"[4 suite, 5suite, 5 suite, 1 suite]","[4 suite, 5suite, 5 suite, 1 suite]",360.0,06/06/2023
4,4,"rua 9, norte, aguas claras",venda apartamento 33 m²,"residencial easy - 98144-4558, easy residencia...",320000.0,9696.0,33 m²1 quarto1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/292/293/294/295/296/297/298/299/2910/2911/29...,1 quarto,[],[],[],33.0,06/06/2023


Alguns empreendimentos possuem várias opções de apartamentos, com diversas opções de espaço, vagas de garagem, quantidade de suites e etc. Nesse caso, pegarei as médias de cada variável, como valor médio de suítes, para continuar a análise.

In [18]:
# Função para extrair números das strings e calcular a média, caso possuam mais de um valor
def extrair_numeros(valor):
    if isinstance(valor, list):
        numeros = [int(re.findall(r'\d+', item)[0]) for item in valor]
        if numeros:
            return int(sum(numeros) / len(numeros))
    return 0

# Aplicar a função para transformar as colunas em numéricas
df['quartos'] = df['quartos'].apply(lambda x: int(re.findall(r'\d+', x)[0]))
df['banheiros'] = df['banheiros'].apply(extrair_numeros)
df['suites'] = df['suites'].apply(extrair_numeros)
df['vagas'] = df['vagas'].apply(extrair_numeros)

In [19]:
# Extraindo dos anuncios os nomes de edificios, caso escrito nos textos
# e acrescentando a uma nova coluna
lista_index = df[df.conteudo.str.contains('edificio:')].index
df['edificio'] = ''
df.loc[lista_index, 'edificio'] = [x.replace('última', 'andar').\
                                   replace('de andar', 'andar')\
                                   .replace('no andar', 'andar')\
                                   .replace('unidade', 'andar')\
                                   .split('edificio:')[1]\
                                   .split('andar')[0].strip()  \
                                   for x in df.loc[lista_index, 'conteudo']]

In [20]:
df.head()

Unnamed: 0,index,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,quartos,banheiros,suites,vagas,espaco,data,edificio
0,0,"quadra 209, sul, aguas claras",venda apartamento 93 m²,"fernanda (61) 98151-2321, residencial mirante ...",875000.0,9408.0,93 m²3 quartos2 suites2 vagas,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/72/73/74/75/76/77/7ligue agoraenviar emailin...,3,0,2,2,93.0,06/06/2023,residencial mirante do bosquetotal
1,1,"rua 21, norte, aguas claras",venda apartamento 95 m²,"(61) 99639-9575, edificio villa grandino a 50 ...",650000.0,6842.0,95 m²3 quartos1 suite1 vaga,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/192/193/194/195/196/197/198/199/1910/1911/19...,3,0,2,2,95.0,06/06/2023,edificio villa grandinototal
2,2,"rua das carnaubas, norte, aguas claras",venda apartamento 32 m²,"fernanda (61) 98151-2321, edificio luna park e...",270000.0,8437.0,32 m²1 quarto1 suite1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/232/233/234/235/236/237/238/239/2310/2311/23...,1,0,1,1,32.0,06/06/2023,edificio luna park
3,3,"quadra 102, norte, aguas claras",venda apartamento 360 m²,", residencial matisse antares aguas claras lux...",3300000.0,9166.0,360 m²5 quartos5 suites3 vagas,a valle empreendimentos imobiliários apresenta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/432/433/434/435/436/437/438/439/4310/4311/43...,5,8,3,3,360.0,06/06/2023,residencial matisse antares
4,4,"rua 9, norte, aguas claras",venda apartamento 33 m²,"residencial easy - 98144-4558, easy residencia...",320000.0,9696.0,33 m²1 quarto1 vaga,ferola a mais acessada de brasília vende:resid...,/imovel/apartamento-1-quarto-venda-norte-aguas...,1/292/293/294/295/296/297/298/299/2910/2911/29...,1,0,0,0,33.0,06/06/2023,easy residencialtotal


In [21]:
# Resetando o indice apos as alteracoes
df.reset_index(inplace=True)
df.drop(columns='index', inplace=True)

In [22]:
# Criando uma coluna com os textos que serao passados na API para coletar as coordenadas
df['endereco'] = [f'{df.edificio[i].strip()}, aguas claras - DF, Brazil' if df.edificio[i].strip() != '' else df.titulo[i]+' - DF' for i in range(len(df))]

In [23]:
df.endereco

0       residencial mirante do bosquetotal, aguas clar...
1       edificio villa grandinototal, aguas claras - D...
2           edificio luna park, aguas claras - DF, Brazil
3       residencial matisse antares, aguas claras - DF...
4        easy residencialtotal, aguas claras - DF, Brazil
                              ...                        
4978          residencial ipês, aguas claras - DF, Brazil
4979    residencial ligia valois 31, aguas claras - DF...
4980    residencial resort aguarius, aguas claras - DF...
4981    condominio mansões paradiso, aguas claras - DF...
4982               qs 7 rua 800, areal, aguas claras - DF
Name: endereco, Length: 4983, dtype: object

# Transformando os endereços em coordenadas

In [24]:
# Importando a biblioteca de georreferenciamento
from geopy import ArcGIS

In [25]:
# Criando colunas que irao receber a latitude, longitude e score da consulta
df['latitude'] = ''
df['longitude'] = ''
df['score'] = ''

In [26]:
# Funcao que converte o endereco em coordenadas
def coordenadas(endereco):

    locator = ArcGIS(user_agent='Caioapp')
    location = locator.geocode(endereco, timeout=600)

    return location

In [56]:
# Chamando a funcao coordenadas para cada registro
for i in range(len(df)):

    try:

        location = coordenadas(str(df.endereco[i]))

        df.loc[i, 'latitude'] = str(location.latitude)
        df.loc[i, 'longitude'] = str(location.longitude)
        df.loc[i, 'score'] = float(location.raw['score'])

    except:
        print(i, 'fail')

2771 fail
2994 fail


In [57]:
df.score = df.score.replace('', 0)

In [58]:
df.score = df.score.astype('float64')

In [59]:
df.score.describe()

count    4983.000000
mean       89.508706
std         8.737177
min         0.000000
25%        80.000000
50%        88.890000
75%       100.000000
max       100.000000
Name: score, dtype: float64

In [60]:
# Visualizando os 2 enderecos não encontrados
df[df.score==0]

Unnamed: 0,level_0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,...,banheiros,suites,vagas,espaco,data,edificio,endereco,latitude,longitude,score
2771,2771,"quadra 208, sul, aguas claras",venda apartamento 108 m²,costa azulvenda apartamento 3 quartos sul água...,920000.0,8518.0,108 m²3 quartos1 suite2 vagas,apartamento 03 quartos com varanda em águas cl...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/302/303/304/305/306/307/308/309/3010/3011/30...,...,3,2,2,108.0,06/06/2023,"costa azulimóvel bem espaçoso, contendo ventil...","costa azulimóvel bem espaçoso, contendo ventil...",,,0.0
2994,2994,"rua 9, norte, aguas claras",venda apartamento 111 m²,edificio dirceu da rocha tavares rua 9 edifici...,820000.0,7387.0,111 m²4 quartos1 suite1 vaga,apartamento 04 quartos e vazado próximo a esta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/232/233/234/235/236/237/238/239/2310/2311/23...,...,2,2,2,111.0,06/06/2023,"dirceu da rocha tavaresimóvel bem espaçoso, co...","dirceu da rocha tavaresimóvel bem espaçoso, co...",,,0.0


In [61]:
# Podemos encontrar no texto o endereco que fica na quadra 208 sul
df.endereco[2771]

'costa azulimóvel bem espaçoso, contendo ventilação natural em todos os comandos, ambientes amplos e piso em porcelanato.- 108 m2 de área útil\r- 03 quartos, sendo 01 suite- 03 banheiros ao todo\r- possui 01 vaga de gaargem\r- área de serviçoárea de lazer:\r- churrasqueiras\r- quadra esportiva\r- piscina- excelente localização, imóvel fica na quadra 208 sul de águas claras, próximo a comércio local e estação arniqueiras, além de padarias, farmácias, mercados, restaurantes e etc.(os preços e informações poderão sofrer mudanças sem aviso prévio. por este motivo, solicitamos a confirmação com nossos consultores.)solicitar visitaenviar propostasolicitar visitaenviar propostacaracteristicasinterfonepiscinaquadra esportivasaunalocalizaçãomapastreet viewmapastreet viewclique para carregar o mapa., aguas claras - DF, Brazil'

In [62]:
# Encontramos o endereco que fica na rua 09 norte
df.endereco[2994]

'dirceu da rocha tavaresimóvel bem espaçoso, contendo ventilação natural em todos os comandos, armários planejados, ambientes amplos e piso em porcelanato.- 111,60 m2 de área útil- 04 quartos, sendo 01 suite- 02 banheiros ao todo- possui 01 vaga de gaargem coberta- um dos quartos reversivel para escritório- cozinha e área de serviço são independentes- área de serviço ampla (dce convertido em lavanderia)área de lazer:- duas churrasqueiras- salão de festas- quadra esportiva- academia- salão de jogos- playground- bicicletário- excelente localização, imóvel fica na rua 09 norte de águas claras, próximo a comércio local e estação arniqueiras, além de padarias, farmácias, mercados, restaurantes e etc.(os preços e informações poderão sofrer mudanças sem aviso prévio. por este motivo, solicitamos a confirmação com nossos consultores.)solicitar visitaenviar propostasolicitar visitaenviar propostacaracteristicasplaygroundquadra esportivasalão de jogoslocalizaçãomapastreet viewmapastreet viewcliq

In [63]:
# Fazendo uma nova requisicao para o indice 2771
location = coordenadas('quadra 208 sul, aguas claras - DF, Brazil')
i = 2771
df.loc[i, 'latitude'] = str(location.latitude)
df.loc[i, 'longitude'] = str(location.longitude)
df.loc[i, 'score'] = float(location.raw['score'])

In [64]:
# Fazendo uma nova requisicao para o indice 2994
location = coordenadas('rua 09 norte, aguas claras - DF, Brazil')
i = 2994
df.loc[i, 'latitude'] = str(location.latitude)
df.loc[i, 'longitude'] = str(location.longitude)
df.loc[i, 'score'] = float(location.raw['score'])

In [65]:
# Agora o dataframe esta completo
df.iloc[[2771, 2994]]

Unnamed: 0,level_0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,...,banheiros,suites,vagas,espaco,data,edificio,endereco,latitude,longitude,score
2771,2771,"quadra 208, sul, aguas claras",venda apartamento 108 m²,costa azulvenda apartamento 3 quartos sul água...,920000.0,8518.0,108 m²3 quartos1 suite2 vagas,apartamento 03 quartos com varanda em águas cl...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/302/303/304/305/306/307/308/309/3010/3011/30...,...,3,2,2,108.0,06/06/2023,"costa azulimóvel bem espaçoso, contendo ventil...","costa azulimóvel bem espaçoso, contendo ventil...",-15.844959835383,-48.027943339188,100.0
2994,2994,"rua 9, norte, aguas claras",venda apartamento 111 m²,edificio dirceu da rocha tavares rua 9 edifici...,820000.0,7387.0,111 m²4 quartos1 suite1 vaga,apartamento 04 quartos e vazado próximo a esta...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/232/233/234/235/236/237/238/239/2310/2311/23...,...,2,2,2,111.0,06/06/2023,"dirceu da rocha tavaresimóvel bem espaçoso, co...","dirceu da rocha tavaresimóvel bem espaçoso, co...",-15.835195016505,-48.015859996907,100.0


In [66]:
# # Salvando o dados
# df.to_csv('../dados/imoveis_coordenadas.csv',
#           sep=';',
#           encoding='utf-8',
#           index=False)

# Criação do mapa de calor

In [3]:
df = pd.read_csv('../dados/imoveis_coordenadas.csv',
                 sep=';',
                 dtype='str',
                 encoding='utf-8')

In [4]:
df.head(3)

Unnamed: 0,level_0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,...,banheiros,suites,vagas,espaco,data,edificio,endereco,latitude,longitude,score
0,0,"quadra 209, sul, aguas claras",venda apartamento 93 m²,"fernanda (61) 98151-2321, residencial mirante ...",875000.0,9408.0,93 m²3 quartos2 suites2 vagas,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/72/73/74/75/76/77/7ligue agoraenviar emailin...,...,0.0,2.0,2.0,93.0,06/06/2023,residencial mirante do bosquetotal,"residencial mirante do bosquetotal, aguas clar...",-15.84067,-48.02206,80.0
1,1,"rua 21, norte, aguas claras",venda apartamento 95 m²,"(61) 99639-9575, edificio villa grandino a 50 ...",650000.0,6842.0,95 m²3 quartos1 suite1 vaga,ferola a mais acessada de brasília vende;resid...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/192/193/194/195/196/197/198/199/1910/1911/19...,...,0.0,2.0,2.0,95.0,06/06/2023,edificio villa grandinototal,"edificio villa grandinototal, aguas claras - D...",-15.84067,-48.02206,80.0
2,2,"rua das carnaubas, norte, aguas claras",venda apartamento 32 m²,"fernanda (61) 98151-2321, edificio luna park e...",270000.0,8437.0,32 m²1 quarto1 suite1 vaga,ferola a mais acessada de brasília vende:resid...,,,...,,,,,,,,,,


In [9]:
df = df[df['score'].notna()]

In [5]:
# Resetando o indice e excluindo colunas indesejadas
df.reset_index(inplace=True)
df.drop('index', axis=1, inplace=True)
df.drop('level_0', axis=1, inplace=True)

In [11]:
df.preco = df.preco.astype('float64')

In [10]:
# Criando mapa de localização dos imoveis

# Importando a biblioteca grafica
import plotly.graph_objects as go

# Imoveis a venda
fig = go.Figure(go.Densitymapbox(lat=df.latitude, lon=df.longitude, radius=7))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [None]:
# Mapa de calor dos precos em aguas claras
fig = go.Figure(go.Densitymapbox(lat=df.latitude, lon=df.longitude, radius=10, z=df.preco))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

### 50 imoveis mais caros

In [12]:
# Mapa 50 imoveis mais caros
x = df.nlargest(50, 'preco')
fig = go.Figure(go.Densitymapbox(lat=x.latitude, lon=x.longitude, radius=10))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

### 50 imóveis mais baratos

In [13]:
# Localizacao 50 mais baratos
x = df.nsmallest(50, 'preco')
fig = go.Figure(go.Densitymapbox(lat=x.latitude, lon=x.longitude, radius=10))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [14]:
# Valor 50 mais baratos
x = df.nsmallest(50, 'preco')
fig = go.Figure(go.Densitymapbox(lat=x.latitude, lon=x.longitude, radius=10, z=x.preco))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [15]:
# Valor 50 mais caros
x = df.nlargest(50, 'preco')
fig = go.Figure(go.Densitymapbox(lat=x.latitude, lon=x.longitude, radius=10, z=x.preco))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [17]:
# Valor 50 mais caros tirando outlier
x = df.nlargest(50, 'preco').query('preco < 400000000')
fig = go.Figure(go.Densitymapbox(lat=x.latitude, lon=x.longitude, radius=10, z=x.preco))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

# Novo tratamento

In [None]:
# df.latitude.fillna('0', inplace=True)

In [19]:
# Analisando alguns pontos fora de Aguas Claras
filtro = df.latitude.str.contains('15.64')
df[filtro]

Unnamed: 0,titulo,desc,desc2,preco,valor_m2,espec,desc3,link_anuncio,conteudo,quartos,banheiros,suites,vagas,espaco,data,edificio,endereco,latitude,longitude,score
563,"rua 37, sul, aguas claras",venda apartamento 92 m²,", condominio residencial espanha apt com pé-di...",610000.0,6630.0,92 m²3 quartos2 suites1 vaga,excelente oportunidade:\r3 quartos;\rsala ampl...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/242/243/244/245/246/247/248/249/2410/2411/24...,3,0,2,2,92.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
3832,"rua 37, sul, aguas claras",venda apartamento 91 m²,"14 andar, condominio residencial espanha refor...",687000.0,7486.0,91 m²3 quartos2 suites1 vaga,***** lindíssimo apto super reformado no resid...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/322/323/324/325/326/327/328/329/3210/3211/32...,3,0,2,2,91.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
3917,"alameda dos eucaliptos quadra 107, norte, agua...",venda apartamento 110 m²,", condominio residencial adv reformado, ótima ...",799000.0,7263.0,110 m²3 quartos2 suites1 vaga,aj mendes imobiliária vende excelente apartame...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/502/503/504/505/506/507/508/509/5010/5011/50...,3,0,2,2,110.0,06/06/2023,condominio residencial adv,"condominio residencial adv, aguas claras - DF,...",-15.64461,-47.83064,82.83
5130,"rua 37, sul, aguas claras",venda apartamento 0 m²,", condominio residencial espanha",360000.0,857142.0,0 m²1 quarto1 vaga,residencial real celebration life clube. – em ...,/imovel/apartamento-1-quarto-venda-sul-aguas-c...,1/302/303/304/305/306/307/308/309/3010/3011/30...,1,1,0,0,0.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
5819,"alameda dos eucaliptos quadra 107, norte, agua...",venda apartamento 169 m²,", condominio residencial adv completão",920000.0,5443.0,169 m²4 quartos2 suites2 vagas,grandão semi vazado super claro e ventilado!!!...,/imovel/apartamento-4-quartos-venda-norte-agua...,1/512/513/514/515/516/517/518/519/5110/5111/51...,4,0,3,3,169.0,06/06/2023,condominio residencial adv,"condominio residencial adv, aguas claras - DF,...",-15.64461,-47.83064,82.83
6549,"rua 37, sul, aguas claras",venda apartamento 30 m²,", condominio residencial espanha",299000.0,9966.0,30 m²1 quarto1 vaga,mendonça vendeexcelente apartamento em ótima l...,/imovel/apartamento-1-quarto-venda-sul-aguas-c...,1/122/123/124/125/126/127/128/129/1210/1211/12...,1,0,0,0,30.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
7555,"rua 37, sul, aguas claras",venda apartamento 92 m²,", condominio residencial espanha",810000.0,8804.0,92 m²3 quartos2 suites1 vaga,- apartamento com 92m² privativo- com dependen...,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/282/283/284/285/286/287/288/289/2810/2811/28...,2,0,2,2,92.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
8701,"rua 37, sul, aguas claras",venda apartamento 72 m²,", condominio residencial espanha",650000.0,9027.0,72 m²3 quartos1 suite1 vaga,"residencial rivoli, 15º andar ,varanda com vis...",/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/62/63/64/65/66/6ligue agoraenviar emailindiq...,3,0,2,2,72.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
9942,"rua 37, sul, aguas claras",venda apartamento 92 m²,", condominio residencial espanha",695000.0,7554.0,92 m²3 quartos1 suite1 vaga,julisce alencar assessoria imobiliária vende.....,/imovel/apartamento-3-quartos-venda-sul-aguas-...,1/222/223/224/225/226/227/228/229/2210/2211/22...,3,1,2,2,92.0,06/06/2023,condominio residencial espanha,"condominio residencial espanha, aguas claras -...",-15.64461,-47.83064,80.64
12956,"avenida pau brasil, norte, aguas claras",venda apartamento 103 m²,- apto 3 quartos (1suíte) + home office 103m² ...,820000.0,7961.0,103 m²3 quartos1 suite1 vaga,facilita imóveis disponibiliza para venda exce...,/imovel/apartamento-3-quartos-venda-norte-agua...,1/272/273/274/275/276/277/278/279/2710/2711/27...,3,3,2,2,103.0,06/06/2023,condominio residencial monet,"condominio residencial monet, aguas claras - D...",-15.64461,-47.83064,81.69


In [22]:
filtro = df.latitude.str.contains('15.64')
index = df[filtro].index

In [23]:
for i in index:

    try:

        location = coordenadas(f'{df.titulo[i]} - Distrito Federal')

        df.loc[i, 'latitude'] = str(location.latitude)
        df.loc[i, 'longitude'] = str(location.longitude)
        df.loc[i, 'score'] = float(location.raw['score'])

    except:
        print(i, 'fail')

563 fail
3832 fail
3917 fail
5130 fail
5819 fail
6549 fail
7555 fail
8701 fail
9942 fail
12956 fail
13983 fail
14227 fail
14393 fail
14958 fail
15060 fail
16029 fail


In [24]:
df.reset_index(inplace=True)
df.drop(columns='index', inplace = True)

In [25]:
# Delimitando o perimetro que considero como Aguas Claras
index = [i for i in range(len(df))\
         if (float(df.latitude[i]) > -15.827) | \
         (float(df.latitude[i]) < -15.88) | \
         (float(df.longitude[i]) < -48.048) | \
         (float(df.longitude[i]) > -47.994)]

In [26]:
import plotly.graph_objects as go
# Imoveis a venda
fig = go.Figure(go.Densitymapbox(lat=df.loc[index].latitude, lon=df.loc[index].longitude, radius=7))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [27]:
# Apenas 133 registros estao fora de aguas claras
len(df.loc[index])

133

In [28]:
# Resetando o index novamente
df.drop(index=index, inplace=True)
df.reset_index(inplace=True)
df.drop(columns='index', inplace = True)

## Avaliando os valores coletados

In [29]:
df['banheiros'].value_counts()

0    2922
1     242
2     142
3      92
4      32
5      20
6       5
Name: banheiros, dtype: int64

In [34]:
df['quartos'].value_counts()

2    1046
3    1036
1     809
4     557
5       6
6       1
Name: quartos, dtype: int64

In [35]:
df['vagas'].value_counts()

2    1258
1    1088
0     621
3     362
4     125
5       1
Name: vagas, dtype: int64

In [36]:
df['suites'].value_counts()

2    1258
1    1088
0     621
3     362
4     125
5       1
Name: suites, dtype: int64

## Salvando os dados

In [37]:
df.columns

Index(['titulo', 'desc', 'desc2', 'preco', 'valor_m2', 'espec', 'desc3',
       'link_anuncio', 'conteudo', 'quartos', 'banheiros', 'suites', 'vagas',
       'espaco', 'data', 'edificio', 'endereco', 'latitude', 'longitude',
       'score'],
      dtype='object')

In [38]:
df_modelo = df[['preco', 'valor_m2', 'quartos', 'suites', 'vagas', 'espaco', 'latitude','longitude']]
df_modelo

Unnamed: 0,preco,valor_m2,quartos,suites,vagas,espaco,latitude,longitude
0,875000.0,9408.0,3,2,2,93.0,-15.84067,-48.02206
1,650000.0,6842.0,3,2,2,95.0,-15.84067,-48.02206
2,740000.0,7312.0,1,2,2,101.0,-15.84067,-48.02206
3,1480000.0,8222.0,4,2,2,180.0,-15.835735462934,-48.02866838915
4,1180000.0,9007.0,3,3,3,131.0,-15.84060973365,-48.027706587243
...,...,...,...,...,...,...,...,...
3450,255000.0,4903.0,2,0,0,52.0,-15.854516826001,-48.031983464489
3451,1150000.0,8333.0,4,2,2,138.0,-15.83455,-48.03885
3452,570000.0,10363.0,2,1,1,55.0,-15.84067,-48.02206
3453,2190000.0,9279.0,4,3,3,236.0,-15.84067,-48.02206


In [39]:
df_modelo.to_csv('../dados/imoveis_modelo.csv',
                 sep=';',
                 encoding='utf-8',
                 index=False)