<a href="https://colab.research.google.com/github/lcfdiniz/puc-rio/blob/main/real-estate-market/real_estate_market.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import pandas as pd

# Análise de dados do mercado imobiliário

por [Lucas Fiorani Diniz](https://www.linkedin.com/in/lcfdiniz/)

## Definição do problema

Em 1948, a Declaração Universal dos Direitos Humanos reconheceu o **direito à moradia** como fundamental para a vida das pessoas. O acesso a uma habitação digna garante abrigo e segurança, além de contribuir para o bem-estar social, familiar, social e profissional.

O mercado imobiliário fornece os meios para que as pessoas possam adquirir suas moradias. Este envolve a compra e venda de casas, escritórios, lojas, terrenos e outras propriedades, sendo dividido em diferentes segmentos, como o residencial, o comercial e o industrial. O investimento em imóveis, por sua vez, é uma das estratégias mais populares e historicamente comprovadas para geração de renda passiva.

Nesse contexto, é fácil perceber o papel fundamental desempenhado pelo mercado imobiliário na economia e na vida das pessoas. A bolha imobiliária que resultou na crise financeira de 2008 [[1]](https://www.politize.com.br/crise-financeira-de-2008/) talvez seja o exemplo mais claro de como esse mercado impacta nossas vidas e a sociedade de modo geral.

Um dos principais desafios ligados ao mercado imobiliário é a correta avaliação do preço de um imóvel. A habilidade de reconhecer as melhores oportunidades é um fator chave de sucesso tanto para investidores quanto para aqueles que vislumbram o sonho da casa própria. Nesse sentido, é fundamental identificar quais fatores contribuem para o preço de um imóvel e, mais do que isso, como esses fatores compõe seu preço final.

Nesse trabalho, será realizada a análise e pré-processamento de dados reais do mercado imobiliário. Por meio da análise exploratória de dados, é esperado encontrar padrões e identificar quais variáveis mais impactam no preço de uma moradia.

Os dados processados poderiam ser utilizados para uma etapa posterior de construção de um modelo de **aprendizado supervisionado** para previsão do preço de um imóvel dadas as suas características, sendo esse um problema de regressão. Essa parte, no entanto, está além do escopo do presente trabalho.

### Levantamento de hipóteses

Considerando as informações apresentadas acima, é possível levantar as seguintes hipóteses a respeito da relação entre as características de um imóvel e o preço final do mesmo:

- Os imóveis com maior área também são os mais caros;

- Os imóveis com mais cômodos (quartos e banheiros) são mais caros que os demais;

- Os imóveis sem vagas de garagem são mais baratos que os demais;

- Os imóveis com mais opções de lazer também são os mais caros;

- As casas são, de modo geral, mais caras que os apartamentos.

### Restrições e condições respeitadas

Para se obter os dados do problema, foi utilizada uma técnica de web scraping em um portal de compra e venda de imóveis. Web scraping é uma técnica de extração de dados da web, na qual um programa de computador automatizado acessa sites da internet e coleta informações de forma sistemática e estruturada. O script utilizado é de autoria própria e seguiu as recomendações para tal prática (`robots.txt`) do portal acessado.

O conjunto final de dados coletados possui 1567 registros, um para cada imóvel, com 18 diferentes features. A aquisição de dados foi realizada no dia 01/11/2023 e considerou apenas os imóveis de minha cidade natal, Juiz de Fora - MG.

Sendo assim, algumas considerações devem ser feitas:

- Devido à alta volatilidade de preços do mercado imobiliário, dada por fatores como a oferta e demanda, cenário econômico e políticas locais, é possível que os valores aqui registrados logo se tornem desatualizados. Os padrões encontrados, no entanto, devem persistir;

- As análises realizadas são válidas para a cidade de Juiz de Fora - MG, mas podem não representar a realidade de outras localizações. Aspectos culturais e/ou geográficos podem influenciar as características valorizadas em um imóvel por compradores/vendedores dessa região;

- Nesse dataset foram consideradas apenas casas e apartamentos, para reduzir a variabilidade dos dados e aumentar sua coesão. Algumas características desse conjunto de dados não fariam sentido caso o imóvel fosse um escritório ou terreno, por exemplo;

- Existem outros fatores não capturados pelos dados que podem influenciar consideravelmente no preço de venda de um imóvel, como seu estado de conservação, idade do imóvel, tempo de exposição ao sol, dentre outras avaliações subjetivas.


### Dataset utilizado

In [4]:
# URL para o repositório do GitHub onde os dados foram disponibilizados
url = "https://raw.githubusercontent.com/lcfdiniz/puc-rio/main/real-estate-market/data/real-estate-records.csv"

In [5]:
df = pd.read_csv(url)

df.head()

Unnamed: 0,Tipo_de_Moradia,Bairro,Area,Quartos,Banheiros,Vagas,Preco,Condominio,Aceita_Animais,Area_de_Servico,Churrasqueira,Elevador,Varanda,Piscina,Condominio_Fechado,Espaco_Gourmet,Portao_Eletronico,Quintal_ou_Jardim
0,Apartamento,Santa Efigênia,150.0,2.0,3.0,1.0,195000,,False,False,False,False,False,False,False,False,False,False
1,Apartamento,Estrela Sul,70.0,2.0,2.0,1.0,250000,270.0,True,False,True,True,False,True,True,False,False,False
2,Casa,Fontesville,217.0,3.0,3.0,1.0,420000,,False,False,False,False,False,False,False,False,False,False
3,Apartamento,Aeroporto,76.0,2.0,2.0,1.0,300000,200.0,True,True,False,True,True,True,False,True,False,False
4,Apartamento,Paineiras,63.0,2.0,1.0,,148000,152.0,False,False,False,False,False,False,False,False,True,False


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1567 entries, 0 to 1566
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Tipo_de_Moradia     1567 non-null   object 
 1   Bairro              1567 non-null   object 
 2   Area                1567 non-null   float64
 3   Quartos             1565 non-null   float64
 4   Banheiros           1567 non-null   float64
 5   Vagas               1359 non-null   float64
 6   Preco               1567 non-null   int64  
 7   Condominio          741 non-null    float64
 8   Aceita_Animais      1567 non-null   bool   
 9   Area_de_Servico     1567 non-null   bool   
 10  Churrasqueira       1567 non-null   bool   
 11  Elevador            1567 non-null   bool   
 12  Varanda             1567 non-null   bool   
 13  Piscina             1567 non-null   bool   
 14  Condominio_Fechado  1567 non-null   bool   
 15  Espaco_Gourmet      1567 non-null   bool   
 16  Portao

  O dataset é composto por 1.567 entradas de dados e 18 features, sendo 6 representadas por valores numéricos (5 por números de ponto flutuante e 1 por números inteiros), 2 representadas por valores categóricos e 10 representadas por valores booleanos.

  Mais detalhes sobre esse conjunto serão fornecidos na seção de "Análise de dados". A seguir, cada atributo do dataset será melhor descrito:

  - `Tipo_de_Moradia`: indica se a moradia é uma casa ou apartamento;

  - `Bairro`: nome do bairro do imóvel;

  - `Area`:  área total do imóvel;

  - `Quartos`: número de quartos do imóvel;

  - `Banheiros`: número de banheiros do imóvel;

  - `Vagas`: número de vagas na garagem do imóvel;

  - `Preco`: valor de venda do imóvel, conforme anunciado no portal;

  - `Condominio`: valor mensal do condomínio;

  - `Aceita_Animais`: se o condomínio aceita (1) ou não (0) animais;

  - `Area_de_Servico`: se o imóvel possui (1) ou não (0) área de serviço;

  - `Churrasqueira`: se o imóvel possui (1) ou não (0) churrasqueira;

  - `Elevador`: se o imóvel ou condomínio possui (1) ou não (0) elevador;

  - `Varanda`: se o imóvel possui (1) ou não (0) varanda;

  - `Piscina`: se o imóvel ou condomínio possui (1) ou não (0) piscina;

  - `Condominio_Fechado`: se o condomínio é fechado (1) ou não (0);

  - `Espaco_Gourmet`: se o imóvel ou condomínio possui (1) ou não (0) espaço gourmet;

  - `Portao_Eletronico`: se o imóvel ou condomínio possui (1) ou não (0) portão eletrônico;

  - `Quintal_ou_Jardim`: se o imóvel possui (1) ou não (0) quintal ou jardim.

## Análise de dados

## Pré-processamento de dados

## Conclusões