---
title: "An√°lise de Pre√ßo dos Im√≥veis"
format: html
---

# üìå Introdu√ß√£o

Neste arquivo vamos:

1- Importar a base de dados que raspamos;

2- Breve an√°lise explorat√≥ria dos dados;

3- Ajustar um modelo que prev√™ o pre√ßo final do im√≥vel baseado nas vari√°veis dispon√≠veis.

## üì• Objetivo

Este documento realiza a **an√°lise e modelagem** dos dados de im√≥veis utilizados na an√°lise de pre√ßos.

## üíª C√≥digo

Instalando e Carregando os Pacotes necess√°rios

```{r}
## INSTALANDO E CARREGANDO OS PACOTES NECESS√ÅRIOS

if (!require(tidyverse)) install.packages('tidyverse')
if (!require(ggplot2)) install.packages('ggplot2')
if (!require(ggthemes)) install.packages('ggthemes')
if (!require(viridis)) install.packages('viridis')
if (!require(caret)) install.packages('caret')
if (!require(usethis)) install.packages('usethis')


library(tidyverse)
library(ggplot2)
library(ggthemes)
library(viridis)
library(caret)
library(usethis)

```

```{r}
## IMPORTANDO O DADO E FAZENDO O TRATAMENTO FINAL

dados <- read.csv2('data/dados_raspados.csv', fileEncoding = 'ISO-8859-1')
dados$X <- c()
dados$vagas_garagem[is.na(dados$vagas_garagem)] <- 0
dados <- dados |> 
  filter(cidade != 'Guarapari' & cidade != 'Linhares' & cidade != 'Santa Teresa') 

head(dados,5)

```

## An√°lise Explorat√≥ria

```{r}
## ANALISANDO AS CIDADES QUE CONSTAM NA BASE DE DADOS

dados |> 
  ggplot(aes(x = fct_infreq(cidade), fill = cidade)) +
  geom_bar() +
  scale_fill_viridis_d(option = 'C') +
  theme_fivethirtyeight() +
  ggtitle('Serra com mais Frequ√™ncia.') +
  xlab('Cidades')

ggsave('figuras/freq_cidade.png')

```
Talvez isso d√™ pois de acordo com o Minist√©rio da Economia, que divulgou o √çndice de Concorr√™ncia dos Munic√≠pios (ICM) referente ao ano de 2022, a Serra consta com a melhor avalia√ß√£o do Esp√≠rito Santo.

```{r}
## VAMOS ANALISAR O VALOR DO IM√ìVEL POR CIDADE

dados |> 
  ggplot(aes(x = preco, fill = cidade, color = cidade)) +
  geom_density(alpha = .1, linewidth = .8) +
  scale_fill_viridis_d(option = 'C') +
  scale_color_viridis_d(option = 'C') +
  theme_fivethirtyeight() +
  scale_x_continuous(labels = scales::comma) +
  labs(
    title = 'Valores dos im√≥veis seguem mesma distribui√ß√£o.',
    subtitle = 'Valores est√£o acumulados em at√© pouco mais de R$ 2.000.000,00',
  )
ggsave('figuras/dist_imov.png')

```

A cidade de Vit√≥ria apresenta uma distribui√ß√£o de pre√ßos bimodal, com picos de densidade em torno de R\$ 500 mil e acima de R\$ 2 milh√µes, sugerindo a coexist√™ncia de segmentos imobili√°rios distintos. Isso pode indicar a presen√ßa de desigualdade social dentro do munic√≠pio, refletida na diversidade de valores de im√≥veis. Por outro lado, cidades como Serra exibem uma distribui√ß√£o mais uniforme, com pre√ßos mais concentrados em uma faixa intermedi√°ria, o que sugere maior homogeneidade no mercado imobili√°rio local. Assim como a cidade de Vila Velha √© de certa forma mais uniforme por√©m com valores mais altos, indicando mais concentra√ß√£o de im√≥veis de luxo.

```{r}

## ANALISANDO A DISTRIBUI√á√ÉO DOS PRE√áOS DOS IM√ìVEIS

dados |> 
  ggplot(aes(y = preco)) + 
  geom_boxplot() +
  scale_y_continuous(labels = scales::comma) +
  labs(
    title = 'Confirmando onde se concentram\n as estat√≠sticas interquartis',
    subtitle = 'Outilier em mais de R$ 4.000.000,00 chama aten√ß√£o'
  ) +
  theme_fivethirtyeight()

ggsave('figuras/boxplot_preco.png')

```

Como visto, os valores se concentram em R\$ 1.000.000,00 para baixo, com alguns outliers, um deles, chama aten√ß√£o por passar de R\$ 4.000.000,00.

Para melhor entendimento, vamos dar um *zoom* no gr√°fico de densidade

```{r}

dados |> 
  filter(preco <= 2000000) |> 
  ggplot(aes(x = preco, fill = cidade, color = cidade)) +
  geom_density(alpha = .1, linewidth = .8) +
  scale_fill_viridis_d(option = 'C') +
  scale_color_viridis_d(option = 'C') +
  theme_fivethirtyeight() +
  scale_x_continuous(labels = scales::comma) +
  labs(
    title = 'Valores dos im√≥veis seguem mesma distribui√ß√£o.',
    subtitle = 'Serra tem a menor moda de todas as cidades'
  )

ggsave('figuras/dist_zoom.png')
  
```


A distribui√ß√£o de Vit√≥ria se parece muito com a de Serra, s√≥ que um pouco para direita, indicando que sua moda √© maior, assim como Vila Velha √© maior que Vit√≥ria, por√©m Vit√≥ria tem picos de densidade acumulada em valores mais altos.

```{r}

## VAMOS ANALISAR A DISTRIBUI√á√ÉO DOS PRECOS POR CIDADE

dados |> 
  ggplot(aes(x= cidade, y = preco, fill = cidade)) +
  geom_boxplot() +
  scale_y_continuous(labels = scales::comma) +
  theme_fivethirtyeight() +
  scale_fill_viridis_d(option = 'C') +
  labs(
    title = 'Vila Velha possui as maiores observa√ß√µes',
    subtitle = 'Juntamente com o Outiler visto anteriormente'
  )

ggsave('figuras/boxplot_cidades.png')

```

O boxplot mostra que Vila Velha possui os im√≥veis com maior valor. Vit√≥ria, embora com valores altos, tem uma distribui√ß√£o mais dispersa, e a cidade da Serra aparece como intermedi√°ria, com presen√ßa de im√≥veis de menor padr√£o.

## Analisando a rela√ß√£o entre as vari√°veis

```{r}

## VAMOS VER A RELA√á√ÉO DE QUARTO POR PRE√áO

dados |> 
  group_by(quartos) |> 
  summarise(media_preco = mean(preco, na.rm = T)) |> 
  ggplot(aes(x = quartos, y = media_preco)) +
  geom_line(linewidth = 1) +
  geom_point(size = 3, color = 'darkblue') +
  scale_y_continuous(labels = scales::comma) +
  labs(
    x = "N√∫mero de quartos",
    y = "Pre√ßo m√©dio do im√≥vel",
    title = "Pre√ßo m√©dio por n√∫mero de quartos",
    subtitle = 'Apresenta n√£o linearidade'
  ) +
  theme_fivethirtyeight()

ggsave('figuras/quartos.png')
```

Os dados apresentam uma leve contra intuitividade, com quatro quartos tendo a maior m√©dia de valor de im√≥vel.

```{r}

## OBSERVANDO A RELA√á√ÉO DE BANHEIROS POR PRE√áO

dados |> 
  group_by(banheiros) |> 
  summarise(media_preco = mean(preco, na.rm = T)) |> 
  ggplot(aes(x = banheiros, y = media_preco)) +
  geom_line(linewidth = 1) +
  geom_point(size = 3, color = 'darkblue') +
  scale_y_continuous(labels = scales::comma) +
  labs(
    x = "N√∫mero de banheiros",
    y = "Pre√ßo m√©dio do im√≥vel",
    title = "Pre√ßo m√©dio por n√∫mero de banheiros",
    subtitle = 'Apresenta linearidade'
  ) +
  theme_fivethirtyeight()

ggsave('figuras/banheiros.png')

```

Os im√≥veis seguem a linha de racioc√≠nio comum em que quanto mais banheiro um im√≥vel tem, maior o seu valor.

```{r}

## OBSERVANDO A RELA√á√ÉO DE GARAGEM POR PRE√áO

dados |> 
  group_by(vagas_garagem) |> 
  summarise(media_preco = mean(preco, na.rm = T)) |> 
  ggplot(aes(x = vagas_garagem, y = media_preco)) +
  geom_line(linewidth = 1) +
  geom_point(size = 3, color = 'darkblue') +
  scale_y_continuous(labels = scales::comma) +
  labs(
    x = "N√∫mero de vagas de garagem",
    y = "Pre√ßo m√©dio do im√≥vel",
    title = "Pre√ßo m√©dio por vagas de garagem",
    subtitle = 'Apresenta n√£o linearidade'
  ) +
  theme_fivethirtyeight()

ggsave('figuras/garagens.png')

```

Os im√≥veis com a maior m√©dia de pre√ßo possuem at√© tr√™s vagas.

```{r}

## OBSERVANDO A RELA√á√ÉO DE METRO QUADRADO POR PRE√áO

dados |>
  ggplot(aes(x = metros_quadrados, y = preco)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "lm", formula = y ~ x, color = "firebrick", se = TRUE) +
  scale_y_continuous(labels = scales:::comma) +
  labs(
    title = 'O valor do Im√≥vel parece ter rela√ß√£o\ncom o Metro Quadrado',
    subtitle = 'Indica uma certa linearidade'
  ) +
  theme_fivethirtyeight()

ggsave('figuras/metro_quadrado.png')

```

Para termos mais assertividade vamos transformar os dados e ent√£o montarmos o gr√°fico novamente.

```{r}

dados$log_preco <- log10(dados$preco)

dados |>
  filter(metros_quadrados < 500) |> 
  ggplot(aes(x = metros_quadrados, y = log_preco)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "lm", formula = y ~ x, color = "firebrick", se = TRUE) +
  labs(
    title = 'Dados Transformados se adequam melhor',
    subtitle = 'Indica linearidade'
  ) +
  theme_fivethirtyeight()
  
ggsave('figuras/log_metro_quadrado.png')

```

Os dados se adequaram bem melhor e indica uma boa rela√ß√£o de linearidade entre as vari√°veis.

Vamos tentar ajustar um modelo

# Modelo b√°sico

```{r}
modelo <- lm(
  log_preco ~ log(metros_quadrados) + banheiros + cidade + quartos,
  data = dados)

summary(modelo)

```

O modelo se encaixa suficientemente bem, com todas vari√°veis estatisticamente significativas, uma amplitude de res√≠duos baixas e $R^2$ de 64,5%.

Vamos salvar o modelo e um dataframe de teste e passar para a fase de testes.

```{r}
set.seed(123)
dados_teste <- dados[sample(nrow(dados), 100, replace = T), ]
saveRDS(dados_teste, "data/dados_teste.rds")

saveRDS(modelo, 'modelo/modelo.rds')

```