# Case Housing Prices

# Apresentação do Case

Daremos algumas dicas e sugestões do que inspecionar/analisar, mas podem pensar em em outras questões. No início da próxima aula, apresentaremos a solução proposta para essa primeira etapa.
Na etapa de planejamento, tentem se lembrar de funções, bibliotecas que vocês podem utilizar para realizar essas etapas;

# Inspeção Inicial

In [57]:
# Ler todas as bibliotecas aqui
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import statsmodels.api as sm
import scipy
from statsmodels.graphics.gofplots import qqplot
from statsmodels.stats.outliers_influence import variance_inflation_factor 
from sklearn.metrics import r2_score, mean_squared_error

- Quantidade de linhas, quantidade de colunas
- Titulo das colunas e o que elas significam (comparar com a descrição inicial. Elas fazem sentido?)
- Tipo dos dados, não apenas se são numéricas ou texto. O que elas são de fato. São numéricas mas deveriam ser categorias ou datetime?
- Visão geral dos valores que as variáveis podem assumir (análise de inconsistências nos dados)
- Duplicatas (linhas e colunas)?
- Missing Values

Codificar o planejamento e Registrar o que foi encontrado em forma de texto, como se estivesse fazendo um relatório sobre seus achados.

- **price** - Ainda que esperássemos um tipo float, o tipo int também cabe nessa variável.
- **num_bed** - O tipo inteiro é apropriado
- **num_bath** - Inicialmente, parece estranho, mas essa variável estar como float reflete algo relacionado ao negócio (forma como os banheiros são vistos no USA)
- **size_house** - O tipo inteiro é apropriado
- **size_lot** - O tipo inteiro é apropriado
- **num_floors** - O tipo float parece estranho, mas pode ser a mesma lógica de num_bath.
- **is_waterfront** - Essa variável é qualitativa. Assim, poderia ser definida como object. Porém, notamos que é uma variável do tipo dummy, ou seja, já foi convertida para número e pode ser utilizada na modelagem
- **condition** - Essa variável poderia vir como object, já que traz uma característica qualitativa. Porém, o próprio dataset já a trata como numérica. Assim, vou admitir que as ditâncias entre os níveis qualidade do imóvel estão igualmente espaçados e tem a referência 1. Ou seja, é uma varíavel ratio e podemos usá-la da forma que está
- **size_basement** - O tipo inteiro é apropriado
- **year_built** - O tipo inteiro é apropriado
- **renovation_date** - O tipo inteiro é apropriado
- **zip** - Aqui poderia ser inteiro ou object, podemos considerar como uma variável qualitativa.
- **latitude** - O tipo float é apropriado
- **longitude** - O tipo float é apropriado
- **avg_size_neighbor_houses** - O tipo inteiro é apropriado
- **avg_size_neighbor_lot** - O tipo inteiro é apropriado


- Valores Negativos: O único valor negativo é de longitude e é aceitável.

- Zeros: Vemos que, além das variáveis is_waterfront, size_basement e renovation_date que, em tese, poderiam admitir tais valores, de acordo com a descrição dos dados, as variaveis num_bed e num_bath também aparecem com valores zero. Ou seja, isso significa que existem casas com 0 banheiros e 0 quartos?????

- Valores Únicos: De fato as variáveis citadas possuem os valores únicos descritos no início do problema. Ja a variável zip, como esperado, possui diversos possiveis valores.

- Valores Atípicos: Na análise de máximos e mínimos, não observamos nenhum valor atípicos.

- Duplicatas: Não foram encontradas nem duplicatas nas linhas nem nas colunas.

- Missing Values: Sem missing values no dataset

# Análise Exploratória de Dados (EDA)

Seria interessante se você:
- Estudasse as distribuições das variáveis (histogramas, boxplots, Quartis, Valor Máximo e Mínimo)
- Estudasse as relações entre as variáveis envolvidas (gráficos de dispersão, histogramas, boxplots, testes de correlação e associação, entre outros)
- Levantasse questionamentos sobre os problemas (levante hipóteses sobre os dados e tente respondê-las usando suas análises)

Detalhe: Antes de iniciar a análise exploratória, dividam os dados em treino e teste. 

De agora em diante lidaremos apenas com o nosso conjunto de treinamento.

**Dica: Revisitem Notebooks de aulas anteriores para utilizar os codes que desenvolvemos.**

Nossa variável resposta, price, é assimétrica. Poderemos propor uma transformação para ela.

Como temos uma calda alongada na variável size_house, vamos aplicar um log e observar o gráfico novamente;

Parece haver maior densidade de de casas maiores mais ao centro.

Pelo mesmo motivo da variável size_house, vamos aplicar o log

As casas mais caras parecem estar mais localizadas ao centro, coincidindo com a informação de tamanho.

Na verdade, as casas tem aumentado de tamanho ao longo dos anos.

As casas mais antigas se concentram mais no canto superior esquerdo. É um indício de uma área mais antiga da cidade, a partir de onde a cidade cresceu;

A média de preço é maior para casas waterfront. 

Esperávamos que as casas waterfront fossem mais afastadas, mas esse padrão não fica evidente. Pesquisando, descobrimos que casas waterfront são aquelas que possuem qualquer coisa de água na frente.  OU seja, não precisa ser de frente para praia, rio ou outra coisa necessariamente. É algo que ajuda na ornamentação da casa.

Vamos remover todas as features que não tem correlação estatisticamente significante.

A variável zip possui muitos níveis, poderíamos transformá-la em dummy, mas adicionaríamos muito preditores. Precisaríamos encontrar uma forma de agrupar esses dados. Porém, já seria um step de feature engineering, o qual ainda não estudamos. Por enquanto, vamos nos limitar a não utilizar essa variável.

# Modelagem e Avaliação dos Resultados

Nessa fase, espera-se que você crie o modelo com as variáveis que foram selecionadas e avalie o modelo checando os critérios que estudamos:
- Multicolinearidade
- Homocedasticidade dos resíduos
- Autocorrelação dos Resíduos
- Média 0 nos resíduos
- Estatística F
- P-valores
- MAE, MAPE, MSE, R2

## Multicolinearidade

Vamos eliminando as features para remover multicolinearidade.

Vamos remover começando com a de maior multicolinearidade.

## Modelo 1

Modelo 1 sem multicolinearidde

Parece haver um pouco de heterocedasticidade. Pode ser devido ao range da variável resposta;

## Autocorrelação nos Resíduos

Durbin-Watson está bem próximo de 2, então apresenta pouca autocorrelação.

A estatística F aponta que a regressão é válida, porém o p-valor da variável avg_size_neighbor_lot aponta que devemos removê-la.

OBS: Lembre-se que não necessariamente precisamos cumprir todas as regras que estudamos. Isso vai depender do seu objetivo. Se o foco é previsão, provavelmente você não precisaria se preocupar com esses pontos.

## Métricas de Erro

### Treinamento

### Teste