# Boston Housing

Criaremos modelos preditivos para o setor imobiliário utilizando [_The Boston Housing Dataset_](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html).

Para a conclusão do trabalho, é importante que ele contenha:
1. **Descrição dos dados**;
2. **Divisão dos dados** em treino e teste;
3. **Visualização dos dados**;
4. **Preparação dos dados**;
5. **Comparação de pelo menos 3 modelos de machine learning**, com ajustes de hiperparâmetros e justificativa da escolha do melhor;
6. **Justificativa da métrica escolhida**;
7. **Discussão da técnica de validação** e explicação de como o modelo evita *snooping bias/data leakage*;
8. **Teste final** para obter o erro aproximado.


## Configuração inicial

Nesta etapa, vamos configurar o ambiente de trabalho importando as bibliotecas necessárias para manipulação de dados:

- **Numpy**: realizar cálculos e trabalhar com arrays;
- **matplotlib**: criar gráficos e visualizações.

In [11]:
import numpy as np

%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

Além disso, é importante fixarmos a _seed_ para que os resultados sejam reprodutíveis.

In [12]:
seed = 42
np.random.seed(seed)

## Obtenção e descrição do conjunto de dados

Nesta seção, vamos carregar o conjunto de dados **Boston Housing**. Este conjunto de dados contém informações coletadas pelo _U.S Census Service_ sobre moradia na área de Boston, Massachusetts.

Note que a [URL](http://lib.stat.cmu.edu/datasets/boston) contém uma breve descrição do conjunto de dados. Além disso, os dados não estão bem formatados: as informações de cada casa estão distribuídas em 2 linhas. Precisamos levar isso em consideração ao importar os dados, reorganizando as linhas de modo que cada uma contenha todas as informações relevantes para cada casa.

Abaixo, fazemos isso ao carregar os dados, ajustando a formatação.

In [14]:
import pandas as pd

data_url = "http://lib.stat.cmu.edu/datasets/boston"

raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
housing = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])