# Prevendo o preço das casas em Boston

### Utilizando os dados já disponíveis no scikit-learn vamos prever o posssíivel preço de uma casa na cidade de Boston/EUA conforme diferentes variáveis, como; número de quartos, localização, construção etc.

In [None]:
# Importando o NumPy, Pandas, SciPy, Matplotlib e Sklearn
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import sklearn 
%matplotlib inline

In [None]:
# Como o dataset já está disponível no sklearn vamos somente carregá-lo
from sklearn.datasets import load_boston
boston = load_boston()

In [None]:
# Visualizando o arquivo (número de linhas e colunas)
boston.data.shape

In [None]:
# Verificando o título de cada cabeçalho
print (boston.feature_names)

In [None]:
# Convertendo o dataset para o Pandas e exibindo somente as primeiras linhas
dados = pd.DataFrame(boston.data)
dados.head()

In [None]:
# Convertendo o título das colunas
dados.columns = boston.feature_names
dados.head()

In [None]:
# Visualizando os valores principais de cada linha, ou seja, o preço das casas
boston.target

In [None]:
# Acrescentando uma nova coluna para o DataFrame com o seu respectivo valor target
dados["PRICE"] = boston.target
dados.head()

## Utilizando o Scikit-Learn para prever o preço das casas

### X - variável independente (características das casas)
### Y - variável dependente (preço das casas)

In [None]:
# Importando o módulo de regressão linear 
from sklearn.linear_model import LinearRegression

In [None]:
# Na variável X não queremos utilizar o valor do preço das casas, então esta coluna será retirada
X = dados.drop("PRICE", axis = 1)

In [None]:
# Definindo a variável Y
Y = dados.PRICE

In [None]:
# Elaborando um gráfico de realação entre o preço x quantidade de quartos da casa
plt.scatter(dados.RM, Y)
plt.xlabel("Média de número de quartos por casa")
plt.ylabel("Preço da casa")
plt.title("Preço x Número de quartos")
plt.show()

In [None]:
# Criando o modelo de regressão linear 
regressao = LinearRegression()

In [None]:
# Treinando o modelo
regressao.fit(X, Y)

In [None]:
# Comparando preço original x preço previsto
plt.scatter(dados.PRICE, regressao.predict(X))
plt.xlabel("Preço Original")
plt.ylabel("Preço Previsto")
plt.title("Preço Original x Preço Previsto")
plt.show()

### No gráfico podemos observar no canto superior direito dados que estão incorretos, uma vez que a previsão não conseguiu apurar com eficácia. Sendo assim, teremos que dividir nossos datasets em treino e teste, para assim conseguir uma maior eficiência nos dados

In [None]:
# Para dividi-los de forma aleatória utilizamos o módulo abaixo
from sklearn.model_selection import train_test_split

In [None]:
# Agora dividindo X e Y em treino e teste
# Para não esquecer: X = o que vamos dividir / dados.PRICE = coluna que estão o dados que vamos dividir / test_size = % 
# (30% para treino e 70% para teste) / random_state = aleatório 
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, dados.PRICE, test_size = 0.30, random_state = 5)

In [None]:
# Visualizando o shape dos dados. OBS: o número de linhas deve ser igual treino (X,Y) e teste (X,Y)
print (X_treino.shape, X_teste.shape, Y_treino.shape, Y_teste.shape)

In [None]:
# Construindo o modelo de regresão linear
regressao = LinearRegression()

In [None]:
# Treinando o modelo
regressao.fit(X_treino, Y_treino)

In [None]:
# Comparando preço original x preço previsto dos valores treinos
plt.scatter(Y_treino, regressao.predict(X_treino))
plt.xlabel("Preço Original")
plt.ylabel("Preço Previsto")
plt.title("Preço Original x Preço Previsto")
plt.show()

In [None]:
# Coorelação preço original x preço previsto testes e treino
plt.scatter(regressao.predict(X_treino), regressao.predict(X_treino) - Y_treino, c = 'b', s = 40, alpha = 0.5)
plt.scatter(regressao.predict(X_teste), regressao.predict(X_teste) - Y_teste, c = 'g', s = 40, alpha = 0.5)
plt.hlines(y = 0, xmin = 0, xmax = 50)
plt.ylabel("Resíduo")
plt.title("Residual Plot - Treino(Azul), Teste(Verde)")
plt.show()