Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 12 numeric/categorical predictive. Median Value (attribute 13) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's

    :Missing Attribute Values: None

    :Creator: Harrison, D. and Rubinfeld, D.L.

This is a copy of UCI ML housing dataset.
https://archive.ics.uci.edu/ml/machine-learning-databases/housing/


This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.

The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic
prices and the demand for clean air', J. Environ. Economics & Management,
vol.5, 81-102, 1978.   Used in Belsley, Kuh & Welsch, 'Regression diagnostics
...', Wiley, 1980.   N.B. Various transformations are used in the table on
pages 244-261 of the latter.

The Boston house-price data has been used in many machine learning papers that address regression
problems.   
     
.. topic:: References

   - Belsley, Kuh & Welsch, 'Regression diagnostics: Identifying Influential Data and Sources of Collinearity', Wiley, 1980. 244-261.
   - Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.



In [None]:
# Importando os módulos necessários
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn
import seaborn as sns
%matplotlib inline

##### Carregando o dataset

In [None]:
df  = pd.read_csv('boston_house_prices.csv')
df = df.drop('B', axis=1)
df.rename(columns={'MEDV': 'PRICE'}, inplace=True)
df.head(5)

##### Mostrando gráfico de correlação entre número de quartos por casa e preço da casa

In [None]:
plt.scatter(df.RM, df.PRICE)
plt.xlabel("Média do Número de Quartos por Casa")
plt.ylabel("Preço da Casa")
plt.title("Relação entre Número de Quartos e Preço")
plt.show()

<style>
    .red {color: red;}
    .blue {color: blue;}
</style>
### Treinando nosso modelo de regressão

##### PRICE = <span class='red'>a</span> * CRIM + <span class='red'>b</span> * ZN  + <span class='red'>c</span> * INDUS + <span class='red'>d</span> * CHAS + <span class='red'>e</span> * NOX + <span class='red'>f</span> * RM + <span class='red'>g</span> * AGE + <span class='red'>h</span> * DIS + <span class='red'>i</span> * RAD + <span class='red'>j</span> * TAX + <span class='red'>k</span> * PTRATIO + <span class='red'>j</span> * LSTAT  + <span class='red'>k</span>

In [None]:
# Importando o módulo de regressão linear 
from sklearn.linear_model import LinearRegression

# Criando o objeto de regressão linear
regr = LinearRegression()

# Treinando o modelo
X = df.drop('PRICE', axis = 1)
Y = df.PRICE
regr.fit(X, Y)

print("Número de Coeficientes Ajustados: ", len(regr.coef_))
regr.coef_

#### Analisando parâmetros e predições do modelo treinado

In [None]:
# Coeficientes
regr.predict(X)

# Erro Absoluto Médio:
##### MAE =  ∑(|Preço Original - Preço Predito|)

In [None]:
# Vamos calcular o MAE (Mean Squared Error)
mse = np.mean(np.abs(df.PRICE - regr.predict(X)))

print(f"Erro médio absoluto: {mse:.2f}")

##### Analisando a correlação entre os preços preditos e os preços reais

In [None]:
# Comparando preços originais x preços previstos
fig, ax = plt.subplots(1, 2, figsize=(15, 5))

ax[0].scatter(Y,Y)
ax[0].set_xlabel("Preço Original")
ax[0].set_ylabel("Preço Previsto")
ax[0].set_title("Preço Original x Preço Previsto (IDEAL)")

ax[1].scatter(Y, regr.predict(X))
ax[1].set_xlabel("Preço Original")
ax[1].set_ylabel("Preço Previsto")
ax[1].set_title("Preço Original x Preço Previsto")



plt.show()

### E se treinarmos com apenas uma feature? Vamos testar para número de quartos

In [None]:
# Aplicando regressão linear para apenas uma variável e calculando o MSE
regr = LinearRegression()
regr.fit(X[['RM']], df.PRICE)
mse = np.mean(np.abs((df.PRICE - regr.predict(X[['RM']])) ))
print(f"Erro médio absoluto: {mse:.2f}")

### Vamos analisar as correlações de cada variável com o preço das casas

In [None]:
plt.figure(figsize = (12,6))
sns.heatmap(df.corr()['PRICE'].to_frame(), annot=True, cmap = 'BrBG')
plt.title("Correlação entre as variáveis e o preço da casa ")
plt.show()

#### Vamos tentar usar apenas a variável com maior correlação para ver o que acontece

In [None]:
# Aplicando regressão linear para apenas uma variável e calculando o MSE
regr = LinearRegression()
regr.fit(X[['LSTAT']], df.PRICE)
mse = np.mean(np.abs((df.PRICE - regr.predict(X[['LSTAT']])) ))
print(f"Erro médio absoluto: {mse:.2f}")

### Vamos tentar retirar as duas variáveis que quase não tem correlação com o preço das casas

In [None]:
# Criando o objeto de regressão linear
regr = LinearRegression()

# Treinando o modelo
X = df.drop(['PRICE', 'CHAS', 'DIS'], axis = 1)
Y = df.PRICE
regr.fit(X, Y)
# Coeficientes
print("Número de Coeficientes: ", len(regr.coef_))

# Vamos calcular o MAE (Mean Squared Error)
mse = np.mean(np.abs(df.PRICE - regr.predict(X)))

print(f"Erro médio absoluto: {mse:.2f}")


<h1 style="color: red;"> Desafio! </h1>
<h3> Existe um erro na estratégia de validação do modelo! Qual??

### Nós obtivemos nossas métricas com os mesmos dados utilizados no treinamento, isso torna nossas métricas de validação enviesadas e fracas

### Para resolver isso, iremos separar 1/4 do nosso dataset para validação e iremos treiná-lo com apenas 3/4 dos dados

In [None]:
from sklearn.model_selection import train_test_split

# Dividindo X e Y em dados de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = 0.25, random_state = 5)


print(f"Quantidade de ítems de treinamento: {X_treino.shape[0]}")
print(f"Quantidade de ítems de teste: {X_teste.shape[0]}")



In [None]:
# Construindo um modelo de regressão
regr = LinearRegression()

# Treinando o modelo
regr.fit(X_treino, Y_treino)

In [None]:
# Vamos calcular o MAE (Mean Squared Error)
mse = np.mean(np.abs(Y_teste - regr.predict(X_teste)))

print(f"Erro médio absoluto: {mse:.2f}")

In [None]:
# Definindo os dados de treino e teste
pred_treino = regr.predict(X_treino)
pred_teste = regr.predict(X_teste)
# Comparando preços originais x preços previstos
plt.scatter(regr.predict(X_treino), regr.predict(X_treino) - Y_treino, c = 'b', s = 40, alpha = 0.5)
plt.scatter(regr.predict(X_teste), regr.predict(X_teste) - Y_teste, c = 'g', s = 40, alpha = 0.5)
plt.hlines(y = 0, xmin = 0, xmax = 50)
plt.ylabel("Resíduo")
plt.title("Residual Plot - Treino(Azul), Teste(Verde)")
plt.show()