# Previsão dos preços da habitação em Boston

Neste estudo, daremos uma olhada no conjunto de dados Boston Housing Prices no Kaggle. Esse conjunto de dados é proveniente do UCI Machine Learning Repository e contém 506 linhas e 14 colunas. Cada linha representa uma casa localizada em Boston, Massachusetts em 1978 e as 14 colunas representam pontos de dados coletados em cada casa. O objetivo deste estudo é usar os dados coletados sobre cada residência para prever o valor médio da residência. Esta é uma tarefa de regressão supervisionada, que significa:

- Supervisionado - A variável de destino está incluída no conjunto de dados.
- Regressão - A variável de destino é contínua.

Visão geral das features de conjunto de dados. Esta lista inclui uma descrição de todas as colunas no conjunto de dados.

- CRIM - taxa de criminalidade per capita por cidade
- ZN - proporção de terrenos residenciais divididos por lotes acima de 25.000 pés quadrados
- INDUS - proporção de acres comerciais em áreas não comerciais por cidade
- CHAS - variável fictícia Charles River (= 1 se o trecho limita o rio; 0 caso contrário)
- NOX - concentração de óxidos nítricos (partes por 10 milhões)
- RM - número médio de quartos por habitação
- AGE - proporção de unidades ocupadas pelos proprietários construídas antes de 1940
- DIS - distâncias ponderadas a cinco centros de emprego em Boston
- RAD - índice de acessibilidade às rodovias radiais
- TAX - taxa de imposto sobre a propriedade de valor total por USD 10,000 
- PTRATIO - Relação aluno-professor por cidade
- B - 1000 (Bk - 0,63) ^ 2 onde Bk é a proporção de negros por cidade
- LSTAT - porcentagem de Status de classe inferior da população
- MEDV (TARGET) - Valor médio das casas ocupadas pelos proprietários nos anos em USD 1,000

---------

# Importando as bibliotecas

In [None]:
import numpy as np 
import pandas as pd 
import os
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

In [None]:
# lendo e verificando os dados

column_headers = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', \
                  'PTRATIO', 'B', 'LSTAT', 'MEDV']
%time boston = pd.read_csv("http://www.dropbox.com/s/hfyfc4mj7svavsb/housingdata.csv?dl=1",  names = column_headers)
boston.head()

Este conjunto de dados possui 506 linhas (observações) e 14 colunas (features), incluindo nossa variável de destino MEDV. Uma coisa a ser observada logo de cara é que a coluna CHAS é uma variável binária e a variável RAD também parece ser uma variável categórica.


## Primeira Regressão: BENCHMARK

In [None]:
function = 'MEDV~CRIM+ZN+INDUS+CHAS+NOX+RM+AGE+DIS+RAD+TAX+PTRATIO+B+LSTAT'
model = smf.ols(formula=function, data=boston).fit() 
print(model.summary())

## Métricas

In [None]:
# MSE: Mean Squared Error
from sklearn.metrics import mean_squared_error
mean_squared_error(boston.MEDV, model.predict(boston))

In [None]:
# RMSE: Root Mean Squared Error
rmse = np.sqrt(mean_squared_error(boston.MEDV, model.predict(boston)))
rmse

In [None]:
# MAPE: Mean Absolute Percentage Error
mape = 100*np.mean(np.abs((boston.MEDV - model.predict(boston))/boston.MEDV))
print('mape=',mape,'%')

--------

# Análise Exploratória de Dados (EDA)

EDA é o processo de entender o que os dados estão nos dizendo, calculando estatísticas e criando gráficos e figuras. Essas estatísticas e gráficos podem ajudar a encontrar anomalias que podem impactar nossa análise ou encontrar relacionamentos e tendências entre os vários recursos de nossos dados. A EDA começa em um nível alto, mas reduz seu escopo à medida que encontramos padrões e relacionamentos interessantes em nossos dados.

## Estatísticas de distribuição e resumo da coluna MEDV (Destino)

Este notebook está focado na criação de um modelo que use os 13 features em nosso conjunto de dados para prever a coluna MEDV, que é o valor médio da residência de cada residência no conjunto de dados (em milhares).

In [None]:
boston['MEDV'].describe()

In [None]:
sns.distplot(boston['MEDV'])

Podemos ver que a distribuição da coluna de destino está ligeiramente inclinada para a direita, com média de 22,53 e um desvio padrão de 9,20. Parece haver alguns valores discrepantes na extremidade superior da distribuição de preços MEDV

## Valores Faltantes

Em seguida, precisamos verificar se o conjunto de dados tem algum valor ausente.

In [None]:
boston.isnull().sum().sum()

In [None]:
#!pip3 install missingno --user

In [None]:
import missingno as msno 
msno.matrix(boston)

Este é um conjunto de dados limpo, sem valores ausentes. Na maioria dos conjuntos de dados, esse não é o caso e é muito importante verificar se há valores ausentes, pois eles precisarão ser delt através da eliminação de colunas ou valores imputados.

## Tipos de coluna

É importante entender os tipos de coluna porque um modelo de aprendizado de máquina não pode usar variáveis categóricas. As variáveis categóricas precisam ser codificadas como números antes de serem usadas pelo modelo.


In [None]:
boston.info()

Todos os tipos de coluna são int64 ou float64, o que indica que são todas colunas numéricas. Sabemos que o recurso CHAS é binário, portanto, ele pode aceitar apenas valores de 0 e 1.

## Anomalias e Outliers

Uma maneira de verificar anomalias e discrepâncias nos dados é examinar as distribuições das features em nosso conjunto de dados, bem como as estatísticas resumidas de cada coluna. Para fazer isso, vou traçar alguns histogramas e usar o método .describe ().

In [None]:
f, ax = plt.subplots(nrows = 7, ncols = 2, figsize=(16,16))
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT']
row = 0
col = 0
for i, column in enumerate(columns):
    g = sns.distplot(boston[column], ax=ax[row][col],kde_kws={'bw':1.5})
    col += 1
    if col == 2:
        col = 0
        row += 1

plt.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None, hspace=.5)

In [None]:
boston.iloc[:,:-1].describe()

Olhando para esses histogramas e estatísticas resumidas, notei algumas coisas interessantes:


- A coluna TAX (taxa de imposto sobre a propriedade de valor total por USD 10,000) possui a maioria de seus valores na faixa de 200 a 400, mas há uma parte das casas com um valor de TAX acima de 600


- A coluna RAD (Índice de acessibilidade às rodovias radiais) tem a maioria de seus valores entre 0 e 10, mas há uma parte dos valores acima de 20.


- Muitas das colunas tem assimetria para a esquerda ou direita. Por exemplo, a coluna ZN (proporção de terrenos residenciais divididos por lotes acima de 25.000 pés quadrados) está fortemente inclinada para a direita. Gostaria de entender essa coluna com mais detalhes e seu efeito na coluna MEDV. O código abaixo irá explorar cada observação.

### Analisando a variável TAX

Taxa de imposto sobre a propriedade de valor total por USD 10,000

In [None]:
plt.hist(boston.TAX, bins=30);

### Analisando a variável RAD

Índice de acessibilidade às rodovias radiais

In [None]:
boston.RAD.value_counts().sort_values().plot(kind='barh', figsize=(10,6))

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x='RAD', y='MEDV', data=boston,)

### Analisando a variável ZN

proporção de terrenos residenciais divididos por lotes acima de 25.000 pés quadrados

In [None]:
boston.ZN.value_counts().sort_values().plot(kind='barh', figsize=(10,6))

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x='ZN', y='MEDV', data=boston)

372 observações são 0 para a coluna ZN, o que significa que esses lotes não excedem 25000 pés quadrados. As demais observações são distribuídas dos números 12.5-100, indicando a porcentagem de terras divididas para esse lote. Vamos tentar visualizar o efeito desses números na estatística MEDV.

Para visualizá-lo, vou cortar a categoria ZN em 4 posições (0-24, 25-50, 51-75, 76, -100) e mapear o valor médio de MEDV para cada agrupamento.

In [None]:
pd.cut(boston['ZN'], bins = 4).value_counts().sort_values().plot(kind='barh', figsize=(10,6))

In [None]:
grouped_zn = boston.groupby(pd.cut(boston['ZN'], bins = 4)).mean()['MEDV']
grouped_zn

In [None]:
plt.bar(grouped_zn.index.astype(str), grouped_zn)

Existe uma clara tendência positiva entre o zoneamento da terra e o valor residencial da MEDV. Intuitivamente, esse gráfico faz sentido, porque quanto menor o tamanho da terra, menor será o valor da casa. I.E. casas com mais terra tendem a valer mais.

## Correlações

Uma maneira de tentar entender os dados é procurar correlações entre os recursos e o destino. Podemos calcular o coeficiente de correlação de Pearson entre todas as variáveis e o alvo usando o método .corr.

In [None]:
boston.corr()['MEDV'].sort_values(ascending=False)

Vamos dar uma olhada em algumas das correlações mais significativas.

- A correlação mais negativa é o LSTAT (porcentagem de Status de classe inferior da população); portanto, o que isso significa é que, enquanto mais a porcentagem  do status inferior da população aumenta para uma casa, o valor MEDV da casa tende a diminuir.

- A correlação mais positiva (exceto MEDV) é RM (número médio de quartos por casa). Isso significa que, à medida que o número médio de quartos aumenta, o valor MEDV da casa tende a aumentar.

### Matriz de correlação

Um ótimo acompanhamento para o parplot é a matriz de correlação. A matriz de correlação exibe as correlações para cada par de variáveis no conjunto de dados e pode facilitar a localização de recursos correlatos.

In [None]:
# plot the heatmap
corr = boston.corr()
plt.figure(figsize = (20,8))
sns.heatmap(corr, annot=True,annot_kws={"size": 15},
        linewidth=1,
        xticklabels=corr.columns,
        yticklabels=corr.columns)

Podemos ver que parece haver uma forte relação entre os seguintes recursos:

- TAX e RAD (TAX: taxa de imposto sobre a propriedade de valor total por USD 10,000 e RAD: índice de acessibilidade às rodovias radiais)


- DIS e AGE (DIS: distâncias ponderadas a cinco centros de emprego em Boston e IDADE e AGE: proporção de unidades ocupadas pelos proprietários construídas antes de 1940)


- DIS e NOX (DIS: distâncias ponderadas a cinco centros de emprego em Boston e NOX: concentração de óxidos nítricos (partes por 10 milhões))


- DIS e INDUS (DIS: distâncias ponderadas a cinco centros de emprego em Boston e INDUS: proporção de acres comerciais em áreas não comerciais por cidade)


- TAX e INDUS (TAX: taxa de imposto sobre a propriedade de valor total por USD 10,000 e INDUS: proporção de acres comerciais em áreas não comerciais por cidade)


- NOX e INDUS (NOX: concentração de óxidos nítricos (partes por 10 milhões) e TAX: taxa de imposto sobre a propriedade de valor total por USD 10,000)

## Pairplot

O parplot é uma ótima maneira de ver relacionamentos entre pares de variáveis. Podemos identificar variáveis colineares, bem como outras relações interessantes entre os preditores e a resposta.

In [None]:
sns.pairplot(data=boston)

## Multicolinearidade

Nem todos os problemas de correlação podem ser detectados observando a matriz de pares ou parcelas de correlação. É possível que exista correlação entre três ou mais variáveis, denominadas multicolinearidade. Uma maneira de identificar a colinearidade e a multicolinearidade nos dados é calculando o fator de inflação de variância ou [Variance Inflator Factor](https://en.wikipedia.org/wiki/Variance_inflation_factor) para cada variável. um VIF 10 significa que a variável pode ser problemática e impactar os resultados de um modelo de regressão.

Na estatística, o fator de inflação de variação (VIF) é o quociente da variação em um modelo com vários termos pela variação de um modelo com apenas um termo. Quantifica a severidade da multicolinearidade em uma análise de regressão de mínimos quadrados ordinária. Ele fornece um índice que mede o quanto a variação (o quadrado do desvio padrão da estimativa) de um coeficiente de regressão estimado é aumentada devido à colinearidade.

In [None]:
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor 
from patsy import dmatrices

In [None]:
#gather features
features = "+".join(boston.columns[:-1])

# get y and X dataframes based on this regression:
y, X = dmatrices('MEDV ~' + features, boston, return_type='dataframe')

In [None]:
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns
vif.sort_values(by='VIF Factor', ascending=False).iloc[1:,:]

Podemos ver que os fatores VIF para os recursos TAX e RAD são os mais altos dentre os recursos. Além disso, esses dois recursos estão altamente correlacionados entre si, conforme observado acima. Vamos tentar adicionar esses dois recursos juntos e ver se o fator VIF do novo recurso é menor que os dois anteriores.

In [None]:
tax_rad = boston.copy()
tax_rad['taxrad'] = tax_rad['TAX'] + tax_rad['RAD']
tax_rad = tax_rad.drop(['TAX', 'RAD'], axis=1)

In [None]:
#gather features
features = "+".join(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'taxrad',
       'PTRATIO', 'B', 'LSTAT'])

# get y and X dataframes based on this regression:
y, X = dmatrices('MEDV ~' + features, tax_rad, return_type='dataframe')

In [None]:
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns
vif.sort_values(by='VIF Factor', ascending=False).iloc[1:,:]

Aqui podemos ver que o fator VIF do novo recurso "taxrad" possui um fator VIF significativamente menor do que os recursos TAX e RAD. Vamos manter isso em mente no futuro.

In [None]:
tax_rad.head()

## Regressão Linear: Avaliando os resultados

In [None]:
function = 'MEDV~CRIM+ZN+INDUS+CHAS+NOX+RM+AGE+DIS+taxrad+PTRATIO+B+LSTAT'
model = smf.ols(formula=function, data=tax_rad).fit() 
print(model.summary())

In [None]:
# MSE: Mean Squared Error
from sklearn.metrics import mean_squared_error
mean_squared_error(tax_rad.MEDV, model.predict(tax_rad))

In [None]:
# RMSE: Root Mean Squared Error
rmse = np.sqrt(mean_squared_error(tax_rad.MEDV, model.predict(tax_rad)))
rmse

In [None]:
y = tax_rad.MEDV
y_pred = model.predict(tax_rad)

In [None]:
# MAPE: Mean Absolute Percentage Error
mape = 100*np.mean(np.abs((y - y_pred)/y))
print('mape=',mape,'%')

-----------

# Feature Engineering

O Feature Engineering é o processo de construção de novos features a partir de features já existentes no conjunto de dados. Existem muitas maneiras de executar a feature engineering e uma maneira é através da construção de termos de interação entre os recursos. Isso inclui recursos atuais elevados a uma potência, recursos atuais multiplicados um pelo outro, etc. Eles são chamados de termos de interação porque capturam interações dentro de variáveis.

## [sklearn.preprocessing.PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)

Gera features polinomiais e de interação.

Gera uma nova matriz de features que consiste em todas as combinações polinomiais dos recursos com grau menor ou igual ao grau especificado. Por exemplo, se uma amostra de entrada é bidimensional e da forma $[a, b]$, os recursos polinomiais de grau 2 são $[1, a, b, a ^ 2, ab, b ^ 2]$.


In [None]:
#Dataframe to capture polynomial features
poly_features = boston.copy()

#Capture target variable
poly_target = poly_features['MEDV']
poly_features = poly_features.drop(columns=['MEDV'])

#Import polynomial feature module
from sklearn.preprocessing import PolynomialFeatures

#Create polynomial object with degree of 2
poly_transformer = PolynomialFeatures(degree = 2)

#Train the polynomial features
poly_transformer.fit(poly_features)

#Transform the features
poly_features = poly_transformer.transform(poly_features)

print('Polynomial Features Shape: ', poly_features.shape)

In [None]:
poly_features = pd.DataFrame(poly_features, columns = poly_transformer.get_feature_names(boston.columns[:-1]))

#Add target back in to poly_features
poly_features['MEDV'] = poly_target

#Find correlations within target
poly_corrs = poly_features.corr()['MEDV'].sort_values()

print(poly_corrs.head(10))
print(poly_corrs.tail(10))

## Regressão Linear: Melhorando as métricas de predição

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [None]:
X = poly_features.drop(['MEDV'], axis=1)
y = poly_features.MEDV

lm = LinearRegression() # instanciar o modelo
lm.fit(X, y)  # ajuste do modelo
y_pred = lm.predict(X)

In [None]:
# R_Squared
from sklearn.metrics import r2_score
r2_score(y, y_pred)

In [None]:
# MSE: Mean Squared Error
from sklearn.metrics import mean_squared_error
mean_squared_error(y, y_pred)

In [None]:
# RMSE: Root Mean Squared Error
rmse = np.sqrt(mean_squared_error(y, y_pred))
rmse

In [None]:
# MAPE: Mean Absolute Percentage Error
mape = 100*np.mean(np.abs((y - y_pred)/y_pred))
print('mape=',mape,'%')

-----------

## AVANÇADO: Regularização

### Regressão de Ridge

A regressão de Ridge é uma forma de regressão linear que introduziu regularização na forma da norma L2. Essa regularização visa reduzir os coeficientes do modelo de regressão linear, reduzindo, portanto, a chance de sobreajuste. Existem outros tipos de métodos de regressão de regularização, como laço e rede elástica. O Lasso é mais adequado para conjuntos de dados que contêm mais recursos, pois visa reduzir coeficientes insignificantes, reduzindo assim a dimensionalidade do conjunto de dados.

In [None]:
#importando bibliotecas
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

In [None]:
#função para ajuste, treino e teste do modelo de regressão linear
def RidgeLR(data):
    #dados de entrada
    X = data.drop(columns='MEDV')
    
    #dados de saida
    y = data['MEDV']
    
    #splitando os dados
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)
    
    #alphas = serie de parametros de distancia de Ridge
    alphas = {'alpha':[.001, .01, .1, 10, 100]}
    
    #instanciando o modelo
    ridge = Ridge(random_state = 101)
    
    #criando o grid search
    clf = GridSearchCV(estimator=ridge, param_grid=alphas, cv=5, iid=True)
    
    #ajustando o modelo aos dados de treino
    clf.fit(X_train, y_train)
    
    #Make predictions using lm.predict
    predictions = clf.predict(X_test)
    
    #imprimindo os resultados
    print('r^2: ', r2_score(y_test, predictions))
    print("MSE: ", mean_squared_error(y_test, predictions))
    
    return r2_score(y_test, predictions), mean_squared_error(y_test, predictions)

In [None]:
bridger2, bridgemse = RidgeLR(boston)

In [None]:
polyridger2, polyridgemse = RidgeLR(poly_features)

In [None]:
# comparando os resultados regularizados com os resultados anteriores
RidgeLR = pd.DataFrame(data=[[bridger2, polyridger2], [bridgemse, polyridgemse]], columns=['ridge', 'poly features'], index=['r^2', 'MSE'])
RidgeLR