# Regressão Linear para prever valor de imóvel

## Dados e tarefa:

Vamos usar o [Boston Housing Dataset](https://archive.ics.uci.edu/ml/machine-learning-databases/housing/) para prever valores de imóveis em Boston. Esse é um conjunto de dados da UCI e podemos baixá-lo e adicioná-lo no nosso repositório da forma como quisermos, mas esse conjunto de dados está disponível também na biblioteca sklearn, conforme demostrado abaixo.

## Importação dos dados e análise exploratória

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

%matplotlib inline 

In [2]:
from sklearn.datasets import load_boston
boston = load_boston()

Attribute Information (in order)

- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per \$10,000
- PTRATIO pupil-teacher ratio by town
- B 1000$(Bk - 0.63)^2$ where Bk is the proportion of blacks by town
- LSTAT lower status of the population
- MEDV Median value of owner-occupied homes in \$1000's

In [3]:
boston_data = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_data['target'] = boston.target

In [4]:
boston_data.shape

(506, 14)

In [5]:
boston_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


## Regressão Linear usando somente a coluna "RM"

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando somente a coluna "RM" do conjunto de dados como característica (x). O valor do $R^2$ alcançado pelo modelo deve ser de $0.4585$.

In [6]:
x = boston_data.RM
y = boston_data.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)
model = LinearRegression().fit(x_train.values.reshape(-1, 1), y_train)

y_pred = model.predict(x_test.values.reshape(-1, 1))
round(r2_score(y_test, y_pred),4)

0.4585

## Regressão Linear usando somente a coluna "PTRATIO"

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando somente a coluna "PTRATIO" do conjunto de dados como característica (x).  O valor do $R^2$ alcançado pelo modelo deve ser de $0.2798$.

In [7]:
x = boston_data.PTRATIO
y = boston_data.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)
model = LinearRegression().fit(x_train.values.reshape(-1, 1), y_train)

y_pred = model.predict(x_test.values.reshape(-1, 1))
round(r2_score(y_test, y_pred),4)

0.2798

## Regressão Linear usando somente a coluna "LSTAT"

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando somente a coluna "LSTAT" do conjunto de dados como característica (x).  O valor do $R^2$ alcançado pelo modelo deve ser de $0.4887$.

In [8]:
x = boston_data.LSTAT
y = boston_data.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)
model = LinearRegression().fit(x_train.values.reshape(-1, 1), y_train)

y_pred = model.predict(x_test.values.reshape(-1, 1))
round(r2_score(y_test, y_pred),4)

0.4887

## Regressão Linear usando somente as colunas "RM", "PTRATIO", "LSTAT"

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando como característica (x) as três colunas conjunto de dados como usadas anteriormente "RM", "PTRATIO" e "LSTAT".  O valor do $R^2$ alcançado pelo modelo deve ser de $0.6509$.

In [9]:
x = boston_data[['RM', 'PTRATIO', 'LSTAT']]
y = boston_data.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)
model = LinearRegression().fit(x_train, y_train)

y_pred = model.predict(x_test)
round(r2_score(y_test, y_pred),4)

0.6509

## Regressão Linear usando todas as colunas disponíveis no conjunto

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando como característica (x) todas colunas conjunto de dados. Não esqueça de excluir a variavél resposta do conjunto de características (x).  O valor do $R^2$ alcançado pelo modelo deve ser de $0.7112$.

In [10]:
x = boston_data.drop(columns = 'target')
y = boston_data.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)
model = LinearRegression().fit(x_train, y_train)

y_pred = model.predict(x_test)
round(r2_score(y_test, y_pred),4)

0.7112

## Para finalizar: intepretação dos modelos 

* Qual a ordem dos modelos construídos do que obteve maior qualidade para o que obteve menor qualidade?

Resposta: todos os valores de R2 são positivos, então todos os modelos criados são melhores do que o modelo "naive" que preve o valor médio de preço; a ordem dos modelos, então, ficaria: com todas as colunas > com RM, PTRATIO e LSTAT > com LSTAT > com RM > com PTRATIO
 
* E qual passo precisaria ser incluído para que conseguíssemos interpretar os coeficientes obtidos corretamente?

Resposta: para que os coeficientes possam ser interpretados corretamente, precisamos fazer a padronização dos dados, como demonstrado na célula abaixo:

In [11]:
# COEFICIENTES SEM PADRONIZAÇÃO
(pd.DataFrame({'feature': boston_data.columns[:-1],
               'coef': model.coef_.round(4)})
  .sort_values(by='coef', ascending = False)
  .reset_index(drop = True))

Unnamed: 0,feature,coef
0,RM,4.0572
1,CHAS,3.1198
2,RAD,0.2427
3,INDUS,0.0495
4,ZN,0.0358
5,B,0.0118
6,TAX,-0.0087
7,AGE,-0.0108
8,CRIM,-0.1335
9,LSTAT,-0.5471


In [12]:
from sklearn.preprocessing import StandardScaler

x = boston_data.drop(columns=['target'])
y = boston_data.target.values

# Dividindo dados para treino e dados para teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)

# Agora, vamos usar os dados de treinamento para treinar o padronizador e depois aplicar 
# esse padronizador tanto no conjunto de características de treino quanto no conjunto de teste.
scaler = StandardScaler().fit(x_train)
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

# Treinando o modelo
model = LinearRegression(normalize = True).fit(x_train_scaled, y_train)

# Fazendo as previsões
y_pred = model.predict(x_test_scaled)

# Avaliando o modelo
r2_score(y_test, y_pred)

0.7112260057484934

In [13]:
# COEFICIENTES DEPOIS DA PADRONIZAÇÃO 
# COEFICIENTES "CORRETOS" para interpretar importância de características
(pd.DataFrame({'feature': boston_data.columns[:-1],
               'coef': model.coef_.round(4)})
  .sort_values(by='coef', ascending = False)
  .reset_index(drop = True))

Unnamed: 0,feature,coef
0,RM,2.9139
1,RAD,2.0942
2,B,1.0238
3,CHAS,0.8139
4,ZN,0.8084
5,INDUS,0.3431
6,AGE,-0.2989
7,CRIM,-1.1083
8,TAX,-1.4471
9,NOX,-1.798
