# Regressão Linear Múltipla

In [None]:
from IPython.display import Image
print("Boston Houses")
Image(url='https://cdn.getyourguide.com/img/location/533597d7653a9.jpeg/88.jpg', width=800) 

## Carregando o Dataset Boston Houses

1. CRIM: per capita crime rate by town 
2. ZN: proportion of residential land zoned for lots over 25,000 sq.ft. 
3. INDUS: proportion of non-residential acres per town 
4. CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) 
5. NOX: nitric oxides concentration (parts per 10 million) 
6. RM: average number of rooms per dwelling 
7. AGE: proportion of owner-occupied units built prior to 1940 
8. DIS: weighted distances to five Boston employment centres 
9. RAD: index of accessibility to radial highways 
10. TAX: full-value property-tax rate per 10,000 
11. PTRATIO: pupil-teacher ratio by town 
12. B: 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town 
13. LSTAT: % lower status of the population 
14. TARGET: Median value of owner-occupied homes in $1000's == y - Variavél de Saída - Classe

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.datasets import load_boston
from sklearn import linear_model
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
%matplotlib inline 

In [None]:
# Gerando o dataset
boston = load_boston() 
boston

In [None]:
print(boston['DESCR'])

In [None]:
boston.feature_names

In [None]:
dataset = pd.DataFrame(boston.data, columns = boston.feature_names)
dataset['target'] = boston.target

In [None]:
dataset.head()

In [None]:
len(dataset)

## Análise Descritiva

In [None]:
dataset.describe()

In [None]:
dataset.describe().T

In [None]:
import seaborn as sns

sns.histplot(dataset.NOX)

In [None]:
sns.histplot(dataset.CRIM)

In [None]:
dataset.describe()['target'] # variável preditora ou Classe ou Label

In [None]:
dataset.info()

## Gerando número de observações 

In [None]:
observations = len(dataset)
observations

In [None]:
dataset.head()

## Coletando x e y

In [None]:
dataset.iloc[:,:-1][:3]

In [None]:
X = dataset.iloc[:,:-1]
y = dataset['target'].values

In [None]:
X.head()

In [None]:
len(X.columns)

In [None]:
y[:5]

### Matriz de Correlação

In [None]:
# Gerando a matriz
X = dataset.iloc[:,:-1]
matriz_corr = X.corr()
print (matriz_corr)

## Visualizando a matriz de correlação (somente os atributos)

In [None]:
# Criando um Correlation Plot
def visualize_correlation_matrix(data, hurdle = 0.0):
    fig = plt.figure(figsize=(12,9))
    ax = fig.add_subplot(111)
    R = np.corrcoef(data, rowvar = 0)
    R[np.where(np.abs(R) < hurdle)] = 0.0
    heatmap = plt.pcolor(R, cmap = 'RdBu' , alpha = 0.8) #mpl.cm.coolwarm
    heatmap.axes.set_frame_on(False)
    heatmap.axes.set_yticks(np.arange(R.shape[0]) + 0.5, minor = False)
    heatmap.axes.set_xticks(np.arange(R.shape[1]) + 0.5, minor = False)
    heatmap.axes.set_xticklabels(dataset.columns[:-1], minor = False)
    plt.xticks(rotation=90)
    heatmap.axes.set_yticklabels(dataset.columns[:-1], minor = False)
    plt.tick_params(axis = 'both', which = 'both', bottom = 'off', top = 'off', left = 'off', right = 'off')   
    plt.colorbar()
    plt.show()

In [None]:
# Visualizando o Plot
visualize_correlation_matrix(X, hurdle = 0.5)

In [None]:
# matriz de Correlação com a variável preditora
mt = pd.DataFrame(dataset.values, columns=dataset.columns)
mt_corr = mt.corr()
print ((mt_corr['target']).sort_values(ascending=False))

## Feature Scaling

In [None]:
X.head()

Podemos aplicar Feature Scaling através de Padronização ou Normalização. <br />Normalização aplica escala aos dados com intervalos entre 0 e 1. <br />A Padronização divide a média pelo desvio padrão para obter uma unidade de variância. <br />Vamos usar a Padronização (StandardScaler) pois nesse caso esta técnica ajusta os coeficientes e torna a superfície de erros mais "tratável".

### Aplicando Padronização

In [None]:
standardization = StandardScaler()
Xst = standardization.fit_transform(X)
original_means = standardization.mean_
originanal_stds = standardization.scale_
print('Dataset Original')
X.head()

In [None]:
print('Dataset Padronizado')
dstd = pd.DataFrame(Xst, columns=boston.feature_names)
dstd.head()

In [None]:
X.max()

In [None]:
dstd.max()

In [None]:
X.min()

In [None]:
dstd.min()

In [None]:
y[:5]

### Desfazendo a Padronização

In [None]:
dfXst = pd.DataFrame(Xst, columns=boston.feature_names)
dfXst.head()

In [None]:
Xinv = standardization.inverse_transform(Xst)
dfinverser = pd.DataFrame(Xinv, columns=boston.feature_names)
dfinverser.head()

In [None]:
dataset.head()

# Criar o modelo

In [None]:
X = dataset.copy()
X.head()

In [None]:
atributos = list(dataset.columns[:-1])
atributos

Importância dos Atributos <br>
target     1.000000 <br>
LSTAT      0.737663  <br>
RM         0.695360  <br>
PTRATIO    0.507787  <br>
INDUS      0.483725  <br>
TAX        0.468536  <br>
NOX        0.427321  <br>
CRIM       0.388305  <br>
RAD        0.381626  <br>
AGE        0.376955  <br>
ZN         0.360445  <br>
B          0.333461  <br>
DIS        0.249929  <br>
CHAS       0.175260  <br>

In [None]:
atributos = ['CRIM',
 'ZN',
 'INDUS',
 'CHAS',
 'NOX',
 'RM',
 'AGE',
 'DIS',
 'RAD',
 'TAX',
 'PTRATIO',
 'B',
 'LSTAT']

X = X[ atributos ]
X.head()

In [None]:
y[:3]

In [None]:
# Criando um modelo
modelo = linear_model.LinearRegression()
modelo.fit(X,y)

In [None]:
modelo.coef_

## Mostrar os pesos dos Atributos ( yprev = w1X1 + w2X2 + ... + wnXn )

In [None]:
for coef, var in sorted(zip(modelo.coef_, dataset.columns[:-1]), reverse = True):
    print ("%6.3f %s" % (coef,var))

### Avaliando o modelo com o R Squared (R²) 

In [None]:
def r2_est(X,y):
    modelo = linear_model.LinearRegression(normalize = False, fit_intercept = True)
    return r2_score(y, modelo.fit(X,y).predict(X))

In [None]:
print ('R2: %0.3f' %  r2_est(X,y))

In [None]:
#vR2: 0.734

In [None]:
#vR2: 0.741

# Fazer Previsões

In [None]:
dataset.tail()

In [None]:
#             CRIM	  ZN  INDUS	  CHAS	     NOX      RM	 AGE	DIS	  RAD	  TAX	 PTRATIO	B	   LSTAT\
Xteste = [   2.006,   0.0, 11,      0.0,      0.5,     8. ,   80.2,  2.3,  1.0,    273.0,   21.2,      396.1,  7.4
    ]

modelo.predict(np.array(Xteste).reshape(1, -1))[0]

In [None]:
#22.78872777092478 - NOX 0.5
# 5. - NOX 1.5

In [None]:
#             CRIM	  ZN  INDUS	  CHAS	     NOX      RM	 AGE	DIS	  RAD	  TAX	 PTRATIO	B	   LSTAT\
Xteste = [
    [          0.02,   0.2, 7.01,   0.0,   0.5,  7.1,  45.2,  6.1,  3.0,    222,   15.2,      396.1,   5.4],
    [          0.01,   0.1,11.01,   0.0,   0.6,  6.1,  80.2,  2.5,  1.0,    273,   21.2,      396.9,   12.6],
]
modelo.predict(np.array(Xteste))

# Métricas para Algoritmos de Regressão

In [None]:
dataset.head()

### Gerando o dataset

In [None]:
modelo.coef_

In [None]:
dataset['y_prev'] = modelo.predict(X)

dataset.head()

In [None]:
dataset['Erro'] = abs (dataset['y_prev'] - dataset['target'] )
dataset.head()

In [None]:
dataset.head(8)

In [None]:
dataset.Erro.sum()

In [None]:
print(dataset.shape)
dataset.head()

## MAE - Mean Absolute Error
É a soma da diferença absoluta entre previsões e valores reais.<br />
Fornece uma ideia de quão erradas estão nossas previsões.<br />
Valor igual a 0 indica que não há erro, sendo a previsão perfeita <br />
(a exemplo do Logloss, a função cross_val_score inverte o valor) 

In [None]:
from sklearn import model_selection
num_folds = 10
num_instances = len(X)
seed = 7

#modelo = linear_model.LinearRegression()
#modelo.fit(X,y)

# Separando os dados em folds
kfold = model_selection.KFold(num_folds, True, random_state = seed)

resultado = model_selection.cross_val_score(modelo, X, y, cv = kfold, 
                                            scoring = 'neg_mean_absolute_error')

# Print do resultado
print("MAE: %.3f (%.3f)" % (resultado.mean(), resultado.std()))

In [None]:
resultado

## MSE - Mean Squared Error
Similar ao MAE, fornece a magnitude do erro do modelo.<br />
Ao extrairmos a raiz quadrada do MSE convertemos as unidades de volta ao original, 
o que pode ser útil para descrição e apresentação.<br />
Isso é chamado RMSE (Root Mean Squared Error)

In [None]:
# Definindo os valores para o número de folds
num_folds = 10
num_instances = len(X)
seed = 7

# Separando os dados em folds
kfold = model_selection.KFold(num_folds, True, random_state = seed)

resultado = model_selection.cross_val_score(modelo, X, y, cv = kfold, scoring = 'neg_mean_squared_error')

# Print do resultado
print("MSE: %.3f (%.3f)" % (resultado.mean(), resultado.std()))

In [None]:
resultado

In [None]:
# -23.747 (11.143)

# RMSE (Root Mean Squared Error)

Similar ao MAE, fornece a magnitude do erro do modelo.<br>
Ao extrairmos a raiz quadrada do MSE convertemos as unidades de volta ao original, o que pode ser útil para descrição e apresentação.

In [None]:
from math import sqrt
print("RMSE: %.3f " % (sqrt(abs(resultado.mean()))))

In [None]:
# RMSE: 4.873 

## R2  
Essa métrica fornece uma indicação do nível de precisão das previsões em relação aos valores observados.<br />
Também chamado de coeficiente de determinação.<br />
Valores entre 0 e 1, sendo 1 o valor ideal.

In [None]:
resultado = model_selection.cross_val_score(modelo, X, y, cv = kfold, scoring = 'r2')

# Print do resultado
print("R^2: %.3f (%.3f)" % (resultado.mean(), resultado.std()))

In [None]:
resultado

In [None]:
# R^2: 0.718 (0.099)

## Atividade: Alterar (remover) atributos e executar o jupyter. Comparar as Métricas.

In [None]:
dataset.head()