
# Regressão Linear, Ridge e Lasso


Realiza uma análise comparativa entre a Regressão Linear, o Ridge e o Lasso no Boston Housing Dataset.

Baseado no livro: Andreas C. Müller, Sarah Guido (2016)
*Introduction to Machine Learning with Python: A Guide for Data Scientists 1st Edition*.


-------------------------------------------------------------------------------

### Base de dados: Boston Housing dataset

http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

506 registros

13 atributos + label



In [25]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression, Ridge, Lasso

import numpy as np
import matplotlib.pyplot as plt

boston = load_boston()
X = boston.data
print("Numero de atributos original:")
print(X.shape)

Numero de atributos original:
(506, 13)



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [26]:
boston.data

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

In [27]:
boston.feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [28]:
boston.target[:10]

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9])

In [29]:
# se desejar trabalhar com dataframes essa é uma forma de conversão
import pandas as pd

df = pd.DataFrame(boston.data,columns=boston.feature_names)
df['target'] = pd.Series(boston.target)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [30]:
X = MinMaxScaler().fit_transform(boston.data) # Quando trabalhamos com dados números em escalas diferentes, alguns algoritmos podem sofrer com a falta de normalização desses números
X

array([[0.00000000e+00, 1.80000000e-01, 6.78152493e-02, ...,
        2.87234043e-01, 1.00000000e+00, 8.96799117e-02],
       [2.35922539e-04, 0.00000000e+00, 2.42302053e-01, ...,
        5.53191489e-01, 1.00000000e+00, 2.04470199e-01],
       [2.35697744e-04, 0.00000000e+00, 2.42302053e-01, ...,
        5.53191489e-01, 9.89737254e-01, 6.34657837e-02],
       ...,
       [6.11892474e-04, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 1.00000000e+00, 1.07891832e-01],
       [1.16072990e-03, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 9.91300620e-01, 1.31070640e-01],
       [4.61841693e-04, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 1.00000000e+00, 1.69701987e-01]])

In [31]:
y = boston.target
y[0:5]

array([24. , 21.6, 34.7, 33.4, 36.2])

### Regressão Linear


Os passos para indução de um modelo são:

1.   Instanciar o modelo: ``` LinearRegression()```
2.   Treinar o modelo: ```fit()```

O método ```score()``` retorna o coeficiente R^2 de predição.


In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

lr = LinearRegression().fit(X_train, y_train)

print("Regressão Linear (original)")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(lr.score(X_train, y_train)))

Regressão Linear (original)
Coeficiente R^2 na base de treinamento: 0.75


In [33]:
print("Coeficiente R^2 na base de teste: {:.2f}".format(lr.score(X_test, y_test)))

Coeficiente R^2 na base de teste: 0.68


In [34]:
lr.coef_

array([-11.41684968,   2.95517751,   1.33287607,   2.77350326,
        -7.89207097,  22.80053112,  -0.89798872, -15.40519074,
         5.92850858,  -5.21744086,  -8.67735568,   5.22907382,
       -18.75925615])

In [35]:
lr.intercept_

23.427198204284522

In [36]:
print("Número de atributos usados: {}".format(np.sum(lr.coef_ != 0)))

Número de atributos usados: 13


In [37]:
print("Descrição do modelo: ")
print([round(v,2) for v in lr.coef_])

print(round(lr.intercept_,2))

Descrição do modelo: 
[-11.42, 2.96, 1.33, 2.77, -7.89, 22.8, -0.9, -15.41, 5.93, -5.22, -8.68, 5.23, -18.76]
23.43


### E se tivermos features redundantes ou de baixa contribuição para o modelo?

In [None]:
# O PolynomialFeaures() aumenta a dimensão dos dados produzindo novos atributos 
# que são combinações lineares dos dados originais.
# De um jeito simples a gente consegue gerar novas features, mas temos desvantagens com isso. Lembra qual?

X = PolynomialFeatures(degree=2, include_bias=False).fit_transform(X)

print("Polynomial Features (atributos redundantes):")
print(X.shape)


In [None]:
X

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_train)

print("Regressão Linear (com atributos redundantes)")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(lr.score(X_train, y_train)))
print("Coeficiente R^2 na base de teste: {:.2f}".format(lr.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(lr.coef_ != 0)))

### Ridge (Regressão linear com regularização L2)

Força uma redução do valor dos coeficientes, penalizando coeficientes grandes que não contribuem significativamente para a explicação da variância do sinal.

A força da regularização é dada pelo atributo ```alpha```, com valor *default* igual a 1.


In [None]:
ridge = Ridge().fit(X_train, y_train)
print("Ridge alpha=1")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(ridge.score(X_train, y_train)))
print("Coeficiente R^2 na base de teste: {:.2f}".format(ridge.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(ridge.coef_ != 0)))

ridge10 = Ridge(alpha=10).fit(X_train, y_train)
print("Ridge alpha=10")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(ridge10.score(X_train, y_train)))
print("Coeficiente R^2 na base de teste: {:.2f}".format(ridge10.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(ridge10.coef_ != 0)))


ridge01 = Ridge(alpha=0.1).fit(X_train, y_train)
print("Ridge alpha=0.1")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(ridge01.score(X_train, y_train)))
print("Coeficiente R^2 na base de teste: {:.2f}".format(ridge01.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(ridge01.coef_ != 0)))



### Comparação da Regressão linear e Ridge

O gráfico exibe a magnitude dos coeficientes obtidos por cada método. Pode-se observar como a regularização afeta a magnitude dos coeficientes do Ridge como um todo, mas sem zerar coeficientes de uma forma geral.

In [None]:
max(abs(ridge01.coef_)), max(abs(ridge.coef_)), max(abs(ridge10.coef_))

In [None]:
ridge10.coef_


In [None]:
# matplotlib https://matplotlib.org/stable/gallery/index.html
 
plt.figure(figsize=(9, 6))
plt.plot(ridge.coef_, 's', label="Ridge alpha=1")
plt.plot(ridge10.coef_, '^', label="Ridge alpha=10")
plt.plot(ridge01.coef_, 'v', label="Ridge alpha=0.1")
plt.plot(lr.coef_, 'o', label="Regressão linear")
plt.xlabel("Coeficiente")
plt.ylabel("Magnitude")
plt.hlines(0, 0, len(lr.coef_))
plt.ylim(-25, 25)
plt.legend()


### LASSO (Regressão linear com regularização L1)

Força uma redução do valor dos coeficientes, podendo zerar diversos coeficientes cujos atributos não contribuem significativamente para a previsão. Muito utilizado no apoio à tarefa de seleção de atributos (*feature selection*).

A força da regularização é dada pelo atributo ```alpha```, com valor *default* igual a 1. ```Alpha=0``` resulta na regressão linear tradicional.


In [None]:
lasso = Lasso().fit(X_train, y_train)
print("Lasso alpha=1")
print("Acurácia na base de treinamento: {:.2f}".format(lasso.score(X_train, y_train)))
print("Acurácia na base de teste: {:.2f}".format(lasso.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(lasso.coef_ != 0)))


lasso01 = Lasso(alpha=0.1, max_iter=100000).fit(X_train, y_train)
print("Lasso alpha=.1")
print("Acurácia na base de treinamento: {:.2f}".format(lasso01.score(X_train, y_train)))
print("Acurácia na base de teste: {:.2f}".format(lasso01.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(lasso01.coef_ != 0)))


lasso001 = Lasso(alpha=0.01, max_iter=100000).fit(X_train, y_train)
print("Lasso alpha=.01")
print("Acurácia na base de treinamento: {:.2f}".format(lasso001.score(X_train, y_train)))
print("Acurácia na base de teste: {:.2f}".format(lasso001.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(lasso001.coef_ != 0)))

lasso0001 = Lasso(alpha=0.001, max_iter=100000).fit(X_train, y_train)
print("Lasso alpha=.001")
print("Acurácia na base de treinamento: {:.2f}".format(lasso0001.score(X_train, y_train)))
print("Acurácia na base de teste: {:.2f}".format(lasso0001.score(X_test, y_test)))
print("Número de atributos usados: {}".format(np.sum(lasso0001.coef_ != 0)))



Observe o que houve com o número de atributos usados em cada grau de regularização


O gráfico exibe a magnitude dos coeficientes obtidos por cada método.

In [None]:
max(abs(lasso.coef_)), max(abs(lasso001.coef_)), max(abs(lasso0001.coef_))

In [None]:
plt.figure(figsize=(9, 6))
plt.plot(lasso.coef_, 's', label="Lasso alpha=1")
plt.plot(lasso001.coef_, '^', label="Lasso alpha=0.01")
plt.plot(lasso0001.coef_, 'v', label="Lasso alpha=0.001")
plt.plot(lr.coef_, 'o', label="Regressão linear")
plt.legend(ncol=2, loc=(0, 1.05))
plt.ylim(-25, 25)
plt.xlabel("Coeficiente")
plt.ylabel("Magnitude")