# Regressão Ridge e Lasso - Grupo DS Avançado

<p align="center">
  <img alt="decision_tree" src="https://64.media.tumblr.com/ad72767638ca6822ddb7c2b330c5a03b/tumblr_pv76dcCDgG1xoyw8po1_1280.png" alt="drawing" width="500" height="400"/>
</p>

#### Autor: Rafael Barbosa - [LinkedIn](https://www.linkedin.com/in/rafael-barbosa0/) - [Github](https://github.com/barbosarafael)

#### **Nota**: Esse **tutorial, post, notebook ou o que_você_quiser_chamar** possui um viés acadêmico (juro que estou tentando perder ele), então tem coisas que provavelmente passarei despercebido em relação aos conceitos. 

#### **Dica**: Se não entendeu algo, mande mensagem ou dê a famosa googlada.



## 1. Introdução

- [Anteriormente](https://nbviewer.jupyter.org/github/barbosarafael/Grupo_DS_Avancado/blob/master/01Reg_Linear/Not_RegLinear.ipynb) falamos sobre a Regressão Linear e suas particularidades, *i.e* pressupostos;

- O presente notebook explora um pouco mais sobre as extensões conhecidas dos modelos de regressão, nesse caso, Lasso (conhecida como L1) e Ridge (conhecida também como L2);

- Elas diferem em pouca coisa entre si. Mas, essa pouca coisa, nos dá uma grande diferença em questões teóricas e práticas;

- E no final, teremos um exemplo para a aplicação de ambas as extensões da regressão.

## 2. Método de ajuste da Regressão

- Basicamente existem dois métodos, o primeiro (eu diria) estatístico que é o OLS e o segundo de machine learning é o Gradiente Descendente;

- Vamos fazer um breve resumo sobre eles.

### 2.1. Ordinary least squares - Método dos mínimos quadrados

- O objetivo deste método é encontrar (estimar) os melhores parâmetros que minimizam a Soma dos Quadrados dos Resíduos (SQR)

- Esses parâmetros estimados são os $ \beta $s, que são representados com um "chapéu" para denotar que eles são estimados: $ \hat{\beta} $s

- Levando em consideração a equação clássica da regressão linear, temos

$$ Y_i = \beta_0 + \sum_{i = 1}^{n} \beta_i X_i + \epsilon_i,  \quad i = 1, 2, ..., n $$

- Se isolarmos o termo do erro e aplicar o quadrado, temos

$$ \epsilon_i^2 = [Y_i - \beta_0 - \sum_{i = 1}^{n} \beta_i X_i]^2 $$

- A partir dessa ideia, continua-se o processo de estimação que pode ser visto melhor [aqui](http://www.portalaction.com.br/analise-de-regressao/12-estimacao-dos-parametros-do-modelo) e [aqui](http://www.cear.ufpb.br/juan/wp-content/uploads/2017/08/Aula-5-M%C3%A9todo-dos-Minimos-Quadrados.pdf)

- Em casos multivariados, isto é, quando é o caso de Regressão Linear Múltipla, o método é extendido para soluções via matrizes

### 2.2. Gradiente descendente


<p align="center">
  <img alt="decision_tree" src="https://miro.medium.com/max/875/1*wsBakfF2Geh1zgY4HJbwFQ.gif" alt="drawing" width="800" height="300"/>

  **Exemplo de gradiente descendente**. Retirado de: https://medium.com/@bruno.dorneles/regress%C3%A3o-linear-com-gradiente-descendente-d3420b0b0ff
</p>

- Assim como o OLS, é um método/algoritmo que busca minimizar uma função cuso, só que dessa vez **iterativamente**

- Observando o primeiro gráfico do GIF, a parte mais "funda" da nossa curva 3D é chamado de mínimo global, que é onde possui o valor dos parâmetros que minimiza a função de custo

- Começa com um chute inicial para os parâmetros a se estimar ($ \beta $) e, a partir das iterações, estes valores para os parâmetros vão sendo otimizados

- A diferença entre cada iteração é dada por uma taxa de aprendizado $ \alpha $, também chamada de passos

- Se esse $ \alpha $ for grande, então o método irá iteragir poucas vezes podendo não achar um mínimo global

- Se o $ \alpha $ for um valor pequeno demais, o método irá dar pequenos passos, indicando que haverá um número de altas de iterações



## 3. Bias e variância 

- Quando mencionamos em modelos de Machine Learning, **previsão** talvez seja a primeira palavra relacionada a ela em nossas mentes. E essas previsões, quando comparadas com os valores reais, geralmente apresentam erros. Claro, nenhum modelo é perfeito de acertar todos os valores (e se está acertando tudo, pode ser que tenha coisa errada aí)

- Em modelos de Regressão (supervisionados e a variável resposta a se prever é contínua) estes erros de previsão podem ser chamados de bias (viés) e variância

- E, obviamente, queremos que nosso modelo possua o mínimo de erro possível, independente de qual seja, para que não prejudique nossos objetivos e não cause *over* ou *underfitting* no modelo

- Devido a isso, queremos achar um "ponto perfeito" que minimize tanto o bias quanto a variância, chamado de *Trade Off*. Para isso, vamos entender quais as características de cada erro

- Considerando que queremos prever $ Y $ a partir de uma função $ \hat{f} (x) $. Para cada observação, o erro é dado entre a diferença entre o valor real e o valor previsto de nossa função, isto é:

$$ \text{Erro}(x) = (Y - \hat{f} (x)) $$

- Para um caso geral:

$$ \text{Erro}(x) = E[(Y - \hat{f} (x))^2] $$

- Que pode ser decomposto em:

$$ \text{Erro}(x) = [E(\hat{f} (x)) - f(x)]^2 + E[(\hat{f} (x) - E(\hat{f} (x)))^2] + \sigma^2 $$

- E em linguagem menos técnica pode ser reescrita como:

$$ \text{Erro}(x) = \text{Bias}^2 + \text{Variância} + \text{Erro Irredutível} $$

### 3.1. Bias (Viés)

- É a média da diferença entre o valor que o nosso modelo previu ($ \hat{f} (x) $) e o valor real ($ f(x) $). Considerando uma observação qualquer *i* e um modelo de regressão, temos:

$$ bias =  E(\hat{f} (x) - f(x)) $$

- Ele mede, no geral, o quão longe as previsões do nosso modelo difere dos valores reais

- Está relacionada em como o modelo se ajusta aos dados. Se o modelo nos dá as características de que não está conseguiu se ajustar corretamente aos dados, isto é, apresenta características de *underfitting*, então é um indicador que o modelo apresenta **alto erro de bias**

- Quando temos um **alto bias**, isto é, queremos que o modelo busque mais informações para se adequar melhor aos dados, estratégias como adicionar novas variáveis, achar outro modelo, etc são válidas.

### 3.2. Variância

- Ela nos diz o quanto os valores que nosso modelo previu estão dispersos dos valores reais. Dada por

$$ \text{Variância} = E[(\hat{f} (x) - E(\hat{f} (x)))^2] $$

- **Alta variância** implica em um ajuste excessivo do modelo nos dados de treino, isto é, *overfitting*, e quando observa novos dados (validação ou teste) não acha os mesmos padrões dos dados de treino e acaba por errar demais

- Quando temos uma **alta variância**, isto é, queremos que o modelo se adeque menos aos dados, estratégias como retirar variáveis não importantes, achar um modelo mais simples, regularização, etc, são válidas.

### 3.3. Trade-off entre Bias e Variância


<p align="center">
  <img alt="decision_tree" src="https://miro.medium.com/max/531/1*v63L_h5WXGOb4o6oh_daAA.jpeg" alt="drawing" width="400" height="300"/>

- Um dos métodos de verificação se seu modelo está com alta variância ou alto viés é por meio da [validação cruzada](https://nbviewer.jupyter.org/github/barbosarafael/Aprendizado-Python/blob/master/Pandas_Aprendizado/parte2_ineuron_BackOrderPrediction.ipynb#9.-Valida%C3%A7%C3%A3o-cruzada)

- Agora que conhecemos os tipos de erros e o que eles causam de problema em nossas vidas, queremos que eles nos atrapalhem o mínimo possível, isto é, queremos minimizar tanto o bias quanto a variância;

- Quando aumentamos o **bias**, diminui-se a **variância**, o contrário também é válido

- **Entretanto** nem sempre isso é fácil, a complexidade do modelo é um desses fatores. Enquanto adicionamos muitos parâmetros aos nossos modelos, exemplo da regressão linear com as variáveis polinomiais, ela poderá aprender demais nos dados de treino e os dados de teste podem ter comportamento relativamente diferente, causando *overfitting* (**baixo bias e alta variância**)

- As vezes temos que colocar a parcimônia para trabalhar. No contexto de Machine Learning, significa que podemos maneiras nos parâmetros e melhorar os métodos de verificação dos modelos

- Em modelos lineares, um destes métodos é a **Regularização**.

## 4. Regularização ($ \lambda $)

- Essa é uma técnica que, geralmente, se aplica após testarmos um modelo e verificarmos que ele acabou caindo no problema de **alta variância**, isto é, *overfitting*

- A regularização $ \lambda $ penaliza o modelo para que o modelo não continue com o *overfitting* e não seja um modelo complexo, logo, teremos valores menores para o erro

- Ela adiciona um coeficiente $ \lambda $ à equação para minimizar o erro, melhorar os parâmetros estimados (quando comparados com o modelo anterior que causou *overfitting*) e, consequentemente, achar um ajuste melhor para os dados;

- Dependendo da biblioteca utilizada, o termo de regularização pode  aparecer como $ 1/\lambda $ ou somente $ \lambda $

- Levando em consideração o caso do termo de regularização como $ 1/\lambda $, então quanto maior o lambda, menor vai ser a penalização

- Quando queremos penalizar um modelo de Regressão Linear temos duas opções, a Regressão Lasso e a Regressão Ridge.

## 5. Regressão Lasso - Least Absolute Shrinkage and Selection Operator (L1)

- **Shrinkage:** Em problemas de alta variância, dado que o método OLS não performa bem, o recomendado é o método *Shrinkage* que aplica uma determinada penalidade, justamente para limitar a variância

- A penalidade na regressão Lasso é equivalente ao valor absoluto da grandeza dos coeficientes. Reaproveitando uma das equações de erro acima, temos:

$$ \epsilon_i^2 = [Y_i - \beta_0 - \sum_{i = 1}^{n} \beta_i X_i]^2 $$

- Adicionando a penalização, temos:

$$ \epsilon_i^2 = [Y_i - \beta_0 - \sum_{i = 1}^{n} \beta_i X_i]^2 + \lambda \sum_{i = 1}^{n} | \beta_i |$$

- Se $ \lambda = 0 $, então nenhuma penalização será aplicada ao modelo


### Características

- Com a penalização o modelo perde aquela alta variância e complexidade

- Em casos de variáveis explicativas correlacionadas, isto é, multicolineariedade, a regularização L1 seleciona apenas uma destas e acaba por zerar os coeficientes das demais, excluindo as variáveis da análise, servindo também como seleção de variáveis/features




## 6. Regressão Ridge (L2)

- A penalidade na regressão Ridge é equivalente ao quadrado dos coeficientes, isto é:

$$ \epsilon_i^2 = [Y_i - \beta_0 - \sum_{i = 1}^{n} \beta_i X_i]^2 + \lambda \sum_{i = 1}^{n} \beta_i^2$$

### Características

- Cumpre seu papel de reduzir a complexidade do modelo e, assim como a L1, também lida bem com a multicolineariedade

- Como o $ \beta $ têm estimativas que dependem da sua magnitude, a L2 faz com que as variáveis correlacionadas tenham estimativas dos coeficientes semelhantes

- Penaliza os coeficientes que estão distantes de 0, forçando-os a serem menores, mantendo também todos as variáveis no modelo

## 7. Aplicação

- O banco de dados abaixo refere-se a venda de casas na cidade de Ames em Iowa, EUA

- Nele temos informações sobre as características estruturais da casa, como quantidade de banheiros, ano de construção, área total, etc

- Devemos utilizar essas características para prever o valor de venda da casa

- A métrica oficial dada pelo Kaggle é o Root-Mean-Squared-Error (RMSE), dado por:

$$ \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (\hat{y_i} - y_i)^2}$$

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, FunctionTransformer, OneHotEncoder, MinMaxScaler
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn import set_config
from sklearn import metrics
from sklearn.metrics import mean_squared_error, mean_absolute_error

from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso


#--- Configurações adicionais

set_config(display = "diagram")
plt.style.use("seaborn-muted")
%matplotlib inline
pd.set_option('display.max_columns', None)

In [2]:
banco = pd.read_csv(filepath_or_buffer = "https://raw.githubusercontent.com/barbosarafael/Projetos/master/House%20Prices%20-%20Advanced%20Regression%20Techniques/train.csv")

banco.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,TA,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,Ex,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,TA,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,Gd,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Gd,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,TA,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,,,,0,12,2008,WD,Normal,250000


In [3]:
f"O banco possui {banco.shape[0]} observações e {banco.shape[1]} variáveis"

'O banco possui 1460 observações e 81 variáveis'

### 7.1. Análise Exploratória de Dados (EDA)

- Esse foi um dos bancos de dados em que comecei a trabalhar na área de *Data Science* e fiz uma EDA exaustiva nele anteriormente, que pode ser encontrado [aqui](https://nbviewer.jupyter.org/github/barbosarafael/Projetos/blob/master/House%20Prices%20-%20Advanced%20Regression%20Techniques/notebook_house_prices.ipynb#Explorando-os-dados) 

- Vamos economizar um pouco de análise, mas aplicar as transformações utilizadas no notebook mencionado acima

- Inclusive, nesse mesmo notebook uma Regressão Linear Múltipla, recomendo dar uma olhada para ver a diferença entre os modelos posteriormente

In [4]:
banco["SalePrice"] = np.log(banco["SalePrice"])

banco = banco.drop(["PoolQC", "MiscFeature", "Alley", "Fence", "FireplaceQu"], axis = 1)

banco.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,0,2,2008,WD,Normal,12.247694
1,2,20,RL,80.0,9600,Pave,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,0,5,2007,WD,Normal,12.109011
2,3,60,RL,68.0,11250,Pave,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,Ex,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,0,9,2008,WD,Normal,12.317167
3,4,70,RL,60.0,9550,Pave,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,Gd,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,0,2,2006,WD,Abnorml,11.849398
4,5,60,RL,84.0,14260,Pave,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,0,12,2008,WD,Normal,12.429216


### 7.2. Separando em treino e teste

In [5]:
banco = banco.fillna(method='ffill')

x = banco.drop("SalePrice", axis = 1)
y = banco["SalePrice"]

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.7, random_state = 1234)

### 7.3. Pré-processamento

### Pipeline

In [6]:
def muda_tipo(df):
    
    df = df.copy()
    df = df.astype(str)

    return(df)

transf_muda_tipo = FunctionTransformer(muda_tipo)

modelo = Lasso(random_state = 1234, alpha = 0.15)
ohe = OneHotEncoder(handle_unknown = 'ignore')
# imputer = SimpleImputer(strategy = "most_frequent")
stand = StandardScaler()

skl_pipeline = make_pipeline(transf_muda_tipo, ohe, stand, modelo)

skl_pipeline

In [7]:
numeric_features = list(banco._get_numeric_data().columns)
del numeric_features[-1]
numeric_transformer = Pipeline(steps=[("scaler", stand)])


# dados_nulos = pd.DataFrame(banco.isnull().sum())
# nulls_features = list(dados_nulos[dados_nulos[0] > 1].index)
# nulls_transformer = Pipeline(steps = [("imput", imputer)])


change_types_features = ["MSSubClass", "OverallQual", "OverallCond"]
change_types_transformer = Pipeline(steps = [("muda_tipo_coluna", transf_muda_tipo)])


qualit_features = list(banco.select_dtypes("object").columns)
qualit_transformer = Pipeline(steps = [("OHE", ohe)])


preprocessor = ColumnTransformer(
    transformers = [("num", numeric_transformer, numeric_features),
                    ("changetypes", change_types_transformer, change_types_features),
                    ("ohe1", qualit_transformer, qualit_features)])

# ("nulos", nulls_transformer, nulls_features)


model = Pipeline(steps = [("preprocessor", preprocessor),
                          ("regressor", modelo)])

In [8]:
model.fit(x_treino, y_treino)

In [9]:
# model.score(x_teste, y_teste)

cross_val_score(model, x_treino, y_treino, cv = 5)

array([0.70702578, 0.71477422, 0.56717818, 0.67514009, 0.63743356])

In [10]:
print("model score: %.3f" % model.score(x_teste, y_teste))

model score: 0.635


In [11]:
# Realiza as Previsões
y_pred = model.predict(x_teste)

# Avalia a performace do modelo
f"O RMSE é de {np.sqrt(mean_squared_error(y_teste, y_pred))}"

'O RMSE é de 0.23593345469631752'

### Tentando melhorar o modelo com o pipeline do sklearn

In [12]:
model.get_params().keys()

dict_keys(['memory', 'steps', 'verbose', 'preprocessor', 'regressor', 'preprocessor__n_jobs', 'preprocessor__remainder', 'preprocessor__sparse_threshold', 'preprocessor__transformer_weights', 'preprocessor__transformers', 'preprocessor__verbose', 'preprocessor__num', 'preprocessor__changetypes', 'preprocessor__ohe1', 'preprocessor__num__memory', 'preprocessor__num__steps', 'preprocessor__num__verbose', 'preprocessor__num__scaler', 'preprocessor__num__scaler__copy', 'preprocessor__num__scaler__with_mean', 'preprocessor__num__scaler__with_std', 'preprocessor__changetypes__memory', 'preprocessor__changetypes__steps', 'preprocessor__changetypes__verbose', 'preprocessor__changetypes__muda_tipo_coluna', 'preprocessor__changetypes__muda_tipo_coluna__accept_sparse', 'preprocessor__changetypes__muda_tipo_coluna__check_inverse', 'preprocessor__changetypes__muda_tipo_coluna__func', 'preprocessor__changetypes__muda_tipo_coluna__inv_kw_args', 'preprocessor__changetypes__muda_tipo_coluna__inverse_fu

In [13]:
params = {}

params["preprocessor__num__scaler"] = [None, StandardScaler(), MinMaxScaler()]
params["regressor__alpha"] = np.arange(0.0, 1.0, 0.1)

In [14]:
# Gridsearch
grid = RandomizedSearchCV(model, params, cv = 5)

grid.fit(x_treino, y_treino)

In [15]:
results = pd.DataFrame(grid.cv_results_)
results.sort_values("rank_test_score").round(4)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_regressor__alpha,param_preprocessor__num__scaler,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.093,0.0118,0.0283,0.0078,0.9,,"{'regressor__alpha': 0.9, 'preprocessor__num__...",0.8184,0.8301,0.8449,0.8226,0.8408,0.8313,0.0102,1
3,0.0801,0.0136,0.0318,0.0056,0.1,StandardScaler(),"{'regressor__alpha': 0.1, 'preprocessor__num__...",0.803,0.7917,0.6764,0.7684,0.707,0.7493,0.0493,2
8,0.067,0.0017,0.0283,0.0018,0.2,MinMaxScaler(),"{'regressor__alpha': 0.2, 'preprocessor__num__...",0.6279,0.6453,0.5096,0.6177,0.5625,0.5926,0.0499,3
1,0.0685,0.0022,0.0279,0.0008,0.4,StandardScaler(),"{'regressor__alpha': 0.4, 'preprocessor__num__...",0.2306,0.2956,0.212,0.2883,0.2089,0.2471,0.0374,4
2,0.0741,0.0108,0.0313,0.0054,0.4,MinMaxScaler(),"{'regressor__alpha': 0.4, 'preprocessor__num__...",0.2306,0.2956,0.212,0.2883,0.2089,0.2471,0.0374,4
5,0.0671,0.0004,0.0271,0.0002,0.6,StandardScaler(),"{'regressor__alpha': 0.6000000000000001, 'prep...",-0.0098,0.0079,-0.01,0.005,0.0086,0.0003,0.0084,6
4,0.0788,0.0145,0.0328,0.0074,0.7,MinMaxScaler(),"{'regressor__alpha': 0.7000000000000001, 'prep...",-0.0089,0.007,-0.0113,0.004,0.0085,-0.0001,0.0083,7
9,0.067,0.001,0.0275,0.0006,0.7,StandardScaler(),"{'regressor__alpha': 0.7000000000000001, 'prep...",-0.0089,0.007,-0.0113,0.004,0.0085,-0.0001,0.0083,7
7,0.0799,0.0113,0.0376,0.0072,0.8,MinMaxScaler(),"{'regressor__alpha': 0.8, 'preprocessor__num__...",-0.0081,0.0061,-0.0126,0.003,0.0083,-0.0007,0.0082,9
6,0.0807,0.0155,0.0335,0.0065,0.9,StandardScaler(),"{'regressor__alpha': 0.9, 'preprocessor__num__...",-0.0074,0.005,-0.014,0.0019,0.0081,-0.0013,0.0082,10


In [16]:
best_estimator = grid.best_estimator_

In [17]:
preds = best_estimator.predict(x_teste)

preds

array([12.14006325, 12.78233844, 12.02752256, ..., 12.14600362,
       12.19817261, 11.89695429])

In [18]:
# model.score(x_teste, y_teste)

cross_val_score(best_estimator, x_treino, y_treino, cv = 5)

array([0.81836932, 0.83005096, 0.8448612 , 0.82264208, 0.840782  ])

In [19]:
print("model score: %.3f" % best_estimator.score(x_teste, y_teste))

model score: 0.683


In [20]:
# Realiza as Previsões
y_pred = best_estimator.predict(x_teste)

# Avalia a performace do modelo
f"O RMSE é de {np.sqrt(mean_squared_error(y_teste, y_pred))}"

'O RMSE é de 0.21974278775706427'

In [21]:
def performance(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    mae = mean_absolute_error(y_true, y_pred)
    return (print('MSE das previsões é {}'.format(round(mse, 2))+
                  '\nRMSE das previsões é {}'.format(round(np.sqrt(mse), 2))+
                  '\nMAE das previsões é {}'.format(round(mae, 2))))

In [22]:
performance(y_teste, y_pred)

MSE das previsões é 0.05
RMSE das previsões é 0.22
MAE das previsões é 0.13


## Referências

1. https://towardsdatascience.com/ridge-and-lasso-regression-a-complete-guide-with-python-scikit-learn-e20e34bcbf0b
2. https://www.analyticsvidhya.com/blog/2016/01/ridge-lasso-regression-python-complete-tutorial/
3. https://medium.com/turing-talks/turing-talks-20-regress%C3%A3o-de-ridge-e-lasso-a0fc467b5629
4. http://prorum.com/?qa=4379/quais-diferencas-modelos-regularizacao-regressoes-lineares
5. https://jreduardo.github.io/ce064-ml/work3.html
6. https://www.datacamp.com/community/tutorials/tutorial-ridge-lasso-elastic-net
7. https://www.analyticsvidhya.com/blog/2017/06/a-comprehensive-guide-for-linear-ridge-and-lasso-regression/
8. https://mineracaodedados.wordpress.com/2015/06/20/qual-a-diferenca-entre-lasso-e-ridge-regression/
9. https://www.geeksforgeeks.org/lasso-vs-ridge-vs-elastic-net-ml/
10. https://www.statisticshowto.com/lasso-regression/
11. https://www.statisticshowto.com/ridge-regression/

### Bias e variância

1. https://ericcouto.wordpress.com/2013/06/29/bias-vs-variancia-parte-1/
2. https://lgmoneda.github.io/2019/01/14/bias-data-science.html
3. https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229
4. http://scott.fortmann-roe.com/docs/BiasVariance.html
5. https://machinelearningmastery.com/gentle-introduction-to-the-bias-variance-trade-off-in-machine-learning/
6. https://www.geeksforgeeks.org/ml-bias-variance-trade-off/
7. https://medium.com/opex-analytics/bias-variance-trade-off-101-7d3aae4485a8

# Sumário

1. Introdução
2. Método de estimação (OLS ou Gradiente Descendente)
3. Bias e Variância
4. Regularização
6. Validação Cruzada
7. Lasso (L1)
8. Ridge (L2)
9. Exemplo