

---------

# Regularização por Penalização dos Otimizadores

#### Agora vamos entender como a regularização pode nos ajudar a obter melhores resultados para um modelo de Machine Learning. O parâmetro alpha é o peso que se dá aos termos de ajuste dos BETAS da regressão, e pode ser alterado dependendo da regularização que se quer aplicar em um modelo, sendo que alpha=0 é o defalt dos algoritmos para nenhuma regularização sendo aplicada.

In [119]:
# importando as bibliotecas
from sklearn.linear_model import Lasso, LassoCV, Ridge, RidgeCV

### LASSO: L1

In [120]:
# rodando uma regressão com Lasso
# Wall time: 57 s

# parametrizando o modelo Lasso com o peso dos termos de correção 
reg_lasso = Lasso(alpha=.65,random_state=0)
# rodando a regressão no modelo lasso
%time run_model_with_poly(df, 2, reg_lasso)
# ignorando os warnings
from warnings import filterwarnings
filterwarnings('ignore')


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.18426296766199826
R2 - treino 0.877557264008053

-----Dados de Teste-----
RMSE - test 0.1912562305199285
R2 - test 0.8695052814190354

------------------------
CPU times: user 41.9 s, sys: 1.39 s, total: 43.3 s
Wall time: 24.3 s


In [121]:
reg_lasso.get_params

<bound method BaseEstimator.get_params of Lasso(alpha=0.65, random_state=0)>

#### Utilizando uma Regularização Lasso, o modelo com features polinimias de grau 2 apresenta um erro de treino de 0.18426296766199826, que é significativamente maior do que o erro antes da regularização, porém os dados de teste convergiram com um erro próximo ao treino, com valor de 0.19125623051992854. Isto comprova que o modelo ganhou em capacidade de generalização e entendimento dos padrões dos dados de forma mais geral. Perceba que o hiper-parâmetro ALPHA utilizado foi o $0.65$.

#### Grid Search para o ALPHA em L1 (Lasso)

In [122]:
# rodando a regressão de Lasso com Cross-Validation
# Wall time: 2min 51s 

# parametrizando o modelo Lasso com os pesos para cross-validation 

lasso = linear_model.LassoCV(alphas = [0.1, 0.3, 0.5, 1], 
                             max_iter = 100, 
                             cv = 5, 
                             n_jobs = -1, 
                             random_state = 0
                            )

# rodando a regressão no modelo Lasso
%time 
run_model_with_poly(df, 2, lasso)


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.18177498706137918
R2 - treino 0.8808414671499369

-----Dados de Teste-----
RMSE - test 0.19467137387909675
R2 - test 0.8648033473642621

------------------------
CPU times: user 14min 52s, sys: 15min 1s, total: 29min 54s
Wall time: 9min 29s


LassoCV(alphas=[0.01, 0.06, 0.1, 0.3, 0.6, 1], cv=10, n_jobs=-1, random_state=0)

#### Obtemos o valor do melhor `alpha` do `Lasso` selecionado pela validação cruzada.

In [1]:
lasso.alpha_

NameError: name 'lasso' is not defined

#### Fazermos um `Grid Search` para o melhor `ALPHA` na regressão `Lasso` pouco altera os resultados (parece um leve `overfit`, com uma métrica um pouco melhor para treino e um pouco pior para teste).

### RIDGE: L2

In [124]:
# rodando uma regressão com Ridge
# Wall time: 1min 23s

# parametrizando o modelo Ridge com o peso dos termos de correção 
ridge = linear_model.Ridge(alpha = 0.65,random_state=0)
# rodando a regressão no modelo Ridge
%time run_model_with_poly(df, 2, ridge)


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.15914294303693755
R2 - treino 0.9086661693350773

-----Dados de Teste-----
RMSE - test 0.23183838961455638
R2 - test 0.8082512885903682

------------------------
CPU times: user 17.4 s, sys: 1.26 s, total: 18.7 s
Wall time: 11.9 s


Ridge(alpha=0.65, random_state=0)

#### Obtemos o valor do melhor `alpha` do `Ridge` selecionado pela validação cruzada.

In [125]:
ridge.alpha

0.65

#### A regressão `Ridge` não respondeu tão bem quanto a `Lasso` para generalização do modelo, uma vez que o resultado de treino foi melhor (menor erro) mas o resultado de teste foi muito pior (erro maior), o que significa maior overfit.

#### Dessa forma, o modelo de Regularização a ser adotado deve ser o `Lasso` (L1).

#### Grid Search para o ALPHA em L2 (`Ridge`).

In [126]:
# rodando a regressão de Ridge com Cross-Validation
# Wall time: 5min 22s

# parametrizando o modelo Ridge com os pesos para cross-validation 
ridge = linear_model.RidgeCV(alphas = [0.1, 0.5, 0.75, 1],cv = 5)
# rodando a regressão no modelo Ridge
%time run_model_with_poly(df, 2, ridge)


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.160040938724176
R2 - treino 0.9076325226754425

-----Dados de Teste-----
RMSE - test 0.23033522623243458
R2 - test 0.810729698220803

------------------------
CPU times: user 12min 2s, sys: 40.1 s, total: 12min 42s
Wall time: 7min 32s


RidgeCV(alphas=array([0.01, 0.1 , 0.5 , 0.75, 1.  ]), cv=10)

In [127]:
# obtendo o valor do melhor alpha do Ridge selecionado pelo Cross-Validation
ridge.alpha_

1.0

#### Para a Regressão `Ridge` continua não respondendo melhor para Regularização do modelo, mesmo com o Grid Search e a seleção do melhor `ALPHA` como $0.1$.

### ElasticNet

In [128]:
# rodando uma regressão ElasticNet

# importando a biblioteca do ElasticNet
from sklearn.linear_model import ElasticNet, ElasticNetCV

# parametrizando o modelo ElasticNet 
elastic=ElasticNet(normalize=True,alpha=0.0001,l1_ratio=0.75,random_state=0)
# rodando a regressão no modelo ElasticNet
%time run_model_with_poly(df, 2, elastic)


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.21032920448516867
R2 - treino 0.8404649690430275

-----Dados de Teste-----
RMSE - test 0.21262686392895683
R2 - test 0.8387134996070484

------------------------
CPU times: user 14.3 s, sys: 1.11 s, total: 15.4 s
Wall time: 9.98 s


ElasticNet(alpha=0.0001, l1_ratio=0.75, normalize=True, random_state=0)

#### A Regressão `ElasticNet` acaba por obter uma métrica `RMSE` maior, comprovando a generalização do modelo. Porém, a metrica da Regressão `Lasso` é muito melhor, por isso a recomendação de estratégia de Regressão permanece a Lasso (L1).

#### `Grid Search` para o `ALPHA` em `ElasticNet` (L1 + L2).

In [129]:
# rodando a regressão ElasticNet com Cross-Validation
# Wall time: 4min 4s

# parametrizando o modelo Ridge com os pesos para cross-validation 
elastic = linear_model.ElasticNetCV(alphas = [0.001, 0.01, 0.1],cv = 5,n_jobs=-1,random_state=0)
# rodando a regressão no modelo Ridge
%time run_model_with_poly(df, 2, elastic)


df_temp shape (16603, 5151)

train shape (13282, 5151)
teste shape (3321, 5151)

-----Dados de Treino-----
RMSE - treino 0.17692951401928197
R2 - treino 0.8871094804668475

-----Dados de Teste-----
RMSE - test 0.20028425443655254
R2 - test 0.8568948156820939

------------------------
CPU times: user 25min 34s, sys: 31min 11s, total: 56min 46s
Wall time: 18min 46s


ElasticNetCV(alphas=[1e-05, 0.0001, 0.001, 0.01, 0.1], cv=10, n_jobs=-1,
             random_state=0)

In [130]:
# obtendo o valor do melhor alpha do ElasticNet selecionado pelo Cross-Validation
elastic.alpha_

0.1

#### Com o melhor `ALPHA` e `ElasticNet` obtém uma mátrica de treino excelente, porém a métrica de teste fica muito distante, o que comprova o `overfit`. dessa forma, continuamos com a Regressão `Lasso` como a melhor opção para este modelo.


________

# Apêndice: dicas de estudo

## Portal Action

#### Um portal elaborado em conjunto pelas empresas Estatcamp e DigUp, compostas por profissionais capacitados, com mestrado e doutorado em estatística e computação. Conta atualmente com mais de 3 milhões de visualizações ao ano.

#### [Portal Action](http://www.portalaction.com.br/)

## CsDojo

Learning computer science and coding, made easy.

#### [csdojo](https://www.csdojo.io/)

## Python

#### [Python](https://www.python.org/)

### Métodos

#### [.info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html)

#### [.head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)

#### [.describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)

#### [numpy.histogram()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.histogram.html)

#### [scipy.stats.skew()](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.skew.html)


### Funções

#### [slicing](https://www.oreilly.com/learning/how-do-i-use-the-slice-notation-in-python)

#### [.apply()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

#### [.groupby()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

#### [aggregation and grouping](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html)

#### [.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

#### [.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

#### [.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

## Libraries

#### [missingno](https://github.com/ResidentMario/missingno)

## Dataviz Libraries

#### [matplotlib](https://matplotlib.org/)

#### [matplotlib.pyplot()](https://matplotlib.org/tutorials/introductory/pyplot.html)

#### [seaborn](https://seaborn.pydata.org/)

#### [seaborn.boxplot()](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

#### [seaborn.violinplot()](https://seaborn.pydata.org/generated/seaborn.violinplot.html)









