# 07 - Regularizações

Nessa aula, iremos tratar dos seguintes conteúdos:
- Função de Custo e Regularização;
- Ridge;
- Lasso;
- Elastic-Net.

###  

##  Regularizações

<br>

As __regularizações__ vão ser uma importante ferramenta para auxiliar no ajuste de modelos de Regressão Linear. Quando modela-se uma Regressão Linear Múltipla, o objetivo é calcular os coeficientes que determinam a equação abaixo:

<br>

$$\ Y_j=\beta_0 + \sum_{i=1}^{n} \beta_i X_{ij} = \beta_0 + \beta X $$

<br>

Para se determinar os valores de todos os parâmetros $\beta$, o processo de modelagem envolve achar os parâmetros que minimizam a chamada __função de custo__, função esta que avalia o custo (ou seja o erro empregado) ao estimar o valor de $Y$, que para o caso das regressões a função de custo é dada pela __soma residual dos quadrados__, conforme a seguir:

<br>

$$
\Theta = \sum_{i = 1}^{n}[y_i - (\beta_0 + \beta X)]^2
$$

<br>

Mas durante o processo iterativo para o cálculo dos parâmetros, um problema que pode surgir é o caso do _overfitting_, como discutido em tópicos anterior. Ao invés do modelo aprender a __generalizar os resultados__, ele apenas passa a __memorizar__ as respostas dos dados fornecidos no treinamento, prejudicando assim o real poder de predição da Regressão Linear e qualquer outro modelo de _Machine Learning_.

A forma utilizada para diminuir esse efeito nas regressões, seria justamente a __regularização__, onde de acordo com o tipo de regularização será adicionado a função de custo um termo conhecido como __penalização__ proporporcional aos coeficientes $\beta$. Dessa forma, ao minimizar a função de custo, também será minimizado os parâmetros $\beta$.

Nos tópicos a seguir, serão apresentados os principais métodos de regularização para as regressões, sendo eles o __Ridge__, __Lasso__ e __Elastic-Net__.

<br><br>

###  Ridge (L2)

<br>

O método Ridge ou penalização L2, consiste em adicionar um termo quadrático dos parâmetros na função de custo:

<br>

$$
\Theta_{Ridge} = \sum_{i = 1}^{n}[y_i - (\beta_0 + \beta X)]^2 + \alpha\sum_{j = 1}^{p}\beta^{2}_{j} 
$$

<br>

Esse tipo de regularização é mais interessante de se usar quando __todas as variáveis atributos dos dados são importantes__, mas esperasse que o modelo generalize mais. O parâmetro $\alpha$ é justamente o que define a complexidade do modelo, quanto maior o $\alpha$, mais simples o modelo, ou seja, menor a viriância e maiores chances de ocorrer um _underfitting_.

O processo de treinamento e geração de novas predições funciona de forma análoga ao que acontece para a função `LinearRegression`, no caso para implementar o [_Ridge_](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) basta carregar a função específica para ele:

<br>

```python
# Carregando a função para o Ridge
from sklearn.linear_model import Ridge

# Instanciar o modelo
model = Ridge(alpha = 1.0) # Parâmetro de Ajuste do Ridge
```

<br><br>

###  Lasso (L1)

<br>

O método Lasso ou penalização L1, consiste em adicionar o módulo dos parâmetros na função de custo, ao invés do quadrado no Ridge:

$$
\Theta_{Lasso} = \sum_{i = 1}^{n}[y_i - (\beta_0 + \beta X)]^2 + \alpha\sum_{j = 1}^{p}|\beta_{j}|
$$

O Lasso tem uma aplicação adicional bem interessante pois, no processo interativo de minimizar a função de custo, alguns parâmetros $\beta$ serão __zerados__. Ou seja, o método pode ser utilizado como __uma seleção de atributos__, onde serão zerados os atributos menos relevantes para a modelagem. No caso do Lasso, se tivermos $\alpha = 0$ cai-se no caso clássico de regressão linear e para os casos $\alpha > 0$, quanto maior o valor de lambda, mais parâmetros serão zerados. 

De forma análoga ao que acontece no _Ridge_, no caso para implementar o [__Lasso__](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html?highlight=lasso#sklearn.linear_model.Lasso) basta carregar a função específica para ele:

<br>

```python
# Carregando a função para o Lasso
from sklearn.linear_model import Lasso

# Instanciar o modelo
model = Ridge(alpha = 1.0) # Parâmetro de Ajuste do Lasso
```

<br><br>

###  Elastic-Net (L1 + L2)

<br>

O __Elastic-Net__ é um caso particular bem interessante pois ele combina ambos os efeitos de penalização L1 e L2, conforme descrito pela fórmula a seguir:

<br>

$$
\Theta_{EN} = \sum_{i = 1}^{n}[y_i - (\beta_0 + \beta X)]^2 + \alpha_{1}\sum_{j = 1}^{p}|\beta_{j}| + \alpha_{2}\sum_{j = 1}^{p}\beta_{j}^{2}
$$

<br>

Ou seja, o _Elastic-Net_ é interessante pois combina o poder de penalização efetiva do _Ridge_ com as características de seleção de atributos do _Lasso_. Para implementar o [_Elastic-Net_](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html) basta carregar a sua função específica:

<br>

```python
# Carregando a função para o ElasticNet
from sklearn.linear_model import ElasticNet

# Instanciar o modelo
model = ElasticNet(alpha = 1.0) # Parâmetro de Ajuste do ElasticNet
```

<br><br>

## 

__Exemplo:__ Vamos retomar o exercício com o _dataset_ `Car_Prices.csv` e avaliar os dados com diferentes modelos agora:

In [None]:
# Import das Libs necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [None]:
#Carregando o CSV
cars = pd.read_csv('Car_Prices.csv', index_col=0)
cars.head()

In [None]:
# Algumas estatísticas interessantes sobre o dataset
cars.describe()

In [None]:
# Aplicar o get_dummies
cars_with_dummies = pd.get_dummies(cars, 
                                   prefix_sep='_', 
                                   columns=['fueltype', 
                                            'aspiration', 
                                            'doornumber', 
                                            'carbody', 
                                            'cylindernumber'],
                                   drop_first = True)

In [None]:
# Olhando a transformação
cars_with_dummies.head()

In [None]:
# Separando em X e Y
X = cars_with_dummies.drop(['CarName', 'price'], axis = 1)
y = cars_with_dummies['price']

In [None]:
# Separando em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3, 
                                                    random_state = 42)

In [None]:
# instancia a normalização
std = StandardScaler()

In [None]:
# Aplica a normalização nos dados de treino
X_train_std = std.fit_transform(X_train)

In [None]:
# Aplica a normalização nos dados de teste
X_test_std = std.transform(X_test)

### Regressão Linear

In [None]:
# Instancia o modelo
linreg = LinearRegression()

In [None]:
# Fit dos dados (ou seja, vamos passar os dados para o modelo aprender com eles)
linreg.fit(X_train_std, y_train)

In [None]:
# Para os dados novos, vamos definir a predição para a base de teste
y_pred = linreg.predict(X_test_std)

In [None]:
# feature Importance - LinReg
coefs = linreg.coef_

list_columns = X_train.columns
list_feature = []
list_score = []

for i, v in enumerate(coefs):
    list_feature.append(list_columns[i])
    list_score.append(v)

dictionary = {'Features': list_feature,
              'Scores': list_score}

df_features = pd.DataFrame(dictionary)
df_features = df_features.sort_values(by=['Scores'], ascending=False)
df_features.reset_index(inplace=True, drop=True)
df_features

### Ridge

In [None]:
# Instancia o modelo
ridge = Ridge()

In [None]:
# Fit dos dados (ou seja, vamos passar os dados para o modelo aprender com eles)
ridge.fit(X_train_std, y_train)

In [None]:
# Para os dados novos, vamos definir a predição para a base de teste
y_pred_ridge = ridge.predict(X_test_std)

In [None]:
# Feature Importance - Ridge
coefs2 = ridge.coef_

list_columns = X_train.columns
list_feature = []
list_score = []

for i, v in enumerate(coefs2):
    list_feature.append(list_columns[i])
    list_score.append(v)

dictionary = {'Features': list_feature,
              'Scores': list_score}

df_features2 = pd.DataFrame(dictionary)
df_features2 = df_features2.sort_values(by=['Scores'], ascending=False)
df_features2.reset_index(inplace=True, drop=True)
df_features2

## 

### Lasso

In [None]:
# Instancia o modelo
lasso = Lasso(max_iter = 10000)

In [None]:
# Fit dos dados (ou seja, vamos passar os dados para o modelo aprender com eles)
lasso.fit(X_train_std, y_train)

In [None]:
# Para os dados novos, vamos definir a predição para a base de teste
y_pred_lasso = lasso.predict(X_test_std)

In [None]:
# Feature Importance - Lasso
coefs3 = lasso.coef_

list_columns = X_train.columns
list_feature = []
list_score = []

for i, v in enumerate(coefs3):
    list_feature.append(list_columns[i])
    list_score.append(v)

dictionary = {'Features': list_feature,
              'Scores': list_score}

df_features3 = pd.DataFrame(dictionary)
df_features3 = df_features3.sort_values(by=['Scores'], ascending=False)
df_features3.reset_index(inplace=True, drop=True)
df_features3

## 

### ElasticNet

In [None]:
# Instancia o modelo
EN = ElasticNet()

In [None]:
# Fit dos dados (ou seja, vamos passar os dados para o modelo aprender com eles)
EN.fit(X_train_std, y_train)

In [None]:
# Para os dados novos, vamos definir a predição para a base de teste
y_pred_EN = EN.predict(X_test_std)

In [None]:
# Feature Importance - Elastic-Net
coefs4 = EN.coef_

list_columns = X_train.columns
list_feature = []
list_score = []

for i, v in enumerate(coefs4):
    list_feature.append(list_columns[i])
    list_score.append(v)

dictionary = {'Features': list_feature,
              'Scores': list_score}

df_features4 = pd.DataFrame(dictionary)
df_features4 = df_features2.sort_values(by=['Scores'], ascending=False)
df_features4.reset_index(inplace=True, drop=True)
df_features4

Comparando as métricas para avaliar os modelos:

In [None]:
print('Resultados para R2 Score:')
print('R2 - Regressão Linear: ', np.round(r2_score(y_test, y_pred), 4))
print('R2 - Ridge:            ', np.round(r2_score(y_test, y_pred_ridge), 4))
print('R2 - Lasso:            ', np.round(r2_score(y_test, y_pred_lasso), 4))
print('R2 - Elastic-Net:      ', np.round(r2_score(y_test, y_pred_EN), 4))

In [None]:
print('Resultados para MSE:')
print('MSE - Regressão Linear: ', np.round(mean_squared_error(y_test, y_pred), 4))
print('MSE - Ridge:            ', np.round(mean_squared_error(y_test, y_pred_ridge), 4))
print('MSE - Lasso:            ', np.round(mean_squared_error(y_test, y_pred_lasso), 4))
print('MSE - Elastic-Net:      ', np.round(mean_squared_error(y_test, y_pred_EN), 4))

In [None]:
print('Resultados para MAE:')
print('MAE - Regressão Linear: ', np.round(mean_absolute_error(y_test, y_pred), 4))
print('MAE - Ridge:            ', np.round(mean_absolute_error(y_test, y_pred_ridge), 4))
print('MAE - Lasso:            ', np.round(mean_absolute_error(y_test, y_pred_lasso), 4))
print('MAE - Elastic-Net:      ', np.round(mean_absolute_error(y_test, y_pred_EN), 4))

## 

## Exercícios

__1)__ Reavaliar o conjunto de dados para `Insurance.csv` e fazer o comparativo entre os modelos de regularização com a Regressão Linear.

__2)__ Reavaliar o conjunto de dados para `Admission_Predict.csv` e fazer o comparativo entre os modelos de regularização com a Regressão Linear.

__3)__ Reavaliar o conjunto de dados para `usa_housing.csv` e fazer o comparativo entre os modelos de regularização com a Regressão Linear.

__4)__ Utilizando o dataset `penguins` e a partir dos modelos de Regressão e regularização, desenvolva uma regressão para determinar o valor da massa corporal dos pinguins (`body_mass_g`)

In [1]:
import pandas as pd
import seaborn as sns

In [3]:
penguins = sns.load_dataset('penguins')
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


## 