<a href="https://colab.research.google.com/github/GustavoSilva95/Data_Science/blob/main/Regulariza%C3%A7%C3%A3o_L1_e_L2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*by [Gustavo Silva](https://www.linkedin.com/in/gustavo-vinicius-silva)*

---

# Regularização L1 e L2

<center><img alt="Regularização" width="100%" src="https://raw.githubusercontent.com/GustavoSilva95/Data_Science/main/Imagens/Regulariza%C3%A7%C3%A3o.png"></center>

# Regressão Linear

Uma análise de regressão estuda a relação existente entre uma variável dependente e uma ou mais variáveis independentes. Deste modo, um algoritmo de regressão linear tenta traçar uma reta que melhor se adeque aos dados.  Ou seja, uma função que melhor descreva o comportamento dos dados.

Supondo que ${y}_i$ é o valor que queremos prever para um determinado ponto e ${reg}_i$ é a estimativa desse valor, onde ${reg}_i = \beta_0 + \beta_1{x}_1$, temos que o valor estimado (${reg}_i$) menos o valor real (${y}_i$) é o erro naquele ponto.

<center><img alt="reta" width="30%" src="https://raw.githubusercontent.com/GustavoSilva95/Data_Science/main/Imagens/reta.png"></center>

A Regressão Linear tenta fazer com que o somatório dos erros em todos os pontos, ao quadrado, seja o menor possível. Essa função é chamada Função de Custo.

$$Custo = \sum_{i=1}^{n}(reg_i - {y}_i)^2$$


# Regularização

Regularização é quando se adiciona um termo somando a função de custo vista acima. Esse termo tem a função de impedir que alguma variável possua um coeficiente ($\beta$) muito grande em relação as outras variáveis. Isso ocorre, pois, ao tentar obter a melhor reta com o menor valor possível na função de custo, além de tentar diminuir o erro em cada ponto, o modelo de regressão vai tentar diminuir os coeficientes ($\beta$) das variáveis. Com isso, modelos com Regularização tentam evitar o `Overfitting`, tornando-se mais `generalizáveis`.

## Regularização L1

A Regularização L1 também é chamada de `Regressão Lasso`. O termo que é somado a função de custo para essa regularização é:

$$\alpha\sum_{i=1}^{n}|\beta_i|$$

Assim, a função de custo para a Regressão Lasso fica:

$$Custo_{Lasso} = \sum_{i=1}^{n}(reg_i - {y}_i)^2 + \alpha\sum_{i=1}^{n}|\beta_i|$$

Onde $\alpha$ é o parâmetro de penalização dos coeficientes ($\beta$), isto é, quanto maior o $\alpha$ maior fica esse termo, que resulta em um maior "esforço" por parte do modelo para tentar diminuir esse termo, ou seja, diminuir os coeficientes. 

## Regularização L2

A Regularização L2 também é chamada de Regressão Ridge. Onde o termo que é somado a função de custo é:

$$\alpha\sum_{i=1}^{n}(\beta_i)^2$$

Com isso, a função de custo para a Regressão Ridge fica:

$$Custo_{Ridge} = \sum_{i=1}^{n}(reg_i - {y}_i)^2 + \alpha\sum_{i=1}^{n}(\beta_i)^2$$

## Elastic Net

Existe também a Elastic Net, que combina, em sua Função de Custo, as Regularizações L1 e L2.

$$Custo_{Elastic Net} = \sum_{i=1}^{n}(reg_i - {y}_i)^2 + C\alpha\sum_{i=1}^{n}|\beta| + C\alpha\sum_{i=1}^{n}(\beta_i)^2$$

Onde `C` é a constante que define o peso que será dado para cada regularização. Dessa forma, `C varia de 0 a 1`. Se, por exemplo, C= 0,90 significa que a Regularização L1 terá 90% de importância enquanto a Regularização L2 apenas 10%.

# Testando os Modelos de Regressão

Para testar os diferentes modelos apresentados acima, foi usado um conjunto de dados disponível no [kaggle](https://www.kaggle.com/mohansacharya/graduate-admissions).

O conjunto de dados contém vários parâmetros que são considerados importantes durante a inscrição para Programas de Mestrado.

O foco deste projeto está em mostrar os diferentes modelos de regressão que utilizam regularização. Portanto, não foi feito um pré-processamento rigoroso dos dados antes da utilização dos modelos.

Os modelos foram avaliados usando a métrica $R^2$, que avalia o quão melhor é a reta, que o modelo projetou, em relação a média. O $R^2$ varia em uma escala de 0 a 1, quanto mais próximo de 1 melhor. Porém, como dito, a intenção do projeto não é avaliar os modelos mas sim apresenta-los.

### Dicionário de Variáveis

|Atributo|Descrição|
|:-------|:---------|
| GRE Score | Pontuações GRE (de 340) |
| TOEFL Score | Pontuações do TOEFL (de 120) |
| University Rating | Avaliação da Universidade ( de 5 ) |
| SOP | Declaração de Propósito |
| LOR | Força da Carta de Recomendação ( de 5 ) |
| CGPA | Graduação GPA (de 10) |
| Research | Experiência em Pesquisa (0 ou 1) |
|Chance of Admit | Chance de Admissão (variando de 0 a 1) |

In [None]:
# Importando bibliotecas
# Importando primeiramente apenas o pandas
import pandas as pd

In [None]:
# Importando o dataset para um DataFrame
df = pd.read_csv('Admission_Predict.csv')

In [None]:
# Visualizando as 5 primeiras entradas
df.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


O conjunto de dados não possui nenhum dado faltante.

In [None]:
# Quantidade de dados faltantes
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

Chance of Admit      0.0
Research             0.0
CGPA                 0.0
LOR                  0.0
SOP                  0.0
University Rating    0.0
TOEFL Score          0.0
GRE Score            0.0
Serial No.           0.0
dtype: float64

O atributo `Serial No.`	é apenas um índice do conjunto de dados, portanto será escluido antes de aplicar os modelos.

In [None]:
# Excluindo o atributo Serial No.
df.drop(['Serial No.'], axis=1, inplace=True)

In [None]:
# Definindo os atributos preditores e o atributo alvo
x = df.drop(['Chance of Admit '], axis=1)
y = df['Chance of Admit ']

In [None]:
# Separando os dados em Treino e Teste
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=45)

## Aplicando Regressão Linear

Os cálculos para minimizar a função de custo ao máximo é feita pelo algoritmo do `scikit-learn`.

In [None]:
# Importando biblioteca para a Regressão linear
from sklearn.linear_model import LinearRegression

#Criando o Modelo
modeloRegressaoLinear = LinearRegression()
modeloRegressaoLinear.fit(x_train, y_train)

#Aplicando o modelo aos dados de test e exibindo o resultado de R2
resultadoRL    = modeloRegressaoLinear.score(x_test, y_test)
resultadoRL


0.8093428763333981

## Aplicando Regressão Lasso

In [None]:
# Importando biblioteca para a Regressão Lasso
from sklearn.linear_model import Lasso

#Criando o Modelo
modeloLasso = Lasso(alpha=1)
modeloLasso.fit(x_train, y_train)

Lasso(alpha=1)

Onde `alpha` é o parâmetro de penalização dos coeficientes explicado no início.



In [None]:
#Aplicando o modelo aos dados de test e exibindo o resultado de R2
resultadoLasso = modeloLasso.score(x_test, y_test)
resultadoLasso

0.2855728845758697

## Aplicando Regressão Ridge

In [None]:
# Importando biblioteca para a Regressão Ridge
from sklearn.linear_model import Ridge

# Criando o Modelo
modeloRidge = Ridge(alpha=1)
modeloRidge.fit(x_train, y_train)

# Aplicando os modelos aos dados de test e exibindo o resultado de R2
resultadoRidge = modeloRidge.score(x_test, y_test)
resultadoRidge

0.8085345281885281

## Aplicando Regressão Elastic Net

In [None]:
# Importando biblioteca para a Regressão Elastic Net
from sklearn.linear_model import ElasticNet

# Criando o Modelo
modeloElasticNet = ElasticNet(alpha=1, l1_ratio=0.5)
modeloElasticNet.fit(x_train, y_train)

ElasticNet(alpha=1)

O parâmetro `l1_ratio` é o peso que a regularização L1 vai receber. Neste caso está o *default* do modelo, que define 50% para a regularização L1, portando L2 tambem é 50% (L2 = 1 - 0,5 = 0,5).

In [None]:
# Aplicando o modelo aos dados de test e exibindo o resultado de R2
resultadoEN = modeloElasticNet.score(x_test, y_test)
resultadoEN

0.5647447563640624

## Colocando todos os Modelos em um Função

In [None]:
# Criando um função que retorna os resultados de todos os modelos e qual modelo se saiu melhor
def modelos_Regressao(x_train, x_test, y_train, y_test):
  from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
  #criando os modelos
  modeloRegressaoLinear = LinearRegression()
  modeloRidge           = Ridge()
  modeloLasso           = Lasso()
  modeloElasticNet      = ElasticNet()
  #aplicando os modelos aos dados de treino
  modeloRegressaoLinear.fit(x_train, y_train)
  modeloRidge.fit(x_train, y_train)
  modeloLasso.fit(x_train, y_train)
  modeloElasticNet.fit(x_train, y_train)
  #aplicando os modelos aos dados de test
  resultadoRL    = modeloRegressaoLinear.score(x_test, y_test)
  resultadoRidge = modeloRidge.score(x_test, y_test)
  resultadoLasso = modeloLasso.score(x_test, y_test)
  resultadoEN    = modeloElasticNet.score(x_test, y_test)
  resultado = {'Regressão Linear':resultadoRL, 'Regressão Ridge':resultadoRidge,
               'Regressão Lasso':resultadoLasso, 'Regressão Elastic Net':resultadoEN}
  maior = max(resultado, key=resultado.get)
  for n, v in resultado.items():
    print(f'{n}: {v:.4f}')
    print(30* '-')
  print(f'\nO melhor modelo foi a {maior} com resultado {resultado[maior]:.4f}')

In [None]:
modelos_Regressao(x_train, x_test, y_train, y_test)

Regressão Linear: 0.8093
------------------------------
Regressão Ridge: 0.8085
------------------------------
Regressão Lasso: 0.2856
------------------------------
Regressão Elastic Net: 0.5647
------------------------------

O melhor modelo foi a Regressão Linear com resultado 0.8093


# Conclusão

Além da Regressão Linear padrão, foi visto que existe termos que podem ser somados a Função de Custo que são chamados Regularização. A Regularização L1 adiciona o somatório do módulo do coeficiente de cada atributo. A Regularização L2 adiciona o somatório do quadrado de cada coeficiente. Já o Elastic Net junta L1 e L2 para somar à Função de Custo.

A regularização pode tornar o modelo `generalista` evitando o *Overfitting*.

Porém, usar uma regularização não significa que sempre seja melhor. Cada caso é um caso. É preciso comparar as regressões para ver qual apresenta o melhor resultado para o conjunto de dados.
