# Regularização

## Como reduzir o overfitting?
- Coletar mais dados para treino
- Escolher um modelo mais simples
- Reduzir a dimensionalidade dos dados
  - Via feature selection
  - Via feature extraction. Ex: PCA
- Introduzir uma penalidade para reduzir a complexidade do modelo (suavizar o modelo)
  - Via Regularização


![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Regularization
- Abordagem para reduzir a complexidade de um modelo penalizando grandes pesos individuais.
- Na regularização, mantemos o mesmo número de features, mas reduzimos a magnitude dos coeficientes.

![image.png](attachment:image.png)

### Objetivo principal da regularização
- Mininizar a soma de: custo não penalizado + termo penalizado

### Modelo linear com n features tendo como saída uma predição

![image.png](attachment:image.png)

### Função de custo de um modelo linear que se busca minimizar

![image.png](attachment:image.png)

### Ridge e Lasso regression

São técnicas para reduzir a complexidade do modelo e prevenir over-fitting.

### LASSO Regression

LASSO significa Least Absolute Shrinkage and Selection Operator.

É um tipo de regressão linear que usa a técnica de shrinkage (encolhimento).

Shrinkage encolhe os valores dos dados em torno de um ponto central, como a média.

Regressão Lasso realiza regularização L1, que adiciona uma penalidade igual ao valor absoluto da magnitude dos coeficientes. Pode resultar em modelos esparsos com poucos coeficientes.

Esse tipo de regressão é adequado para modelos que apresentam altos níveis de muticolinearidade ou quando você deseja automatizar determinadas partes da seleção de modelos, como a seleção de variáveis / eliminação de parâmetros.

### Norma L1

A norma L1 é calculada como a soma dos valores absolutos do vetor:
Para a regularização L1, usamos a soma dos valores absolutos dos pesos:

![image.png](attachment:image.png)

In [6]:
from numpy import array
from numpy.linalg import norm
a = array([1, 2, 3])
print(a)
l1 = norm(a, 1)
print(l1)

[1 2 3]
6.0


### Função de custo de uma regressão Lasso (least absolute shrinkage and selection operator) 

- usa norma L1

O parâmetro de ajuste ($\lambda$) controle a força da penalidade.

$\lambda$ é basicamente a quantidade de shrinkage (encolhimento).

![image.png](attachment:image.png)

### Ridge Regression

Regressão Ridge usa a regularização L2.

### Norma L2

A norma L2 é calculada como a raiz quadrada da a soma valores do vetor ao quadrado.

L2 não produzirá modelos esparsos e todos os coeficientes serão reduzidos pelo mesmo fator (nenhum é eliminado).
A norma L2 do nosso vetor de peso w é definida como segue:

![image.png](attachment:image.png)

In [7]:
# l2 norm of a vector
from numpy import array
from numpy.linalg import norm
a = array([1, 2, 3])
print(a)
l2 = norm(a)
print(l2)

[1 2 3]
3.7416573867739413


### Função de custo de uma regressão Ridge
- usa norma L2

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [68]:
# Load libraries
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error as mse

In [50]:
# Load data
data = load_breast_cancer()
X = data.data
y = data.target

In [58]:
# Standarize features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

In [65]:
regr = LinearRegression()
model = regr.fit(X_std, y)
y_pred = regr.predict(X_std)
mse(y, y_pred)

0.05275500443051912

In [66]:
regr = Ridge(alpha=100)
model = regr.fit(X_std, y)
y_pred = regr.predict(X_std)
mse(y, y_pred)

0.06028266310532319

In [67]:
regr = Ridge(alpha=0.01)
model = regr.fit(X_std, y)
y_pred = regr.predict(X_std)
mse(y, y_pred)

0.05275749285937612

In [69]:
regr = Lasso(alpha=100)
model = regr.fit(X_std, y)
y_pred = regr.predict(X_std)
mse(y, y_pred)

0.23376503037734625

In [70]:
regr = Lasso(alpha=0.01)
model = regr.fit(X_std, y)
y_pred = regr.predict(X_std)
mse(y, y_pred)

0.06299556140402354

In [72]:
from sklearn.linear_model import SGDClassifier

In [None]:
SGDClassifier()

In [None]:
RidgeCV()