# Regularizações
Aplicamos técnicas de regularização quando estamos preocupados não apenas obter o valor ótimo e minimizar a função de custo. Ela serve para que seja possível controlar a complexidade do nosso modelo, penalizando coeficientes pouco relevantes para o problema. Isso pode reduzir a variância do modelo, tornando-o mais robusto a ruídos e outliers, e também o torna mais generalizável.

## Regularização L1
Adiciona a soma dos valores absolutos dos coeficientes como uma penalidade. Com isso, tende a forçar alguns coeficientes a serem zero, o que pode deixar o modelo mais interpretável ao realizar um tipo de seleção de variáveis.

Usamos ela quando queremos realizar um tipo de seleção de variáveis, simplificar o nosso modelo, quando possuímos datasets muito esparsos, e quando há alta dimensionalidade de variáveis.

**Vantagens:**
- Tende a reduzir os coeficientes a zero, fazendo com que fiquem apenas variáveis relevantes
- É de fácil interpretação

**Desvantagens:**
- Quando existem muitas variáveis correlacionadas, a L1 pode realizar escolhas aleatoriamente, fazendo com que algumas variáveis fiquem de fora, levando a instabilidade dos coeficientes.
- Quando possuímos muitas variáveis relevantes, a L1 pode não ser tão performática

Função de perda com a regularização L1:
$$
J(\theta) = \text{MSE} + \lambda \sum_{i=1}^{n} |\theta_i|
$$

## Regularização L2
Adiciona a soma dos quadrados dos coeficientes como uma penalidade. Ao contrário da L1, ela não zera os coeficientes, mas pode reduzi-los bastante. Dessa forma, a regularização L2 ajuda a evitar que os coeficientes se tornem muito grandes.

**Vantagens:**
- Mantém as variáveis no modelo, apenas reduzindo a magnetude dos coeficientes. Isso se faz útil quando as variáveis possuem alguma relevância.
- Distribui pesos de forma mais equilibrada quando existem muitas correlações.

**Desvantagens:**
- Não realiza nenhum tipo de seleção de características.
- Interpretação um pouco mais difícil, pelo fato de não eliminar características.

Usamos quando todas as variáveis possuem alguma importância, pois ela diminui o peso dos coeficientes sem força-los a zerar. Também é útil para datasets pequenos, pois a L2 ajuda a controlar o overfitting sem remover variáveis.


A função de perda com a regularização L2:
$$
J(\theta) = \text{MSE} + \lambda \sum_{i=1}^{n} \theta_i^2
$$

## Regularização ElasticNet
Ela combina as penalidades da regularização L1 e L2. Ela adiciona uma soma ponderada dessas duas penalidades. Se mostra útil quando há correlações entre as variáveis preditoras e desejamos aproveitar tanto a seleção de variáveis, quanto a suavização dos coeficientes.

**Vantagens:**
- Combina as regularizações L1 e L2, permitindo escolher qual peso cada uma delas terá.
- Permite maior balanceamento entre e L1 e a L2, de forma a ajustarmos de acordo com o problema.

**Desvantagens:**
- Temos dois parametros para ajustar, então acaba sendo mais complexo.
- Custo computacional maior.

Usamos quando existem muitas variáveis correlacionadas e variáveis irrelevante, e desejamos combinar sparsidade e estabilidade, pois podemos ponderar a quantidade de L1 e L2.

A função de perda com a regularização ElasticNet:
$$
J(\theta) = \text{MSE} + \lambda_1 \sum_{i=1}^{n} |\theta_i| + \lambda_2 \sum_{i=1}^{n} \theta_i^2
$$