# Modelos Lineares Regularizados

## üí° O que s√£o

Modelos **lineares regularizados** s√£o modelos lineares comuns (como Regress√£o Linear ou Regress√£o Log√≠stica) que recebem um ajuste extra chamado **regulariza√ß√£o**.

Esse ajuste serve para evitar que o modelo **decore demais os dados** ‚Äî ou seja, para evitar **overfitting**.

---

## üéØ Para que servem

Eles servem para:

- **Melhorar a generaliza√ß√£o** ‚Üí o modelo aprende o padr√£o dos dados sem se prender aos ru√≠dos.  
- **Evitar overfitting** ‚Üí o modelo n√£o fica ‚Äúviciado‚Äù nos dados de treino.  
- **Controlar a complexidade** ‚Üí quanto mais forte for a regulariza√ß√£o, mais simples ser√° o modelo.

---

## ‚öôÔ∏è Como funcionam

Vamos pensar na **Regress√£o Linear** simples:

$$
y = w_1x_1 + w_2x_2 + ... + w_nx_n + b
$$

O modelo aprende os pesos (`w‚ÇÅ, w‚ÇÇ, ...`) para prever o valor de `y`.

üëâ **Sem regulariza√ß√£o:** o modelo tenta ajustar perfeitamente os dados de treino ‚Äî mesmo que isso cause *overfitting*.  
üëâ **Com regulariza√ß√£o:** o modelo tenta ajustar os dados, mas **penaliza pesos muito grandes**, for√ßando o modelo a ser mais equilibrado.

---

## üßÆ Tipos de regulariza√ß√£o

### 1. Ridge (L2)

- Penaliza o **quadrado dos pesos**.  
- Tende a deixar todos os pesos pequenos, mas **n√£o zera nenhum**.

**F√≥rmula da penaliza√ß√£o:**

$$
Penalidade = \lambda \sum w_i^2
$$

**Implementa√ß√£o no Scikit-Learn:**

```python
from sklearn.linear_model import Ridge
modelo = Ridge(alpha=1.0)



### 2. Lasso (L1)

Penaliza o **valor absoluto dos pesos**.  
Faz alguns pesos virarem **zero**, o que ajuda na **sele√ß√£o de vari√°veis**.

**F√≥rmula da penaliza√ß√£o:**

$$
Penalidade = \lambda \sum |w_i|
$$

**Implementa√ß√£o:**

```python
from sklearn.linear_model import Lasso
modelo = Lasso(alpha=0.1)


### 3. Elastic Net

Combina **L1 e L2** ‚Äî √© um **meio-termo entre Ridge e Lasso**.

**Implementa√ß√£o:**

```python
from sklearn.linear_model import ElasticNet
modelo = ElasticNet(alpha=0.1, l1_ratio=0.5)


üìä **Resumo simples**

| Tipo        | Penaliza√ß√£o          | Efeito Principal                          |
|------------|--------------------|------------------------------------------|
| Ridge (L2)  | Quadrado dos pesos  | Reduz todos os pesos, mas n√£o zera       |
| Lasso (L1)  | Valor absoluto dos pesos | Zera alguns pesos (seleciona features) |
| Elastic Net | Mistura L1 e L2     | Equil√≠brio entre os dois                  |


# **Modelos** 

## **Parada Antecipada (Early Stopping)**

üß© **O que √© Parada Antecipada (Early Stopping)**

√â uma t√©cnica que interrompe o treinamento antes que o modelo comece a decorar os dados (overfitting).

üëâ **Ou seja:**  
O modelo vai aprendendo com os dados de treino, mas a cada √©poca (ou itera√ß√£o) ele √© testado nos dados de valida√ß√£o.  
Quando o erro de valida√ß√£o para de diminuir e come√ßa a aumentar, o treinamento √© interrompido automaticamente.

üéØ **Para que serve**

- Evitar overfitting (parar no momento certo).  
- Economizar tempo (n√£o treina mais do que precisa).  
- Melhorar a generaliza√ß√£o (modelo fica mais equilibrado entre treino e teste).

‚öôÔ∏è **Como funciona na pr√°tica**

- O modelo √© treinado por v√°rias √©pocas (itera√ß√µes).  
- Ap√≥s cada √©poca, √© medido o erro no conjunto de valida√ß√£o.  
- Se o erro de valida√ß√£o piorar por muitas √©pocas seguidas, o treinamento para automaticamente.  
- O modelo final √© o melhor antes de come√ßar a piorar.

‚öñÔ∏è **Comparando Regulariza√ß√£o e Early Stopping**

| T√©cnica                  | Como age                         | O que controla                       |
|--------------------------|---------------------------------|-------------------------------------|
| Regulariza√ß√£o (L1/L2)    | Penaliza pesos grandes           | Complexidade do modelo               |
| Parada antecipada        | Interrompe o treino no ponto ideal | Tempo de aprendizado e overfitting |

üëâ Ambas reduzem overfitting, mas de formas diferentes:

- **Regulariza√ß√£o** atua diretamente nos pesos.  
- **Early stopping** atua no processo de treino.

üß† **Resumo simples:**

- Modelos lineares regularizados ‚Üí limitam o tamanho dos pesos.  
- Parada antecipada ‚Üí limita o tempo de treino.  

‚û°Ô∏è Usar os dois juntos √© muito comum para garantir um modelo simples, r√°pido e bem ajustado.

üßÆ **Em modelos lineares regularizados**

Alguns modelos do Scikit-Learn j√° t√™m early stopping embutido.  
Por exemplo:

üîπ**Regress√£o Log√≠stica com regulariza√ß√£o + parada antecipada**

In [2]:
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Dados artificiais
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo linear regularizado (penalidade L2) com parada antecipada
modelo = SGDClassifier(
    loss='log_loss',       # Regress√£o log√≠stica
    penalty='l2',          # Regulariza√ß√£o Ridge
    alpha=0.001,           # For√ßa da regulariza√ß√£o
    early_stopping=True,   # <- ativa a parada antecipada
    validation_fraction=0.1,  # usa 10% dos dados de treino para validar
    n_iter_no_change=5,    # para se n√£o houver melhora em 5 √©pocas
    random_state=42
)

modelo.fit(X_train, y_train)
print("Acur√°cia:", modelo.score(X_val, y_val))


Acur√°cia: 0.815


## **Ridge Regression** 

üí° **O que √© o Ridge Regression (L2 Regularization)**

O **Ridge** √© um modelo linear regularizado que adiciona uma penaliza√ß√£o **L2** sobre os pesos do modelo.

üëâ Ele √© basicamente uma **Regress√£o Linear comum**, mas com uma ‚Äúpuni√ß√£o‚Äù para pesos muito grandes.  
Isso ajuda o modelo a **n√£o se ajustar demais aos dados de treino** (evita overfitting).

---

### üéØ **Para que serve**

O Ridge serve para:

- Evitar **overfitting**, for√ßando o modelo a ser mais simples.  
- Melhorar a **generaliza√ß√£o**, tornando as previs√µes mais est√°veis.  
- Controlar a **influ√™ncia das vari√°veis**, reduzindo o impacto de outliers (valores muito extremos).

---

### ‚öôÔ∏è **Como funciona**

O Ridge modifica a fun√ß√£o de custo da Regress√£o Linear.  
A fun√ß√£o normal √©:

$$
J(w) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2
$$

O Ridge adiciona uma penaliza√ß√£o L2:

$$
J(w) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{n} w_j^2
$$

---

### üîπ **Onde:**

- \( w_j \): pesos do modelo  
- \( \lambda \): for√ßa da regulariza√ß√£o (**em Scikit-Learn √© o `alpha`**)  

üëâ Se **Œª for grande**, os pesos ficam bem pequenos ‚Üí o modelo √© mais simples.  
üëâ Se **Œª for pequeno**, o modelo fica mais parecido com a regress√£o linear normal.

---

‚öôÔ∏è **Par√¢metro principal**

| Par√¢metro | Significado |
|------------|-------------|
| `alpha` | Controla a for√ßa da regulariza√ß√£o (quanto maior, mais forte a penaliza√ß√£o) |


### üßÆ **F√≥rmula intuitiva**

> ‚ÄúAjuste bem os dados, mas sem deixar os pesos ficarem exageradamente grandes.‚Äù

üß† **Exemplo pr√°tico**


In [3]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# Gerar dados artificiais
X, y = make_regression(n_samples=100, n_features=3, noise=15, random_state=42)

# Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo Ridge (regulariza√ß√£o L2)
modelo = Ridge(alpha=1.0)  # alpha controla a for√ßa da regulariza√ß√£o
modelo.fit(X_train, y_train)

# Resultados
#.coef_ (ou ‚Äúcoeficientes‚Äù) s√£o os pesos aprendidos pelo modelo durante o treinamento.
#Cada valor representa a import√¢ncia de uma vari√°vel (feature) na previs√£o.
# Em resumo:
# .coef_ mostra a import√¢ncia e o sentido (positivo ou negativo) de cada vari√°vel.
# No Ridge, esses coeficientes s√£o diminu√≠dos para deixar o modelo mais simples e est√°vel.
print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)
print("R¬≤ no teste:", modelo.score(X_test, y_test))


Coeficientes: [27.97717734 73.20206936 18.83648347]
Intercepto: 1.9957035364264062
R¬≤ no teste: 0.9599461087753994


üß© **Parada antecipada (Early Stopping) com Ridge**

O `Ridge` padr√£o (`sklearn.linear_model.Ridge`) **n√£o possui early stopping direto**.  
Mas podemos usar o `SGDRegressor`, que implementa o Ridge usando **descida de gradiente** e **permite parada antecipada**.

üìâ **Como funciona a parada antecipada no Ridge**

1. O modelo come√ßa a treinar usando **descida de gradiente**.  
2. A cada √©poca, o **erro no conjunto de valida√ß√£o** √© medido.  
3. Se o erro **n√£o melhora ap√≥s v√°rias √©pocas seguidas**, o treino **para automaticamente**.  
4. Assim, o modelo **interrompe o treinamento antes de come√ßar a overfittar**.

üß† **Exemplo com Early Stopping**


In [4]:
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# Dados artificiais
X, y = make_regression(n_samples=1000, n_features=20, noise=15, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo equivalente ao Ridge com early stopping
modelo = SGDRegressor(
    penalty='l2',           # regulariza√ß√£o L2 (Ridge)
    alpha=0.001,            # for√ßa da regulariza√ß√£o
    early_stopping=True,    # ativa parada antecipada
    validation_fraction=0.1, # usa 10% dos dados de treino para valida√ß√£o
    n_iter_no_change=5,     # para se n√£o houver melhora em 5 √©pocas
    random_state=42
)

modelo.fit(X_train, y_train)
print("Coeficientes:", modelo.coef_)
print("R¬≤ (valida√ß√£o):", modelo.score(X_val, y_val))


Coeficientes: [ 7.95084958e+01  9.89919255e+01  5.16151057e+00  5.63156195e-01
  8.64891391e+01 -9.57395750e-01  6.94473848e+01  1.18981859e-02
  2.21711091e-01 -2.58639595e-01  1.93992340e+01  3.99247978e+01
  2.33367362e-01  2.95170311e+00 -6.60006380e-01  2.66562963e+01
 -4.79176338e-01  8.70682536e+01  6.79715163e-01  2.67654076e-01]
R¬≤ (valida√ß√£o): 0.9934187783546217


‚öñÔ∏è **Resumo simples**

| Conceito           | Explica√ß√£o |
|--------------------|------------|
| **Ridge (L2)** | Regress√£o Linear com penaliza√ß√£o nos pesos |
| **Objetivo** | Reduzir overfitting e melhorar generaliza√ß√£o |
| **Par√¢metro principal** | `alpha` ‚Üí controla a for√ßa da penaliza√ß√£o |
| **Early Stopping** | Interrompe o treino antes do overfitting (usando `SGDRegressor`) |
| **Efeito pr√°tico** | Pesos pequenos, modelo est√°vel e previs√µes mais suaves |

ü™Ñ **Em resumo:**  
O **Ridge (L2)** √© como um *freio* no modelo linear:  
ele impede que os pesos cres√ßam demais e, com **early stopping**, tamb√©m evita que o modelo aprenda al√©m do necess√°rio.


## **Lasso Regression (L1 Regularization)**

### üí° **O que √© o Lasso Regression (L1 Regularization)**

O **Lasso** √© um modelo linear regularizado, assim como o **Ridge**, mas com uma diferen√ßa importante:

üëâ Ele usa a **penaliza√ß√£o L1**, que √© baseada no **valor absoluto dos pesos** ‚Äî n√£o no quadrado deles.

---

### üéØ **Para que serve**

O Lasso serve para:

- Evitar **overfitting**, deixando o modelo mais simples.  
- **Selecionar vari√°veis automaticamente** (zera pesos de features menos importantes).  
- Melhorar a **interpretabilidade** do modelo (mant√©m s√≥ as vari√°veis mais relevantes).

üí¨ **Em resumo:**  
O **Lasso** √© √≥timo quando voc√™ tem **muitas vari√°veis** e quer descobrir **quais s√£o realmente importantes**.

---

### ‚öôÔ∏è **Como funciona**

Na regress√£o linear tradicional, a fun√ß√£o de custo √©:

$$
J(w) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y_i})^2
$$

O **Lasso** adiciona a penaliza√ß√£o L1:

$$
J(w) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y_i})^2 + \lambda \sum_{j=1}^{n} |w_j|
$$

---

üîπ **Onde:**

- \( w_j \): pesos do modelo  
- \( \lambda \): for√ßa da regulariza√ß√£o (em *Scikit-Learn*, √© o par√¢metro `alpha`)

---


### ‚öôÔ∏è **Par√¢metro principal**

| Par√¢metro | Significado |
|------------|-------------|
| **alpha** | Controla a for√ßa da regulariza√ß√£o (quanto maior, mais forte a penaliza√ß√£o e mais coeficientes zerados) |

---

### üß† **Intui√ß√£o simples**

üëâ Enquanto o **Ridge (L2)** apenas **reduz os pesos**, o **Lasso (L1)** pode **zerar completamente alguns deles**.  

üîπ Isso faz com que o **Lasso** escolha automaticamente quais vari√°veis s√£o mais importantes ‚Äî  
ele √© como um **‚Äúmodelo linear com poda de vari√°veis‚Äù**.

‚û°Ô∏è **Note:** alguns coeficientes podem aparecer como **0** ‚Äî  
o **Lasso removeu essas vari√°veis** por considerar que t√™m **pouca import√¢ncia**.

üß© **Exemplo pr√°tico**


In [5]:
from sklearn.linear_model import Lasso
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Gerar dados artificiais
X, y = make_regression(n_samples=100, n_features=5, noise=15, random_state=42)

# Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo Lasso (regulariza√ß√£o L1)
modelo = Lasso(alpha=0.1)  # alpha controla a for√ßa da regulariza√ß√£o
modelo.fit(X_train, y_train)

print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)
print("R¬≤ no teste:", modelo.score(X_test, y_test))


Coeficientes: [61.91052278 98.2580621  59.18981203 54.67148179 36.0723    ]
Intercepto: 0.8262520221685765
R¬≤ no teste: 0.9875357761517428


## üß© **Parada antecipada (Early Stopping) com Lasso**

Assim como no **Ridge**, o modelo **Lasso** padr√£o **n√£o tem early stopping direto**.  
Mas √© poss√≠vel usar o **`SGDRegressor`**, configurado com **penaliza√ß√£o L1**, para ativar a **parada antecipada**.

---

üß† **Exemplo com Early Stopping**


In [7]:
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# Dados artificiais
X, y = make_regression(n_samples=1000, n_features=20, noise=10, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo equivalente ao Lasso com early stopping
modelo = SGDRegressor(
    penalty='l1',            # regulariza√ß√£o L1 (Lasso)
    alpha=0.001,             # for√ßa da regulariza√ß√£o
    early_stopping=True,     # ativa parada antecipada
    validation_fraction=0.1, # usa 10% dos dados de treino para valida√ß√£o
    n_iter_no_change=5,      # para se n√£o houver melhora em 5 √©pocas
    random_state=42
)

modelo.fit(X_train, y_train)
print("Coeficientes:", modelo.coef_)
print("R¬≤ (valida√ß√£o):", modelo.score(X_val, y_val))


Coeficientes: [79.7234915  98.91078512  5.29813461  0.37526144 86.52976826 -0.63794644
 69.4800908   0.          0.14621581 -0.16856992 19.14403013 39.84949426
  0.15183258  3.00301732 -0.4387512  26.58204968 -0.315611   87.05614332
  0.45175848  0.17247852]
R¬≤ (valida√ß√£o): 0.9970619061783728


## üìâ **Como funciona a parada antecipada no Lasso**

- O modelo √© treinado com **descida de gradiente**.  
- A cada √©poca, mede-se o **erro nos dados de valida√ß√£o**.  
- Se o erro n√£o melhorar ap√≥s um certo n√∫mero de itera√ß√µes (`n_iter_no_change`), o **treinamento para automaticamente**.  
- Assim, o modelo **n√£o continua aprendendo ru√≠dos** e **evita overfitting**.

---

## ‚öñÔ∏è **Resumo simples**

| Conceito | Explica√ß√£o |
|-----------|-------------|
| **Lasso (L1)** | Regress√£o Linear com penaliza√ß√£o pelo valor absoluto dos pesos |
| **Objetivo** | Reduzir overfitting e fazer sele√ß√£o autom√°tica de vari√°veis |
| **Par√¢metro principal** | `alpha` ‚Üí for√ßa da penaliza√ß√£o |
| **Early Stopping** | Interrompe o treino antes do overfitting (usando `SGDRegressor`) |
| **Efeito pr√°tico** | Alguns pesos s√£o zerados ‚Üí modelo mais simples e interpret√°vel |

---

ü™Ñ **Em resumo:**  
O **Lasso (L1)** √© como um **‚Äúfiltro inteligente‚Äù**:  
ele **mant√©m apenas as vari√°veis mais importantes** e **zera o resto**.  
Com **early stopping**, ele tamb√©m sabe **quando parar de aprender antes de come√ßar a errar demais**.


## **Elastic Net**

### üí° **O que √© o Elastic Net**

O **Elastic Net** √© um modelo linear regularizado que **combina duas penaliza√ß√µes ao mesmo tempo**:

- **L1 (Lasso)** ‚Üí zera alguns pesos (seleciona vari√°veis)  
- **L2 (Ridge)** ‚Üí reduz os pesos grandes (evita overfitting)

üëâ Assim, ele junta as **vantagens dos dois m√©todos**.

---

### üéØ **Para que serve**

O Elastic Net serve para:

- ‚úÖ Evitar **overfitting** como o Ridge  
- ‚úÖ Selecionar **vari√°veis importantes** como o Lasso  
- ‚úÖ Lidar bem com **dados correlacionados**, onde o Lasso puro √†s vezes falha  

üí¨ **Em resumo:**  
O Elastic Net √© √∫til quando voc√™ tem **muitas vari√°veis** e suspeita que **v√°rias delas s√£o correlacionadas entre si**.

---

### ‚öôÔ∏è **Como funciona**

A fun√ß√£o de custo combina as penaliza√ß√µes **L1 e L2**:

$$
J(w) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 + \lambda \left[ (1 - r) \sum \frac{w_j^2}{2} + r \sum |w_j| \right]
$$

üîπ **Onde:**

- **Œª (lambda):** controla o quanto de regulariza√ß√£o total h√°  
- **r (l1_ratio no Scikit-Learn):** controla o equil√≠brio entre L1 e L2  

üìò **Casos especiais:**
- `l1_ratio = 1` ‚Üí vira **Lasso puro**  
- `l1_ratio = 0` ‚Üí vira **Ridge puro**

---

### üß† **Intui√ß√£o simples**

Pense assim üëá

| Modelo | Efeito principal |
|--------|------------------|
| **Ridge (L2)** | Diminui todos os pesos, mas n√£o zera |
| **Lasso (L1)** | Zera alguns pesos, mas √†s vezes remove demais |
| **Elastic Net** | Mistura os dois: reduz uns, zera outros e mant√©m equil√≠brio |

---

### üß© **Exemplo pr√°tico**


In [8]:
from sklearn.linear_model import ElasticNet
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Gerar dados artificiais
X, y = make_regression(n_samples=100, n_features=10, noise=15, random_state=42)

# Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo Elastic Net
modelo = ElasticNet(alpha=0.1, l1_ratio=0.5)  # mistura 50% L1 e 50% L2
modelo.fit(X_train, y_train)

print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)
print("R¬≤ no teste:", modelo.score(X_test, y_test))


Coeficientes: [20.54438455 51.7675573   2.80297662 60.06665584 86.88547419 65.48173303
 79.43028704  5.93766659  3.21392784 66.51674311]
Intercepto: 3.044218596391934
R¬≤ no teste: 0.9920398601480124


### ‚öôÔ∏è **Par√¢metros principais**

| Par√¢metro | Significado |
|------------|-------------|
| **alpha** | Controla a for√ßa total da regulariza√ß√£o |
| **l1_ratio** | Mistura entre L1 e L2 (`0 = s√≥ Ridge`, `1 = s√≥ Lasso`) |

---

### üß© **Parada antecipada (Early Stopping) com Elastic Net**

Assim como nos outros casos, o **ElasticNet** padr√£o n√£o tem *early stopping* direto,  
mas podemos usar o **`SGDRegressor`** com `penalty='elasticnet'`, que permite isso! ‚öôÔ∏è

---

### üß† **Exemplo com Early Stopping**


In [9]:
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# Dados artificiais
X, y = make_regression(n_samples=1000, n_features=20, noise=10, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo equivalente ao Elastic Net com early stopping
modelo = SGDRegressor(
    penalty='elasticnet',   # regulariza√ß√£o mista L1 + L2
    alpha=0.001,            # for√ßa total da regulariza√ß√£o
    l1_ratio=0.5,           # 50% L1 e 50% L2
    early_stopping=True,    # ativa parada antecipada
    validation_fraction=0.1,# usa 10% do treino para valida√ß√£o
    n_iter_no_change=5,     # para se n√£o houver melhora em 5 √©pocas
    random_state=42
)

modelo.fit(X_train, y_train)
print("Coeficientes:", modelo.coef_)
print("R¬≤ (valida√ß√£o):", modelo.score(X_val, y_val))


Coeficientes: [ 7.96859128e+01  9.88581736e+01  5.29524518e+00  3.79419834e-01
  8.64866167e+01 -6.38231755e-01  6.94428217e+01  4.88626419e-03
  1.44315172e-01 -1.66683481e-01  1.91321531e+01  3.98291305e+01
  1.54738360e-01  2.99785860e+00 -4.38079561e-01  2.65721425e+01
 -3.20901114e-01  8.70106212e+01  4.53933076e-01  1.74918035e-01]
R¬≤ (valida√ß√£o): 0.997062474512175


### üìâ **Como funciona a parada antecipada no Elastic Net**

O modelo √© treinado com **descida de gradiente**.  

A cada itera√ß√£o, o **erro √© medido no conjunto de valida√ß√£o**.  

Se o erro **n√£o melhorar ap√≥s algumas √©pocas**, o treino √© **interrompido automaticamente**.  

Assim, ele **n√£o aprende demais** e **evita overfitting**.

---

### ‚öñÔ∏è **Resumo simples**

| Conceito | Explica√ß√£o |
|-----------|-------------|
| **Elastic Net** | Combina as penaliza√ß√µes do Lasso (L1) e do Ridge (L2) |
| **Objetivo** | Reduz overfitting e seleciona vari√°veis de forma equilibrada |
| **Par√¢metros principais** | `alpha` (for√ßa total), `l1_ratio` (equil√≠brio L1/L2) |
| **Early Stopping** | Interrompe o treino antes do overfitting (usando `SGDRegressor`) |
| **Efeito pr√°tico** | Alguns pesos s√£o reduzidos, outros zerados ‚Üí modelo mais est√°vel e simples |

---

ü™Ñ **Em resumo:**  
O **Elastic Net** √© o *‚Äúmeio-termo inteligente‚Äù* entre o **Ridge** e o **Lasso**.  
Ele **reduz pesos grandes**, mas **sem zerar tudo**, e com *early stopping*, ainda **sabe o momento certo de parar**.


## **Parametros das Func√µes**

| Par√¢metro       | Fun√ß√£o                              | Tipo                  | Valores poss√≠veis / padr√£o                                                      | Ridge | Lasso | Elastic Net | Observa√ß√µes                                                                 |
|-----------------|------------------------------------|---------------------|-------------------------------------------------------------------------------|-------|-------|-------------|----------------------------------------------------------------------------|
| **alpha**       | For√ßa da regulariza√ß√£o              | float ‚â• 0           | Padr√£o: 1.0 (Ridge), 1.0 (Lasso), 1.0 (Elastic Net)                           | ‚úÖ    | ‚úÖ    | ‚úÖ          | Quanto maior, mais forte a regulariza√ß√£o; 0 = sem regulariza√ß√£o            |
| **l1_ratio**    | Mistura entre L1 e L2               | float [0,1]         | Padr√£o: 0.5                                                                    | ‚ùå    | ‚ùå    | ‚úÖ          | 0 = s√≥ L2 (Ridge), 1 = s√≥ L1 (Lasso)                                       |
| **fit_intercept** | Adiciona termo independente (b)    | bool                | Padr√£o: True                                                                    | ‚úÖ    | ‚úÖ    | ‚úÖ          | Se False, assume que os dados j√° est√£o centralizados                        |
| **max_iter**    | N√∫mero m√°ximo de itera√ß√µes          | int ‚â• 1             | Padr√£o: 1000                                                                   | ‚úÖ    | ‚úÖ    | ‚úÖ          | Relevante para solvers iterativos (saga, sparse_cg)                        |
| **tol**         | Toler√¢ncia de converg√™ncia          | float > 0           | Padr√£o: 1e-4 ou 1e-3                                                          | ‚úÖ    | ‚úÖ    | ‚úÖ          | Menor = mais preciso, mas mais lento                                        |
| **selection**   | Ordem de atualiza√ß√£o dos coeficientes | 'cyclic' / 'random' | Padr√£o: 'cyclic'                                                              | ‚ùå    | ‚úÖ    | ‚úÖ          | Exclusivo para Lasso e Elastic Net                                         |
| **solver**      | M√©todo de otimiza√ß√£o                | str                 | 'auto', 'svd', 'cholesky', 'sparse_cg', 'saga', etc.                           | ‚úÖ    | ‚ö†Ô∏è    | ‚ö†Ô∏è          | Ridge tem mais op√ß√µes; Lasso/Elastic Net normalmente usam 'saga' ou m√©todos iterativos |
| **positive**    | Restringe coeficientes ‚â• 0          | bool                | False (padr√£o)                                                                 | ‚úÖ    | ‚úÖ    | ‚úÖ          | Pode ser √∫til para regress√£o n√£o negativa                                   |
| **random_state** | Semente para aleatoriedade          | int                 | None (padr√£o)                                                                  | ‚úÖ    | ‚úÖ    | ‚úÖ          | Afeta solvers aleat√≥rios, como 'saga' ou coordena√ß√£o aleat√≥ria em selection='random' |
| **warm_start**  | Reaproveita solu√ß√£o anterior         | bool                | False                                                                          | ‚úÖ    | ‚úÖ    | ‚úÖ          | √ötil para ajustes incrementais ou tuning de alpha                           |


üîπ **Observa√ß√µes importantes**

**Ridge**
- Regulariza√ß√£o L2 apenas.
- Tem `solver` e `positive`.
- N√£o tem `selection` nem `l1_ratio`.

**Lasso**
- Regulariza√ß√£o L1, alguns coeficientes podem ser zerados.
- Tem `selection` para coordenadas c√≠clicas ou aleat√≥rias.
- Solvers recomendados: `saga` ou m√©todos iterativos.

**Elastic Net**
- Combina L1 e L2.
- Tem `l1_ratio` para definir equil√≠brio L1/L2.
- Tamb√©m tem `selection` como Lasso.

**Par√¢metros comuns**
- `alpha`, `fit_intercept`, `max_iter`, `tol`, `random_state`, `warm_start` s√£o comuns aos tr√™s modelos.

**Par√¢metros exclusivos**
- `l1_ratio` ‚Üí s√≥ Elastic Net.
- `selection` ‚Üí Lasso e Elastic Net.
- `solver` ‚Üí Ridge tem mais op√ß√µes que Lasso/Elastic Net.
