# Bias-Variance Trade-off, Overfitting e Underfitting

![Capa](../Assets/bias_variance_tradeoff/capa3.png)

## 1. O Problema Fundamental

Quando treinamos um modelo de Machine Learning, queremos que ele funcione bem em dados novos (que ele nunca viu). Mas existem dois tipos de erro que podem acontecer:

1. Erro no Training Set (dados de treino)
2. Erro no Test Set (dados novos)

O modelo ideal tem baixo erro em ambos. Mas na prática, existe um trade-off entre dois conceitos: Bias e Variance.

## 2. O que é Bias (Viés)?

Bias é o erro causado por suposições erradas ou modelo muito simples.

### Analogia Prática

Imagine que você está tentando acertar um alvo com flechas:
- Alto Bias = Suas flechas consistentemente acertam longe do centro (você está mirando errado)
- Baixo Bias = Suas flechas, em média, acertam perto do centro

### No Machine Learning

Um modelo com alto bias:
- É muito simples para capturar os padrões dos dados
- Faz suposições fortes sobre a relação entre X e y
- Resulta em Underfitting (subajuste)

Exemplo: Usar uma reta para modelar dados com curva

![High Bias](../Assets/bias_variance_tradeoff/1.jpg)

```
Modelo muito simples!
Não captura o padrão real.
```

## 3. O que é Variance (Variância)?

Variance é o erro causado por sensibilidade excessiva aos dados de treino.

### Analogia Prática

Continuando com as flechas:
- Alta Variance = Suas flechas estão espalhadas por todo lado (inconsistente)
- Baixa Variance = Suas flechas estão agrupadas próximas umas das outras (consistente)

### No Machine Learning

Um modelo com alta variance:
- É muito complexo e "decora" os dados de treino
- Se adapta demais ao ruído dos dados
- Resulta em Overfitting (sobreajuste)

Exemplo: Usar polinômio de grau 10 para modelar dados simples

![High Variance](../Assets/bias_variance_tradeoff/2.png)

``` 
Modelo muito complexo!
Passa por todos os pontos mas 
não generaliza para dados novos.
```

## 4. Underfitting (Subajuste) - Alto Bias

### O que é?

Underfitting acontece quando o modelo é simples demais para capturar os padrões dos dados.

### Características

- Alto erro no training set
- Alto erro no test set
- Modelo não aprendeu o padrão básico dos dados

### Exemplo Numérico

Dataset com relação quadrática: $y = x^2 + \text{ruído}$

| x  | y (real) |
|----|----------|
| 1  | 1.2      |
| 2  | 4.1      |
| 3  | 9.3      |
| 4  | 16.2     |
| 5  | 25.1     |

Modelo 1: Reta $h(x) = \theta_0 + \theta_1 x$

Resultado:
- Training Error: 45.2
- Test Error: 47.8

Por quê? Uma reta não consegue capturar a curvatura dos dados!

### Como Identificar Underfitting?

1. Training error alto (aproximadamente 40-50% de erro)
2. Test error similar ao training (diferença pequena)
3. Curva de aprendizado: ambos os erros ficam altos mesmo com mais dados

## 5. Overfitting (Sobreajuste) - Alta Variance

### O que é?

Overfitting acontece quando o modelo é complexo demais e "decora" os dados de treino, incluindo o ruído.

### Características

- Baixo erro no training set
- Alto erro no test set
- Modelo decorou em vez de aprender

### Exemplo Numérico

Dataset com relação quadrática: $y = x^2 + \text{ruído}$

| x  | y (treino) | y (test) |
|----|------------|----------|
| 1  | 1.2        | 0.9      |
| 2  | 4.1        | 3.8      |
| 3  | 9.3        | 9.5      |
| 4  | 16.2       | 15.7     |
| 5  | 25.1       | 25.4     |

Modelo 2: Polinômio grau 10 $h(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + ... + \theta_{10} x^{10}$

Resultado:
- Training Error: 0.01 (praticamente zero!)
- Test Error: 152.7 (explodiu!)

Por quê? O modelo se ajustou perfeitamente aos dados de treino (incluindo ruído), mas não generaliza para dados novos.

### Como Identificar Overfitting?

1. Training error muito baixo (aproximadamente 1-5% de erro)
2. Test error muito alto (10x maior que training)
3. Gap grande entre training e test error
4. Curva de aprendizado: training continua caindo, test começa a subir

## 6. O Modelo Ideal - Just Right (Goldilocks)

### Características

- Baixo erro no training set
- Baixo erro no test set
- Gap pequeno entre os dois

### Exemplo Numérico

Modelo 3: Polinômio grau 2 $h(x) = \theta_0 + \theta_1 x + \theta_2 x^2$

Resultado:
- Training Error: 2.1
- Test Error: 2.8
- Gap: apenas 0.7

Perfeito! Captura o padrão real (quadrático) sem memorizar o ruído.

## 7. Bias-Variance Trade-off

### A Equação do Erro Total

$$\text{Erro Total} = \text{Bias}^2 + \text{Variance} + \text{Ruído Irredutível}$$

Onde:
- Bias²: erro por modelo muito simples
- Variance: erro por modelo muito sensível
- Ruído irredutível: erro inerente aos dados (não dá pra evitar)

### O Trade-off

![Bias-Variance Trade-off](../Assets/bias_variance_tradeoff/3.png)

### Relação Inversa

Aumentar complexidade:
- Bias diminui (captura padrões complexos)
- Variance aumenta (sensível ao ruído)
  
Diminuir complexidade:
- Bias aumenta (não captura padrões)
- Variance diminui (mais estável)

## 8. Como Diagnosticar o Problema?

### Comparar Erros

| Situação | Training Error | Test Error | Gap | Diagnóstico |
|----------|---------------|------------|-----|-------------|
| A        | 45%           | 47%        | 2%  | Underfitting (alto bias) |
| B        | 2%            | 3%         | 1%  | Just Right |
| C        | 1%            | 25%        | 24% | Overfitting (alta variance) |

## 9. Como Corrigir Underfitting (Alto Bias)?

### Soluções

### 1. Aumentar a Complexidade do Modelo

Antes:
```python
# Modelo muito simples
h(x) = θ₀ + θ₁x  # Reta
```

Depois:
```python
# Modelo mais complexo
h(x) = θ₀ + θ₁x + θ₂x²  # Parábola
```

### 2. Adicionar Mais Features

Antes:
```python
# Apenas 1 feature
X = [size]
```

Depois:
```python
# Múltiplas features
X = [size, bedrooms, age, location]
```

### 3. Feature Engineering

Criar features derivadas:
```python
# Features originais
x₁ = size

# Features derivadas
x₂ = size²
x₃ = size³
x₄ = sqrt(size)
```

### 4. Remover Regularização

Se você está usando regularização (λ), diminua ou remova:
```python
# Antes: λ muito alto
λ = 10  # Força modelo simples

# Depois: λ menor ou zero
λ = 0  # Permite modelo mais flexível
```

### 5. Treinar por Mais Tempo

Para redes neurais, aumente epochs:
```python
# Antes
epochs = 10  # Parou cedo

# Depois
epochs = 100  # Treinou mais
```

### Cuidado!

Ao corrigir underfitting, você pode causar overfitting. Monitore sempre o test error!

## 10. Como Corrigir Overfitting (Alta Variance)?

### Soluções

### 1. Coletar Mais Dados

A melhor solução! Mais dados ajudam o modelo a generalizar melhor.

Antes:
```python
m = 100  # Poucos exemplos
```

Depois:
```python
m = 10000  # Muitos exemplos
```

Por quê funciona? Com mais dados, o modelo não consegue "decorar" tudo, forçando-o a aprender padrões reais.

### 2. Reduzir Complexidade do Modelo

Antes:
```python
# Polinômio grau 10
h(x) = θ₀ + θ₁x + θ₂x² + ... + θ₁₀x¹⁰
```

Depois:
```python
# Polinômio grau 2
h(x) = θ₀ + θ₁x + θ₂x²
```

### 3. Regularização (L1 ou L2)

Adicionar penalidade aos pesos grandes:

L2 Regularization (Ridge):
$$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^{n} \theta_j^2$$

```python
# λ controla o quanto penalizamos
λ = 0.1   # Regularização moderada
λ = 1.0   # Regularização forte
λ = 10.0  # Regularização muito forte
```

L1 Regularization (Lasso):
$$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^{n} |\theta_j|$$

Efeito: Força os pesos $\theta$ a serem pequenos, tornando o modelo mais simples.

### 4. Feature Selection (Remover Features)

Antes:
```python
# Muitas features (20)
X = [size, bedrooms, age, location, ..., feature_20]
```

Depois:
```python
# Apenas features importantes (5)
X = [size, bedrooms, location, age, bathrooms]
```

### 5. Cross-Validation

Dividir dados em k-folds para validação:

![k-folds](../Assets/bias_variance_tradeoff/4.png)

## 11. Resumo - Tabela de Decisão

| Problema | Sintomas | Soluções |
|----------|----------|----------|
| Underfitting | Training error alto<br>Test error alto<br>Gap pequeno | 1. Aumentar complexidade do modelo<br>2. Adicionar mais features<br>3. Feature engineering<br>4. Diminuir regularização (λ)<br>5. Treinar mais tempo |
| Overfitting | Training error baixo<br>Test error alto<br>Gap grande | 1. Coletar mais dados<br>2. Reduzir complexidade do modelo<br>3. Adicionar regularização (L1/L2)<br>4. Remover features<br>5. Cross-validation |
| Just Right | Training error baixo<br>Test error baixo<br>Gap pequeno | Continue assim! |

## 12. Exemplo Prático Completo

### Dataset: Prever preço de casas

```python
# Dados
X_train: 80 casas
y_train: preços

X_test: 20 casas
y_test: preços
```

### Tentativa 1: Reta Simples

```python
modelo = LinearRegression()  # h(x) = θ₀ + θ₁x
```

Resultado:
- Training Error: 42%
- Test Error: 45%
- Diagnóstico: UNDERFITTING

Ação: Aumentar complexidade

### Tentativa 2: Polinômio Grau 2

```python
modelo = PolynomialRegression(degree=2)  # h(x) = θ₀ + θ₁x + θ₂x²
```

Resultado:
- Training Error: 5%
- Test Error: 8%
- Diagnóstico: JUST RIGHT

Ação: Sucesso! Modelo balanceado.

### Tentativa 3: Polinômio Grau 10

```python
modelo = PolynomialRegression(degree=10)
```

Resultado:
- Training Error: 0.5%
- Test Error: 45%
- Diagnóstico: OVERFITTING

Ação: Aplicar regularização

### Tentativa 4: Polinômio Grau 10 + Regularização

```python
modelo = Ridge(degree=10, alpha=1.0)  # α = λ (regularização)
```

Resultado:
- Training Error: 4%
- Test Error: 6%
- Diagnóstico: JUST RIGHT

Ação: Sucesso! Regularização resolveu.

## 13. Dicas Finais

### Boas Práticas

1. Sempre separe train/test (80/20 ou 70/30)
2. Use cross-validation para escolher hiperparâmetros
3. Comece simples, adicione complexidade gradualmente
4. Monitore ambos os erros (training e test)
5. Plote curvas de aprendizado para visualizar

### Erros Comuns

1. Não separar test set (treinar e testar nos mesmos dados)
2. Usar test set para ajustar modelo (data leakage)
3. Complexidade excessiva desde o início
4. Ignorar o training error (focar só no test)
5. Não usar regularização quando apropriado

---

Lembre-se:
_"O melhor modelo não é o que melhor se ajusta aos dados de treino, mas sim o que melhor generaliza para dados novos."_