# Separação de bases

## Medindo a Qualidade do Modelo

### O que significa “qualidade do modelo”?

Qualidade, nesse contexto, é o quão bem um modelo consegue fazer previsões corretas. Um modelo de boa qualidade é aquele que consegue generalizar, ou seja, que não apenas aprende os dados específicos de treino, mas que também faz boas previsões para novos dados.

## Separação de Bases

### Por que Separar Dados em Treino e Teste?

Em vez de treinar o modelo com todos os dados de uma vez, dividimos os dados em duas partes:

Dados de Treino: para ensinar o modelo, ou seja, mostrar os exemplos para que ele aprenda.

Dados de Teste: para ver como o modelo se comporta em dados novos que ele não viu durante o treino.

### Como isso ajuda?

Ao usar dados de teste, conseguimos ver se o modelo aprendeu padrões úteis ou se ele apenas “memorizou” os dados de treino, o que não é bom, pois o modelo não generaliza.

### Erro Quadrático Médio (MSE)

Uma das formas mais comuns de medir a qualidade do modelo é através de uma métrica chamada Mean Squared Error (Erro Quadrático Médio).

#### O que isso significa?

O MSE nos diz, em média, o quanto as previsões do modelo estão “errando” em relação aos valores reais. O MSE calcula a média das diferenças entre valores reais e previstos, elevadas ao quadrado (para garantir que os erros positivos e negativos não se cancelem).

Imagine que temos um modelo que prevê o preço de casas e que fizemos algumas previsões. Vamos comparar os preços reais e previstos:

Preços reais: [300,000; 450,000; 200,000]

Preços previstos: [310,000; 460,000; 190,000]

Aplicando a fórmula do MSE para esses valores, veremos o quanto em média o modelo está errando.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
import numpy as np

# Gerando dados de exemplo (só para simplificar)
X, y = make_regression(n_samples=100, n_features=1, noise=10)

# Dividindo dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Avaliando o erro no treino e no teste
y_pred_train = modelo.predict(X_train)
y_pred_test = modelo.predict(X_test)

# Calculando o MSE manualmente
mse_train = np.mean((y_train - y_pred_train) ** 2)
mse_test = np.mean((y_test - y_pred_test) ** 2)

print(f"MSE de Treino: {mse_train}")
print(f"MSE de Teste: {mse_test}")


## Erro de Treino vs. Erro de Teste e Ajustes do Modelo

### Comparando o Erro no Treino e no Teste

#### Por que comparar?

Quando olhamos para o erro de treino e de teste, conseguimos entender como o modelo se comporta em relação aos dados que aprendeu e aos dados novos. Um bom modelo terá um erro de teste próximo ao de treino.
O que pode dar errado?

#### que pode dar errado?

Se o erro de treino é muito baixo e o erro de teste é muito alto, isso pode indicar overfitting.

Se o erro de treino é alto e o de teste também, isso pode indicar underfitting.

### Conceitos de Overfitting e Underfitting

#### Overfitting (Superajuste)

Quando o modelo aprende demais os detalhes dos dados de treino, incluindo os “ruídos” e exceções. Assim, ele não consegue generalizar bem para novos dados, o que gera um erro alto no teste.

Imagine que estamos ajustando uma linha em um gráfico de pontos. Um modelo com overfitting pode se parecer com uma linha extremamente ondulada, passando por quase todos os pontos, mas sem seguir o padrão geral dos dados.

#### Underfitting (Subajuste)

Quando o modelo é muito simples e não consegue capturar os padrões dos dados. Isso resulta em erros altos tanto no treino quanto no teste, pois ele não aprende nem memoriza os dados.

Imagine o mesmo gráfico com pontos, mas agora o modelo é uma linha reta que passa pelo meio, ignorando que os dados são curvos.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Gerando dados de exemplo (só para simplificar)
X, y = make_regression(n_samples=100, n_features=1, noise=10)

# Dividindo dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Primeiro Script: Plotagem do Trade-Off entre Viés e Variância
complexidade = np.arange(1, 15)
erro_treino = [1/i for i in complexidade]  # Exemplo de erro de treino
erro_teste = [0.05 * i + (1/i) for i in complexidade]  # Exemplo de erro de teste

plt.plot(complexidade, erro_treino, label="Erro de Treino")
plt.plot(complexidade, erro_teste, label="Erro de Teste")
plt.xlabel("Complexidade do Modelo")
plt.ylabel("Erro")
plt.legend()
plt.title("Trade-Off entre Viés e Variância")
plt.show()

# Segundo Script: Comparação do MSE para Diferentes Graus de Modelos Polinomiais
graus = [1, 3, 10]
for grau in graus:
    # Criando um pipeline para pré-processar os dados e aplicar regressão polinomial
    modelo = make_pipeline(PolynomialFeatures(grau), LinearRegression())
    modelo.fit(X_train, y_train)  # Treinando o modelo com os dados de treino

    # Fazendo previsões para o treino e para o teste
    y_pred_train = modelo.predict(X_train)
    y_pred_test = modelo.predict(X_test)

    # Calculando o MSE manualmente
    mse_train = np.mean((y_train - y_pred_train) ** 2)
    mse_test = np.mean((y_test - y_pred_test) ** 2)

    # Exibindo os resultados
    print(f"Grau {grau}:")
    print(f"MSE de Treino: {mse_train}")
    print(f"MSE de Teste: {mse_test}")


## Viés e Variância e o Trade-Off

### Entendendo Viés e Variância

#### Viés

Refere-se a erros que surgem quando um modelo é muito simples para capturar o padrão nos dados, levando a previsões imprecisas tanto nos dados de treino quanto nos de teste. Modelos com alto viés podem generalizar demais, ignorando detalhes específicos dos dados, levando ao underfitting.

#### Variância

Refere-se a erros que surgem quando um modelo é muito complexo e se ajusta muito bem aos dados de treino, capturando até os ruídos. Isso significa que, embora o modelo tenha bom desempenho nos dados de treino, ele pode ter um desempenho ruim em novos dados, pois não consegue generalizar bem e fica vulnerável ao overfitting.

### O “Trade-Off” entre Viés e Variância

"Trade-off" refere-se a uma situação em que é necessário fazer uma escolha entre dois fatores que são conflitantes: melhorar um deles implica sacrificar, em alguma medida, o outro. Em outras palavras, um trade-off é uma troca entre duas características que não podem ser maximizadas ao mesmo tempo.

#### No trade-off entre viés e variância

Aumentar a complexidade do modelo tende a reduzir o viés, mas aumenta a variância, pois o modelo se ajusta demais aos dados de treino (overfitting).

Reduzir a complexidade diminui a variância, mas aumenta o viés, pois o modelo se torna simples demais para capturar os padrões nos dados (underfitting).

O objetivo é encontrar o ponto de equilíbrio em que o modelo não seja nem muito simples nem muito complexo, ou seja, um modelo que minimize o erro geral ao encontrar um bom trade-off entre viés e variância.

#### Como equilibrar?

O segredo é escolher um modelo com uma complexidade “moderada” que reduza o erro no teste sem exagerar no ajuste aos dados de treino.

In [None]:
import matplotlib.pyplot as plt  # Importa a biblioteca matplotlib para plotagem de gráficos
import numpy as np  # Importa a biblioteca NumPy para manipulação de arrays e cálculos matemáticos

# Define a complexidade do modelo como uma sequência de valores de 1 a 14
complexidade = np.arange(1, 15)

# Simula o erro de treino inversamente proporcional à complexidade
# Com modelos mais complexos, o erro de treino tende a diminuir
erro_treino = [1/i for i in complexidade]  # Exemplo de erro de treino

# Simula o erro de teste considerando tanto o viés quanto a variância
# O erro de teste geralmente aumenta com a complexidade devido ao overfitting
erro_teste = [0.05 * i + (1/i) for i in complexidade]  # Exemplo de erro de teste

# Cria o gráfico para visualizar os erros
plt.plot(complexidade, erro_treino, label="Erro de Treino")  # Plota o erro de treino
plt.plot(complexidade, erro_teste, label="Erro de Teste")  # Plota o erro de teste

# Define os rótulos dos eixos
plt.xlabel("Complexidade do Modelo")  # Rótulo para o eixo x
plt.ylabel("Erro")  # Rótulo para o eixo y

# Adiciona uma legenda para identificar as curvas no gráfico
plt.legend()

# Define o título do gráfico
plt.title("Trade-Off entre Viés e Variância")  # Título do gráfico

# Exibe o gráfico
plt.show()
