* Underfitting (Subajuste):
  * O modelo é muito simples e não captura a complexidade dos dados.
  * Resulta em altos erros de treino e teste.
  * A curva ajustada não reflete a verdadeira tendência dos dados.

* Bom Ajuste:
  * O modelo captura a estrutura subjacente dos dados sem ajustar o ruído.
  * Apresenta erros de treino e teste baixos e semelhantes.
  * Generaliza bem para novos dados.

* Overfitting (Sobreajuste):
  * O modelo é muito complexo e captura o ruído presente nos dados de treino.
  * Resulta em erro de treino muito baixo, mas erro de teste alto.
  * A curva ajustada apresenta muitas oscilações não representativas da tendência real.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# Problema: Grau ideal do polinômio

In [None]:
# Gerar dados simulados
np.random.seed(0)
X = np.sort(np.random.rand(30, 1) * 10, axis=0)
y = np.sin(X).ravel()

# Adicionando ruído
y += 0.5 * np.random.randn(y.shape[0])

In [None]:
# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# Função para plotar o modelo
def plot_model(degree):
    # Transformação polinomial
    # Usamos PolynomialFeatures para criar características polinomiais com o grau especificado
    polynomial_features = PolynomialFeatures(degree=degree)
    X_train_poly = polynomial_features.fit_transform(X_train)
    X_test_poly = polynomial_features.transform(X_test)

    # Treinar o modelo
    #Ajustamos um modelo de regressão linear aos dados polinomiais transformados.
    model = LinearRegression()
    model.fit(X_train_poly, y_train)

    # Previsões
    X_plot = np.linspace(0, 10, 100).reshape(-1, 1)
    X_plot_poly = polynomial_features.transform(X_plot)
    y_plot = model.predict(X_plot_poly)

    # Calcular o erro
    y_train_pred = model.predict(X_train_poly)
    y_test_pred = model.predict(X_test_poly)
    train_error = mean_squared_error(y_train, y_train_pred)
    test_error = mean_squared_error(y_test, y_test_pred)

    # Plot
    plt.figure(figsize=(10,6))
    plt.scatter(X_train, y_train, color='blue', label='Dados de Treino')
    plt.scatter(X_test, y_test, color='red', label='Dados de Teste')
    plt.plot(X_plot, y_plot, color='green', label='Modelo (Grau {})'.format(degree))
    plt.title('Grau do Polinômio: {}\nErro de Treino: {:.2f} | Erro de Teste: {:.2f}'.format(degree, train_error, test_error))
    plt.xlabel('X')
    plt.ylabel('y')
    plt.legend()
    plt.show()

In [None]:
# Exemplo de uso com diferentes graus
# Graus 1 (underfitting), 4 (bom ajuste) e 15 (overfitting)





In [None]:
#!pip install ipywidgets

In [None]:
from google.colab import output
from ipywidgets import interact
output.enable_custom_widget_manager()

@interact(degree=(1, 20))
def interactive_plot(degree=3):
    plot_model(degree)

Perguntas para Reflexão:

* O que acontece com o erro de teste quando aumentamos o grau do polinômio além de um certo ponto?
* Por que um modelo com erro de treino muito baixo pode não ser o melhor em dados novos?
* Como podemos escolher o grau ideal do polinômio?
* Qual é o impacto do overfitting em modelos preditivos?
* Como a qualidade dos dados afeta os resultados em Machine Learning?

