# Avaliação de Modelos de Regressão
Este notebook demonstra como calcular e interpretar as métricas MSE (Mean Squared Error), RMSE (Root Mean Squared Error) e R² (Coeficiente de Determinação) para avaliar a performance de modelos de regressão.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

## Passo 2: Criando o Conjunto de Dados

In [2]:
# Gerando dados
np.random.seed(0)
X = np.random.rand(100, 1) * 10  # Features
y = 2 * X + 1 + np.random.randn(100, 1) * 2  # Target variable with some noise

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Passo 3: Treinando o Modelo de Regressão Linear

In [3]:
# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

## Passo 4: Fazendo Predições

In [4]:
# Realizando predições no conjunto de teste
y_pred = modelo.predict(X_test)

## Passo 5: Avaliando o Modelo

In [5]:
# Calculando MSE e RMSE
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

# Calculando R²
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")

## Passo 6: Interpretando as Métricas

Após a execução do código acima, você terá os valores de MSE, RMSE e R². Aqui está como você pode interpretá-los:

- **MSE (Mean Squared Error):** Representa a média dos quadrados dos erros. Quanto menor, melhor o modelo em prever os dados. É sensível a outliers, pois penaliza mais erros maiores.
- **RMSE (Root Mean Squared Error):** É a raiz quadrada do MSE. Oferece uma medida de qualidade do modelo na mesma unidade que a variável de resposta. Assim como o MSE, quanto menor, melhor.
- **R² (Coeficiente de Determinação):** Indica a proporção da variância na variável dependente que é previsível a partir das variáveis independentes. Varia entre 0 e 1, onde valores mais próximos de 1 indicam um melhor ajuste do modelo aos dados.

Um R² alto não garante que o modelo seja o mais adequado, especialmente se o modelo estiver superajustado (overfitting).

## Passo 7: Visualizando a Linha de Regressão

In [6]:
plt.scatter(X_test, y_test, color='black', label='Dados Reais')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Linha de Regressão')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Regressão Linear')
plt.legend()
plt.show()