Interpretación de MSE y R²

En este notebook vamos a explorar cómo interpretar dos métricas fundamentales para evaluar modelos de regresión: el Error Cuadrático Medio (MSE) y el Coeficiente de Determinación (R²). Analizaremos diferentes tipos de datos y compararemos modelos lineales y no lineales para ver cómo cambian estas métricas.

### Librerías utilizadas
- `numpy` y `pandas`: para manipulación de datos.
- `matplotlib.pyplot` y `seaborn`: para visualización.
- `sklearn`: para modelos y métricas de regresión.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score


### Paso 1: Generación de datasets simulados

In [None]:
np.random.seed(42)
n_samples = 200
X1 = np.random.uniform(0, 10, n_samples)
y1 = 2 * X1 + 3 + np.random.normal(0, 1, n_samples)
X2 = np.random.uniform(0, 10, n_samples)
y2 = 0.5 * X2 + 5 + np.random.normal(0, 4, n_samples)
X3 = np.random.uniform(0, 10, n_samples)
y3 = 0.5 * X3**2 - 2 * X3 + 8 + np.random.normal(0, 2, n_samples)
datasets = [(X1, y1, "Lineal Fuerte"), (X2, y2, "Lineal Débil"), (X3, y3, "No Lineal")]

## Paso 4: Entrenamiento del Modelo

In [None]:
def entrenar_regresion(X, y):
    """Entrena regresión lineal y retorna modelo y predicciones"""
    X_reshaped = X.reshape(-1, 1)
    model = LinearRegression()
    model.fit(X_reshaped, y)
    y_pred = model.predict(X_reshaped)
    return model, y_pred

# Entrenar modelos para cada dataset
modelos = []
predicciones = []

for X, y, nombre in datasets:
    modelo, y_pred = entrenar_regresion(X, y)
    modelos.append((modelo, nombre))
    predicciones.append((y, y_pred, nombre))

### Paso 3: Función para calcular métricas de evaluación

In [None]:
def calcular_metricas_detalladas(y_true, y_pred, nombre_modelo="Modelo"):
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_true, y_pred)
    ss_res = np.sum((y_true - y_pred) ** 2)
    ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)
    print(f"\n{nombre_modelo}:")
    print(f"  MSE: {mse:.3f}")
    print(f"  RMSE: {rmse:.3f}")
    print(f"  R²: {r2:.3f}")
    return {'mse': mse, 'rmse': rmse, 'r2': r2}

In [None]:
print("RESULTADOS DE REGRESIÓN LINEAL:")
for y_true, y_pred, nombre in predicciones:
    calcular_metricas_detalladas(y_true, y_pred, nombre)

RESULTADOS DE REGRESIÓN LINEAL:

Lineal Fuerte:
  MSE: 0.934
  RMSE: 0.966
  R²: 0.974

Lineal Débil:
  MSE: 16.103
  RMSE: 4.013
  R²: 0.135

No Lineal:
  MSE: 18.367
  RMSE: 4.286
  R²: 0.807
