# Ejemplo completo en Python (scikit-learn)

In [2]:
import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 1) Datos de ejemplo
X, y = make_regression(n_samples=500, n_features=3, noise=15, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 2) Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# 3) Predicciones
y_pred = model.predict(X_test)

# 4) Métricas
mse  = mean_squared_error(y_test, y_pred)            # MSE
rmse = np.sqrt(mse)                                 # RMSE
r2   = r2_score(y_test, y_pred)                      # R2 (equivale a model.score(X_test, y_test))

print(f"MSE : {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R^2 : {r2:.3f}")

# R^2 ajustado (opcional)
n = y_test.shape[0]
p = X_test.shape[1]
r2_adj = 1 - (1 - r2) * (n - 1) / (n - p - 1)
print(f"R^2 ajustado: {r2_adj:.3f}")


MSE : 213.12
RMSE: 14.60
R^2 : 0.981
R^2 ajustado: 0.980


# uso con validación cruzada (cross-validation)

In [3]:
from sklearn.model_selection import cross_val_score

# R2 (más alto es mejor)
scores_r2 = cross_val_score(model, X, y, scoring="r2", cv=5)

# MSE negativo (menos negativo = mejor). Convierte a MSE positivo:
scores_mse_neg = cross_val_score(model, X, y, scoring="neg_mean_squared_error", cv=5)
scores_mse = -scores_mse_neg

print("CV R^2:", scores_r2.mean(), "+/-", scores_r2.std())
print("CV MSE:", scores_mse.mean(), "+/-", scores_mse.std())


CV R^2: 0.9783037482308531 +/- 0.0013872488086474667
CV MSE: 224.09786534017266 +/- 13.695519405538116


## Interpretación práctica

MSE/RMSE: te dicen “cuánto te equivocas” en unidades de la variable objetivo (RMSE es más intuitivo por estar en las mismas unidades de
𝑦
y). Sensibles a outliers.

R²: te dice “qué fracción de la variabilidad explicas”.

~1: encaje muy bueno (cuidado con sobreajuste).

0: no mejor que predecir la media.

<0: peor que predecir la media.

No existen umbrales universales: compáralos entre modelos, entre configuraciones y con un baseline (por ejemplo, DummyRegressor que predice la media).