# Regresión Lineal con **scikit‑learn** y **statsmodels**
En este cuaderno veremos cómo ajustar un modelo de regresión lineal **sin** implementar manualmente el descenso por gradiente. Utilizaremos:

* [`scikit‑learn`](https://scikit-learn.org) – enfoque orientado a *machine learning*.
* [`statsmodels`](https://www.statsmodels.org) – enfoque clásico de *econometría/estadística*, que además muestra un resumen completo del modelo.

Trabajaremos con el mismo conjunto de datos sintético que usamos en el ejemplo del descenso por gradiente para que la comparación sea directa.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import statsmodels.api as sm

np.random.seed(42)

# Datos sintéticos: y = 3.5 x - 8 + ruido
true_w, true_b = 3.5, -8
X = np.linspace(0, 10, 100)
noise = np.random.normal(0, 2, size=X.shape)
y = true_w * X + true_b + noise

# Matriz 2‑D para scikit‑learn
X_2d = X.reshape(-1, 1)

## Visualización de los datos

In [None]:
plt.figure()
plt.scatter(X, y, s=20, alpha=0.6)
plt.title('Datos sintéticos')
plt.xlabel('X')
plt.ylabel('y')
plt.show()

## 1. Ajuste con **scikit‑learn**

In [None]:
# Instanciar y entrenar el modelo
linreg = LinearRegression()
linreg.fit(X_2d, y)

w_skl = linreg.coef_[0]
b_skl = linreg.intercept_

# Predicciones y métricas
y_pred_skl = linreg.predict(X_2d)
mse_skl = mean_squared_error(y, y_pred_skl)
r2_skl = r2_score(y, y_pred_skl)

print(f'Pendiente (w): {w_skl:.3f}')
print(f'Intercepto (b): {b_skl:.3f}')
print(f'MSE: {mse_skl:.3f}')
print(f'R^2: {r2_skl:.3f}')

In [None]:
# Gráfica de la recta ajustada
plt.figure()
plt.scatter(X, y, s=20, alpha=0.6, label='datos')
plt.plot(X, y_pred_skl, color='r', label='scikit‑learn')
plt.title('Recta ajustada con scikit‑learn')
plt.legend()
plt.show()

## 2. Ajuste con **statsmodels**

In [None]:
# Statsmodels requiere añadir la constante manualmente
X_sm = sm.add_constant(X)  # añade columna de 1s para el intercepto
model_sm = sm.OLS(y, X_sm).fit()

print(model_sm.summary())

In [None]:
# Predicciones de statsmodels (usamos el mismo X_sm)
y_pred_sm = model_sm.predict(X_sm)

# Gráfica comparativa
plt.figure()
plt.scatter(X, y, s=20, alpha=0.6, label='datos')
plt.plot(X, y_pred_sm, color='g', label='statsmodels')
plt.title('Recta ajustada con statsmodels')
plt.legend()
plt.show()

# Métricas
mse_sm = mean_squared_error(y, y_pred_sm)
r2_sm = r2_score(y, y_pred_sm)
print(f'MSE statsmodels: {mse_sm:.3f}')
print(f'R^2 statsmodels: {r2_sm:.3f}')

## 3. Comparación de resultados

In [None]:
print('--- Comparación rápida ---')
print(f'Pendiente scikit‑learn   : {w_skl:.3f}')
print(f'Pendiente statsmodels    : {model_sm.params[1]:.3f}')
print(f'Intercepto scikit‑learn : {b_skl:.3f}')
print(f'Intercepto statsmodels  : {model_sm.params[0]:.3f}')

print(f'R^2 scikit‑learn  : {r2_skl:.3f}')
print(f'R^2 statsmodels   : {r2_sm:.3f}')

**Conclusión:** Ambos métodos ofrecen prácticamente los mismos parámetros y métricas, pues internamente resuelven la regresión lineal por la fórmula cerrada de mínimos cuadrados. La diferencia principal es la interfaz:
* *scikit‑learn* se centra en pipelines y métricas de ML.
* *statsmodels* brinda un resumen estadístico completo con valores *p*, intervalos de confianza, etc.