## Problema

En este ejercicio usaremos el dataset load_diabetes(), que contiene 442 muestras de pacientes, cada una con 10 variables numéricas (por ejemplo: edad, sexo, índice de masa corporal, etc.), y una variable objetivo continua: una medida cuantitativa de progresión de la diabetes.

### Importar librerías

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_diabetes
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

### Cargar el dataset

In [None]:
data = load_diabetes()
X = data.data  # características
y = data.target  # variable objetivo (progresión de la enfermedad)

### Parámetros de entrenamiento

In [None]:
# Usaremos solo una variable para facilitar visualización (por ejemplo, la variable 2: BMI -> Body Mass Index o índice de masa corporal)
X = X[:, 2].reshape(-1, 1)  # reshape para mantener forma matricial

# Escalar o normalizar la variable objetivo (opcional pero útil para estabilidad numérica)
scaler_y = StandardScaler()
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1)).flatten()

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y_scaled, test_size=0.2, random_state=42)

# Inicializar parámetros del modelo
w = 0.0  # peso
b = 0.0  # sesgo
learning_rate = 0.1
epochs = 100
n = len(X_train)
losses = []

### Entrenamiento con gradiente descendente estocástico (SGD)

In [None]:
for epoch in range(epochs):
    indices = np.random.permutation(n)  # Se barajan aleatoriamente los índices de los datos en cada época (importante en SGD)

    for i in indices:  # Se recorre cada muestra individualmente (uno por uno)
        xi = X_train[i]      # Entrada i-ésima
        yi = y_train[i]      # Salida/valor real correspondiente

        # Predicción con los parámetros actuales
        y_pred = w * xi + b

        error = y_pred - yi  # Error entre la predicción y el valor real

        # Derivadas del error cuadrático con respecto a w y b para un solo ejemplo
        dw = 2 * xi * error
        db = 2 * error

        # Actualización de los parámetros (peso y sesgo)
        w -= learning_rate * dw
        b -= learning_rate * db

    # Calcular y guardar pérdida (MSE) al final de cada época
    y_pred_total = w * X_train + b
    loss = np.mean((y_pred_total - y_train) ** 2)
    losses.append(loss)

    if epoch % 10 == 0 or epoch == 99:
      print(f"Época {epoch}: w = {w.item():.4f}, b = {b.item():.4f}, Loss = {loss.item():.4f}")

# Mostrar modelo final
print(f"\nModelo final: y = {w.item():.4f}x + {b.item():.4f}")

### Graficar resultados

In [None]:
plt.figure(figsize=(14, 5))

plt.subplot(1, 2, 1)
plt.scatter(X_train, y_train, label="Datos reales", alpha=0.7)
plt.plot(X_train, w * X_train + b, color="red", label="Modelo ajustado (SGD)")
plt.xlabel('Índice de masa corporal (escalado)')
plt.ylabel('Progresión (escalada)')
plt.title("Regresión lineal con Gradiente Descendente Estocástico")
plt.legend()
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(losses)
plt.xlabel('Épocas')
plt.ylabel('MSE')
plt.title('Evolución de la pérdida durante el entrenamiento')
plt.grid(True)

plt.tight_layout()
plt.show()