In [None]:
import torch
import torch.nn as nn

device = "cuda" if torch.cuda.is_available() else "cpu"
torch.manual_seed(0)

# === 1. Datos de entrada ===
X = torch.tensor([
    [2.0, 1.0],   # muestra 1
    [5.0, 1.0],   # muestra 2
    [1.0, 3.0]    # muestra 3
], device=device)

# === 2. Etiquetas verdaderas (objetivos) ===
# Digamos que la salida esperada (regresión simple) es:
y_true = torch.tensor([[5.0], [10.0], [7.0]], device=device)

# === 3. Pesos y bias iniciales (entrenables) ===
W = torch.tensor([[0.5, 1.0]], device=device, requires_grad=True)  # (1, 2)
b = torch.tensor([0.0], device=device, requires_grad=True)          # (1,)

# === 4. Definir la función de pérdida ===
loss_fn = nn.MSELoss()

print("Formas:")
print("X:", X.shape, "| W:", W.shape, "| b:", b.shape, "| y_true:", y_true.shape)


Formas:
X: torch.Size([3, 2]) | W: torch.Size([1, 2]) | b: torch.Size([1]) | y_true: torch.Size([3, 1])


## Aplicando (!Stochastic) Gradient Descent

Minimizamos el error de MSE

In [2]:
#=== 5. Definir el optimizador ===
#aqui usamos SGD (gradiente descendente estocástico) 
# con una tasa de aprendizaje de 0.05
# estocastico = aleatorio
# el GD que no es estocastico usa todo el dataset para actualizar los pesos
# pero es menos eficiente computacionalmente

#De todas formas aqui no estamos usando mini-batches,
# asi que en este caso SGD y GD serian equivalentes
# NO HAY ALEATORIEDAD EN ESTE EJEMPLO
#PARA ELLO TENDRIAMOS QUE USAR MINI-BATCHES (MAS ADELANTE)

#Se suele usar aleatoriedad porque
#se corre el riesgo de quedar atrapado en minimos locales

# Usar SGD sin definir mini-batches, es usar GD.

optimizer = torch.optim.SGD([W, b], lr=0.05)


In [None]:
# === 6. Un paso de entrenamiento manual (Forward + Backward + Step) ===

# 1. Reiniciamos los gradientes acumulados (por seguridad)
optimizer.zero_grad()

# 2. Forward: calcular las predicciones actuales
y_pred = X @ W.T + b

# 3. Calcular la pérdida (error actual)
loss = loss_fn(y_pred, y_true)

print(f"Pérdida antes de actualizar: {loss.item():.4f}")

# 4. Backward: calcular gradientes de la pérdida respecto a W y b
loss.backward()

print("\nGradientes calculados:")
print("dL/dW =", W.grad)
print("dL/db =", b.grad)


# 5. Step: aplicar la actualización (mover los pesos)
optimizer.step()

y_pred_new = X @ W.T + b
loss_new = loss_fn(y_pred_new, y_true)
print(f"\nPérdida después de actualizar: {loss_new.item():.4f}")


print("\nNuevos valores de W y b después del paso:")
print("W =", W.data)
print("b =", b.data)


Pérdida antes de actualizar: 21.1667
21.166667938232422

Gradientes calculados:
dL/dW = tensor([[-28.0000, -13.3333]], device='cuda:0')
dL/db = tensor([-8.6667], device='cuda:0')
21.166667938232422

Nuevos valores de W y b después del paso:
W = tensor([[1.9000, 1.6667]], device='cuda:0')
b = tensor([0.4333], device='cuda:0')
21.166667938232422
