In [16]:
# Original: https://www.youtube.com/watch?v=Ni1ViB1Ezjs&ab_channel=MakeesyAI
import torch
from torch import nn

In [17]:
# Simulo la salida del modelo con batch size = 3 y 5 clases.

# El requires_grad simula como si estuvieramos entrenando un modelo
prediction = torch.rand(3, 5, requires_grad=True) 
print(prediction.size(), prediction.dtype)
print(prediction)

torch.Size([3, 5]) torch.float32
tensor([[0.9151, 0.5766, 0.5051, 0.2546, 0.0586],
        [0.5249, 0.0180, 0.0798, 0.6809, 0.7786],
        [0.1046, 0.9778, 0.3505, 0.1764, 0.3485]], requires_grad=True)


In [18]:
# Simulo las salidas esperadas de cada elemento del batch.
# Para el primer elemento le corresponde 0, al segundo 1 y al tercero 4.
target = torch.tensor([0, 1, 4])
print(target.size(), target.dtype)
print(target)

torch.Size([3]) torch.int64
tensor([0, 1, 4])


In [19]:
log_softmax = nn.LogSoftmax(dim=-1) # El dim=-1 es para que siempre opere por las salidas del modelo.
loss_fn_nll = nn.NLLLoss()
loss_fn_ce = nn.CrossEntropyLoss()

In [20]:
loss_nll = loss_fn_nll(log_softmax(prediction), target) # Tenemos que aplicar log softmax
loss_ce = loss_fn_ce(prediction, target) # Cross Entropy aplica softmax

# Obtenemos el loss como si estuvieramos entrenando
loss_nll.backward()
loss_ce.backward()

# Imprimos la pérdida
print(loss_nll)
print(loss_ce)

# Curiosamente ambas usan el mismo método para hacer la propagación del error.

tensor(1.6531, grad_fn=<NllLossBackward0>)
tensor(1.6531, grad_fn=<NllLossBackward0>)


In [43]:
# Extra BCELoss vs BCEWithLogitsLoss 

torch.random.manual_seed(0)

prediction = torch.rand(3, 1, requires_grad=True) # Solo dos clases
print(prediction.size(), prediction.dtype)
print(prediction)

torch.Size([3, 1]) torch.float32
tensor([[0.4963],
        [0.7682],
        [0.0885]], requires_grad=True)


In [50]:
target = torch.tensor([0, 1, 0]).unsqueeze(1).float()
print(target.size(), target.dtype)
print(target)

torch.Size([3, 1]) torch.float32
tensor([[0.],
        [1.],
        [0.]])


In [51]:
sigmoid = nn.Sigmoid() 
loss_fn_bce = nn.BCELoss()
loss_fn_bcewl = nn.BCEWithLogitsLoss() # Esta aplica sigmoid 

In [52]:
loss_bce = loss_fn_bce(sigmoid(prediction), target) # Tenemos que aplicar sigmoid
loss_bcewl = loss_fn_bcewl(prediction, target)

# Obtenemos el loss como si estuvieramos entrenando
loss_bce.backward()
loss_bcewl.backward()

# Imprimos la pérdida
print(loss_bce)
print(loss_bcewl)

tensor(0.6971, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.6971, grad_fn=<BinaryCrossEntropyWithLogitsBackward0>)
