# Funciones de pérdida

Aunque hay muchas más, vamos a ver las funciones de pérdida más comunes

## L1

```python
torch.nn.L1loss(size_average=None, reduce=None, reduction='mean')
```

Calcula el error absoluto

$ l\left(x,y\right) = \left[l_1,...,l_N\right]^T $, donde $l_n = \left|x_n-y_n\right|$

`reduction` usa por defecto ``'mean'``, pero puede también usar ``'sum'`` y ``'none'``. Los parámetros ``size_average`` y ``reduce`` están obsoletos y Pytorch recomienda no usarlos y solo usar ``reduction``

Cuando en ``reduction`` se usa ``'mean'`` se hace una media de todos los errores, cuando se usa ``'sum'`` se hace la suma de todos los errores y cuando se usa ``'none'`` no se hace nada

Vamos a verlo

Creamos lo que sería la predicción de la red neuronal

In [1]:
import torch

preds = torch.rand(3, 5, requires_grad=True)
preds

tensor([[0.2791, 0.5998, 0.5164, 0.8278, 0.5011],
        [0.3532, 0.6893, 0.1909, 0.3920, 0.8956],
        [0.2637, 0.1896, 0.1320, 0.6258, 0.6567]], requires_grad=True)

Creamos lo que sería la verdadera salida

In [2]:
target = torch.rand(3, 5)
target

tensor([[0.8515, 0.4888, 0.0135, 0.0746, 0.9642],
        [0.8065, 0.9731, 0.5105, 0.0795, 0.0852],
        [0.2918, 0.7933, 0.2819, 0.1884, 0.8006]])

Definimos la función de coste con `reduction` con su valor predeterminado, es decir, `mean` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [3]:
loss = torch.nn.L1Loss(size_average=None, reduce=None, reduction='mean') # Predeterminado

loss_fn = loss(preds, target)
my_loss = abs(preds - target).mean()

loss_fn.item(), my_loss.item()

(0.3963553309440613, 0.3963553309440613)

Definimos la función de coste ahora con `reduction` con valor `sum` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [4]:
loss = torch.nn.L1Loss(size_average=None, reduce=None, reduction='sum')

loss_fn = loss(preds, target)
my_loss = abs(preds - target).sum()

loss_fn.item(), my_loss.item()

(5.9453301429748535, 5.9453301429748535)

Definimos la función de coste ahora con `reduction` con valor `none` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [5]:
loss = torch.nn.L1Loss(size_average=None, reduce=None, reduction='none')

loss_fn = loss(preds, target)
my_loss = abs(preds - target)

loss_fn, my_loss

(tensor([[0.5724, 0.1111, 0.5029, 0.7532, 0.4632],
         [0.4533, 0.2838, 0.3196, 0.3124, 0.8104],
         [0.0282, 0.6037, 0.1498, 0.4374, 0.1439]], grad_fn=<L1LossBackward0>),
 tensor([[0.5724, 0.1111, 0.5029, 0.7532, 0.4632],
         [0.4533, 0.2838, 0.3196, 0.3124, 0.8104],
         [0.0282, 0.6037, 0.1498, 0.4374, 0.1439]], grad_fn=<AbsBackward0>))

## MSE

```python
torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean')
```

Calcula el error cuadrático

$ l\left(x,y\right) = \left[l_1,...,l_N\right]^T $, donde $l_n = \left(x_n-y_n\right)^2$

`reduction` usa por defecto ``'mean'``, pero puede también usar ``'sum'`` y ``'none'``. Los parámetros ``size_average`` y ``reduce`` están obsoletos y Pytorch recomienda no usarlos y solo usar ``reduction``

Cuando en ``reduction`` se usa ``'mean'`` se hace una media de todos los errores, cuando se usa ``'sum'`` se hace la suma de todos los errores y cuando se usa ``'none'`` no se hace nada

Vamos a verlo

Creamos lo que sería la predicción de la red neuronal

In [6]:
import torch

preds = torch.rand(3, 5, requires_grad=True)
preds

tensor([[0.5656, 0.6230, 0.8973, 0.8248, 0.6337],
        [0.9425, 0.8919, 0.8190, 0.1976, 0.5075],
        [0.7758, 0.3876, 0.1820, 0.7449, 0.9184]], requires_grad=True)

Creamos lo que sería la verdadera salida

In [7]:
target = torch.rand(3, 5)
target

tensor([[8.2189e-01, 4.8484e-01, 4.3797e-01, 5.2775e-01, 1.2581e-01],
        [8.9683e-01, 5.6446e-01, 4.3690e-01, 8.6725e-05, 3.3498e-01],
        [3.2481e-01, 4.5485e-01, 9.4556e-01, 2.8550e-01, 6.8176e-01]])

Definimos la función de coste con `reduction` con su valor predeterminado, es decir, `mean` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [8]:
loss = torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean') # Predeterminado

loss_fn = loss(preds, target)
my_loss = ((preds - target)**2).mean()

loss_fn.item(), my_loss.item()

(0.13492344319820404, 0.13492344319820404)

Definimos la función de coste ahora con `reduction` con valor `sum` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [9]:
loss = torch.nn.MSELoss(size_average=None, reduce=None, reduction='sum')

loss_fn = loss(preds, target)
my_loss = ((preds - target)**2).sum()

loss_fn.item(), my_loss.item()

(2.0238516330718994, 2.0238516330718994)

Definimos la función de coste ahora con `reduction` con valor `none` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [10]:
loss = torch.nn.MSELoss(size_average=None, reduce=None, reduction='none')

loss_fn = loss(preds, target)
my_loss = (preds - target)**2

loss_fn, my_loss

(tensor([[0.0657, 0.0191, 0.2110, 0.0883, 0.2579],
         [0.0021, 0.1072, 0.1460, 0.0390, 0.0297],
         [0.2033, 0.0045, 0.5830, 0.2110, 0.0560]], grad_fn=<MseLossBackward0>),
 tensor([[0.0657, 0.0191, 0.2110, 0.0883, 0.2579],
         [0.0021, 0.1072, 0.1460, 0.0390, 0.0297],
         [0.2033, 0.0045, 0.5830, 0.2110, 0.0560]], grad_fn=<PowBackward0>))

## Binary cross entropy

```python
torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')
```

Calcula la entropía cruzada binaria entre lo predicho por la red y el target. Es útil cuando se entrena un problema de 2 clases

Si se proporciona, el argumento opcional `weight` debe ser un tensor 1D que asigne peso a cada una de las clases. Esto es particularmente útil cuando se tiene un conjunto de entrenamiento desbalanceado.

Se calcula como

$$l_n = -\omega_n\left[y_n·log\left(x_n\right) + \left(1-y_n\right)·log\left(1-x_n\right) \right]$$

Donde $l_n$ es la loss para cada clase, $\omega_n$ corresponde al valor del peso explicado en el párrafo anterior, $y_n$ corresponde al target y $x_n$ a lo predicho por el modelo

`reduction` usa por defecto ``'mean'``, pero puede también usar ``'sum'`` y ``'none'``. Los parámetros ``size_average`` y ``reduce`` están obsoletos y Pytorch recomienda no usarlos y solo usar ``reduction``

Cuando en ``reduction`` se usa ``'mean'`` se hace una media de todos los errores, cuando se usa ``'sum'`` se hace la suma de todos los errores y cuando se usa ``'none'`` no se hace nada

Hay que tener en cuenta que tanto $x$ como $y$ tienen que tener valores entre 0 y 1

También hay que tener en cuenta que si $x_n$ vale 0 o 1 vamos a tener el caso de $log\left(0\right) = - \infty$. Esto no es deseable por dos razones

 * Como $y_n$ va a ser 0 o 1, entonces vamos a tener $y_n = 0$ o $\left(1 - y_n\right) = 0$. Es decir, vamos a tener una multiplicación de $0$ por $\infty$
 * Si tenemos un valor de $\infty$ en la función de pérdida vamos a tener también un valor de $\infty$ en el gradiente, de manera que cuando vayamos a actualizar los parámetros de la red vamos a tener problemas

Vamos a verlo

Creamos lo que sería la predicción de la red neuronal

In [11]:
import torch

logits = torch.randn(3, requires_grad=True)
logits

tensor([-0.6786, -1.4587,  0.0754], requires_grad=True)

Ahora tenemos que crear probabilidades a partir de estos valores, por lo que usamos la función `Sigmoid`

In [12]:
def my_sigmoid(x):
    return 1 / (1 + torch.exp(-x))

pytorch_sigmoid = torch.nn.Sigmoid()

In [13]:
my_preds = my_sigmoid(logits)
pytorch_preds = pytorch_sigmoid(logits)

my_preds, pytorch_preds

(tensor([0.3366, 0.1887, 0.5188], grad_fn=<MulBackward0>),
 tensor([0.3366, 0.1887, 0.5188], grad_fn=<SigmoidBackward0>))

Creamos lo que sería la verdadera salida

In [14]:
target = torch.empty(3).random_(2)
target

tensor([1., 0., 0.])

Creamos también la matriz de pesos para cuando la queramos usar

In [15]:
weight = torch.empty(3).random_(100)
weight

tensor([53., 82., 37.])

Definimos la función de coste con `reduction` con su valor predeterminado, es decir, `mean` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [16]:
loss = torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean') # Predeterminado

loss_fn = loss(pytorch_preds, target)
my_loss = (-(target*torch.log(my_preds) + (1-target)*torch.log(1-my_preds))).mean()

loss_fn, my_loss

(tensor(0.6765, grad_fn=<BinaryCrossEntropyBackward0>),
 tensor(0.6765, grad_fn=<MeanBackward0>))

Definimos la función de coste ahora con `reduction` con valor `sum` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [17]:
loss = torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='sum')

loss_fn = loss(pytorch_preds, target)
my_loss = (-(target*torch.log(my_preds) + (1-target)*torch.log(1-my_preds))).sum()

loss_fn.item(), my_loss.item()

(2.0295441150665283, 2.0295441150665283)

Definimos la función de coste ahora con `reduction` con valor `none` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [18]:
loss = torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='none')

loss_fn = loss(pytorch_preds, target)
my_loss = -(target*torch.log(my_preds) + (1-target)*torch.log(1-my_preds))

loss_fn, my_loss

(tensor([1.0889, 0.2091, 0.7315], grad_fn=<BinaryCrossEntropyBackward0>),
 tensor([1.0889, 0.2091, 0.7315], grad_fn=<NegBackward0>))

Vemos ahora el efecto de meter la matriz de pesos

In [19]:
loss = torch.nn.BCELoss(weight=weight, size_average=None, reduce=None, reduction='none')

loss_fn = loss(pytorch_preds, target)
my_loss = -weight*(target*torch.log(my_preds) + (1-target)*torch.log(1-my_preds))

loss_fn, my_loss

(tensor([57.7129, 17.1440, 27.0672], grad_fn=<BinaryCrossEntropyBackward0>),
 tensor([57.7129, 17.1440, 27.0672], grad_fn=<MulBackward0>))

## Binary cross entropy with logits

```python
torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='mean', pos_weight=None)
```

Esta pérdida combina una capa Sigmoide y la BCELoss en una sola clase. Esta versión es más estable numéricamente que usar un Sigmoide simple seguida de BCELoss ya que, al combinar las operaciones en una sola capa, aprovechamos el truco log-sum-exp para la estabilidad numérica.

Es útil cuando se entrena un problema de clasificación con 2 clases. Si se proporciona, el argumento opcional `weight` debe ser un tensor 1D que asigne peso a cada una de las clases. Esto es particularmente útil cuando se tiene un conjunto de entrenamiento desbalanceado.

$$l_n = -\omega_n\left[y_n·log\left(\sigma\left(x_n\right)\right) + \left(1-y_n\right)·log\left(1-\sigma\left(x_n\right)\right) \right]$$

Donde $l_n$ es la loss para cada clase, $\omega_n$ corresponde al valor del peso explicado en el párrafo anterior, $y_n$ corresponde al target y $x_n$ a lo predicho por el modelo

`reduction` usa por defecto ``'mean'``, pero puede también usar ``'sum'`` y ``'none'``. Los parámetros ``size_average`` y ``reduce`` están obsoletos y Pytorch recomienda no usarlos y solo usar ``reduction``

Cuando en ``reduction`` se usa ``'mean'`` se hace una media de todos los errores, cuando se usa ``'sum'`` se hace la suma de todos los errores y cuando se usa ``'none'`` no se hace nada

Hay que tener en cuenta que tanto $x$ como $y$ tienen que tener valores entre 0 y 1

Es posible compensar el recall y la precisión agregando pesos a los ejemplos positivos.

$ l\left(x,y\right) = \left[l_1,...,l_N\right]^T $, donde $l_n = -\omega_n\left[p·y_n·log\left(\sigma\left(x_n\right)\right) + \left(1-y_n\right)·log\left(1-\sigma\left(x_n\right)\right) \right]$

p>1 aumenta el recall, mientars que p<1 aumenta la precisión.

Por ejemplo, si un conjunto de datos contiene 100 ejemplos positivos y 300 negativos de una sola clase, entonces pos_weight para la clase debe ser igual a $\frac{300}{100}=3$. La pérdida actuaría como si el conjunto de datos contuviera $3×100=300$ ejemplos positivos.

Vamos a verlo

Creamos lo que sería la predicción de la red neuronal

In [20]:
import torch

logits = torch.randn(3, requires_grad=True)
logits

tensor([-0.2686,  0.1552,  1.0885], requires_grad=True)

Ya no tenemos que calcular las probabilidades

Creamos lo que sería la verdadera salida

In [21]:
target = torch.empty(3).random_(2)
target

tensor([1., 0., 0.])

Creamos también la matriz de pesos para cuando la queramos usar

In [22]:
weight = torch.empty(3).random_(100)
weight

tensor([70., 94., 22.])

Creamos la matriz de pesos positivos para cuando la queramos usar

In [23]:
pos_weight = torch.ones([3])
pos_weight[1] = 5
pos_weight

tensor([1., 5., 1.])

Definimos la función de coste con `reduction` con su valor predeterminado, es decir, `mean` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [24]:
loss = torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='mean', pos_weight=None) # Predeterminado

loss_fn = loss(logits, target)
my_loss = (-(target*torch.log(torch.sigmoid(logits)) + (1-target)*torch.log(1-torch.sigmoid(logits)))).mean()

loss_fn, my_loss

(tensor(0.9963, grad_fn=<BinaryCrossEntropyWithLogitsBackward0>),
 tensor(0.9963, grad_fn=<MeanBackward0>))

Definimos la función de coste ahora con `reduction` con valor `sum` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [25]:
loss = torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='sum', pos_weight=None)

loss_fn = loss(logits, target)
my_loss = (-(target*torch.log(torch.sigmoid(logits)) + (1-target)*torch.log(1-torch.sigmoid(logits)))).sum()

loss_fn.item(), my_loss.item()

(2.9889793395996094, 2.9889793395996094)

Definimos la función de coste ahora con `reduction` con valor `none` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [26]:
loss = torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='none', pos_weight=None)

loss_fn = loss(logits, target)
my_loss = -(target*torch.log(torch.sigmoid(logits)) + (1-target)*torch.log(1-torch.sigmoid(logits)))

loss_fn, my_loss

(tensor([0.8365, 0.7738, 1.3787],
        grad_fn=<BinaryCrossEntropyWithLogitsBackward0>),
 tensor([0.8365, 0.7738, 1.3787], grad_fn=<NegBackward0>))

Vemos ahora el efecto de meter la matriz de pesos

In [27]:
loss = torch.nn.BCEWithLogitsLoss(weight=weight, size_average=None, reduce=None, reduction='none', pos_weight=None)

loss_fn = loss(logits, target)
my_loss = -weight*(target*torch.log(torch.sigmoid(logits)) + (1-target)*torch.log(1-torch.sigmoid(logits)))

loss_fn, my_loss

(tensor([58.5524, 72.7355, 30.3322],
        grad_fn=<BinaryCrossEntropyWithLogitsBackward0>),
 tensor([58.5523, 72.7355, 30.3322], grad_fn=<MulBackward0>))

Vemos ahora el efecto de meter la matriz de pesos positivos

In [28]:
loss = torch.nn.BCEWithLogitsLoss(weight=weight, size_average=None, reduce=None, reduction='none', pos_weight=pos_weight)

loss_fn = loss(logits, target)
my_loss = -weight*(pos_weight*target*torch.log(torch.sigmoid(logits)) + (1-target)*torch.log(1-torch.sigmoid(logits)))

loss_fn, my_loss

(tensor([58.5524, 72.7355, 30.3322],
        grad_fn=<BinaryCrossEntropyWithLogitsBackward0>),
 tensor([58.5523, 72.7355, 30.3322], grad_fn=<MulBackward0>))

## Cross entropy

```python
torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)
```

Calcula la entropía cruzada entre lo predicho por la red y el target. Es útil cuando se entrena un problema de C clases

Si se proporciona, el argumento opcional `weight` debe ser un tensor 1D que asigne peso a cada una de las clases. Esto es particularmente útil cuando se tiene un conjunto de entrenamiento desbalanceado.

Se calcula como

$l_n = -\omega_nlog\left(\frac{e^{x_n}}{\sum_{c=1}^{C}{e^{x_n}}}\right)$

Donde $l_n$ es la loss para cada clase, $\omega_n$ corresponde al valor del peso explicado en el párrafo anterior, $y_n$ corresponde al target y $x_n$ a lo predicho por el modelo

`reduction` usa por defecto ``'mean'``, pero puede también usar ``'sum'`` y ``'none'``. Los parámetros ``size_average`` y ``reduce`` están obsoletos y Pytorch recomienda no usarlos y solo usar ``reduction``

Cuando en ``reduction`` se usa ``'mean'`` se hace una media de todos los errores, cuando se usa ``'sum'`` se hace la suma de todos los errores y cuando se usa ``'none'`` no se hace nada

El parámetro `ignore_index` hace que se ignoren las salidas tienen como label el valor de `ignore_index`

El parámetro `label_smoothing` puede valer entre `0.0` y `1.0`, y tiene que ver con el suavizado de la loss, que no vamos a ver

Vamos a verlo

Creamos lo que sería la predicción de la red neuronal

In [153]:
examples = 5
clases = 3

preds = torch.randn(examples, clases, requires_grad=True)

preds

tensor([[-0.8584,  1.0926, -0.3535],
        [-0.1641,  0.4056, -0.1291],
        [ 0.2495,  0.4327, -0.7101],
        [ 0.9400, -1.2176, -0.7795],
        [-1.4444, -0.7460,  0.8954]], requires_grad=True)

Creamos lo que sería la verdadera salida

In [154]:
labels = torch.empty(examples, dtype=torch.long).random_(clases)
target = torch.nn.functional.one_hot(labels, num_classes=clases)

labels, target

(tensor([2, 0, 2, 1, 1]),
 tensor([[0, 0, 1],
         [1, 0, 0],
         [0, 0, 1],
         [0, 1, 0],
         [0, 1, 0]]))

Creamos también la matriz de pesos para cuando la queramos usar

In [155]:
pos_weight = torch.ones([examples])
pos_weight[1] = 5
pos_weight

tensor([1., 5., 1., 1., 1.])

Definimos la función de coste con `reduction` con su valor predeterminado, es decir, `mean` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [156]:
loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1).mean()

my_loss, loss_fn

(tensor(1.8647, grad_fn=<MeanBackward0>),
 tensor(1.8647, grad_fn=<NllLossBackward0>))

Definimos la función de coste ahora con `reduction` con valor `sum` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [157]:
loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='sum', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1).sum()

my_loss, loss_fn

(tensor(9.3233, grad_fn=<SumBackward0>),
 tensor(9.3233, grad_fn=<NllLossBackward0>))

Definimos la función de coste ahora con `reduction` con valor `none` y comparamos lo que da la función de coste con hacer nosotros la operación que dice la teoría

In [158]:
loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='none', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1)

my_loss, loss_fn

(tensor([1.7664, 1.3359, 1.9090, 2.4159, 1.8961], grad_fn=<SumBackward1>),
 tensor([1.7664, 1.3359, 1.9090, 2.4159, 1.8961], grad_fn=<NllLossBackward0>))

Vemos ahora el efecto de meter la matriz de pesos

In [159]:
loss = torch.nn.CrossEntropyLoss(weight=weight, size_average=None, ignore_index=-100, reduce=None, reduction='none', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-weight*target*torch.log(exp/exp_sum)).sum(dim=1)

my_loss, loss_fn

(tensor([ 38.8611,  93.5102,  41.9981, 227.0984, 178.2310],
        grad_fn=<SumBackward1>),
 tensor([ 38.8611,  93.5102,  41.9981, 227.0984, 178.2310],
        grad_fn=<NllLossBackward0>))

Y ahora el efecto de ignorar una clase

In [174]:
ignore_index = 1

loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=ignore_index, reduce=None, reduction='none', label_smoothing=0.0)

loss_fn = loss(preds, labels)

num_ignored = 0
for i in range(len(labels)):
    if labels[i] == ignore_index:
        target[i][ignore_index] = 0
        num_ignored += 1

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1)

labels, target, my_loss, loss_fn

(tensor([2, 0, 2, 1, 1]),
 tensor([[0, 0, 1],
         [1, 0, 0],
         [0, 0, 1],
         [0, 0, 0],
         [0, 0, 0]]),
 tensor([1.7664, 1.3359, 1.9090, 0.0000, 0.0000], grad_fn=<SumBackward1>),
 tensor([1.7664, 1.3359, 1.9090, 0.0000, 0.0000], grad_fn=<NllLossBackward0>))

In [175]:
loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=ignore_index, reduce=None, reduction='sum', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1).sum()

my_loss, loss_fn

(tensor(5.0113, grad_fn=<SumBackward0>),
 tensor(5.0113, grad_fn=<NllLossBackward0>))

In [176]:
loss = torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=ignore_index, reduce=None, reduction='mean', label_smoothing=0.0)

loss_fn = loss(preds, labels)

exp = torch.exp(preds)
exp_sum = exp.sum(dim=1, keepdim=True)
my_loss = (-target*torch.log(exp/exp_sum)).sum(dim=1).sum()/(examples-num_ignored)

my_loss, loss_fn

(tensor(1.6704, grad_fn=<DivBackward0>),
 tensor(1.6704, grad_fn=<NllLossBackward0>))