In [4]:
import torch
import torch.nn as nn
import numpy as np

## Cross entropy

La entropía cruzada se usa comúnmente en el aprendizaje automático como una función de pérdida.

La entropía cruzada es una medida del campo de la teoría de la información, que se basa en la entropía y generalmente calcula la diferencia entre dos distribuciones de probabilidad. Está estrechamente relacionado pero es diferente de divergencia KL que calcula la entropía relativa entre dos distribuciones de probabilidad, mientras que se puede pensar que la entropía cruzada calcula la entropía total entre las distribuciones.

La entropía cruzada también está relacionada y, a menudo, se confunde con la pérdida logística, llamada pérdida de registro . Aunque las dos medidas se derivan de una fuente diferente, cuando se usan como funciones de pérdida para modelos de clasificación, ambas medidas calculan la misma cantidad y se pueden usar indistintamente. 

**Formula matematica :**
![imagen.png](https://i.stack.imgur.com/gNip2.png)

In [5]:
def cross_entropy(actual, predicted):
    loss = -np.sum(actual * np.log(predicted))
    return loss # / float(predicted.shape[0])

# y debe ser una codificación en caliente
# if class 0: [1 , 0, 0]
# if class 0: [0 , 1, 0]
# if class 0: [0 , 0, 1]
Y = np.array([1, 0, 0])

# Y_pred tiene probabilidades
Y_pred_good = np.array([0.7, 0.2, 0.1]) # Aqui podemos ver que la distribucion de nuestras probabilidades es correcta
Y_pred_bag = np.array([0.1, 0.3, 0.6])  # Aqui podemos ver que la distribucion de nuestras probabilidades es incorrecta

l1 = cross_entropy(Y, Y_pred_good)# Almacenamos la perdida de nuestra primera probabilidad
l2 = cross_entropy(Y, Y_pred_bag) # Almacenamos la perdida de nuestra segunda probabilidad

print(f"Loss1 numpy: {l1:.4f}")# Nos da una perdida menor debido a nuestra buena distribucion de probabilidades
print(f"Loss2 numpy: {l2:.4f}")# Nos da una perdida mayor debido a nuestra mala distribucion de probabilidades

Loss1 numpy: 0.3567
Loss2 numpy: 2.3026


## Softmax

La función softmax, también conocida como softargmax o función exponencial normalizada, es una generalización de la función logística a múltiples dimensiones. Se usa en la regresión logística multinomial y, a menudo, se usa como la última función de activación de una red neuronal para normalizar la salida de una red a una distribución de probabilidad sobre las clases de salida predichas, según el axioma de elección de Luce.

**Formula matematica :**
![imagen.png](https://miro.medium.com/max/1400/1*hwdjtUG2pv8EhuxcR4mWmA.png)

In [9]:
#crearmos una funcion softmax de manera manual
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=0)

x = np.array([2.0, 1.0, 0.1])
outputs = softmax(x)
print(f"softmax(manual) numpy: {outputs}") # imprimimos los resultados de nuestra funcion softmax

x = torch.tensor([2.0, 1.0, 0.1])
outputs = torch.softmax(x, dim=0)
print(f"softmax(pytorch) numpy: {outputs}")# imprimimos los resultados de la funcion softmax(de pytorch)


softmax(manual) numpy: [0.65900114 0.24243297 0.09856589]
softmax(pytorch) numpy: tensor([0.6590, 0.2424, 0.0986])


## Ejemplo manual: CrossEntropyLoss en PyTorch (aplica Softmax) aplicando clasificación binaria

In [17]:
# nn.LogSoftmax + nn.NLLLoss
# NLLLoss = pérdida de probabilidad logarítmica negativa
loss = nn.CrossEntropyLoss()
# loss(input, target)

# objetivo es de tamaño nSamples = 1
# cada elemento tiene una etiqueta de clase: 0, 1 o 2
# Y (=objetivo) contiene etiquetas de clase, no one-hot
Y = torch.tensor([0])

#la entrada tiene un tamaño de nMuestras x nClases = 1 x 3
# y_pred (=entrada) debe ser sin procesar, no normaliza las puntuaciones (logits) para cada clase, no softmax
Y_pred_good = torch.tensor([[2.0, 1.0, 0.1]])# Esta prediccion indica que el resultado com mayor probabilidad es 0(por que tiene la probabilidad mas alta en la primera posicion)
Y_pred_bad = torch.tensor([[0.5, 2.0, 0.3]]) # Esta prediccion indica que el resultado com mayor probabilidad es 1(por que tiene la probabilidad mas alta en la segunda posicion)
l1 = loss(Y_pred_good, Y)
l2 = loss(Y_pred_bad, Y)

print(f'PyTorch Y_pred_good(Loss1): {l1.item():.4f}')
print(f'PyTorch Y_pred_bad(Loss2): {l2.item():.4f}')

# obtener predicciones
_, predictions1 = torch.max(Y_pred_good, 1)
_, predictions2 = torch.max(Y_pred_bad, 1)
print(f'clase real {Y.item()}, Y_pred_good(Loss1): {predictions1.item()}, Y_pred_bad(Loss2): {predictions2.item()}')


PyTorch Y_pred_good(Loss1): 0.4170
PyTorch Y_pred_bad(Loss2): 1.8406
clase real 0, Y_pred_good(Loss1): 0, Y_pred_bad(Loss2): 1


## Ejemplo manual: CrossEntropyLoss en PyTorch (aplica Softmax) aplicando múltiples muestras

In [18]:
# el objetivo es de tamaño nBatch = 3
# cada elemento tiene una etiqueta de clase: 0, 1 o 2
Y = torch.tensor([2, 0, 1])

# la entrada tiene un tamaño nBatch x nClasses = 3 x 3
# Y_pred son logits (no softmax)
Y_pred_good = torch.tensor(
    [[0.1, 0.2, 3.9], # predecir clase 2(en la primera posicion)
    [1.2, 0.1, 0.3],  # predecir clase 0(en la segunda posicion) # ----> El resultado de esto [2,0,1]
    [0.3, 2.2, 0.2]]) # predecir clase 1(en la tercera posicion)

Y_pred_bad = torch.tensor(
    [[0.9, 0.2, 0.1], # predecir clase 0(en la primera posicion)
    [0.1, 0.3, 1.5],  # predecir clase 2(en la segunda posicion) # ----> El resultado de esto [0,2,0]
    [1.2, 0.2, 0.5]]) # predecir clase 0(en la tercera posicion)

l1 = loss(Y_pred_good, Y)
l2 = loss(Y_pred_bad, Y)
print(f'Batch Y_pred_good(Loss1):  {l1.item():.4f}')
print(f'Batch Y_pred_bad(Loss2): {l2.item():.4f}')

# obtener predicciones
_, predictions1 = torch.max(Y_pred_good, 1)
_, predictions2 = torch.max(Y_pred_bad, 1)
print(f'Actual class: {Y}, Y_pred_good(Loss1): {predictions1}, Y_pred_bad(Loss2): {predictions2}')

Batch Y_pred_good(Loss1):  0.2834
Batch Y_pred_bad(Loss2): 1.6418
Actual class: tensor([2, 0, 1]), Y_pred_good(Loss1): tensor([2, 0, 1]), Y_pred_bad(Loss2): tensor([0, 2, 0])


## Red nueronal para clasificación binaria

In [19]:
class NeuralNet1(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(NeuralNet1, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size) 
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, 1)  
    
    def forward(self, x):
        out = self.linear1(x)
        out = self.relu(out)
        out = self.linear2(out)
        # sigmoid at the end
        y_pred = torch.sigmoid(out)
        return y_pred

model = NeuralNet1(input_size=28*28, hidden_size=5)
criterion = nn.BCELoss() #(NO aplica Softmax)

## Red nueronal para clasificación multiclase

In [20]:
class NeuralNet2(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet2, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size) 
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, num_classes)  
    
    def forward(self, x):
        out = self.linear1(x)
        out = self.relu(out)
        out = self.linear2(out)
        # sin softmax al final(solo se usa en la clasificación binaria)
        return out

model = NeuralNet2(input_size=28*28, hidden_size=5, num_classes=3)
criterion = nn.CrossEntropyLoss()  # (aplica Softmax)