### Die Softmax-Funktion

Die Sigmoid-Aktivierung nutzen wir, wenn wir zwei Klassen unterscheiden wollen (0,1). Die Softmax-Funktion nutzen wir als Aktivierungsfunktion bei mehr als 2 Klassen.

In [23]:
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F

Wird ein neuronales Netz zur Klassifikation benutzt wird, dann nennt man den letzten Layer häufig den
**logits-layer**. Er produziert einen Vektor aus reellen Zahlen zwischen minus unendlich und plus unendlich, für jede Klassifikationklasse eine Zahl. Als Aktivierungsfunktion wird häufig die **softmax** -Funktion benutzt. Die Aufgabe der Softmax-Funktion ist es, den Vektor umzuwandeln in einen Vektor aus Wahrscheinlichkeiten dafür, dass die jeweilige Klasse erkannt wurde.



Da Wahrscheinlichkeiten immer positive Zahlen sind, werden die logits zunächst in positive Zahlen gewandelt.

In [22]:
logits = [2, -1, 0.1]
np.exp(logits)


array([7.3890561 , 0.36787944, 1.10517092])

Dann werden die Zahlen normiert, damit ihre Summe 1 ergibt. Dies ist die Ausgabe der Softmax-Funktion

In [10]:
a = np.exp(logits)
a = a / np.sum(a)
a

array([0.83378101, 0.04151151, 0.12470747])

In [30]:
def softmax(x):
    return torch.exp(x) / torch.sum(torch.exp(x))

In [32]:
softmax(torch.tensor([2,-1,0.1]))

tensor([0.8338, 0.0415, 0.1247])

### Cross Entropy

In [66]:
target = torch.tensor([1])
x = torch.tensor([[2,-1,0.1]])
loss = F.cross_entropy(x, target)
loss

tensor(3.1818)

In [69]:
t = softmax(x)
t

tensor([[0.8338, 0.0415, 0.1247]])

In [70]:
- torch.log(t)

tensor([[0.1818, 3.1818, 2.0818]])

In [71]:
target = torch.tensor([1,1])
x = torch.tensor([[2,-1,0.1],[2,-1,0.1]])
loss = F.cross_entropy(x, target)
loss

tensor(3.1818)

In [78]:
t = F.torch.softmax(x,dim=1)
t

tensor([[0.8338, 0.0415, 0.1247],
        [0.8338, 0.0415, 0.1247]])

In [80]:
-torch.log(t)

tensor([[0.1818, 3.1818, 2.0818],
        [0.1818, 3.1818, 2.0818]])

In [81]:
target = torch.tensor([1,2])
x = torch.tensor([[2,-1,0.1],[3,-1,1]])
loss = F.cross_entropy(x, target)
loss

tensor(2.6624)

In [83]:
t = F.torch.softmax(x,dim=1)
t

tensor([[0.8338, 0.0415, 0.1247],
        [0.8668, 0.0159, 0.1173]])

In [84]:
-torch.log(t)

tensor([[0.1818, 3.1818, 2.0818],
        [0.1429, 4.1429, 2.1429]])

In [85]:
(3.1818+2.1429)/2

2.66235