# Categorical Cross Entropy - Kreuzentropie

"Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung." 
-[Wiki DE](https://de.wikipedia.org/wiki/Kreuzentropie)

"Kreuzentropie ist ein Maß für den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen für eine gegebene Zufallsvariable oder eine Menge an Ereignissen." -https://machinelearningmastery.com/cross-entropy-for-machine-learning/

"In information theory, the **cross-entropy** between two probability distributions  _p_ and _q_ over the same underlying set of events measures the average number of bits needed to identify an event drawn from the set if a coding scheme used for the set is optimized for an estimated probability distribution _q_, rather than the true distribution _p_. " -[Wiki EN](https://en.wikipedia.org/wiki/Cross_entropy)


## Grundlagen:
### Informationsgehalt

Information bzw. der **Informationsgehalt** (oder auch **Überraschungswert**) einer Nachricht ist messbar als die Anzahl an Bits, die benötigt werden um ein (stochastisches) Ereignis zu codieren und zu übermitteln. Hierbei haben Ereignisse mit niedriger Wahrscheinlichkeit einen hohen Informationsgehalt und Ereignisse mit hoher Warscheinlichkeit einen niedrigen Informationsgehalt.

Definition nach Claude Shannon:
+ Ein Ereignis mit Wahrscheinlichkeit 1 (oder 100%) ist perfekt nicht überraschend und enthält keine Information
+ Je unwahrscheinlicher ein Ereignis ist, desto überraschender ist es und umso mehr Informationsgehalt hat es
+ Wenn zwei (stochastisch) unabhängige Ereignisse separat gemessen werden, ist die ihr gesamter Informationsgehalt die Summer der jeweiligen Informationsgehalte


Es kann gezeigt werden, dass für ein Ereignis $x$ mit Wahrscheinlichkeit $P$, der Überraschungswert (bzw der Informationsgehalt), wie folgt gemessen werden kann:\
$\mathrm{I}(x) := -\log_b(\mathrm{P}(x)) = \log_b(1/\mathrm{P}(x))$

Wählt man als Basis $b\!=\!2$ erhält man den Wert für $\mathrm{I}$ in der Einheit $\text{Bit}$ (oder auch $\text{Shannon}$). Weitere Einheiten sind $\text{Nat}$ für $b\!=\!e$ und $\text{Hartley}$ für $b\!=\!10$ 

## Beispiele:
### 1. Fairer Münzwurf:
* Voraussetzung:\
$\text{Ereignisse}=\{ \text{Kopf}, \text{Zahl}\}$\
$ \mathrm{P}(\text{Kopf}) = \mathrm{P}(\text{Zahl}) = 0.5 = 50\% = \tfrac{1}{2}$ 
* Berechnung der Überraschungswerte (in Bit): \
Ereignis Kopf:\
$ \mathrm{I}(\text{Kopf}) = -\log_2 {\mathrm{P}(\text{Kopf})}= -\log_2\!{\tfrac{1}{2}} = 1$ \
Ereignis Zahl:\
$ \mathrm{I}(\text{Zahl}) = -\log_2 {\mathrm{P}(\text{Zahl})}= -\log_2\!{\tfrac{1}{2}} =1$

### 2. Unfairer Münzwurf:
* Voraussetzung:\
$\text{Ereignisse}=\{ \text{Kopf}, \text{Zahl}\}$\
$ \mathrm{P}(\text{Kopf}) = 0.75 = 75\% = \tfrac{3}{4}$\
$ \mathrm{P}(\text{Zahl}) = 0.25 = 25\% = \tfrac{1}{4}$ 
* Berechnung der Überraschungswerte (in Bit): \
Ereignis Kopf:\
$ \mathrm{I}(\text{Kopf}) = -\log_2 {\mathrm{P}(\text{Kopf})}= -\log_2\!{\tfrac{3}{4}} = 0.4150$ \
Ereignis Zahl:\
$ \mathrm{I}(\text{Zahl}) = -\log_2 !{\mathrm{P}(\text{Zahl})}= -\log_2\!{\tfrac{1}{4}} =2$

### 3. Fairer 6-Seitiger Würfel:
* Voraussetzung:\
$\text{Ereignisse}=\{1, 2, 3, 4, 5, 6\}$\
$\mathrm{P}(1)=\mathrm{P}(2)=\mathrm{P}(3)=\mathrm{P}(4)=\mathrm{P}(5)=\mathrm{P}(6)=0.166...= 16.66\%=1/6$
* Berechnung der Überraschungswerte (in Bit): \
Ereignis W=1:\
$ \mathrm{I}(1) = -\log_2\!{P{(1)}}= -\log_2\!{\tfrac{1}{6}} =2.5849...$\
Ereignis W=2:\
$ \mathrm{I}(2) = -\log_2\!{P{(2)}}= -\log_2\!{\tfrac{1}{6}} =2.5849...$\
Ereignis W=3:\
...


## Entropie
Man kann die Überraschungswertes eines Ereignisraumes nun wieder als Ereignisse auffassen.
* fairer Münzwurf:\
Voraussetzung:\
$\text{Ereignisse}=\{ 1 \}$\
$ \mathrm{P}(\text{1}) = 1 = 100\% $
* unfairer Münzwurf:\
Voraussetzung:\
$\text{Ereignisse}=\{ 0.4150, 2 \}$\
$ \mathrm{P}(\text{0.4150}) = 0.75 = 75\% = \frac{3}{4} $\
$ \mathrm{P}(\text{2}) = 0.25 = 25\% = \frac{1}{4} $\

Bildet man den Erwartungswert dieser Ereignisse erhält man die Entropie. D.h. den Wert den diese Werte im Mittel annehmen.
* Entropie fairer Münzwurf:\
$\text{Entropie}=\mathrm{P}(1)*1=1*1=1$
* Entropie unfairer Münzwurf:\
$\text{Entropie}=\mathrm{P}(0.4150)*0.4150+\mathrm{P}(2)*2=0.75*0.4150+0.25*2=0.81125$

Hier lässt sich auch ein allgemeines Verhalten der Entropie erkennen. Sie ist kleiner für 'verzerrte' Verteilung, da in diesen Werte mit höherer Wahrscheinlichkeit und damit kleinerer Entropie dominieren. Im Mittel ist eine verzerrte Verteilung damit 'weniger überraschend' als eine ausbalancierte Verteilung. 

Setzen wir für die Ausprägungen des Überraschungswertes die Formel zur Berechnung dieser ein, so erhalten wir nun die direkte Formel für die Entropie: 
* Erinnerung unfairer Münzwurf:\
$\text{Ereignisse}=\{ \text{Kopf}, \text{Zahl}\}$\
$ \mathrm{P}(\text{Kopf}) = 0.75 = \mathrm{P}(\text{0.4150}) $\
$ \mathrm{P}(\text{Zahl}) = 0.25 = \mathrm{P}(\text{2})$\
$ \mathrm{I}(\text{Kopf}) = -\log_2 {\mathrm{P}(\text{Kopf})}= 0.4150$ \
$ \mathrm{I}(\text{Zahl}) = -\log_2 {\mathrm{P}(\text{Zahl})} =2$


* Entropie direkt:\
$ \begin{align} 
\text{Entropie}(\text{Unfairer Münzwurf}) &= \mathrm{P}(0.4150)*0.4150+\mathrm{P}(2)*2 \\
 &= \mathrm{P}(\text{Kopf})*I(\text{Kopf})+\mathrm{P}(\text{Zahl})*\mathrm{I}(\text{Zahl}) \\
 &= \mathrm{P}(\text{Kopf})*-\log_2{P(\text{Kopf})}+\mathrm{P}(\text{Zahl})*-\log_2{\mathrm{P}(\text{Zahl})} \\
\end{align}$

* oder allgemein: \
Sei $X$ eine diskrete Zufallsvariable mit möglichen Ereignissen $x_1,...,x_n$, welche mit Wahrscheinlichkeiten $\mathrm{P}(x_1),...,\mathrm{P}(x_n)$ auftreten, dann ist die Entropie von $X$ definiert als:\
\
$\mathrm{H}(X)=-\sum_{i=1}^n{\mathrm{P}(x_i)\log{\mathrm{P}(x_i)}}$


## Kreuzentropie
### Idee
Angenommen wir haben eine vorliegende Zielwahrscheinlichkeitsverteilung P und eine Approximation dieser Zielverteilung Q. Dann ist die Kreuzentropie von Q nach P die Anzahl zusätzlicher Bits, die benötigt werden um eine Ereignis über Q darzustellen anstatt über P. \
\
Die Kreuzentropie kann (im diskreten Fall)wie folgt berechnet werden:\
\
$\mathrm{H}(\mathrm{P},\mathrm{Q})=-\sum_{i=1}^n{\mathrm{P}(x_i)\log{\mathrm{Q}(x_i)}}$ \
\
Bemerkung:
* Warhscheinlichkeit der Ereignisse unter $\mathrm{P}$
* Überraschungswert $I()=-log()$ unter $\mathrm{Q}$

## Kreuzentropie als Loss-Funktion

Im Allgemeinen soll bei Klassifizierungsprobleme durch den Input von einer oder mehrere Variablen ein Klassenlabel vorhergesagt werden. 

Die Voraussetzungen für die Anwendung der Kreuzentropie sind hier wie folgt gegeben: 
* Die Zielverteilung P ist dadurch gegeben, dass jeder Datenpunkt eines Klassifizierungsdatensatzes __einem__ Label mit einer Wahrscheinlichkeit von 1 zugeordnet werden kann und jedem anderen Label mit einer Wahrscheinlichkeit von 0. 
* Die zu approximierende Verteilung Q ist genau die Aufgabe ein Modells, also die Wahrscheinlichkeit mit der ein Input einem Label zugeordnet werden kann. 
* Anders ausgedrückt, wird ein Input als Zufallsvariable $X$ aufgefasst und die möglichen Label(klassen) als die zugehörigen Ereignisse.


Da die Verteilung P für ein Input bekannt ist mit Wahrscheinlichkeit 1 oder 0, sehen wir dass die keinerlei Überraschung hat bzw. einen Entropiewert von 0.\
\
Bsp: \
Sei $\mathrm{A}$ ein Input und die Label $\mathrm{L} = \{l_1, l_2, l_3, l_4\}$, mit $\mathrm{L}(\mathrm{A})\!=\! l_2$ (also $\mathrm{A}$ gehört zur Klasse 2). 

Dann sieht die Verteilung P wie folgt aus: 

$\mathrm{P}(l_1)=0$ \
$\mathrm{P}(l_2)=1$ \
$\mathrm{P}(l_3)=0$ \
$\mathrm{P}(l_4)=0$ 

Mit folgender Entropie: 

$ \begin{align}
\mathrm{H}(\mathrm{P}) &= -(\mathrm{P}(l_1)*log\mathrm{P}(l_1) 
                        +\mathrm{P}(l_2)*log\mathrm{P}(l_2) 
                        +\mathrm{P}(l_3)*log\mathrm{P}(l_3) 
                        +\mathrm{P}(l_4)*log\mathrm{P}(l_4) ) \\
                       &= -(0*log\mathrm{0} 
                        + 1*log\mathrm{1}
                        + 0*log\mathrm{0}
                        + 0*log\mathrm{0} \\
                       &= 0
\end{align}$

Ein (schlecht trainiertes) Modell würde zu einem Input den Klassen verschiedenen Wahrscheinlichkeiten ungleich 0 und 1 zuweisen. Damit würde es zum Beispiel folgende Verteilung Q als Approximation an P erzeugen: 

$\mathrm{Q}(l_1)=0.075$ \
$\mathrm{Q}(l_2)=0.6$ \
$\mathrm{Q}(l_3)=0.2$ \
$\mathrm{Q}(l_4)=0.125$ 

Damit würde sich folgende Kreuzentropie ergeben:

$ \begin{align}
\mathrm{H}(\mathrm{P},\mathrm{Q}) &= -(\mathrm{P}(l_1)*log\mathrm{Q}(l_1) 
                        +\mathrm{P}(l_2)*log\mathrm{Q}(l_2) 
                        +\mathrm{P}(l_3)*log\mathrm{Q}(l_3) 
                        +\mathrm{P}(l_4)*log\mathrm{Q}(l_4) ) \\
                       &= -(0*log\mathrm{0.075} 
                        + 1*log\mathrm{0.6}
                        + 0*log\mathrm{0.2}
                        + 0*log\mathrm{0.125} \\
                       &= 0.74
\end{align}$

Oder ein etwas besser trainiertes Modell: 

$\mathrm{Q}(l_1)=0.03$ \
$\mathrm{Q}(l_2)=0.87$ \
$\mathrm{Q}(l_3)=0.09$ \
$\mathrm{Q}(l_4)=0.01$ 

Damit würde sich folgende Kreuzentropie ergeben:

$ \begin{align}
\mathrm{H}(\mathrm{P},\mathrm{Q}) &= -(\mathrm{P}(l_1)*log\mathrm{Q}(l_1) 
                        +\mathrm{P}(l_2)*log\mathrm{Q}(l_2) 
                        +\mathrm{P}(l_3)*log\mathrm{Q}(l_3) 
                        +\mathrm{P}(l_4)*log\mathrm{Q}(l_4) ) \\
                       &= -(0*log\mathrm{0.03} 
                        + 1*log\mathrm{0.87}
                        + 0*log\mathrm{0.09}
                        + 0*log\mathrm{0.01} \\
                       &= 0.2
\end{align}$ 

Man sieht, dass die Kreuzentropie die Performance der Vorhersage in einem einzelnen Skalar ausdrücken kann und sich damit Loss-Function eingnet. Außerdem ist $\log_b(x)$ diffbar für alle $x>0$ (welche durch die Definition der Entropie aufgefangen werden), weshalb auch Backpropagation möglich ist.


## Categorical Cross-Entropy und Binary Cross-Entropy

Das Prinzip der Kreuzentropie kann nun noch weiter auf die genaue Art des Klassifizierungsproblems angepasst werden.

### Arten von Klassifizierung

Klassifizierungsprobleme lassen sich in zwei Arten unterteilen: 

* Ein Input wird genau einer Klasse zugeordnet. 

* Ein Input kann zu mehreren Klassen gehören.  

Die Bezeichnungen für die beiden Arten sind im Allgemeinen __nicht__ einheitlich. Manchmal wird zwischen __Multi-Class__ und __Multi-Label__ unterschieden. \
Wichtig sind hier 2 Dinge: 
* Aus technischer Sicht wird bei der Zuordnung zu genau einer Klasse eine __One-Hot-Kodierung__ für den Zielvektor genutzt, das heißt nur ein Eintrag ist 1 (bzw. positiv), der Rest 0 (bzw. negativ). Bei der Zuordnung zu potentiell mehreren Klassen enthält der Zielvektor eine oder mehrere 1en und sonst 0. 
* Bei der Zuordnung zu genau einer Klasse sind die Einträge des Ergebnisvektors __NICHT UNABHÄNGIG__ voneinander. Beipotentiell mehreren Klassen sollten die Einträge sogar als explizit unabhängig voneinander angesehen werden. 

Damit ergibt sich, dass das 'Genau 1 Klasse'-Problem als einzelnes Gesamtproblem aufgefasst wird. Während das 'Mehrere Klassen'-Problem als Sammlung von verschiedenen 'gehört der Input zur Klasse oder nicht' (oder _binären_) Problemen aufgefasst wird.

### Loss-Aktivierungsfuktionen

Es werden nun nach dem Output Layer und vor der Berechnung der Kreuzentropie __Sigmoid__ oder __Softmax__ auf den Output-Vektor angewandt. 

$Sigmoid=f(x_i) = \frac{1}{1 + e^{-x_{i}}}$ 

$Softmax =f(x)_{i} = \frac{e^{x_{i}}}{\sum_{j=0}^{n} e^{s_{j}}}$

Hier soll daran erinnert werden, dass Sigmoid auf einem Vektor die einzelnen Einträge unabhängig von einander auf $(0,1)$ abbildet. Softmax bildet sie auch auf $(0,1)$ ab, jedoch unter der Bedingung dass sie in Summe 1 ergeben. Also erzeugt Softmax eine Abhängigkeit zwischen den einzelnen Einträgen, während Sigmoid dies nicht tut. 

Wenden wir zum Beispiel Softmax an bevor wir die Kreuzentropie berechnen, trainieren wir das Netzwerk dazu einen Wahrscheinlichkeitsverteilung über die verschiedenen Klassen zu berechnen. Diese Verkettung wird dann __Categorical Cross-Entropy Loss__ genannt: 

$CCE=-\sum_{i=1}^C{t_i\log\!{(softmax(s)_i})}$ 

Wobei $t$ der Zielvektor, $s$ der Outputvektor __aus__ dem Outputlayer und $C$ die Anzahl der Klassen ist.

Dies kann auf Grund der oben beschriebenen technsichen Umsetzung auch noch weiter vereinfacht und um einen Skalierungsfaktor erweitert werden.

Die Verkettung mit Sigmoid ist nicht ganz analog, da das Problem, wie oben beschrieben, in Unterprobleme aufgeteilt wird. Man bestimmt hier die Kreuzentropie einzeln für jedes Unterproblem und summiert diese dann zu einem globalen Loss auf. Eine ausführlichere Erklärung findet man zum Beispiel [hier](https://gombru.github.io/2018/05/23/cross_entropy_loss/).


Quellen: \
https://de.wikipedia.org/wiki/Kreuzentropie \
https://en.wikipedia.org/wiki/Cross_entropy 

https://en.wikipedia.org/wiki/Information_content 

https://gombru.github.io/2018/05/23/cross_entropy_loss/ 

https://machinelearningmastery.com/what-is-information-entropy/ \
https://machinelearningmastery.com/cross-entropy-for-machine-learning/ \
https://machinelearningmastery.com/loss-and-loss-functions-for-training-deep-learning-neural-networks/ 