# Multiclass Classification/ Softmax Regression

### Einführung

Mehrklassige Klassifikation ist die Verallgemeinerung der binären Klassifikation auf $K$ Klassen. Sie ebenfalls zur Klasse der Supervised Machine Learning Probleme. Die Targets nemen hier $K$ Werte, z.B. $0,1,\ldots,K-1$ an.
Beispiele hierfür sind:

- Unterscheidung der Handgeschriebenen Zahlen 0 bis 9
<img src="MNIST.png" height="100" width="450"/>



Wir gehen im folgeden von $m$ Training Examples der Form
$$
(\vec{x}^{(i)}, y^{(i)}), \quad \vec{x}^{(i)}\in\mathbb{R}^n,\, y^{(i)}\in\{0,1\ldots,K-1\}
$$
aus.

Bilder (wie im Beispiel oben) sind originäre Matrizen und werden zeilen- bzw. spaltenweise in einen Vektor geschrieben. Für die Klassifikation mit K Kassen verwenden wie eine Datenmatrix, welche die Training Examples 
als Zeilenvektoren enthält, d.h.

$$
\mathbf{X} = \begin{pmatrix}
\left(\vec{x}^{(1)} \right)^T  \\ 
\left(\vec{x}^{(2)} \right)^T \\
\vdots \\
\left(\vec{x}^{(m)} \right)^T
\end{pmatrix} \in \mathbb{R}^{m\times n}
$$


Für die Cost-Funktion führen wir zudem folgende sogenannte **One Hot Encoding** Nomenklatur für die Labels ein
(hier explizit für $K=4$ gezeigt).
$$
\mathrm{Klasse}\,0 \rightarrow \begin{pmatrix} 1 \\ 0 \\ 0 \\ 0  \end{pmatrix},
\quad
\mathrm{Klasse}\,1 \rightarrow \begin{pmatrix} 0 \\ 1 \\ 0 \\ 0  \end{pmatrix},
\qquad 
\mathrm{Klasse}\,2 \rightarrow \begin{pmatrix} 0 \\ 0 \\ 1 \\ 0  \end{pmatrix}\,
\qquad 
\mathrm{Klasse}\,3 \rightarrow \begin{pmatrix} 0 \\ 0 \\ 0 \\ 1  \end{pmatrix}\,.
$$




### Hypothese und Costfunction

Die Hypothese besteht hier aus einem $K$-komponentigen Vektor $\vec{h}_{\vec{w}}(\vec{x})$ und nimmt hier folgende Gestalt an
$$
\vec{h}_{\mathbf{W}}(\vec{x}) = 
\begin{pmatrix} 
\frac{e^{\vec{x}^T\vec{w}_1}}{\sum\limits_{l=1}^K e^{\vec{x}^T\vec{w}_l}} \\
\vdots \\
\frac{e^{\vec{x}^T\vec{w}_K}}{\sum\limits_{l=1}^K e^{\vec{x}^T\vec{w}_l}}
\end{pmatrix}
$$
mit den Komponenten
$$
\left(h_{\mathbf{W}}(\vec{x})\right)_j = 
\frac{e^{\vec{x}^T\vec{w}_j}}{\sum\limits_{l=1}^K e^{\vec{x}^T\vec{w}_l}} 
$$ 
und der Gewichsmatrix 
$$
\mathbf{W} = 
\begin{pmatrix}
\vec{w}_{1}, \vec{w}_{2} \ldots ,\vec{w}_{K} 
\end{pmatrix} \in \mathbb{R}^{n\times K}\,.
$$


Im Falle der Klassifikation mit $K$ Klassen stellen wir folgende **Costfunction** oder auch **Cross Entropy** auf
$$
J(\mathbf{W})  = -\sum_{i=1}^m\sum_{j=1}^{K} Y_{ij}\log H_{ij}
$$

mit den beiden Matrizen $H,Y \in \mathbb{R}^{m\times K}$

$$
Y_{ij} = \begin{cases} 1 & y^{(i)} = j \\ 0 & \mathrm{sonst} \end{cases},\qquad H_{ij} =  \frac{e^{\left(\vec{x}^{(i)} \right)^T \vec{w}_j}}{\sum\limits_{l=1}^K e^{\left(\vec{x}^{(i)} \right)^T\vec{w}_l}} 
$$
 
Die Softmax-Regression kann nur lineare Decision Boundaries vorhersagen, wie folgende beide Beispiele (siehe
Übung) illustrieren.
<img src="multiclass_classification.png" height="400" width="800"/>




### Gradient Descent

Der Gradient der Costfunction berechnet sich in Matrix-Notation zu
$$
\vec{\nabla}J(\mathbf{W}) = \mathbf{X}^T\left(\mathbf{H}-\mathbf{Y}\right)
$$
Wie üblich wird das Gradient Descent Verfahren
$$
\mathbf{W} \rightarrow \mathbf{W} - \alpha \vec{\nabla}J(\mathbf{W})
$$
bis zur Konvergenz durchgeführt.

### Precision und Recall

Wir rufen uns die Confusion Matrix in Erinnerung. Jede Zeile dieser Matrix repräsentiert die Instanzen der tatsächlichen Klasse, während jede Spalte die Instanzen der vorhergesagten Klasse repräsentiert (oder umgekehrt). Betrachten Sie für die folgende Argumentation am besten diese Demo: https://ml4a.github.io/demos/confusion_mnist/.
Wir betrachten eine Ziffer, z.B. die 3. Es gibt folgende Definitionen:

- True Positive (TP) - "Richtig, Positiv vorhergesagt" $\rightarrow$ tatsächlich: $=3$, vorhergesagt: $=3$ $\Rightarrow$ Diagonalelement $\left(3,3\right)$: $C_{3,3}$
- False Positive (FP) - "Falsch, Positiv vorhergesagt" $\rightarrow$ tatsächlich: $\neq3$, vorhergesagt: $=3$ $\Rightarrow$ Spalte $3$ ohne Diagonalelement $\left(3,3\right)$: $C_{i,3}\forall i\neq3$
- False Negative (FN) - "Falsch, Negativ vorhergesagt" $\rightarrow$ tatsächlich: $=3$, vorhergesagt: $\neq3$ $\Rightarrow$ Zeile $3$ ohne Diagonalelement $\left(3,3\right)$: $C_{3,j}\forall j\neq3$
- True Negative (TN) - "Richtig, Negativ vorhergesagt" $\rightarrow$ tatsächlich: $\neq3$, vorhergesagt: $\neq3$ $\Rightarrow$ alles außer Spalte $3$ und Zeile $3$: $C_{i,j}\forall i,j\neq3$

Es wird definiert

$$
\mathrm{Precision} = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \rightarrow \mathrm{Precision} = \frac{\mathrm{Diagonalelement}}{\mathrm{Spaltensumme}} \Rightarrow \mathrm{Precision}_j = \frac{C_{j,j}}{\sum\limits_{l=0}^{K-1} {C_{l,j}}}
$$
und
$$
\mathrm{Recall} = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \rightarrow \mathrm{Recall} = \frac{\mathrm{Diagonalelement}}{\mathrm{Zeilensumme}} \Rightarrow \mathrm{Recall}_i = \frac{C_{i,i}}{\sum\limits_{l=0}^{K-1} {C_{i,l}}}
$$

### Multiclass Classification mittels sklearn

Die entsprechenden Funktionen und Module können direkt aus dem Kapitel über logistische Regression/binary classification übernommen werden.

In [19]:
from sklearn import linear_model

mult_class = linear_model.LogisticRegression()
mult_class = linear_model.LogisticRegression(multi_class='multinomial',solver='lbfgs')

### Numerische Hinweise

Erzeugen der Target-Matrix $\mathbf{Y}$:

In [18]:
import numpy as np
Y = np.zeros((4,3))
y = np.array([0,1,2,2])
Y[range(4),y] = 1
Y

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.]])

Hinweise zur Generierung der Hypothesen-Matrix $\mathbf{H}$:

In [12]:
A = np.array([[1,2,3,4],[1,0,1,0],[2,1,3,1]])
print(A)

# Summation entlang der Spalten (axis=1)
np.sum(A,axis=1,keepdims=True)

# Teilen jeder Spalte durch diesen Vektor
print(A/np.sum(A,axis=1,keepdims=True))

[[1 2 3 4]
 [1 0 1 0]
 [2 1 3 1]]
[[0.1        0.2        0.3        0.4       ]
 [0.5        0.         0.5        0.        ]
 [0.28571429 0.14285714 0.42857143 0.14285714]]


Hinweise zur Ausgabe der Prediction: Bestimmung der Indizes des Maximums eines arrays entlang einer Achse.

In [54]:
A = np.array([[1,2,3,4],[1,0,1,1],[2,1,3,2]])
print(A)
np.argmax(A,axis=1)

[[1 2 3 4]
 [1 0 1 1]
 [2 1 3 2]]


array([3, 0, 2])