## Transformation von Vektoren: Matrizen

Den nächsten Schritt in unserer Hierarchie stellen Matrizen dar. Eine **Matrix** ist ein zweidimensionales Zahhlenschema der Gestalt $M = \begin{pmatrix} a_{11} & \ldots a_{1n} \\  \ldots \\ a_{m1} & \ldots a_{mn} \end{pmatrix}$. Man spricht hier von einer $m\times n $-Matrix, und ist $m=n$, so heißt die Matrix **quadratisch**.

Sind Vektoren die Datenstrukturen  der Linearen Algebra, so sind Matrizen die Operationen darauf. Ein Vektor lässt sich mit einer Matrix multiplizieren, wodurch ein neuer Vektor entsteht (dazu müssen natürlich die Dimensionen "passen")

$$ M \cdot v =  \begin{pmatrix} a_{11} & \ldots a_{1n} \\  \ldots \\ a_{m1} & \ldots a_{mn} \end{pmatrix} 
\begin{pmatrix} v_1 \\  \ldots \\ v_n \end{pmatrix} = 
\begin{pmatrix} \sum_{k=1}^n a_{1k} v_k \\  \ldots \\ \sum_{k=1}^n a_{mk} v_k \end{pmatrix}.$$

Hinter den vielen Indizes versteckt sich folgendes Rechenschema: Man nimmt dier erste Zeile der Matrix und multipliziert die Komponenten mit den Komponeten des vektors. Die Summe bildet die erste Komponente des Ergebnis-Vektors. Dann geht es mit der zweiten Zeile weiter, bis alle Zeilen der Matrix abgearbeitet sind. Die $k.$ Komponente des Ergebnisvektors ist also das Skalarprodukt der $k.$ Zeile der Matrix $M$ mit dem Vektor $\v$.

Man kann Matrizen auch addieren (komponentenweise) und sogar multiplizieren, wenn die Dimensionen übereinstimmen. Wir werden bei den KNN auf Matrizen stoßen, wenn wir die Gewichte des Neuronalen Netzes untersuchen.

## Matrizen in der KI

Bei mehrschichtigen Neuronalen Netzen wie dem MLP (Multi-Layered Perceptron) sind die Neuronen der verschiedenen Schichten miteinander verknüpft, wobei jede Verknüpfung mit einem Gewicht versehen sind. Wenn wie beim MLP sämtliche $M$ Neuronen einer Schicht mit sämtlichen $N$ Neuronen der folgenden Schicht verbunden, so können die Gewichte als eine $N \times M$-Matrix betrachtet werden. 

![Gewichtsmatrix](gewichte.png)

In diesen Gewichtsmatrizen ist die Information des Neuronalen Netzwerks gespeichert. Wird am MLP ein Eingangssignal angelegt (ein $M$-dimensionaler Raum), so wird dieses Signal durch die Matrix transfomiert und in den $N$-dimensionalen Raum der nächsten (versteckten) Schicht abgebildet.

Welche Bedeutung hat der $N$-dimensionale Raum der Vektoren der verdeckten Schicht? Wie wird das Wissen in den Gewichten gespeichert? Klar ist dieser Mechanismus nicht. Neuronale Netze sind ungeheuer leistungsfähig, aber schwer zu steuern, denn es gibt viele Parameter: Anzahl der Schihten und der Neuronen in jeder Schicht sowie die Lernrate. Auch die Reihenfolge, in der die Lerndaten präsentiert werden, spielt eine Rolle. Das Thema ist äußerst komplex und Gegenstand der Forschung. 

### Beispiel: MLP zur Ziffernerkennung  

Angenommen, ein MLP soll handgeschriebene Zahlen erkennen. Die ersten Schichten könnten lernen: 
 
- **Kanten und Striche**:  z.B. vertikale und horizontale Linien 
- **Zahlenfragment:e**: z.B. geschlossene Kreise für die „0“
- **Komplette Zahl:e**: z.B. Erkennung einer „8“ als Kombination aus Kreisen und Strichen 


### Tensoren

Bei Zahlenschemas höherer Dimension nennt man ganz allgemein **Tensoren**. Dabei sind Skalare, Vektoren und Matrizen ebenso Tensoren, mit der Dimension 0, 1 bzw. 2. Dabei spricht man bei Tensoren eher von **Stufen** als von Dimensionen. Jenseits der Matrizen lassen sich Tensoren nicht mehr so schön hinschreiben, aber in Computerprogrammen ist es egal, wie viele Indizes man verwendet. Ein Tensor 3. Stufe ist also eine Menge an Zahlen, die strukturiert in der Form $T = (t_{ijk})$ geschrieben werden können. Googles KI-Paket heißt nach diesen Objekten **Tensorflow** (auch Facebooks Torch basiert auf Tensoren.)

## Matrizen in Numpy

Numpy unterstützt natürlich auch das Rechnen mit Matrizen. Für uns ist vor allen Dingen die Multiplikation eine Matrix $M$ mit einem Vektor $V$ interessant. Wie wir gesehen haben, entspricht dies

* der Abbildung zwischen zwei (ggf. verschieden-dimensionalen) Räumen
* der Verarbeitung von Input-Vektoren (und auch von Zwischenergebnissen) in einem Neuronalen Netz.

Allerdings gibt es eine Besonderheit, auf die wir jetzt eingehen müssen.

### Zeilen- und Spaltenvektoren

Wir haben Vektoren bislang etwa so geschrieben: $ v = (v_1, v_2, ... , v_N) $. Mathematisch korrekt ist aber diese Form:
$$ v=  \begin{pmatrix} v_1 \\ v_2 \\ \cdots \\ v_N\end{pmatrix} $$

Das nennt man einen _Spaltenvektor_, im Gegensatz zum platzsparenden _Zeilenvektor_. So exakt wollen wir nicht sein, aber für das Rechnen mit Numpy müssen wir eigentlich alle Vektoren als Spaltenvektoren schreiben. Die (mathematische) Operation, die einen Vektor (und auch eine Matrix) "umklappt" wird __Transponieren__ genannt. Numpy hat dafür auch eine Operation namens `transpose`.

Versuchen wir einmal, eine Matrix und einen Vektor mit `Numpy`zu multiplizieren:

In [18]:
import numpy as np

v = np.array([1,2,3],ndmin=2)
M = np.array([[1,2,3],[4,5,6]])

w = (M @ v.T)
print(w)

[[14]
 [32]]


Dieses Vorgehen ist äquivalent zu der Form

In [17]:
w = np.dot(M, np.transpose(v))
print(w)

[[14]
 [32]]


$w$ ist also das Ergebnis aus der Multiplikation der Matrix $M$ mit dem transponierten Vektor $v$. Wir werden bei der Arbeit mit den Vektoren in den Neuronalen Netzen die betreffenden Vektoren rechtzeitig transponieren müssen, damit "alles klappt".

Das mag alles etwas verwirrend sein, aber es wir etwas einfacher, wenn man sich einen Zeilenvektor als Matrix mit nur einer Zeile vorstellt, und entsprechend einen Spaltenvektor als Matrix mit nur einer Spalte. 