# Einführung in Convolutional Neural Networks (CNN)

## Klärung von Begrifflichkeiten
- Die Schichten eines neuronalen Netzwerks werden entweder als **Schicht** oder als **Layer** (englisch) bezeichnet
- Die Knoten in einer Schicht entweder als **Knoten** oder als **Node** (englisch)

## Das Ziel eines CNNs
CNNs ermöglichen es, KI auf Bilder oder Audio anzuwenden. Mögliche Anwendungsgebiete sind:
- Objekterkennung
- Bildsegmentierung
- Gesichtserkennung
- Spracherkennung
- ...

Diese Serie von Jupyter Notebooks wird sich auf die **Klassifizierung** beschränken, am Beispiel der Datensätze **MNIST**, **German Traffic Sign** und **Street View House Number**. <a href="http://yann.lecun.com/exdb/mnist/">MNIST</a> enthält Schwarz-Weiß-Bilder von handschriftlichen Ziffern, <a href="https://www.kaggle.com/meowmeowmeowmeowmeow/gtsrb-german-traffic-sign">German Traffic Sign</a> besteht aus Bildern von Straßenschildern aus Deutschland und <a href="http://ufldl.stanford.edu/housenumbers/">Street View House Number</a> enthält Bilder von Hausnummern, die aus Google Steet View extrahiert wurden.

## Unterschied zu „klassischen“ neuronalen Netzwerken
### Mehrdimensionale Layer
In „klassischen“ neuronalen Netzwerken ist der Input zu einem bestimmten Layer eindimensional: er besteht aus dem Output der vorhergehenden Knoten, d. h. bei $n$ Knoten können die Daten, die zwischen den Layern übergeben werden, als $n\times1$-Matrix ($nD$-Vektor) repäsentiert werden. Gleiches gilt für die Gewichte eines Knotens des Folgelayers (unter der Annahme, dass das Netzwerk vollständig verknüpft ist, d. h. jeder Knoten auf alle Knoten des nachfolgenden Layers Einfluss hat). <br>
Anschauliche Erklärung anhand eines Beispiels:
<div style="width:40%;margin:auto;margin-top:20px">
<img src="assets/Neural_Network.svg" alt="Aufbau eines simplen neuronalen Netzwerks"/>
<small style="text-align:right;display:block"><a href="https://de.wikipedia.org/w/index.php?title=K%C3%BCnstliches_neuronales_Netz&oldid=204504686">Quelle</a></small>
    <div style="text-align:center;color:RGB(117,117,117)">Aufbau eines simplen neuronalen Netzwerks</div>
</div>
In der mittleren Schicht erhält jede Node zwei Inputwerte: die Outputs der Nodes in der vorhergehenden Schicht. Jede Node gibt exakt einen Wert aus, deswegen gibt es für jeden Knoten der mittleren Schicht immer zwei Inputwerte, die als 2D-Vektor geschrieben werden. Mit jedem dieser Werte assoziiert der folgende Knoten genau ein Gewicht, sodass folgt, dass alle Knoten des mittleren Layers 2D-Gewichte haben.
<div style="width:70%;margin:auto;margin-top:20px">
<img src="assets/CNN.jpeg" alt="Aufbau eines CNNs"/>
<small style="text-align:right;display:block"><a href="https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53">Quelle</a></small>
    <div style="text-align:center;color:RGB(117,117,117)">Aufbau eines Convolutional Neural Networks</div>
</div>
Farbbilder werden in Computern als dreidimensionale Arrays repräsentiert:$$(Breite)\times(Höhe)\times(Farbtiefe)$$
In der Abbildung oben wird dies links, beim Inputlayer, angedeutet.<br>
Wenn jetzt ein Bild in einem Layer „verarbeitet“ wird (der genaue Prozess folgt unten), dann gibt es keine einzelnen Werte mehr, die von Schicht zu Schicht fließen, sondern es wird im vorderen Teil des CNNs immer ein Bild übergeben. Die Bezeichnung für das, was zwischen den Schichten übermittelt wird, ändert sich jedoch nach ab dem ersten Verarbeitungsschritt zu <b>Feature Map</b>, um anzudeuten, dass bestimmte Merkmale des Bildes verstärkt hervorgehoben wurden.<br>
Weil der Input zu einer Schicht nicht mehr aus Zahlen besteht, sondern aus dreidimensionalen Gebilden, müssen die Gewichte auch dreidimensional sein. Eine weitere Einschränkung gibt es, und zwar muss die Farb- bzw. Bittiefe der Gewichte mit der des Bildes bzw. der Feature Map übereinstimmen. Weiterhin werden die Gewichte im vorderen Teil des CNNs nicht Gewichte, sondern <b>Kernel</b> genannt.
<h3>Geteilte Gewichte</h3>
Eine weitere Besonderheit von CNNs ist, dass für jeden Layer nur ein Kernel existiert. Dieser wird auf alle Ausschnitte des Bildes / der Feature Map angewandt. Somit wird die Anzahl der Gewichte deutlich eingeschränkt.<br>
Zur Veranschaulichung ein Beispiel:<br>
Verbindet man jeden ausgehenden Pixel eines Layers mit jedem Knoten des nächsten, hat man bei einer $100\times 100$ Pixel Feature Map (Graustufen) <i>pro Knoten</i> $10.000$ Gewichte.<br>
Im Vergleich dazu hat ein $3\times 3$-Kernel $9$ Werte als Gewichte.<br>
Das hat zur Folge, dass das Netzwerk aus mehr Layern bestehen kann, die zusammengenommen komplexe Features erkennen können. Weiter wird dadurch das Netzwerk weniger anfällig für <i>Overfitting</i>.
<h3>Lokale Konnektivität</h3>
Die Verwendung von Kernels anstelle vollständig verbundener Schichten hat außerdem einen weiteren Vorteil. Da der Kernel immer mehrere Pixel bedeckt, werden lokale Beziehungen zwischen diesen Pixeln stark berücksichtigt. Das ist bei vollständig verbundenen Schichten ebenfalls möglich, aber in diesem Fall muss das Verhalten erst erlernt werden, und ist nicht durch das Design gegeben. Somit würde die Dauer der Trainingsphase bis zur Konvergenz länger sein.

## Funktionsweise
In diesem Abschnitt wird erklärt, wie ein CNN funktioniert. Es wird jedoch nicht auf Implementierungsdetails eingegagen. Die folgende Abbildung, die oben bereits stand und hier zur Veranschaulichung erneut abgedruckt ist, wird zur Referenz hergenommen.
<div style="width: 70% ; margin: auto; margin-top:20px">
<img src="assets/CNN.jpeg" alt="Aufbau eines CNNs">
<small style="text-align: right ; display: block"><a href="https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53" target="_blank">Quelle</a></small>
    <div style="text-align: center ; color: rgb(117 , 117 , 117)">Aufbau eines Convolutional Neural Networks</div>
</div>
Ein CNN lässt sich in zwei Teile aufteilen, das Feature Learning und die Klassifizierung.
<h3>Feature Learning</h3>
Im vorderen Teil des CNNs, dem Feature Learning, werden durch die Konvolution mit den Kernels der Layer bestimmte Merkmale erkannt, die das Netzwerk selbst festlegt. Das bedeutet zum Beispiel, dass eine Schicht Kanten detektiert, und die folgende dann aus diesen beispielsweise Ecken erkennt. Im Feature Learning gibt es zwei verschiedene Arten von Schichten, Konvolutions- und Poolingschichten. Bei der Konvolution wird auf eine Feature Map ein Kernel angewandt, während beim Pooling die Größe der Feature Map verkleinert wird.
<h4>Konvolutionsschicht</h4>
<div style="width: 70% ; margin: auto;margin-top: 20px;margin-bottom: 20px;">
<img src="assets/convolution.gif" alt="Funktionsweise der Konvolution">
<small style="text-align: right ; display: block"><a href="https://towardsdatascience.com/lets-code-convolutional-neural-network-in-plain-numpy-ce48e732f5d5" target="_blank">Quelle</a></small>
    <div style="text-align: center ; color: rgb(117 , 117 , 117)">Veranschaulichung der Konvolution. Der verwendete Kernel detektiert horizontale Kanten</div>
</div>
Anschaulich wird bei der Konvolution das Inputbild (bzw. die Feature Map) hergenommen und der Kernel darüber geschoben. Für jeden Schritt wird der Kernel mit dem Teil des Bildes, den er bedeckt, multipliziert. Diese Werte werden addiert und ergeben den neuen Pixelwert.<br>
In der Abbildung oben ist eine beispielhafte Konvolution dargestellt. Der verwendete $3\times 3$-Kernel dient zur Detektion von horizontalen Kanten und wird auch <a href="https://de.wikipedia.org/w/index.php?title=Sobel-Operator&oldid=204090356">Sobel-Operator</a> genannt. In einem späteren Notebook zu den Layern wird die Konvolution auf einem tieferen Level erklärt.
<h3>Poolingschicht</h3>
In einer Poolingschicht werden die Dimensionen einer Feature Map verkleinert. Das geschieht, indem wieder ein Teilbereich betrachtet wird, und ein einzelner Pixelwert aus diesem Bereich generiert wird.<br>
Der Unterschied zur Konvolution ist, dass anstelle des Kernels eine <b>unveränderliche Funktion</b> verwendet wird. Mögliche Funktionen sind die <b>Max</b>-Funktion und die <b>Average</b>-Funktion. Die erste gibt den Maximalwert zurück, während letztere den Mittelwert des Bereichs zurückgibt. Ein weiterer Unterschied ist, dass der Teilbereich so verschoben wird, dass sich <b>keine zwei Teilbereiche überlappen</b> (Schrittweite $>1$). In der folgenden Abbildung ist eine beispielhafte Poolingschicht dargestellt. Der untere Teil der Abbildung (Backward Pass) ist jetzt noch nicht wichtig und wird später erklärt.
<div style="width: 70% ; margin: auto;margin-top: 20px;margin-bottom: 20px;">
    <img src="assets/pooling.gif" alt="Funktionsweise des Poolings">
    <small style="text-align: right ; display: block">
        <a href="https://towardsdatascience.com/lets-code-convolutional-neural-network-in-plain-numpy-ce48e732f5d5" target="_blank">Quelle</a>
    </small>
        <div style="text-align: center ; color: rgb(117 , 117 , 117)">Veranschaulichung des Max-Poolings</div>
</div>

### Classification
Der hintere Teil des CNNs hat das Ziel, aus den erlernten Merkmalen auf die richtige Klasse zu schließen. Hierfür wird ein vollständig verbundenes neuronales Netzwerk verwendet.<br>
Zuerst werden die mehrdimensionalen Feature Maps zu einem großen Vektor umgewandelt, der dann weiterverarbeitet werden kann. <br>
Der Rest des Klassifikations-Netzwerks wird hier nicht erklärt, da dies ein standardmäßiges neuronales Netzwerk zur Klassifizierung ist.

# Quellen
https://de.wikipedia.org/w/index.php?title=Convolutional_Neural_Network&oldid=208220229<br>
https://towardsdatascience.com/simple-introduction-to-convolutional-neural-networks-cdf8d3077bac<br>
https://towardsdatascience.com/understanding-parameter-sharing-or-weights-replication-within-convolutional-neural-networks-cc26db7b645a<br>
https://towardsdatascience.com/understanding-cnn-convolutional-neural-network-69fd626ee7d4