# Neuronale Netzwerke für Bilderkennung
Wie wir schon gelernt haben, brauchen wir für Bilderkennung ein Netzwerk, das mit sehr vielen Eingangsdaten arbeiten kann (jeder Bildpunkt in jeder der drei Grundfarben ergibt ein Signal). Dies führt zu sehr grossen Netzwerken mit Tausenden von Neuronen. Mit einigen "Tricks" können wir sowohl die Anzahl Neuronen reduzieren, als auch dem Netzwerk helfen, andere Problem bei der Bilderkennung anzugehen.

## Convolutional Neuronal Network (CNN)

### Einleitung / Funktionsweise

Oft wird bei der Bilderkennung ein **Convolutional Neuronal Network (CNN)** eingesetzt. Dieses teilt das Eingangsbild in Bereiche auf und geht diese der Reihe nach durch. Mit verschiedenen, selbst gelernten **Filtern** erkennt es nun Formen (Linien, Formen, Übergänge, Flächen etc.) oder andere Eigenschaften (englisch: Features) auf den Teilbildern. Die nachfolgenden Schichten verfeinern dieses Vorgehen, sodass daraus immer höhere Features mit spezifischeren Informationen werden. Diese werden zum Schluss in ein herkömmliches (voll verbundenes) neuronales Netzwerk gegeben, um das Resultat auszuwerten.

Man kann sich das stark vereinfacht so vorstellen:
1. Erste Schicht erkennt einfache Formen auf den Bildern. Wie Halbkreise, Linien, helle oder dunkle Bereiche etc.
2. Die nächsten Schichten machen aus diesen einfachen Formen komplexere Features. Zum Beispiel ergeben mehrere Linien zusammen einen grossen Kreis. Am Schluss gibt es also ein Neuron, welche ein starkes Signal ausgibt, wenn ein grosser Kreis im Bild erkannt wurde. Oder zwei kleinere Kreise nebeneinander könnten als Augen-Feature erkennt werden.
3. Das herkömmliche neuronale Netzwerk am Ende bekommt dann diese höheren Features anstatt lediglich Bildpunkte. So kann das Netzwerk bessere Aussagen machen. Beispiel: "Zwei kleinere Kreise nebeneinander und ein gegen oben geöffneter Halbkreis" = Smiley 😀

![Convolutional_Neural_Network](https://upload.wikimedia.org/wikipedia/commons/6/6b/3_filters_in_a_Convolutional_Neural_Network.gif)  
<small>Quelle https://commons.wikimedia.org/wiki/File:3_filters_in_a_Convolutional_Neural_Network.gif (CC)</small>

Diese Informationen sollten uns als groben Einstieg genügen. Falls du dich weiter in das Thema vertiefen willst, dann schaue im Internet nach. Zum Beispiel:
- Youtube-Video (englisch, 6min): [What are Convolutional Neural Networks (CNNs)?](https://youtu.be/QzY57FaENXg)
- Artikel: [Convolutional Neural Network (CNN): Alles, was Du wissen solltest](https://datascientest.com/de/convolutional-neural-network-2)

Du kannst dir auch nochmals die entsprechenden PowerPoint-Folien des Kick-Off-Days ansehen:
- https://drive.switch.ch/index.php/s/4p866m51bwDdeq6

### CNN Architekturen

Es gibt verschiedene Architekturen von CNN's, welche sich in der Art und Anzahl der Layer unterscheiden. Zum Beispiel:

  - alexnet
  - squeezenet1_1
  - resnet18 / resnet34 / resnet50
  - densenet121 / densenet161
  - resnext50_32x4d

(Du kannst dich [hier](https://pytorch.org/vision/stable/models.html#classification) über die verfügbaren Architekturen informieren.)

Und natürlich kann man seine eigene Architektur definieren! So wie wir das im Trainings-Notebook von dieser Woche machen.

### Arten von Layern

Wenn du dir die Architekturen ansiehst, wirst du verschiedene Arten von Layern finden. Wir beschreiben hier kurz wie diese heissen und was diese machen:

- `torch.nn.Linear(...)`: Dies ist ein Layer eines voll verbundenen (dense) neuronalen Netzes, wie wir es in der Theorie dieser Woche kennengelernt haben.
- `torch.nn.Conv2d(...)`: Ein normaler Convolution-Layer. Und zwar für 2D-Daten (also Bilder mit Höhe x Breite)
- `torch.nn.MaxPool2d(...)`: Beim Pooling werden Pixelwerte benachbarter Pixel zusammengerechnet und so die Bildgrösse verringert. Wir oft im Zusammenhang mit Convolution-Layer benützt.
- `torch.nn.Dropout(...)`: Diese Layer deaktivieren während des Trainings zufällige Neuronen. So wird das Resultat stabiler und die Gefahr von Overfitting verringert.
- `torch.nn.Flatten(...)`: Dieser Layer formt mehrdimensionalen Ausgabewerte zu einer eindimensionalen (flachen) Liste um. Das macht man am Ende der Convolution-Layer, bevor das voll verbundene neuronale Netz folgt. 
- `torch.nn.BatchNorm1d(...)`: Bei der Normalisierung wird geschaut, dass alle Pixelwerte in einem ähnlichen Bereich liegen (meistens zwischen 0.0 und 1.0). So verhindert man zu kleine oder zu grosse Zahlen, die beim Lernen stören könnten. Man kann ganz vereinfacht sagen, dass darauf geachtet wird, dass alle Bilder in etwa gleich hell sind.
- `torch.nn.ReLU(...)`/`torch.nn.Sigmoid()`: Hierbei handelt es sich um zwei Arten von **Aktivierungsfunktionen**, wie in der Theorie vorgestellt. 