# Ein erster CNN Versuch

In diesem Notebook wird ein erster Versuch unternommen das Problem mit einem CNN zu lösen. 

Die üblich Architektur benutzt dabei eine Feature-Extraktion mit Convolutional-Layern, gefolgt von ein paar Schichten von Fully-connected Layern. Diese Architektur wurde unter anderem von AlexNet bekannt gemacht: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networ

![](https://qph.fs.quoracdn.net/main-qimg-9b3d3424df138ad5d7a87506dfddbc94)

Im ersten Schritt werden wieder die relevanten Packages importiert und Variablen definiert. 

Zusätzlich zu den bereits eingeführten Packages, importieren  wie einige Keras Packages welche es uns erlauben Modelle zu bauen.

In [None]:
# Imports und Variablen 


In [None]:
# Laden der Daten Test und Trainset



In der nächsten Zelle wird das eigentlich Modell definiert. Dieses setzt sich aus einem Faltungsteil zur Feature-Extraktion und einem Fully-connected Teil zur Klassifikation von Hund oder Katze aus den extrahierten Features zusammen.



---

## Feature-Extraktion

Die Faltungsbasis setzt sich aus mehreren Schichten zusammen. Die einzelnen Schichten sind dabei wie folgt:



```
model.add(layers.Conv2D(Anzahl_Feature_Maps, Größe_des_Faltungskernels, activation='Wahl_der_Aktivierungsfunktion'))
model.add(layers.MaxPooling2D(Größe_des_Poolings))
```

Die hinteren Schichten haben kleine rezeptive Flächen, aber dafür mehr Feature Maps, bis in der letzten Schicht alle Feature in einen Vektor eingetragen werden

### Aktivierungs-Funktion

Als Aktivierungsfunktion für CNNs habt sich die Rectified-Linear-Unit sehr bewährt. Diese sieht wie folgt aus:

<img src=https://cdn-images-1.medium.com/max/1600/1*DfMRHwxY1gyyDmrIAd-gjQ.png width="500">

### Max-Pooling

Da in CNNs die genaue Position eines Features irrelevant ist, lässt sich die Performance des Modells stark verbesser indem wir einen Teil der Informationen vernächlässigen. Die passiert durch sogenanntes Max-Pooling wie im folgenden Bild dargestellt.


<img src=https://qph.fs.quoracdn.net/main-qimg-8afedfb2f82f279781bfefa269bc6a90.webp width="500">

Max-Pooling erlaubt eine starke Reduzierung der Netzgröße ohne dabei die Genauigkeit signifikant zu reduzieren.


---

## Fully-Connected Schicht

Die Fully-Connceted Schicht erhält als Input einen Vektor von Features welche von der Faltungsbasis extrahiert wurden. Als Output soll sie nun einen Wert zwischen 0 und 1 ausgeben, wobei 0 Katze entsprich und 1 Hund. Ein solches Problem wird als binäre Klassifikation bezeichnet.

Die Schichten werden dabei wie folgt angebunden:

```
model.add(layers.Dense(Anzahl_der_Neuronen_in_der_Schicht,activation='sigmoid'))
```

Die letzte Schicht hat dabei nur ein Neuron (da wir als Output nur den Bereich [0,1] wollen).

### Aktivierungs-Funktion

Als Aktivierungsfunktion für eine binäre Klassifikation bietet sich die Sigmoid-Funktion an, welche alle Inputs auf den Bereich [0,1] mapt.

<img src=https://i.stack.imgur.com/VDOBN.png width="500">




In [None]:
# Model definieren

# Faltungsbasis

# Fully Connected Schicht


Im nächsten Schritt soll das Modell assembliert werden. Dabei werden von Keras alle Gewichte mit einem zufälligen Wert initialisiert. 

Es muss zunächst eine Loss-Funktion und ein Optimierungsalgorithmus vorgegeben werden, welche im Folgenden genauer beschrieben werden.

## Loss Funktion

Die Loss Funktion bestimmt wie genau der Fehler bestimmt wird. Im Fall einer binären Klassifikation bietet sich die binäre Crossentropy an. Diese misst wie sehr die Wahrscheinlichkeitsverteilung des Ausgangs unseres Modells, mit der Wahrscheinlichkeitsverteilung des Testsets übereinstimmt. Sie ist minimal für den Fall das diese identisch sind.

## Optimierungsalgorthimus

Das klassische Mini-Batch Stochastic Gradient Descent hat einige Nachteile. So wurden über die Zeit einige adaptive Optimierungsverfahren entwickelt, welche die Lernrate adaptiv anpassen.

Ein toller, optischer Vergleich verschiedener Optimierungsalgorithmen für Deep Learning ist [hier](https://imgur.com/a/Hqolp#NKsFHJb)
  gegeben.
  
Eine genaue Einführung würde weit über den Umfang dieses Kurses hinaus gehen. In diesem Beispiel wird RMSprop verwendet, mit einer Lernrate von >5e-5.



In [None]:
# Assemblieren den Modells


Als letzter Schritt wird das Netz mit den Trainingsdaten trainiert. Dabei werden aus Zeitgründen nicht (wie üblich) pro Epoche Anzahl_Bilder/Batch_Size gemacht, sondern lediglich einige wenige. In jeder Epoche wird das Modell danach auf dem Test-Set getestet.

In [None]:
# Trainieren des Modells


In [None]:
# Plotten der Modell Genauigkeit
