## Convolutional Neural Networks (CNN) I

Die sogennanten Convolutional Neural Networks beinhalten im wesentlichen folgende drei Operationen:

- Convolutional Layer
- Pooling Layer
- Fully Connected Layer

Im folgenden behandeln wir die ersten beiden Operationen im Detail (die Fully Connected Layer entsprechen den in den vergangenen Vorlesungen eingeführten Neuronalen Netzen).

### Convolutional Layer

#### Convolutional Operation
Die Faltungsoperationen in einem CNN sind dem visuellen Kortex des Menschen nachempfunden. Dabei wird eine vergleichsweise kleine Faltungsmatrix (der sogenannte Filterkernel oder Kernel) schrittweise über den Input (in den allermeisten Fällen ein Bild) bewegt und mittels Multiplikation lokale Korrelationen berechnet. 

<img src="cnn_conv.jpg" height="100" width="600"/>


Die Aktivation eines Neurons im Convolutional Layer berechnet sich als inneres Produkt des Filterkernels mit dem aktuell unterliegenden Bildausschnitt (plus Aktivierungsfunktion, z.B. Relu). Die Größe des Filterkerns wird als **Receptive Field** bezeichnet.

Der Output eines Neurons (ohne Aktivierungsfunktion) berechnet sich hier wie folgt:
\begin{equation}
z_{i,j,k} = b_k + \sum\limits_{u = 0}^{f_h - 1} \, \, \sum\limits_{v = 0}^{f_w - 1} \, \, \sum\limits_{k' = 0}^{f_{n'} - 1} \, \, x_{i', j', k'} . w_{u, v, k', k} \quad \text{with } \begin{cases} i' = i \cdot s_h + u \\ j' = j \cdot s_w + v \end{cases} 
\end{equation}

Hierbei bedeuten:

- $z_{i,j,k}$: Output des Neurons in Zeile $i$, Spalte $j$ der feature map $k$ von layer $l$
- $b_k$: Bias-Term in der Feature map $k$ von layer $l$
- $s_h,s_w$: Horizontaler und vertikaler Stride 
- $f_h,f_w$: Höhe und Breite des receptive fields 
- $f_{n'}$: Anzahl der feature maps in layer $l-1$
- $x_{i',j',k'}$:  Output des Neurons in Zeile $i'$, Spalte $j'$ der feature map $k'$ von layer $l-1$
- $w_{u,v,k',k}$: Weights zwischen Neuronen feature map $k$, layer $l$ und feature map $k'$, layer $l-1$
  

Zur Berechung der Größe des Output-Tensors: Nehmen wir als Input einen Tensor  $\mathbf{X}\in\mathbb{R}^{H_1\times W_1\times D_1}$ und nehmen zur Vereinfachung an, dass
die Anzahl der Filter $K$, $f_h=f_w=F$, $s_h=s_w=S$ und das Zeros Padding $P$ ist, dann ist $\mathbf{Z}\in\mathbb{R}^{H_2\times W_2\times D_2}$ mit
\begin{eqnarray*}
H_2 &=& \frac{H_1-F+2P}{S}+1 \\
W_2 &=& \frac{W_1-F+2P}{S}+1 \\
D_2 &=& K
\end{eqnarray*}

<img src="cnn_conv2.jpg" height="100" width="400"/>

#### Implementierung in Keras/Tensorflow

Die Implentation mittels Keras erfolgt über https://keras.io/api/layers/convolution_layers/convolution2d/. Es müssen folgende Eingaben gemacht werden:
- Der Input-Tensor $x$ eine Tensor 3. Stufe (rows,cols,channels) sein mit
    - rows: Zeilenanzahl des Bildes = Höhe
    - cols: Spaltenanzahl ders Bildes = Breite
    - channels: Farbkanäle 
- Der Filterkern $kernel$  muss  ein Tensor 4. Stufe $(f_h,f_w,n_i,n_o)$ sein mit
    - $f_h$: Höhe des Filters
    - $f_w$: Breite (width) des Filters
    - $n_i$: Anzahl Eingangskanäle (in)
    - $n_o$: Anzahl Ausgangskanäle (out)
- Die strides als Tupel $(s_h,s_w)$

### Pooling

#### Pooling Operation

Im Vergleich zur Convolution ist die Pooling Operation sehr einfach. Die gängigste Version ist die max-pooling Operation, bei der auf dem Receptive Field einfach das Maximum gebildet wird. In der folgenden Abbildung ist eine Max Pooling Operation mit einem $2\times 2$-Filter und einen Stride von $S=2$ gezeigt.

<img src="pooling.png" height="100" width="400"/>

#### Implementierung in Keras/Tensorflow

Die (Max-) Pooling-Operation mittels Keras findet sich unter https://keras.io/api/layers/pooling_layers/max_pooling2d/.  Es müssen folgende Eingaben gemacht werden: 

- Den $pool\_size$ als Tupel $(p_h,p_w)$
- Die $strides$ als Tupel $(s_h,s_w)$

#### Wichtiger Hinweis für die Implementierung in Keras

Folgende Vorgehensweise bietet sich zum
> - Anlegen einer Convolutional Operation
- Setzen der Gewichte (parameter/weights)
- Auswerten 

an:

In [None]:
import keras
from keras.models import Sequential
from keras.layers import Conv2D, MaxPool2D

# Sequential Model erstellen:_
model = Sequential()

# Anlegen des Conv2D-Layers
model.add(Conv2D(...))

# Model compilieren (muss sein, auch wenn nicht trainiert wird)
model.compile(...)

# Händisches Setzen der Gewichte
model.get_layer('Name of layer').set_weights([ numpy array of layer])

# Auserten
model.predict()