# 5.2 Convolutional Neural Networks
>## <ins>Table of contents</ins> <a name="up"></a>[<sup>[1]</sup>](#cite_note-1)
>* [**5.2.1. Faltung**](#5_2_1)
>* [**5.2.2. Padding und Stride**](#5_2_2)
>* [**5.2.3. Die Pooling-Operation**](#5_2_3)
>* [**5.2.4. CNN-Architektur**](#5_2_4)
>
>## <ins>Beispiele</ins>
>* [**Beispiel 1**:Darstellung von AND-, OR- und XOR-Funktionen mit Perzeptronen](#b1)
>* [**Beispiel 2**: Backpropagation-Algorithmus$](#b2)
>* [**Beispiel 3**: Q-Learning des Staubsaugerproblems](#b3)

### Useful code:

In [2]:
import numpy as np
import matplotlib.pyplot as plt

In [7]:
import numpy as np

def convolve(M_I, M_K):
    # Höhe und Breite der Eingabematrix
    I_H, I_W = M_I.shape

    # Höhe und Breite des Kernels
    K_H, K_W = M_K.shape

    # Höhe und Breite der Ausgabematrix
    O_H = I_H - K_H + 1
    O_W = I_W - K_W + 1

    # Initialisieren Sie die Ausgabematrix mit Nullen
    output = np.zeros((O_H, O_W))

    # Führen Sie die Faltung durch
    for i in range(O_H):
        for j in range(O_W):
            output[i, j] = np.sum(M_I[i:i+K_H, j:j+K_W] * M_K)

    return output

In [26]:
def max_pooling(M, pool_size, stride):
    # Höhe und Breite der Eingabematrix
    M_H, M_W = M.shape

    # Höhe und Breite der Ausgabematrix
    O_H = (M_H - pool_size) // stride + 1
    O_W = (M_W - pool_size) // stride + 1

    # Initialisieren Sie die Ausgabematrix mit Nullen
    output = np.zeros((O_H, O_W))

    # Führen Sie das Max-Pooling durch
    for i in range(O_H):
        for j in range(O_W):
            output[i, j] = np.max(M[i*stride:i*stride+pool_size, j*stride:j*stride+pool_size])

    return output

In [18]:
# Definieren Sie die Matrix MK
M_K = np.array([
    [1/16, 1/16, 1/16],
    [1/16, 1/2, 1/16],
    [1/16, 1/16, 1/16]
])

# Definieren Sie die Matrix MI
M_I = np.array([
    [12, 24, 28, 105, 250, 251],
    [54, 43, 43, 42, 221, 241],
    [67, 50, 89, 92, 210, 211],
    [105, 156, 178, 115, 201, 187],
    [19, 78, 125, 108, 52, 188],
    [112, 101, 154, 205, 198, 192]
])

In [20]:
from scipy.signal import convolve2d

# Führen Sie die Faltung durch
#M_J = np.round(convolve2d(M_I, M_K, mode='valid'))
M_J = np.round(convolve(M_I, M_K))
print(M_J)

[[ 44.  51.  86. 198.]
 [ 71.  89. 115. 187.]
 [122. 140. 123. 173.]
 [ 98. 131. 131. 113.]]


In [43]:
def calculate_output_size(W, F, P, S):
    """
    Berechnet die Ausgabegröße einer Faltungsschicht.

    Parameter:
    W (int): Die Größe der Eingabe (Breite oder Höhe).
    F (int): Die Größe des Filters (Breite oder Höhe).
    P (int): Das Padding.
    S (int): Der Stride.

    Rückgabe:
    W_out (int): Die Größe der Ausgabe (Breite oder Höhe).
    """    
    W_out = (W - F + P) // S + 1
    return W_out

W_out = calculate_output_size(994, 3, 0, 1)
print((3*9)," x ",W_out, " x ", W_out)

27  x  992  x  992


In [46]:
W_out = calculate_output_size(992, 3, 2, 2)
print((3*9)," x ",W_out, " x ", W_out)

27  x  496  x  496


In [45]:
W_out = calculate_output_size(496, 5, 0, 1)
print((27*7)," x ",W_out, " x ", W_out)

189  x  492  x  492


In [47]:
W_out = calculate_output_size(492, 5, 4, 4)
print((27*7)," x ",W_out, " x ", W_out)

189  x  123  x  123


## 5.2.0. Einleitung zum Convolutional Neural Network (CNN)<a name="5_1_0"></a>
---

Ein Convolutional Neural Network (CNN) ist eine spezielle Form eines Feedforward-Netzwerks, das für Daten verwendet wird, die in einer Gitterstruktur angeordnet sind oder bei denen Merkmale in einer räumlichen oder zeitlichen Beziehung zueinander stehen. Es wird häufig in der Bildanalyse eingesetzt, aber auch für Zeitreihen wie Signalmessungen oder natürliche Sprache.

#### Anwendungsgebiete von CNNs

- **Bilddaten**: Bilder werden als Matrizen interpretiert, wobei jede Zelle den Graustufenwert oder den Farbwert kodiert.
- **Zeitreihen**: Zum Beispiel Signalmessungen oder natürliche Sprache.
- In diesem Kontext werden wir uns auf die Anwendung in der Bildanalyse konzentrieren, insbesondere auf die Klassifikation von Objekten auf Bildern, wie z.B. die Erkennung von Hunden oder Katzen.

#### Herausforderungen bei der Bildanalyse

- **Komplexität der Merkmale**: Um Objekte auf Bildern zu klassifizieren, müssen komplexe Merkmale wie Schnurrhaare erkannt werden.
- **Variabilität der Position und Orientierung**: Die Merkmale können an verschiedenen Stellen des Bildes auftreten und in verschiedenen Orientierungen vorliegen.

#### Motivation für CNNs

- Ein herkömmliches Feedforward-Netzwerk würde sehr viele Parameter benötigen, um Merkmale an verschiedenen Stellen des Bildes zu erkennen, was zu Überanpassung führen kann.
- Viele Merkmale sind lokalisiert, d.h. bestimmte Bereiche des Bildes sind für die Erkennung bestimmter Merkmale relevant, während andere Bereiche irrelevant sind.

#### Zentrale Methode von CNNs: Faltungsoperation

- Die Faltungsoperation ist zentral für die Implementierung der Merkmalsextraktion in CNNs.
- Sie ermöglicht es, Merkmale wie Schnurrhaare an verschiedenen Positionen und in verschiedenen Orientierungen effizient zu erkennen, ohne dass jede Position separat trainiert werden muss.
- Dies reduziert die Anzahl der Parameter und macht das Modell robuster gegenüber Überanpassung.

## 5.2.1. Faltung <a name="5_2_1"></a>
---


Die (kontinuierliche) Faltungsoperation $\ast$ ist im einfachsten Fall eine mathematische Operation, die zwei reellwertige Funktionen $i, k : \mathbb{R} \rightarrow \mathbb{R}$ als Eingabe nimmt und eine reellwertige Funktion als Ausgabe liefert, d. h.,

$$\ast : (\mathbb{R} \rightarrow \mathbb{R}) \times (\mathbb{R} \rightarrow \mathbb{R}) \rightarrow (\mathbb{R} \rightarrow \mathbb{R})$$

Konkret ist $\ast$ definiert als

$$(i \ast k)(x) = \int_{-\infty}^{\infty} i(y)k(x-y)dy$$

Die Funktion $i$ heißt dabei **Eingabefunktion** und $k$ heißt **Kernelfunktion** (oder auch Filterfunktion). Die Ausgabe $i \ast k$ heißt (im CNN-Kontext) auch Feature Map von $i$ bzgl. $k$.

#### **Beispiel 1:** Rauschunterdrückung (Denoising) <a name=b1></a>
Die Faltungsoperation kann zur Rauschunterdrückung in Signalen verwendet werden. 

Angenommen, wir haben eine Funktion `i`, die die gemessene Höhe eines Flugzeugs zu jedem Zeitpunkt $x \in \mathbb{R}$ angibt. Da unsere Messinstrumente nicht perfekt sind, ist das gemessene Signal verzerrt. 

Wir definieren eine Funktion $k(x)$, die als Wahrscheinlichkeitsdichte interpretiert werden kann und die Funktionswerte von `i` über die letzten Punkte mittelt durch $i * k$.

In anderen Worten, $(i ∗ k)(x)$ ist der Mittelwert der Werte $[i(x − 2),i(x)]$ bzgl. der Gewichtung $k$. Hier gibt k eine stärkere Gewichtung der Punkte nahe x und eine
absteigende Gewichtung Richtung x−2

.Die Ergebnis ist eine entrauschte Version der Funktion `i`.
$$k(x) = 
\begin{cases} 
1 - \frac{1}{2}x & \text{for } 0 \leq x \leq 2 \\
0 & \text{otherwise}
\end{cases}$$

Die obige genannte Faltungsoperation ist die **kontinuierliche** Faltungsoperation. <ins>In unserem Kontext der Bildanalyse</ins> ist jedoch die **diskrete** Faltungsoperation relevanter. 

Gegeben zwei Funktionen $I,K : \mathbb{Z} → \mathbb{R}$, dann ist die Faltung $I ∗ K$ definiert durch

$$(I ∗K)(n) = \sum_{m=-∞}^{∞} I(m)K(n−m)$$

Für die Bildanalyse mit zweidimensionalen Daten ist die Verallgemeinerung auf zweiwertige Funktionen relevant. Sind Funktionen $I,K : \mathbb{Z}\times\mathbb{Z} → \mathbb{R}$ gegeben, so ist `I ∗K` definiert durch

$$(I ∗K)(n1,n2) = \sum_{m1=-∞}^{∞} \sum_{m2=-∞}^{∞} I(m1,m2)K(n1 −m1,n2 −m2) \tag{1}$$

#### **Beispiel 2:** Rauschunterdrückung (Denoising) <a name=b1></a>

In der Bildverarbeitung wird die Faltung (1) für den **Gauß-Filter** verwendet, eine Methode zum Weichzeichnen oder Entfernen von Rauschen in einem Bild. Die Kernelfunktion $K$ ist so definiert, dass der neue Pixelwert ein Mittelwert seiner Umgebung ist. Eine konkrete Instanz von $K$ ist definiert durch:

$$
K(i, j) = 
\begin{cases} 
1/2 & \text{wenn } i = j = 0 \\
1/16 & \text{wenn } i, j \in \{-1,0,1\} \text{ und nicht } i = j = 0 \\
0 & \text{sonst}
\end{cases}
$$

für alle $i, j ∈ \mathbb{N}$. Diese Kernelfunktion bildet den Helligkeitswert eines Pixels auf einen Mittelwert ab, wobei der aktuelle Pixelwert mit $\frac{1}{2}$ gewichtet wird und die Werte aller direkt umliegenden Pixel mit jeweils $\frac{1}{16}$ gewichtet werden.

etrachtet.

- Die Faltungsoperation ist in der Regel eine "lokale" Operation, bei der die Merkmalsbestimmung eines Pixels nur seine Umgebung einbezieht.
- Die Funktion $K(i, j)$ ist nur für einige wenige Indizes `i, j` ungleich Null.
- `K` und die Eingabefunktion `I` werden üblicherweise durch eine Matrix beschrieben, und die Faltungsoperation kann als Matrixoperation interpretiert werden.
- $M_I$, $M_K$ und $M_{I*K}$ sind die Matrixrepräsentationen der Eingabefunktion, Kernelfunktion und der resultierenden Feature Map.
- Bei der Darstellung als Matrixoperation gibt es Freiheiten, wie mit den Randpixeln verfahren wird.
- Die Ausgabe ist auf solche Pixel beschränkt, bei denen $M_K$ vollständig auf Elemente in `MI` angewendet werden kann.
- Wenn $M_I ∈ \mathbb{R}^{n×m}$ und $M_K ∈ \mathbb{R}^{n'×m'}$ , dann gilt $$M_{I*K} ∈  \mathbb{R}^{(n-n'+1)×(m-m'+1)}$$
- Dieser Ansatz wird als Faltung ohne Padding oder Faltung mit validem Padding bezeichnet.
- Alternativen dazu werden in Abschnitt 5.2.2 betrachtet.

#### Beispiel 3. 

Wir führen Beispiel 2 fort. Die Matrixdarstellung $M_K \in \mathbb{R}^{3 \times 3}$ von K und die Eingabefunktion $I$ (d. h., das Eingabebild) charakterisiert durch eine Matrix $M_I \in \mathbb{R}^{6 \times 6}$ sind gegeben durch:

$$M_K = 
\begin{bmatrix}
1/16 & 1/16 & 1/16 \\
1/16 & 1/2 & 1/16 \\
1/16 & 1/16 & 1/16 \\
\end{bmatrix}$$

$$M_I =
\begin{bmatrix}
12 & 24 & 28 & 105 & 250 & 251 \\
54 & 43 & 43 & 42 & 221 & 241 \\
67 & 50 & 89 & 92 & 210 & 211 \\
105 & 156 & 178 & 115 & 201 & 187 \\
19 & 78 & 125 & 108 & 52 & 188 \\
112 & 101 & 154 & 205 & 198 & 192 \\
\end{bmatrix}
$$


In [23]:
# Definieren Sie die Matrix MK
M_K = np.array([
    [1/16, 1/16, 1/16],
    [1/16, 1/2, 1/16],
    [1/16, 1/16, 1/16]
])

# Definieren Sie die Matrix MI
M_I = np.array([
    [12, 24, 28, 105, 250, 251],
    [54, 43, 43, 42, 221, 241],
    [67, 50, 89, 92, 210, 211],
    [105, 156, 178, 115, 201, 187],
    [19, 78, 125, 108, 52, 188],
    [112, 101, 154, 205, 198, 192]
])

Die Feature Map $J = I ∗ K$ kann durch eine Matrix $M_J \in \mathbb{R}^{4 \times 4}$ dargestellt werden (wir benutzen kein Padding). Insbesondere gilt für den Eintrag $(M_J)_{1,1}$, dass sich dieser aus der elementweisen Matrixmultiplikation von $K$ mit der $3 \times 3$-Untermatrix von $M_I$, die nur aus den ersten drei Zeilen und den ersten drei Spalten besteht, zusammensetzt.

In [24]:
# Führen Sie die Faltung durch
M_J = np.round(convolve(M_I, M_K))
print(M_J)

[[ 44.  51.  86. 198.]
 [ 71.  89. 115. 187.]
 [122. 140. 123. 173.]
 [ 98. 131. 131. 113.]]


- Der Glättungsfilter ist für die Klassifikation von Bildinhalten weniger wichtig.
- **Kernelfunktionen** können so definiert werden, dass sie <ins>die Präsenz von Kanten, Ecken oder komplexeren geometrischen Formen erkennen können.</ins> Die Parameter der Kernelfunktion (d.h., die Matrixeinträge) werden während des Lernens festgelegt.
- Eine Faltungsschicht in einem CNN besteht typischerweise aus verschiedenen Kernelfunktionen, die gleichzeitig auf das gesamte Bild angewendet werden und verschiedene Merkmale erkennen können.
- Ein **Vorteil** der Verwendung der Faltungsoperation in neuronalen Netzwerken ist <ins>die geringere Anzahl an zu lernenden Parametern</ins>.

> **Beispiel**
>
> Bei einem Eingangsbild von 100×100 Pixeln (in Graustufen) und 10 verschiedenen Kernelfunktionen der Größe 5×5 besteht die zweite Schicht aus 10 Feature Maps der Größe 96×96. Dies führt zu insgesamt 96 * 96 * 10 = 92160 Neuronen in der zweiten Schicht.
>
> - Bei Verwendung eines vollvernetzten neuronalen Netzwerks gäbe es 10000 * 92160 = 921,600,000 Kanten und damit genau so viele zu lernende Parameter zwischen den beiden Schichten.
>
> - Bei 10 verschiedenen Kernelfunktionen der Größe 5×5 sind dies im CNN allerdings nur 5 * 5 * 10 = 250 verschiedene zu lernende Parameter.
>
> - Die genaue Einbettung von Faltungsschichten in die Architektur von CNNs wird in Abschnitt 5.2.4 weiter diskutiert.


Zwei weitere Aspekte der Faltung selbst sind das Padding und der Stride.

In [33]:
def calculate_cnn_parameters(input_size, num_kernels, kernel_size):
    # Anzahl der Eingangsneuronen
    input_neurons = input_size * input_size
    print(input_neurons)
    # Größe der Feature Maps in der zweiten Schicht
    output_size = input_size - kernel_size + 1
    print(output_size)

    # Anzahl der Neuronen insgesamt in der zweiten Schicht (für alle Feature Maps)
    output_neurons = output_size * output_size * num_kernels
    print(output_neurons)
    # Anzahl der zu lernenden Parameter im vollvernetzten neuronalen Netzwerk
    fully_connected_params = input_neurons * output_neurons
    print(fully_connected_params)

    # Anzahl der zu lernenden Parameter im CNN
    cnn_params = kernel_size * kernel_size * num_kernels
    print(cnn_params)

    return output_neurons, fully_connected_params, cnn_params

# Beispielaufruf der Methode
input_size = 100
num_kernels = 10
kernel_size = 5

output_neurons, fully_connected_params, cnn_params = calculate_cnn_parameters(input_size, num_kernels, kernel_size)

# Ausgabe der Ergebnisse
print("Anzahl der Neuronen in der zweiten Schicht:", output_neurons)
print("Anzahl der zu lernenden Parameter im vollvernetzten neuronalen Netzwerk:", fully_connected_params)
print("Anzahl der zu lernenden Parameter im CNN:", cnn_params)


10000
96
92160
921600000
250
Anzahl der Neuronen in der zweiten Schicht: 92160
Anzahl der zu lernenden Parameter im vollvernetzten neuronalen Netzwerk: 921600000
Anzahl der zu lernenden Parameter im CNN: 250


## 5.2.2. Padding und Stride <a name="5_2_2"></a>
---

en*.

- Der Ansatz der Faltung durch Matrixoperationen erzeugt eine Feature Map $M_{I∗K}$ aus einer Eingabematrix $M_I$ und einer Kernelmatrix $M_K$. Die **Größe der Feature Map** beträgt $$(n−n′ +1)×(m−m′ +1)$$ wobei n und m relativ groß und n′ und m′ relativ klein sind.
- Der Verlust an Auflösung ist bei diesem Ansatz relativ gering, aber es kann wünschenswert sein, die Auflösung zu erhalten oder zu erhöhen.

### Padding
- Padding-Methoden wie **valides Padding, halbes Padding und vollständiges Padding** können angewendet werden, um die Auflösung zu erhalten und Randpixel besser zu berücksichtigen:
  - **Halbes Padding** erweitert die Matrix $M_I$ oben um $⌈\frac{(n′ − 1)}{2}⌉$ und unten um $⌊(\frac{(n′ − 1)}{2}⌋$ Zeilen, sowie links um $⌈\frac{(m′ − 1)}{2}⌉$ und rechts um $⌊\frac{(m′ − 1)}{2}⌋$ Spalten, um das Format $n×m$ für die Matrix $M_{I*K}$ zu erhalten.

  - **Vollständiges Padding** erweitert die Matrix $M_I$ oben und unten um jeweils $n′
−1$ Zeilen und rechts und links um jeweils $m′ − 1$ Spalten, um gleiche Anzahlen von Berechnungen für jede Zelle der Matrix $M_{I*K}$ zu gewährleisten (nämlich $m′n′$-oft).
      Die resultierende Matrix $M_{I*K}$ hat dann die Dimension $(n+n′ −1)×(m+m′ −1)$.

  - **valides Padding** entspricht überhaupt keinem Padding.

- Jede dieser Padding-Varianten ist parametrisiert durch die Art, wie die Werte der neuen Zellen bestimmt sind. Dazu gibt es verschiedene Methoden z.B.
    - *Zero-Padding*, bei dem alle neuen Zellen den Wert 0 erhalten.
    - oder das *Kopieren der Werte aus den Randzeilen und -spalten* und nur die neuen Eckbereiche 
mit Nullen aufzuü¨llen.

### Stride

- Der Stride (Schrittweite) einer Faltungsoperation bestimmt, wie weit die Kernelmatrix in jeder Berechnung bewegt wird.
    - Bei der normalen Faltungsoperation wird die Matrix $M_K$ bei der Berechnung der einzelnen Zellen von $M_{I*K}$ jeweils um eine Zeile/Spalte in $M_I$ weiterbewegt.
    - Ein Stride von $k > 1$ bewegt die Kernelmatrix $M_K$ um k Zeilen und/oder Spalten und führt zu einer kleineren Feature Map $M_{I*K}$.
- Üblicherweise wählt man Stride-Werte von 1 oder 2, aber höhere Werte können für ressourcenbeschränkte Aufgaben sinnvoll sein.

## 5.2.3. Die Pooling-Operation <a name="5_2_3"></a>
---

- Das Ergebnis einer Faltungsoperation, MI∗K, wird üblicherweise durch die ReLU-Aktivierungsfunktion hReLU(x) = max{0, x} geleitet, bevor es in einem CNN weitergeleitet wird.
- Die ReLU-Funktion wird komponentenweise angewendet und erzeugt eine Matrix MˆI∗K mit identischer Dimension wie MI∗K.
- Nach der Anwendung der ReLU-Funktion wird die Matrix in einer Pooling-Schicht weiterverarbeitet, um die Informationen effizienter zu gestalten und redundante Informationen zu entfernen.
- Die Pooling-Operation zielt darauf ab, die Auflösung der Ausgabematrix im Vergleich zur Eingabematrix zu reduzieren, indem sie Informationen zusammenfasst.
- Eine häufige Form des Poolings ist das Max-Pooling, bei dem über verschiedene Ausschnitte der Eingabematrix gefahren wird und das Maximum berechnet wird.
- Typische Parameter für das Max-Pooling sind eine Filtergröße von 2×2 und ein Stride von 2, um eine Invarianz gegenüber kleinen Verschiebungen zu implementieren.

## 5.2.4. CNN-Architektur <a name="5_2_4"></a>
---

Wir haben nun alle Grundbausteine zusammen, um die Gesamtarchitektur eines CNNs zu diskutieren. Eine einfache typische Beispielarchitektur ist in Abbildung 8 dargestellt.

![cnn](cnn.PNG)


- Die Eingabe für das CNN besteht aus einem Farbbild mit 96 × 96 Pixeln. Jeder der Farbkanäle Rot, Grün und Blau hat eine 96 × 96 Pixel große Eingabe.
- In einem CNN wechseln sich zu Beginn Faltungs- und Poolingschichten ab.
- Im gegebenen CNN gibt es insgesamt zwei aufeinanderfolgende Faltungs- und Poolingschichten.
- Es wird halbes Padding verwendet, um die Größe der Eingabe beizubehalten, und der Stride beträgt 1.
- Die erste Faltungsschicht wendet 4 verschiedene Faltungsoperationen gleichzeitig auf alle drei Eingabematrizen an. Dies resultiert in 12 Feature Maps der Größe 96×96 (entspricht 110592 Neuronen).
- Anschließend werden alle Werte zunächst durch die ReLU-Funktion und dann an die erste (Max-)Poolingschicht geleitet.
- Die Poolingschicht hat eine Filtergröße von 2 × 2 und einen Stride von 2. Dies resultiert in derselben Anzahl von Feature Maps (12), die nun aber jeweils eine Größe von 48 × 48 haben.
- Es folgt eine weitere Faltungsschicht mit 2 verschiedenen Faltungsoperationen. Dies verdoppelt die Anzahl der Feature Maps auf 24, die Auflösung von 48 × 48 bleibt jedoch erhalten (wieder mit halbem Padding und Stride 1).
- Es folgt eine weitere (Max-)Poolingschicht (inklusive vorgelagerter ReLU-Anwendung) mit Filtergröße 4×4 und Stride 4, dies resultiert in 24 Feature Maps der Größe 12×12 (entspricht insgesamt 3456 Neuronen).
- Im letzten Teil des CNNs befindet sich ein vollständig vernetztes Feedforward-Netzwerk, das die eigentliche Klassifikationsaufgabe löst (die vorangegangenen Schichten entsprechen prinzipiell nur der Merkmalsextraktion).
- Es gibt eine Schicht von 12 Neuronen, die mit ihrer Vorgängerschicht und der nachfolgenden Ausgabeschicht voll vernetzt ist.
- Die Ausgabeschicht in diesem Beispiel ist für die Mehrklassenklassifikation konzipiert.

In [52]:
def calculate_output_size(W, F, P, S):
    """
    Berechnet die Ausgabegröße einer Faltungsschicht.

    Parameter:
    W (int): Die Größe der Eingabe (Breite oder Höhe).
    F (int): Die Größe des Filters (Breite oder Höhe).
    P (int): Das Padding.
    S (int): Der Stride.

    Rückgabe:
    W_out (int): Die Größe der Ausgabe (Breite oder Höhe).
    """    
    W_out = (W - F + P) // S + 1
    return W_out

W_out = calculate_output_size(96, 1, 0, 1)
print((3*4)," x ",W_out, " x ", W_out)

12  x  96  x  96


In [53]:
W_out = calculate_output_size(96, 2, 0, 2)
print((3*4)," x ",W_out, " x ", W_out)

12  x  48  x  48


In [54]:
W_out = calculate_output_size(48, 1, 0, 1)
print((12*2)," x ",W_out, " x ", W_out)

24  x  48  x  48


In [56]:
W_out = calculate_output_size(48, 4, 0, 4)
print((12*2)," x ",W_out, " x ", W_out)

24  x  12  x  12


1. **Effizienz und Komplexität von CNNs im Vergleich zu vollvernetzten Netzwerken**:
   - Realistische CNN-Architekturen umfassen oft zahlreiche Faltungs- und Poolingschichten sowie Schichten im vollvernetzten Teil.
   - Trotz dieser Komplexität haben CNNs in der Regel weniger Parameter als vollvernetzte Netzwerke ähnlicher Größe.

2. **Gründe für die geringere Parameteranzahl in CNNs**:
   - Annahmen zur Nichtlokalität von Merkmalen in Bildern führen zu spezifischen Designentscheidungen für CNNs.
   - Im Gegensatz zu vollvernetzten Netzwerken gibt es in CNNs relativ wenige Verbindungen zwischen den Schichten (sparse interaction).
   - Jede Faltungsoperation einer Schicht hat eine fixe Anzahl von Parametern, die auf das gesamte Bild angewendet werden (parameter sharing).
   - Diese Struktur führt zu einer vergleichsweise geringen Anzahl von Parametern, die während des Trainings angepasst werden müssen.

3. **Trainingsprozess von CNNs**:
   - Das Lernen der Parameter in CNNs erfolgt ähnlich wie bei Feedforward-Netzwerken unter Verwendung von Algorithmen wie Stochastic Gradient Descent und Backpropagation.
   - Es muss darauf geachtet werden, dass die Gewichte von gemeinsam genutzten Kanten während eines Gradient Descent-Schritts nur einmal aktualisiert werden.

## 5.2.4. Beispiel <a name="5_2_4"></a>
---

In [22]:
# Definieren Sie die Matrix MI
M_I = np.array([
    [1, 2, 3, 4, 5],
    [3, 5, 2, 1, 3],
    [5, 7, 10, 2, 7],
    [6, 8, 13, 7, 1],
    [10, 12, 10, 9, 8],
])

# Definieren Sie die Matrix MK
M_K = np.array([
    [1, 0, -1],
    [2, 0, -2],
    [1, 0, -1]
])

# Führen Sie die Faltung durch
M_J = np.round(convolve(M_I, M_K))
print(M_J)

[[ -5.  11.  -1.]
 [-16.  15.  17.]
 [-19.  10.  29.]]


In [25]:
def max_pooling(M, pool_size, stride):
    # Höhe und Breite der Eingabematrix
    M_H, M_W = M.shape

    # Höhe und Breite der Ausgabematrix
    O_H = (M_H - pool_size) // stride + 1
    O_W = (M_W - pool_size) // stride + 1

    # Initialisieren Sie die Ausgabematrix mit Nullen
    output = np.zeros((O_H, O_W))

    # Führen Sie das Max-Pooling durch
    for i in range(O_H):
        for j in range(O_W):
            output[i, j] = np.max(M[i*stride:i*stride+pool_size, j*stride:j*stride+pool_size])

    return output

# Definieren Sie die Matrix M
M = np.array([
    [1, 3, 4, 10],
    [1, 2, 5, 12],
    [2, 3, 0, 1],
    [4, 5, 2, 1],
])

# Führen Sie das Max-Pooling durch
result = max_pooling(M, 2, 2)

print(result)


[[ 3. 12.]
 [ 5.  2.]]


In [43]:
def calculate_output_size(W, F, P, S):
    """
    Berechnet die Ausgabegröße einer Faltungsschicht.

    Parameter:
    W (int): Die Größe der Eingabe (Breite oder Höhe).
    F (int): Die Größe des Filters (Breite oder Höhe).
    P (int): Das Padding.
    S (int): Der Stride.

    Rückgabe:
    W_out (int): Die Größe der Ausgabe (Breite oder Höhe).
    """    
    W_out = (W - F + P) // S + 1
    return W_out

W_out = calculate_output_size(994, 3, 0, 1)
print((3*9)," x ",W_out, " x ", W_out)

27  x  992  x  992


In [46]:
W_out = calculate_output_size(992, 3, 2, 2)
print((3*9)," x ",W_out, " x ", W_out)

27  x  496  x  496


In [45]:
W_out = calculate_output_size(496, 5, 0, 1)
print((27*7)," x ",W_out, " x ", W_out)

189  x  492  x  492


In [47]:
W_out = calculate_output_size(492, 5, 4, 4)
print((27*7)," x ",W_out, " x ", W_out)

189  x  123  x  123


---
<a name="up"></a>**`[Go Up!^](#up)**

##### Sources:

(1) Why does Q-Learning use epsilon-greedy during testing?. https://stats.stackexchange.com/questions/270618/why-does-q-learning-use-epsilon-greedy-during-testing.
(2) Epsilon-Greedy Q-learning | Baeldung on Computer Science. https://www.baeldung.com/cs/epsilon-greedy-q-learning.
(3) Epsilon and learning rate decay in epsilon greedy q learning. https://stackoverflow.com/questions/53198503/epsilon-and-learning-rate-decay-in-epsilon-greedy-q-learning.
(4) Exploration in Q learning: Epsilon greedy vs Exploration function. https://datascience.stackexchange.com/questions/94029/exploration-in-q-learning-epsilon-greedy-vs-exploration-function.