# Aufgabe 7 - CNN - Backpropagation: Pooling

Dieses Notebook thematisiert die Backpropagation durch Pooling-Operationen in Convolutional Neural Networks (CNNs).

Ziel ist es, den Gradientenfluss während der Backpropagation genau zu analysieren und nachzuimplementieren.

<font color="#aa0000">**Hinweis:**</font>
Dieses Notebook enthält eine Praktikumsaufgabe ([P7](#praktikum)). Erweitern Sie das Notebook geeignet und speichern Sie das ausgeführte Notebook erneut ab (File &rarr; Download as &rarr; Notebook). Reichen Sie abschließend das heruntergeladene Notebook im zugehörigen [Moodle-Kurs](https://moodle2.tu-ilmenau.de/course/view.php?id=4366) ein.

**Die Einreichungsfrist finden Sie im Moodle-Kurs.**

### Inhaltsverzeichnis
- [(g) Implementierung von Max Pooling mit NumPy](#g)
    - [Berechnung der Größe der Output Feature Maps](#output_shape)
    - [Berechnung von Max Pooling](#forward)
    - [Überführung in eine Klasse](#klasse)
    - [Berechnung der Gradienten](#backward)
- [Praktikumsaufgabe P7 zum Average Pooling](#praktikum)

<hr style="border-width: 5px">

### Vorbereitung
Wichtige Ergebnisse können während der Bearbeitung überprüft werden. Grundvoraussetzung hierfür ist, dass Sie das Paket `tui-dl4cv` <font color="#aa0000">installieren bzw. aktualisieren</font> und anschließend importieren.

Für die Installation stehen Ihnen zwei mögliche Wege zur Verfügung.

**(1) Installation direkt in diesem Notebook:**
Führen Sie den nachfolgenden Code-Block aus.

In [1]:
import sys

print(f"Automatically install package for '{sys.executable}'")
!{sys.executable} -m pip install tui-dl4cv \
    --extra-index-url "https://2022ws:xXCgQHZxxeNYchgryN7e@nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple" \
    --no-cache --upgrade

Automatically install package for '/usr/bin/python3'
Defaulting to user installation because normal site-packages is not writeable
Looking in indexes: https://pypi.org/simple, https://2022ws:****@nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple
[33mDEPRECATION: The HTML index page being used (https://nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple/tui-dl4cv/) is not a proper HTML 5 document. This is in violation of PEP 503 which requires these pages to be well-formed HTML 5 documents. Please reach out to the owners of this index page, and ask them to update this index page to a valid HTML 5 document. pip 22.2 will enforce this behaviour change. Discussion can be found at https://github.com/pypa/pip/issues/10825[0m[33m






ODER

**(2) Manuelle Installation über die Konsole:**
Öffnen Sie eine Konsole ("Anaconda Prompt" unter Windows) und führen Sie folgenden Befehl aus:
```text
pip install tui-dl4cv --extra-index-url "https://2022ws:xXCgQHZxxeNYchgryN7e@nikrgl.informatik.tu-ilmenau.de/api/v4/projects/1730/packages/pypi/simple" --no-cache --upgrade
```

**Führen Sie abschließend folgenden Code-Block aus, um das Paket verwenden zu können.**
Während der Bearbeitung können Sie nun Ihre Ergebnisse mithilfe der Funktion `interactive_check` überprüfen. Die Funktionsaufrufe sind bereits an den entsprechenden Stellen im Notebook enthalten.

In [2]:
import tui_dl4cv.cnn

# noetige Erweiterung, damit Variablen aus diesem Notebook automatisch ueberprueft werden koennen
def interactive_check(name, **kwargs):
    tui_dl4cv.cnn.interactive_check(name, globals(), **kwargs)

from tui_dl4cv.cnn import print_tensors

<hr style="border-width: 5px">

<a name="g"></a>
### (g) Implementieren Sie die Forward Propagation und Backpropagation für Max Pooling mithilfe von NumPy und reproduzieren Sie die Ergebnisse. Vergleichen Sie Ihre Implementierung anschließend mit einer PyTorch-Realisierung.

---
Pakete importieren:

In [3]:
# NumPy
import numpy as np

---
<a name="output_shape"></a>
**Zunächst muss eine Funktion implementiert werden, mit deren Hilfe die Größe der Output Feature Maps in Abhängikeit der verwendeten Parameter des Pooling berechnet werden kann.**
Das Wissen über die Größe der Output Feature Maps ermöglicht es, später ausreichend Speicher für das Ergebnis des Pooling zu allokieren. Zudem gibt sie Aufschluss darüber, wie viele Aufpunkte berechnet werden müssen.
<br>
<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Die Formel zur Berechnung der Größe der Output Feature Maps in Abhängigkeit aller behandelten Parameter des Pooling wird in der Vorlesung thematisiert und entspricht der Berechnung bei einer Convolution.
</div>

*Implementierung:*

In [4]:
def get_output_shape(input_shape, kernel_size, stride=(1, 1), padding=(0, 0), dilation=(1, 1)):
    assert all(isinstance(p, tuple) for p in locals().values()), "Alle Parameter als Tuple erwartet"

    # Hoehe `h_out` bestimmen (erstes Element in den Tuplen)
    h_out = (input_shape[0]+2*padding[0] -dilation[0]*(kernel_size[0]-1)-1) /stride[0] +1 # bitte Code ergaenzen <---------------- [Luecke (1)]

    # Breite `w_out` bestimmen (zweites Element in den Tuplen)
    w_out = (input_shape[1] + 2*padding[1] - dilation[1] *(kernel_size[1]-1)-1)/stride[1] +1 # bitte Code ergaenzen <---------------- [Luecke (2)]

    # Ergebnisse durch Cast zu Int abrunden und zurueckgeben
    return int(h_out), int(w_out)

*Überprüfung:*

Zur Überprüfung kann die Größe der Output Feature Maps in der Aufgabenstellung berechnet werden.

In [5]:
# Max Pooling
print("Output Shape Max Pooling:\n",
      get_output_shape(input_shape=(5, 5), kernel_size=(3, 3), stride=(2, 2)))

# zusaetzlich komplexer Fall mit Stride, Padding und Dilation:
print("Output Shape:\n",
      get_output_shape(input_shape=(10, 11),
                       kernel_size=(3, 4),
                       stride=(2, 1),
                       padding=(0, 2),
                       dilation=(1, 2)))

Output Shape Max Pooling:
 (2, 2)
Output Shape:
 (4, 9)


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
Output Shape Max Pooling:
 (2, 2)
Output Shape:
 (4, 9)
</code>
</details>

---
<a name="forward"></a>
**Anschließend kann eine Funktion zur Berechnung des Pooling implementiert werden.**

Beachten Sie:
- Die Parameter `padding` und `dilation` sind für Pooling-Operationen eher untypisch.
  Sie werden nur in wenigen Ausnahmefällen unterstützt und tatsächlich verwendet.
  Im Rahmen dieser Implementierung sollen beide Parameter daher vernachlässigt werden.
- Der Input Tensor ist 4-dimensional und enthält eine zusätzliche Achse für die Beispiele im Batch.

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktionen könnten für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.empty</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.empty.html" target="_blank">NumPy-Dokumentation</a>
    </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">np.max</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.ndarray.max.html" target="_blank">NumPy-Dokumentation</a>
    </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">slice</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://docs.python.org/3/library/functions.html#slice" target="_blank">Python-Dokumentation</a>
    </li>
</ul>
</div>


*Implementierung:*

In [6]:
def maxpool2d(input_tensor, kernel_size, stride=(1, 1), padding=(0, 0), dilation=(1, 1)):
    # ueberpruefen ob gueltige Parameter uebergeben wurden, andernfalls nicht implementiert als Fehler zurueckgeben
    assert padding == (0, 0), "Not implemented"
    assert dilation == (1, 1), "Not implemented"

    # Groessen aus Groesse des Input Tensors extrahieren
    n_examples, n_channels, h_in, w_in = input_tensor.shape

    # Hoehe und Breite des Pooling-Fensters extrahieren
    h_kernel, w_kernel = kernel_size

    # Hoehe und Breite des Stride extrahieren
    h_stride, w_stride = stride

    # Groesse `(h_out, w_out)` der Output Feature Maps bestimmen
    h_out, w_out = get_output_shape(input_shape=(h_in,w_in),
                                    kernel_size=(h_kernel, w_kernel),
                                    stride=stride,
                                    padding=padding,
                                    dilation=dilation) # bitte Code ergaenzen <---------------- [Luecke (3)]

    # Output Tensor allokieren (empty, weil jedes Element ohnehin ueberschrieben wird)
    output_tensor = np.empty((n_examples, n_channels, h_out, w_out), dtype=np.float32)

    # Output berechnen
    for ex in range(0, n_examples):
        # fuer jedes Beispiel im Batch

        for ch in range(0, n_channels):
            # fuer jeden Output Channel

            for i in range(0, h_out):
                # fuer jede y-Position i der Hoehe der Output Feature Map

                for j in range(0, w_out):
                    # fuer jede x-Position j der Breite der Output Feature Map

                    # Slices `vertical` und `horizontal` fuer relevanten Teil in der
                    # Input Feature Map ausgehend von aktueller Position i und j bestimmen
                    vertical = slice(i*h_stride, i*h_stride+h_kernel) # bitte Code ergaenzen <---------------- [Luecke (4)]
                    horizontal = slice(j*w_stride, j*w_stride+w_kernel) # bitte Code ergaenzen <---------------- [Luecke (5)]

                    # Teil der Input Feature Map `input_window` aus Input Tensor extrahieren
                    input_window = input_tensor[ex, ch, vertical, horizontal]

                    # Pooling-Fenster auf Maximum reduzieren
                    output_tensor[ex,ch,i,j] = np.max(input_window, axis=None) # bitte Code ergaenzen <---------------- [Luecke (6)]

    return output_tensor

*Überprüfung:*

Zur Überprüfung kann das Output Volume aus der Aufgabenstellung berechnet werden.

In [7]:
# Input Tensor mit Groesse 1x2x5x5 definieren
o_0 = np.array([[[[1.0, 2.0, 3.0, 4.0, 5.0],
                  [2.0, 3.0, 5.0, 4.0, 4.0],
                  [5.0, 1.0, 2.0, 3.0, 1.0],
                  [4.0, 6.0, 0.0, 2.0, 1.0],
                  [1.0, 2.0, 1.0, 0.0, 1.0]],
                 [[1.0, 2.0, 3.0, 4.0, 1.0],
                  [0.0, 3.0, 1.0, 2.0, 3.0],
                  [5.0, 4.0, 7.0, 0.0, 1.0],
                  [1.0, 6.0, 2.0, 2.0, 1.0],
                  [0.0, 2.0, 3.0, 4.0, 5.0]]]], dtype='float32')

# Forward Propagation: `o_1` berechnen
o_1 = maxpool2d(o_0, kernel_size=(3,3),stride=(2,2)) # bitte Code ergaenzen <---------------- [Luecke (7)]

# Ergebnisse ausgeben
print_tensors(tensors=o_1, labels='o_1')

o_1:
[[[[5. 5.]
   [6. 3.]]

  [[7. 7.]
   [7. 7.]]]]


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
o_1:
[[[[5. 5.]
   [6. 3.]]
  [[7. 7.]
   [7. 7.]]]]
</code>
</details>

---
<a name="klasse"></a>
**In der Vorlesung und in der Übung wurde gezeigt, dass für die Berechnung der Gradienten für das Input Volume die Positionen, an denen jeweils das Maximum beobachtet wurde, gespeichert werden müssen.**

Erweitern Sie die Funktion `maxpool2d` zu einer Klasse `MaxPooling_`, welche ebenfalls die Positionen, an denen jeweils das Maximum beobachtet wurde, speichert.

Beachten Sie:
- Sollte das Maximum an mehreren Stellen beobachetet werden, so wird die Stelle gespeichert, die den kleinsten Zeilenindex hat.
  Gibt es darüber hinaus mehrere Stellen innerhalb einer Zeile, so wird diejenige mit dem kleinsten Spaltenindex gespeichert.
- NumPy legt Daten standardmäßig im Row-Major-Format ([NumPy Glossary](https://numpy.org/doc/stable/glossary.html#term-row-major)) ab. Das gewünschte Verhalten kann daher sehr leicht durch ein Zusammenspiel aus `np.argmax` und `numpy.unravel_index` realisiert werden.
- Die Position des Maximums soll für jedes Pooling-Fenster als Tuple (x, y) in einer 5. Dimension gespeichert werden.

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktionen könnten für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.argmax</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.argmax.html" target="_blank">NumPy-Dokumentation</a>
        </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">numpy.unravel_index</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.unravel_index.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

In [8]:
class MaxPooling_:
    def __init__(self, kernel_size, stride):
        # Parameter speichern
        self.kernel_size = kernel_size
        self.stride = stride

        # Positionen fur Backpropagation
        self.backprop_yx = None

    def forward(self, input_tensor):
        # Groessen aus Groesse des Input Tensors extrahieren
        n_examples, n_channels, h_in, w_in = input_tensor.shape

        # Hoehe und Breite des Pooling-Fensters extrahieren
        h_kernel, w_kernel = self.kernel_size

        # Hoehe und Breite des Stride extrahieren
        h_stride, w_stride = self.stride

        # Groesse `(h_out, w_out)` der Output Feature Maps bestimmen
        h_out, w_out = get_output_shape(input_shape=(h_in,w_in),
                                    kernel_size=(h_kernel, w_kernel),
                                    stride=self.stride,
                                    padding=(0,0),
                                    dilation=(1,1)) # bitte Code ergaenzen <---------------- [Luecke (8)]

        # Output Tensor allokieren (empty, weil jedes Element ohnehin ueberschrieben wird)
        output_tensor = np.empty((n_examples, n_channels, h_out, w_out), dtype=np.float32)

        # Tensor zum Speichern der Positionen allokieren
        # eine zusaetzliche Dimension fuer x-y-Positionen der Maxima
        self.backprop_yx = np.empty(output_tensor.shape + (2,), dtype='int')

        # Output berechnen
        for ex in range(0, n_examples):
            # fuer jedes Beispiel im Batch

            for ch in range(0, n_channels):
                # fuer jeden Output Channel

                for i in range(0, h_out):
                    # fuer jede y-Position i der Hoehe der Output Feature Map

                    for j in range(0, w_out):
                        # fuer jede x-Position j der Breite der Output Feature Map

                        # Slices `vertical` und `horizontal` fuer relevanten Teil in der
                        # Input Feature Map ausgehend von aktueller Position i und j bestimmen
                        vertical = slice(i*h_stride, i*h_stride+h_kernel) # bitte Code ergaenzen <---------------- [Luecke (9)]
                        horizontal = slice(j*w_stride, j*w_stride+w_kernel) # bitte Code ergaenzen <---------------- [Luecke (10)]

                        # Teil der Input Feature Map `input_window` aus Input Tensor extrahieren
                        input_window = input_tensor[ex, ch, vertical, horizontal]

                        # Index des Maximums `idx_max` in kontinuierlichem Array bestimmen
                        idx_max = np.argmax(input_window, axis=None) # bitte Code ergaenzen <---------------- [Luecke (11)]

                        # Index in Position (`y_max`, `x_max`) umwandeln (relative Position zum Aufsatzpunkt)
                        y_max, x_max = np.unravel_index(idx_max, input_window.shape) # bitte Code ergaenzen <---------------- [Luecke (12)]

                        # Maximum in den Ouput uebernehmen
                        output_tensor[ex,ch,i,j] = input_window[y_max, x_max] # bitte Code ergaenzen <---------------- [Luecke (13)]

                        # Position speichern
                        self.backprop_yx[ex,ch,i,j]=(y_max,x_max) # bitte Code ergaenzen <---------------- [Luecke (14)]

        return output_tensor

*Überprüfung:*

Zur Überprüfung kann erneut das Output Volume aus der Aufgabenstellung berechnet werden.
Anschließend können die Positionen betrachtet werden.

In [9]:
# Schicht anlegen
maxpool = MaxPooling_(kernel_size=(3, 3), stride=(2, 2))

# Forward Propagation: `o_1` berechnen
o_1 = maxpool.forward(o_0) # bitte Code ergaenzen <---------------- [Luecke (15)]

# Ergebnisse ausgeben
print_tensors(tensors=o_1, labels='o_1')

# Positionen ausgeben
print_tensors(tensors=maxpool.backprop_yx, labels='backward_yx')

o_1:
[[[[5. 5.]
   [6. 3.]]

  [[7. 7.]
   [7. 7.]]]]
backward_yx:
[[[[[1 2]
    [0 2]]

   [[1 1]
    [0 1]]]


  [[[2 2]
    [2 0]]

   [[0 2]
    [0 0]]]]]


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
o_1:
[[[[5. 5.]
   [6. 3.]]
  [[7. 7.]
   [7. 7.]]]]
backward_yx:
[[[[[1 2]
    [0 2]]
   [[1 1]
    [0 1]]]
  [[[2 2]
    [2 0]]
   [[0 2]
    [0 0]]]]]
</code>
</details>

---
<a name="backward"></a>
**Erweitern Sie die Klasse geeignet, sodass die Gradienten in Richtung des Input Volumes berechnet werden können.**

*Implementierung:*

In [10]:
class MaxPooling(MaxPooling_):
    def __init__(self, kernel_size, stride):
        super(MaxPooling, self).__init__(kernel_size, stride)

        # zum Speichern der Groesse des Input Tensor
        self.input_tensor_shape = None

    def forward(self, input_tensor):
        # Groesse speichern
        self.input_tensor_shape = input_tensor.shape

        return super(MaxPooling, self).forward(input_tensor)

    def backward_input(self, output_tensor_grad):
        # Groessen aus Groesse des Gradienten Tensors extrahieren
        n_examples, n_channels, h_output_grad, w_output_grad = output_tensor_grad.shape

        # Hoehe und Breite des Pooling-Fensters extrahieren
        h_kernel, w_kernel = self.kernel_size

        # Hoehe und Breite des Stride extrahieren
        h_stride, w_stride = self.stride

        # leeren Tensor fuer Gradienten allokieren (alle Werte auf Null)
        input_tensor_grad = np.zeros(self.input_tensor_shape, dtype='float32')

        # Gradienten bestimmen
        for ex in range(0, n_examples):
            # fuer jedes Beispiel im Batch

            for ch in range(0, n_channels):
                # fuer jeden Channel

                for i in range(0, h_output_grad):
                    # fuer jede y-Position i der Hoehe der Feature Map

                    for j in range(0, w_output_grad):
                        # fuer jede x-Position j der Breite der Feature Map

                        # Slices `vertical` und `horizontal` fuer relevanten Teil in der
                        # Feature Map ausgehend von aktueller Position i und j bestimmen
                        vertical = slice(i*h_stride, i*h_stride+h_kernel) # bitte Code ergaenzen <---------------- [Luecke (16)]
                        horizontal = slice(j*w_stride, j*w_stride+w_kernel) # bitte Code ergaenzen <---------------- [Luecke (17)]

                        # Teil der Feature Map `input_grad_window` extrahieren
                        input_tensor_grad_window = input_tensor_grad[ex, ch, vertical, horizontal]

                        # Wert und Position extrahieren
                        grad_value = output_tensor_grad[ex, ch, i, j]
                        y_max, x_max = self.backprop_yx[ex, ch, i, j]

                        # Gradient einsetzen und hinzuaddieren
                        input_tensor_grad_window[y_max,x_max]+=grad_value # bitte Code ergaenzen <---------------- [Luecke (18)]

        return input_tensor_grad

*Überprüfung:*

Zur Überprüfung kann erneut das Output Volume aus der Aufgabenstellung berechnet werden.
Anschließend kann der Gradient zurückpropagiert werden.

In [11]:
# Schicht anlegen
maxpool = MaxPooling(kernel_size=(3, 3), stride=(2, 2))

# Forward Propagation: `o_1` berechnen
o_1 = maxpool.forward(o_0) # bitte Code ergaenzen <---------------- [Luecke (19)]

# Gradienten definieren
dedo_1 = np.array([[[[3.0, 1.0],
                     [2.0, 6.0]],
                    [[1.0, 2.0],
                     [5.0, 8.0]]]], dtype='float32')

# Gradient `dedo_0` berechnen
dedo_0 = maxpool.backward_input(dedo_1) # bitte Code ergaenzen <---------------- [Luecke (20)]

# Ergebnisse ausgeben
print_tensors(tensors=dedo_0, labels='dEdo_0')

interactive_check('maxpool')

dEdo_0:
[[[[ 0.  0.  0.  0.  1.]
   [ 0.  0.  3.  0.  0.]
   [ 0.  0.  0.  6.  0.]
   [ 0.  2.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]

  [[ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0. 16.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]]]


Klasse fuer MaxPooling 'MaxPooling':


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
dEdo_0:
[[[[ 0.  0.  0.  0.  1.]
   [ 0.  0.  3.  0.  0.]
   [ 0.  0.  0.  6.  0.]
   [ 0.  2.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]
  [[ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0. 16.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]]]
</code>
</details>

---

<a name="praktikum"></a>
<h3 style="color: #aa0000;">Praktikumsaufgabe P7: Average Pooling</h3>

Realisieren Sie in NumPy eine ähnliche Klasse für das Average Pooling und reproduzieren Sie die Ergebnisse aus den Übungsunterlagen.

<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktion könnte für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">np.mean</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://numpy.org/doc/stable/reference/generated/numpy.mean.html" target="_blank">NumPy-Dokumentation</a>
        </li>
</ul>
</div>

*Implementierung:*

In [12]:
class AvgPooling:
    def __init__(self, kernel_size, stride):
        # Parameter speichern
        self.kernel_size = kernel_size
        self.stride = stride

        # zum Speichern der Groesse des Input Tensors
        self.input_tensor_shape = None

    def forward(self, input_tensor):
        # Groesse speichern
        self.input_tensor_shape = input_tensor.shape

        # Groessen aus Groesse des Input Tensors extrahieren
        n_examples, n_channels, h_in, w_in = input_tensor.shape

        # Hoehe und Breite des Pooling-Fensters extrahieren
        h_kernel, w_kernel = self.kernel_size

        # Hoehe und Breite des Stride extrahieren
        h_stride, w_stride = self.stride

        # Groesse `(h_out, w_out)` der Output Feature Maps bestimmen
        h_out, w_out = get_output_shape(input_shape=(h_in,w_in),
                                    kernel_size=((h_kernel, w_kernel)),
                                    stride=self.stride,
                                    padding=(0,0),
                                    dilation=(1,1)) # bitte Code ergaenzen <---------------- [Luecke (21)]

        # Output Tensor allokieren (empty, weil jedes Element ohnehin ueberschrieben wird)
        output_tensor = np.empty((n_examples, n_channels, h_out, w_out), dtype=np.float32)

        # Output berechnen
        for ex in range(0, n_examples):
            # fuer jedes Beispiel im Batch

            for ch in range(0, n_channels):
                # fuer jeden Output Channel

                for i in range(0, h_out):
                    # fuer jede y-Position i der Hoehe der Output Feature Map

                    for j in range(0, w_out):
                        # fuer jede x-Position j der Breite der Output Feature Map

                        # Slices `vertical` und `horizontal` fuer relevanten Teil in der
                        # Input Feature Map ausgehend von aktueller Position i und j bestimmen
                        vertical = slice(i*h_stride, i*h_stride+h_kernel) # bitte Code ergaenzen <---------------- [Luecke (22)]
                        horizontal = slice(j*w_stride, j*w_stride+w_kernel) # bitte Code ergaenzen <---------------- [Luecke (23)]

                        # Teil der Input Feature Map `input_window` aus Input Tensor extrahieren
                        input_window = input_tensor[ex, ch, vertical, horizontal]

                        # Mittelwert in den Ouput ubernehmen
                        output_tensor[ex,ch,i,j] = np.mean(input_window) # bitte Code ergaenzen <---------------- [Luecke (24)]

        return output_tensor

    def backward_input(self, output_tensor_grad):
        # Groessen aus Groesse des Gradienten Tensors extrahieren
        n_examples, n_channels, h_output_grad, w_output_grad = output_tensor_grad.shape

        # Hoehe und Breite des Pooling-Fensters extrahieren
        h_kernel, w_kernel = self.kernel_size

        # Hoehe und Breite des Stride extrahieren
        h_stride, w_stride = self.stride

        # leeren Tensor fuer Gradienten allokieren
        input_tensor_grad = np.zeros(self.input_tensor_shape, dtype='float32')

        # Gradienten bestimmen
        for ex in range(0, n_examples):
            # fuer jedes Beispiel im Batch

            for ch in range(0, n_channels):
                # fuer jeden Channel

                for i in range(0, h_output_grad):
                    # fuer jede y-Position i der Hoehe der Feature Map

                    for j in range(0, w_output_grad):
                        # fuer jede x-Position j der Breite der Feature Map

                        # Slices `vertical` und `horizontal` fuer relevanten Teil in der
                        # Feature Map ausgehend von aktueller Position i und j bestimmen
                        vertical = slice(i*h_stride, i*h_stride+h_kernel) # bitte Code ergaenzen <---------------- [Luecke (25)]
                        horizontal = slice(j*w_stride, j*w_stride+w_kernel) # bitte Code ergaenzen <---------------- [Luecke (26)]

                        # Teil der Feature Map `input_grad_window` extrahieren
                        input_tensor_grad_window = input_tensor_grad[ex, ch, vertical, horizontal]

                        # Wert extrahieren
                        grad_value = output_tensor_grad[ex, ch, i, j]

                        # Gradient einsetzen und hinzuaddieren
                        input_tensor_grad_window += np.ones((h_kernel,w_kernel))*grad_value/(h_kernel*w_kernel) # bitte Code ergaenzen <---------------- [Luecke (27)]

        return input_tensor_grad

*Überprüfung:*

Zur Überprüfung kann der in der Aufgabenstellung angegebene Gradient zurückpropagiert werden.

In [13]:
# Input Tensor mit Groesse 1x2x5x5 definieren
o_0 = np.random.random((1, 2, 5, 5)).astype('float32')

# Gradienten definieren
dedo_1 = np.array([[[[18.0, 9.0],
                     [0.0, -9.0]],
                    [[9.0, 9.0],
                     [0.0, -9.0]]]], dtype='float32')

# Schicht anlegen
avgpool = AvgPooling(kernel_size=(3, 3), stride=(2, 2))

# Forward Propagation
o_1 = avgpool.forward(o_0)# bitte Code ergaenzen <---------------- [Luecke (28)]

# Gradient `dedo_0` berechnen
dedo_0 = avgpool.backward_input(dedo_1) # bitte Code ergaenzen <---------------- [Luecke (29)]

# Ergebnisse ausgeben
print_tensors(tensors=dedo_0, labels='dEdo_0')

dEdo_0:
[[[[ 2.  2.  3.  1.  1.]
   [ 2.  2.  3.  1.  1.]
   [ 2.  2.  2.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]

  [[ 1.  1.  2.  1.  1.]
   [ 1.  1.  2.  1.  1.]
   [ 1.  1.  1.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]]]


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
dEdo_0:
[[[[ 2.  2.  3.  1.  1.]
   [ 2.  2.  3.  1.  1.]
   [ 2.  2.  2.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]
  [[ 1.  1.  2.  1.  1.]
   [ 1.  1.  2.  1.  1.]
   [ 1.  1.  1.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]]]
</code>
</details>
<br>

*Verständnisfrage:*
Im letzten Code-Block wird ein zufälliger Input als Eingabe in das Average Pooling verwendet. Überlegen Sie, warum dies möglich ist und ergänzen Sie Ihre Antwort der nachfolgenden Zelle.

<span style="color: #ff0000;">Das Ergebniss der forward-prop wird nicht verglichen. Weiterhin ist der eigentliche Inhalt des Tensors für die backward_prop egal. Dort  ist lediglich die Größe des Tensors relevant:
input_tensor_grad = np.zeros(self.input_tensor_shape, dtype='float32') </span>

In [14]:
# Ueberpruefung der kompletten Implementierung
interactive_check('avgpool')

Klasse fuer AveragePooling 'AvgPooling':


---

**Abschließend können die Ergebnisse mit einer PyTorch-Implementierung verglichen werden.**

Zur Vereinfachung soll an dieser Stelle auf eine Implementierung in Form einer Netzwerkklasse verzichtet werden.


<br>
<div style="background-color: #FAEAEA; padding: 5px; margin: 5px 0px 5px 0px; border-radius: 5px;">
Folgende Funktionen könnten für die Vervollständigung der Lücken hilfreich sein:
<ul style="margin-bottom: 0px; margin-top: 0px">
    <li><code style="background-color: #FAEAEA; padding: 0px">torch.nn.functional.max_pool2d</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.functional.max_pool2d.html#torch.nn.functional.max_pool2d" target="_blank">PyTorch-Dokumentation</a>
        </li>
    <li><code style="background-color: #FAEAEA; padding: 0px">torch.nn.functional.avg_pool2d</code>&nbsp;&nbsp;&rarr;&nbsp;<a href="https://pytorch.org/docs/stable/generated/torch.nn.functional.avg_pool2d.html#torch.nn.functional.avg_pool2d" target="_blank">PyTorch-Dokumentation</a>
        </li>
</ul>
</div>

Pakete importieren:

In [15]:
# PyTorch
import torch
import torch.nn.functional as F

*Implementierung Max Pooling:*

In [16]:
# Input Tensor mit Groesse 1x2x5x5 definieren
o_0 = torch.tensor([[[[1.0, 2.0, 3.0, 4.0, 5.0],
                      [2.0, 3.0, 5.0, 4.0, 4.0],
                      [5.0, 1.0, 2.0, 3.0, 1.0],
                      [4.0, 6.0, 0.0, 2.0, 1.0],
                      [1.0, 2.0, 1.0, 0.0, 1.0]],
                     [[1.0, 2.0, 3.0, 4.0, 1.0],
                      [0.0, 3.0, 1.0, 2.0, 3.0],
                      [5.0, 4.0, 7.0, 0.0, 1.0],
                      [1.0, 6.0, 2.0, 2.0, 1.0],
                      [0.0, 2.0, 3.0, 4.0, 5.0]]]],
                   requires_grad=True, dtype=torch.float32)

# Gradienten mit Groesse 1x2x2x2 definieren
dedo_1 = torch.tensor([[[[3.0, 1.0],
                         [2.0, 6.0]],
                        [[1.0, 2.0],
                         [5.0, 8.0]]]], dtype=torch.float32)

# Forward Propagation: `o_1` berechnen
o_1 = F.max_pool2d(o_0, kernel_size=(3,3), stride=(2,2)) # bitte Code ergaenzen <---------------- [Luecke (30)]

# Backpropagation
o_0.grad = None
o_1.backward(dedo_1)

# Ergebnisse ausgeben
print_tensors(tensors=(o_1, o_0.grad), labels=('o_1', 'o_0.grad'))

o_1:
[[[[5. 5.]
   [6. 3.]]

  [[7. 7.]
   [7. 7.]]]]
o_0.grad:
[[[[ 0.  0.  0.  0.  1.]
   [ 0.  0.  3.  0.  0.]
   [ 0.  0.  0.  6.  0.]
   [ 0.  2.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]

  [[ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0. 16.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]]]


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
o_1:
[[[[5. 5.]
   [6. 3.]]
  [[7. 7.]
   [7. 7.]]]]
o_0.grad:
[[[[ 0.  0.  0.  0.  1.]
   [ 0.  0.  3.  0.  0.]
   [ 0.  0.  0.  6.  0.]
   [ 0.  2.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]
  [[ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0. 16.  0.  0.]
   [ 0.  0.  0.  0.  0.]
   [ 0.  0.  0.  0.  0.]]]]
</code>
</details>

*Implementierung Average Pooling:*

In [17]:
# Input Tensor mit Groesse 1x2x5x5 definieren
o_0 = torch.rand((1, 2, 5, 5), requires_grad=True, dtype=torch.float32)

# Gradienten mit Groesse 1x2x2x2 definieren
dedo_1 = torch.tensor([[[[18.0, 9.0],
                         [0.0, -9.0]],
                        [[9.0, 9.0],
                         [0.0, -9.0]]]], dtype=torch.float32)

# Forward Propagation: `o_1` berechnen
o_1 = F.avg_pool2d(o_0, kernel_size=(3,3), stride=(2,2))# bitte Code ergaenzen <---------------- [Luecke (31)]

# Backpropagation
o_0.grad = None
o_1.backward(dedo_1)

# Ergebnisse ausgeben
print_tensors(tensors=(o_1, o_0.grad), labels=('o_1', 'o_0.grad'))

o_1:
[[[[0.6  0.65]
   [0.55 0.61]]

  [[0.62 0.48]
   [0.43 0.57]]]]
o_0.grad:
[[[[ 2.  2.  3.  1.  1.]
   [ 2.  2.  3.  1.  1.]
   [ 2.  2.  2.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]

  [[ 1.  1.  2.  1.  1.]
   [ 1.  1.  2.  1.  1.]
   [ 1.  1.  1.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]]]


<details>
    <summary>&#9432; <i>Überprüfung &nbsp; &nbsp; <font color="CCCCCC">(anklicken, um Lösung anzuzeigen)</font></i></summary>
<code style="padding: 0px">
o_1:
[[[[&#128551; &#128551;]
   [&#129300; &#129300;]]
  [[&#128556; &#128556;]
   [&#128521; &#128521;]]]]
o_0.grad:
[[[[ 2.  2.  3.  1.  1.]
   [ 2.  2.  3.  1.  1.]
   [ 2.  2.  2.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]
  [[ 1.  1.  2.  1.  1.]
   [ 1.  1.  2.  1.  1.]
   [ 1.  1.  1.  0.  0.]
   [ 0.  0. -1. -1. -1.]
   [ 0.  0. -1. -1. -1.]]]]
</code>
</details>

$_{_\text{Created for Deep Learning for Computer Vision (DL4CV)}}$