##### AI TECH - Akademia Innowacyjnych Zastosowań Technologii Cyfrowych. Programu Operacyjnego Polska Cyfrowa na lata 2014-2020
<hr>


# Uczenie głębokie

Jacek Rumiński, Politechnika Gdańska, Wydział ETI, Katedra Inżynierii Biomedycznej

**Wykład 2:** Sieci splotowe

**Przykład (2):** Operacja splotu - dane dwuwymiarowe

W ramach tego notatnika zapoznajmy się z metodami dotyczącymi operacji splotu i jej zastosowania w sztucznych sieciach neuronowych na przykładzie danych dwuwymiarowych.


Wskażmy pakiety, z jakich będziemy korzystać:

In [None]:
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
import matplotlib


print(tf.__version__)

2.13.0


Rozpatrzmy prosty przykład danych 2D:

In [None]:
img = np.array([
                [1.,1.,1.,1.],
                [1.,10.,1.,1.],
                [1.,1.,1.,1.],
                [1.,1.,1.,1.]
              ])

print("Data shape: ", img.shape)

# Reshape to get width:4, height:4, depth:1 (No. of components per sample)
img_with_depth = img.reshape(4,4,1)
print("\nData shape after 1st reshape: ", img_with_depth.shape)
print("Data after 1st reshape: \n",img_with_depth)

# In practice, we often work with more than one example
# Lets reshape our example, indicating that we have one example (for now...)
img_with_depth_and_batch = img_with_depth.reshape(1,4,4,1)

print("\nData shape after 2nd reshape: ", img_with_depth_and_batch.shape)
print("Data after 2nd reshape: \n",img_with_depth_and_batch)

Data shape:  (4, 4)

Data shape after 1st reshape:  (4, 4, 1)
Data after 1st reshape: 
 [[[ 1.]
  [ 1.]
  [ 1.]
  [ 1.]]

 [[ 1.]
  [10.]
  [ 1.]
  [ 1.]]

 [[ 1.]
  [ 1.]
  [ 1.]
  [ 1.]]

 [[ 1.]
  [ 1.]
  [ 1.]
  [ 1.]]]

Data shape after 2nd reshape:  (1, 4, 4, 1)
Data after 2nd reshape: 
 [[[[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [10.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]]]


Przeprowadzimy teraz operację splotu dla danych 2D i predefiniowanej maski splotu, analogicznie do wsześniejszego notatnika z przykładami dla danych 1D.

In [None]:
# Data shape is: (batch_size, number of rows, number of columns, number of channels)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 3
input_depth = 1
number_of_filters = 1  # No. of outputs

w_init_2D_1 = np.ones((kernel_height,kernel_width,input_depth,number_of_filters))

# Normalize weights
w_init_2D_1 /= np.sum(w_init_2D_1)
print("\nPredefined weights shape: ", w_init_2D_1.shape)
print("Predefined weights: \n", w_init_2D_1)

# Define the Conv2D layer
layer_2D_1 = tf.keras.layers.Conv2D(number_of_filters,
                                 kernel_size=(kernel_height, kernel_width),
                                 strides = (1,1),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_1])

# Apply Conv2D layer and print results
x_2D_1 = layer_2D_1(img_with_depth_and_batch)
# print("\nLayer weights: \n", layer_2D_1.weights)
print("\nResults shape: ", x_2D_1.shape)
print("Results: \n", x_2D_1)


Predefined weights shape:  (3, 3, 1, 1)
Predefined weights: 
 [[[[0.11111111]]

  [[0.11111111]]

  [[0.11111111]]]


 [[[0.11111111]]

  [[0.11111111]]

  [[0.11111111]]]


 [[[0.11111111]]

  [[0.11111111]]

  [[0.11111111]]]]

Results shape:  (1, 2, 2, 1)
Results: 
 tf.Tensor(
[[[[2.]
   [2.]]

  [[2.]
   [2.]]]], shape=(1, 2, 2, 1), dtype=float32)


Zastanówmy się na chwilę, dlaczego otrzymaliśmy wartości równe 2?

Rozpatrzmy pierwszy segment o rozmiarze 3x3 z danych wejściowych: [[1,1,1], [1,10,1], [1,1,1]]. Suma wartości to 10+8*1=18. Pomnóżmy je przez 1/9 (lub podzielmy przez 9 - suma współczynników maski) i otrzymamy 2.

Warto zauważyć, że rozmiar przestrzenny danych wyjściowych jest mniejszy niż danych wejściowych. Podobnie jak wcześniej możemy zastosować metodę uzupełniania danych (np.  padding='same' - uzupełnij przez 0) w celu uzyskanie takich samych rozmiarów tesnorów danych.

Posłużmy się jeszcze innym przykładem, zawierającym dane o głębokości 3 (np. tak jak dla danych obrazu RGB - 3 próbki reprezentujące kolor jednego piksela).


In [None]:
img_depth_3 = np.array([
                      [[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.]],
                      [[1., 2. ,1.],[10., 29. ,10.],[1., 2. ,1.],[1., 2. ,1.]],
                      [[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.]],
                      [[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.],[1., 2. ,1.]]
                      ])


print(img_depth_3.shape)


img_depth_3_and_batch = img_depth_3.reshape(1,4,4,3)
print(img_depth_3_and_batch.shape)
print(img_depth_3_and_batch)

(4, 4, 3)
(1, 4, 4, 3)
[[[[ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]]

  [[ 1.  2.  1.]
   [10. 29. 10.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]]

  [[ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]]

  [[ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]
   [ 1.  2.  1.]]]]


Zastosujmy operację Conv2D:

In [None]:
# Data shape: (batch_size, number of rows, number of columns, number of channels)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 3
input_depth = 3
number_of_filters = 1  # No. of outputs

w_init_2D_2 = np.ones((kernel_height,kernel_width,input_depth,number_of_filters))
w_init_2D_2 /= np.sum(w_init_2D_2)
print("\nPredefined weights shape: ", w_init_2D_2.shape)
print("Predefined weights: \n", w_init_2D_2)

layer_2D_2 = tf.keras.layers.Conv2D(number_of_filters,
                                 kernel_size=(kernel_height, kernel_width),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_2])

x_2D_2 = layer_2D_2(img_depth_3_and_batch)
# print(layer_2D_2.weights)
print("\nResults shape: ", x_2D_2.shape)
print("Results: \n", x_2D_2)


Predefined weights shape:  (3, 3, 3, 1)
Predefined weights: 
 [[[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]


 [[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]


 [[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]]

Results shape:  (1, 2, 2, 1)
Results: 
 tf.Tensor(
[[[[3.0000002]
   [3.0000002]]

  [[3.0000002]
   [3.0000002]]]], shape=(1, 2, 2, 1), dtype=float32)


Ważne: uzyskaliśmy taki sam rozmiar danych wyjściowych jak w poprzednim przykładzie pomimo tego, że głębokość danych wynosiła 3 (shape (4,4,3)), a nie 1 (input shape: (4,4,1)). Stało się tak dlatego, że operacja splotu Conv2D (a właściwie korelacji wzajemnej implementowanej w TF/PyTorch) wykorzystuje wszystkie dane wyznaczając wynik.

Oczywiście możemy zastosować też taką wersję operacji splotu, żeby dla każdego komponentu (cechy, głębokości) uzyskać oddzielny wynik. Jest to możlize poprzez zastosowanie klasy DepthwiseConv2D.

In [None]:
# Data shape: (batch_size, number of rows, number of columns, number of channels)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 3
input_depth = 3
number_of_filters = 1  # No. of outputs

w_init_2D_3 = np.ones((kernel_height,kernel_width,input_depth,number_of_filters))
w_init_2D_3 /= np.sum(w_init_2D_3) # Another normalization should be used
print("\nPredefined weights shape: ", w_init_2D_3.shape)
print("Predefined weights: \n", w_init_2D_3)

layer_2D_3 = tf.keras.layers.DepthwiseConv2D( # number_of_filters, <- we do not use it
                                 kernel_size=(kernel_height, kernel_width),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_3])

x_2D_3 = layer_2D_3(img_depth_3_and_batch)
# print(layer_2D_3.weights)
print("\nResults shape: ", x_2D_3.shape)
print("Results: \n", x_2D_3)


Predefined weights shape:  (3, 3, 3, 1)
Predefined weights: 
 [[[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]


 [[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]


 [[[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]

  [[0.03703704]
   [0.03703704]
   [0.03703704]]]]

Results shape:  (1, 2, 2, 3)
Results: 
 tf.Tensor(
[[[[0.66666657 1.6666665  0.66666657]
   [0.66666657 1.6666665  0.66666657]]

  [[0.66666657 1.6666664  0.66666657]
   [0.6666666  1.6666663  0.6666666 ]]]], shape=(1, 2, 2, 3), dtype=float32)


Rozmiar danych wyjściowych wynosi (1, 2, 2, 3): 3 macierze, każda o wymiarze 2x2.
Oznacza to, że operacje splotu (jakby Conv2D) zostały zastosowane oddzielnie do każdego komponentu: pierwszy komponent (2x2) -> jeden wynik, drugi komponent(2x2) -> drugi wynik i trzeci komponent (2x2)-> trzeci wynik.


  

Warto teraz przedstawić istotny aspekt praktyczny: zastosowanie operacji Conv2D z maską o rozmiarze (1,1). Jeśli głębokość danych będzie równa 1, wówczas wynik operacji splotu danych wyściowych z maską (1,1) spowoduje w praktyce utworzenie kopii danych wejściowych (jeśli waga =1). Jeśli głębokość danych jest większa, np. 3, wówczas operacja Conv2D (ale nie Depthwise) przeprowadzi splot dla każdego komponentu i ZSUMUJE wynik od każdego komponentu zwracając pojedynczą wartość.



Zilustrujmy operację Conv2D stosując maskę o rozmiarze (1,1):


In [None]:
# Data shape: (batch_size, number of rows, number of columns, number of channels)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 1
input_depth = 3
number_of_filters = 1  # No. of outputs

w_init_2D_4 = np.ones((kernel_height,kernel_width, input_depth,number_of_filters))
w_init_2D_4 /= np.sum(w_init_2D_4)
print("\nPredefined weights shape: ", w_init_2D_4.shape)
print("Predefined weights: \n", w_init_2D_4)

layer_2D_4 = tf.keras.layers.Conv2D(number_of_filters,
                                 kernel_size=(kernel_height, kernel_width),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_4])

x_2D_4 = layer_2D_4(img_depth_3_and_batch)
# print(layer_2D_4.weights)
print("\nResults shape: ", x_2D_4.shape)
print("Results: \n", x_2D_4)


Predefined weights shape:  (1, 1, 3, 1)
Predefined weights: 
 [[[[0.33333333]
   [0.33333333]
   [0.33333333]]]]

Results shape:  (1, 4, 4, 1)
Results: 
 tf.Tensor(
[[[[ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]]

  [[ 1.3333334]
   [16.333334 ]
   [ 1.3333334]
   [ 1.3333334]]

  [[ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]]

  [[ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]
   [ 1.3333334]]]], shape=(1, 4, 4, 1), dtype=float32)


Ponieważ wagi maski są równe 1/3, dlatego otrzymaliśmy wartość średnią np.: ( (1*1/3) + (2*1/3) + (1*1/3)) = 4/3 = 1.333(3).

**Wnioski:**

Dla danych 2D o głębokości > 1 możemy przybliżać operację Conv2D poprzez separację dwóch działań:
-  Conv2d z maską (1x1) w celu realizacji operacji splotu po komponentach (redukujemy głębokość do 1 - "spłaszczamy" dane)
-  Conv2d z maska przestrzenną dla danych wejsciowych o głębokości 1 (wynik poprzedniego działania).

Zauważmy, że dla danych zastosowanych w powyższych przykładach rozmiar tensorów predefiniowanych wag wynosił:

1) Conv2D dla maski (3,3) i danych o głębokości 3 (1,4,4,3) -> tensor predefiniowanych wag miał rozmiar (3, 3, 3, 1) - 27 parameterów.

2) separując operację Conv2d na:
* Conv2D z maską (1,1)  i danych o głębokości 3 (1,4,4,3)  -> tensor predefiniowanych wag ma rozmiar (1, 1, 3, 1) - 3 parametery) i dalej
* Conv2D z maską (3,3) dla "płaskich danych" (1,4,4,1) -> tensor predefiniowanych wag ma rozmiar (3, 3, 1, 1) - 9 parameterów)

Czyli w drugiej konfiguracji mamy znacznie mniej parametrów: 3+(3*3)=12 (zamiast 27).

Dlatego w niektórych modelach stosuje się blok dwóch operacji (Conv2D z (1,1) i Conv2D z maską przestrzenną) zamiast tradycyjnej operacji splotu Conv2D. W ten sposób uzyskuje się mniejszą liczbę parametrów do uczenia czy wykorzystania (mniej pamięci, potencjalnie krótszy trening i inferencja).

W praktyce stosuje się jeszcze szereg innych odmian operacji powiażanych ze splotem, m.in.:

- LocallyConnected2D - operacja splotu bez współdzielenia wag - różne wagi (filtry) są użyte do różnych regionów (segmentów) danych wejsciowych,
- Conv2DTranspose - tzw. transposed convolution, operacja estymująca odwrotną operację splotu (w stylu rozplotu - ang. deconvolution). Nie jest jednak tożsama z rozplotem.
- Conv3D (i innej jak wyżej dla dla 3D) - podobne operacje jak dla 1D czy 2D, ale zdefiniowane dla danych trójwymiarowych (plus dane głębokości).

Zachęcam do lektury powiazanych artykułów:
- https://arxiv.org/abs/1603.07285v1
- https://www.matthewzeiler.com/mattzeiler/deconvolutionalnetworks.pdf

Zilustrujmy jak działa operacja zaimplementowana przez LocallyConnected2D:


In [None]:
print("\nInput shape: ", img_with_depth_and_batch.shape)
print("Input: \n", img_with_depth_and_batch)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 1
input_depth = 1
number_of_filters = 1  # No. of outputs

# LocallyConnected2D - weights are not shared, so if rows = 4, cols = 4
# then we have 4 x 4 x kernel_size filters, so shape
# (no_of_conv_positions, input_depth * number_of_coef, number_of_filters)
# We have 4 x 4 elements so for kernel (1,1) we have 16 conv. positions (16,,)
# For each position we have one coefficient. The input depth is 1, so
# input_depth * number_of_coef = 1, number_of_filters = 1, so: (16,1,1)
# w_init_2D_5 = np.ones((kernel_width*kernel_height,input_depth,number_of_filters))

# w_init_2D_5 = np.ones((16,1,1))
w_init_2D_5 = np.random.rand(16,1,1)

# Normalize weights
# w_init_2D_5 /= np.sum(w_init_2D_5)
print("\nPredefined weights shape: ", w_init_2D_5.shape)
print("Predefined weights: \n", w_init_2D_5)

# Define the Conv2D layer
layer_2D_5 = tf.keras.layers.LocallyConnected2D(number_of_filters,
                                 kernel_size=(kernel_height, kernel_width),
                                 strides = (1,1),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_5])

# Apply Conv2D layer and print results
x_2D_5 = layer_2D_5(img_with_depth_and_batch)
# print("\nLayer weights: \n", layer_2D_5.weights)
print("\nResults shape: ", x_2D_5.shape)
print("Results: \n", x_2D_5)


Input shape:  (1, 4, 4, 1)
Input: 
 [[[[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [10.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]

  [[ 1.]
   [ 1.]
   [ 1.]
   [ 1.]]]]

Predefined weights shape:  (16, 1, 1)
Predefined weights: 
 [[[0.58872979]]

 [[0.71151451]]

 [[0.14795233]]

 [[0.04946201]]

 [[0.5054785 ]]

 [[0.06850583]]

 [[0.58798162]]

 [[0.74222131]]

 [[0.27405525]]

 [[0.3227287 ]]

 [[0.00293675]]

 [[0.77334249]]

 [[0.59559146]]

 [[0.35776121]]

 [[0.37155538]]

 [[0.60529598]]]

Results shape:  (1, 4, 4, 1)
Results: 
 tf.Tensor(
[[[[0.5887298 ]
   [0.71151453]
   [0.14795233]
   [0.04946201]]

  [[0.5054785 ]
   [0.6850583 ]
   [0.58798164]
   [0.7422213 ]]

  [[0.27405524]
   [0.3227287 ]
   [0.00293675]
   [0.7733425 ]]

  [[0.5955915 ]
   [0.3577612 ]
   [0.3715554 ]
   [0.60529596]]]], shape=(1, 4, 4, 1), dtype=float32)


Następnie zapoznajmy się z przykładem działania operacji zaimplementowanej przez Conv2DTranspose:

In [None]:

print("\nInput shape: ", x_2D_1.shape)
print("Input: \n", x_2D_1)

# Data shape is: (batch_size, number of rows, number of columns, number of channels)

# Weights shape should be (kernel_height, kernel_width, input_depth, number_of_filters)
kernel_width = kernel_height = 3
input_depth = 1
number_of_filters = 1

w_init_2D_6 = np.ones((kernel_height,kernel_width, input_depth,number_of_filters))

# Normalize weights
# w_init_2D_6 /= np.sum(w_init_2D_6)
print("\nPredefined weights shape: ", w_init_2D_6.shape)
print("Predefined weights: \n", w_init_2D_6)

# Define the Conv2D layer
layer_2D_6 = tf.keras.layers.Conv2DTranspose(number_of_filters,
                                 kernel_size=(kernel_height, kernel_width),
                                 strides = (1,1),
                                 padding='valid',
                                 activation='linear',
                                 use_bias=False,
                                 weights=[w_init_2D_6])

# Apply Conv2D layer and print results
x_2D_6 = layer_2D_6(x_2D_1)
# print("\nLayer weights: \n", layer_2D_1.weights)
print("\nResults shape: ", x_2D_6.shape)
print("Results: \n", x_2D_6)


Results shape:  (1, 2, 2, 1)
Results: 
 tf.Tensor(
[[[[2.]
   [2.]]

  [[2.]
   [2.]]]], shape=(1, 2, 2, 1), dtype=float32)

Predefined weights shape:  (3, 3, 1, 1)
Predefined weights: 
 [[[[1.]]

  [[1.]]

  [[1.]]]


 [[[1.]]

  [[1.]]

  [[1.]]]


 [[[1.]]

  [[1.]]

  [[1.]]]]

Results shape:  (1, 4, 4, 1)
Results: 
 tf.Tensor(
[[[[2.]
   [4.]
   [4.]
   [2.]]

  [[4.]
   [8.]
   [8.]
   [4.]]

  [[4.]
   [8.]
   [8.]
   [4.]]

  [[2.]
   [4.]
   [4.]
   [2.]]]], shape=(1, 4, 4, 1), dtype=float32)


Do tej pory stosowaliśmy operacje, dla których wartości maski splotu były predefiniowane. Najwyższy czas na wprowadzenie procesu uczenia wag w modelach splotowych. Tym zajmiemy się w kolejnej części.


<center>
Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Rozwoju Regionalnego
Program Operacyjny Polska Cyfrowa na lata 2014-2020,
Oś Priorytetowa nr 3 "Cyfrowe kompetencje społeczeństwa" Działanie  nr 3.2 "Innowacyjne rozwiązania na rzecz aktywizacji cyfrowej"
Tytuł projektu:  „Akademia Innowacyjnych Zastosowań Technologii Cyfrowych (AI Tech)”
    </center>