# Elementy Inteligencji Obliczeniowej - Sieci Neuronowe


---

**Prowadzący:** Jakub Bednarek<br>
**Kontakt:** jakub.bednarek@put.poznan.pl<br>
**Materiały:** [Strona WWW](http://jakub.bednarek.pracownik.put.poznan.pl)

---

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Uwaga

* **Aby wykonać polecenia należy najpierw przejść do trybu 'playground'. File -> Open in Playground Mode**
* Nowe funkcje Colab pozwalają na autouzupełnianie oraz czytanie dokumentacji

## Technologie:

Na zajęciach będziemy korzystać z języka Python oraz bibliotek **NumPy**, **Tensorflow**, IPython, Pillow, Matplotlib. Ponieważ:
* obliczenia wykonywane przez sieci są masywne - przez co rozsądne jest aby korzystać z GPU,
* nie każdy ma GPU w swoim komputerze,
* nie każdy chce zostawać po godzinach w laboratoriach i korzystać z uczelnianych GPU,
* konfiguracja Tensorflow na GPU potrafi być uciążliwa,

będziemy korzystać głównie z Colab, na którym jest skonfigurowane środowisko wraz ze wszystkimi potrzebnymi składnikami oraz GPU.

*Dla zainteresowanych: na stronie [Tensorflow](https://www.tensorflow.org/install/) znajduje się poradnik jak zainstalować bibliotekę na własnym komputerze. Popularnym podejściem do konfiguracji środowiska TensorFlow na własnej maszynie jest instalacja wirtualnego środowiska przy wykorzystaniu oprogramowania **Anaconda (Conda)**. Popularne IDE do Pythona, jak PyCharm posiadają obsługę środowisk stworzonych przez Condę. Można również korzystać z [NVIDIA-Docker2](https://github.com/NVIDIA/nvidia-docker) oraz gotowych obrazów systemu dostępnych po rejestracji na [NGC](https://ngc.nvidia.com).*


## Cel ćwiczeń:

* zapoznanie się z językiem Python oraz popularnymi bibliotekami do przetwarzania danych,
* przedstawienie podstaw teoretycznych, na których oparte są sieci neuronowe,
* implementacja podstawowych elementów sieci neuronowej (perceptron, funkcja aktywacji, funkcja straty, warstwa neuronów) i sposobu ich uczenia (**wsteczna propagacja błędu**).

## NumPy

NumPy jest biblioteką przeznaczoną do obliczeń o charakterze naukowym. Zawiera implementacje operacji na macierzach i wektorach, jak i bardziej zaawansowane funkcje typu transformata Fouriera.

Aby korzystać z NumPy należy wykonać następującą instrukcję:

In [None]:
# import biblioteki NumPy i przypisanie aliasu ''np''
import numpy as np

In [None]:
!nvidia-smi

Thu Dec  3 10:59:35 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.38       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   36C    P0    26W / 250W |      1MiB / 16280MiB |      0%      Default |
|                               |                      |                 ERR! |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

Podstawowym typem danych w NumPy jest tablica, poniżej zostały zaprezentowane różne metody alokacji takich tablic.

In [None]:
# funkcja np.array() zmienia parametr (lista/tuple) na tablicę NumPy,
# jednym z parametrów jest dtype który określa typ alokowanych danych (np.int32, np.float32, itp.)

arr = np.array([1, 2, 3], dtype=np.int32)

print('Tablica int:', arr, '\n')

arr = np.array([1, 2, 3], dtype=np.float32)
print('Tablica float:', arr, '\n')

arr = np.zeros([2, 3], dtype=np.float32)
print('Tablica zer:\n', arr, '\n')

arr = np.ones([2, 3], dtype=np.float32)
print('Tablica jedynek:\n', arr, '\n')

arr = np.random.normal(5, 2, [5])
print('5 wartości z rozkładu normalnego N(5, 2):\n', arr, '\n')

arr = np.random.uniform(0, 2, [5])
print('5 wartości losowych z przedziału <0, 2):\n', arr, '\n')

arr = np.zeros_like(arr, dtype=np.float64)
print('Tablica zer (float64) o takim samym rozmiarze co poprzednia tablica:\n', arr, '\n')

arr = np.zeros_like(arr, dtype=np.uint8)
print('Tablica zer (uint8) o takim samym rozmiarze co poprzednia tablica:\n', arr, '\n')

Tablica int: [1 2 3] 

Tablica float: [1. 2. 3.] 

Tablica zer:
 [[0. 0. 0.]
 [0. 0. 0.]] 

Tablica jedynek:
 [[1. 1. 1.]
 [1. 1. 1.]] 

5 wartości z rozkładu normalnego N(5, 2):
 [1.6059312  4.52028451 5.23284306 5.64423844 5.46569392] 

5 wartości losowych z przedziału <0, 2):
 [0.40649632 1.10290437 0.17349873 1.80344855 1.05881368] 

Tablica zer (float64) o takim samym rozmiarze co poprzednia tablica:
 [0. 0. 0. 0. 0.] 

Tablica zer (uint8) o takim samym rozmiarze co poprzednia tablica:
 [0 0 0 0 0] 



Dodatkowo w bibliotece można znaleźć metody alokacji według pewnego wzorca jak *range* czy *linspace* (UWAGA: sprawdź, czy metody zwracają również przypadki krańcowe jako elementy tablicy):

In [None]:
# alokacja tablicy 10 wartości od 0 do 10 z równym krokiem
arr = np.linspace(0, 10, 10)

print('Linspace:', arr, '\n')

# alokacja tablicy z wartościami od 0 do 10 z krokiem 0.5
arr = np.arange(0, 10, 0.5)

print('ARange:', arr, '\n')

Linspace: [ 0.          1.11111111  2.22222222  3.33333333  4.44444444  5.55555556
  6.66666667  7.77777778  8.88888889 10.        ] 

ARange: [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5] 



Kolejną przydatną funkcją jest funkcja **reshape** do zmiany wymiarów tablicy.

In [None]:
# alokacja danych (tablica 25 wartości)
arr = np.linspace(0, 10, 25)


# zmiana rozmiaru z (25) na (5, 5):
arr = np.reshape(arr, [5, 5])

print(arr)


[[ 0.          0.41666667  0.83333333  1.25        1.66666667]
 [ 2.08333333  2.5         2.91666667  3.33333333  3.75      ]
 [ 4.16666667  4.58333333  5.          5.41666667  5.83333333]
 [ 6.25        6.66666667  7.08333333  7.5         7.91666667]
 [ 8.33333333  8.75        9.16666667  9.58333333 10.        ]]


NumPy dostarcza implementacji wielu przydatnych operacji na tablicach. Poniżej zaprezentowane zostały podstawowe operacje:

In [None]:
# alokacja danych
a = np.random.normal(0, 1, [3, 3])
b = np.random.uniform(-1, 1, [3, 3])

print('Tablica a:\n', a, '\n\nTablica b:\n', b, '\n')

# mnożenie element-wise:
print('Mnożenie elementwise:\n', np.multiply(a, b), '\n')

# mnożenie macierzy:
print('Mnożenie macierzy:\n', np.matmul(a, b), '\n')

# transpozycja tablicy
print('Transpozycja:\n', np.transpose(a, [1, 0]), '\n')

# potęgowanie:
print('Potęgowanie:\n', np.power(a, 2), '\n')

# broadcasted ops (są to operacje które wykonują pewien wzorzec dla wszystkich elementów):
# np. dla macierzy o wymiarach (5, 10) możemy zdefiniować tablicę o wymiarach (1, 10)
# wówczas podstawowe operacje spowodują, że dla każdego wiersza (5 wierszy) zostanie wykonana
# taka operacja z wykorzystaniem 10 elementów drugiej tablicy
# poniżej a ma rozmiar (3, 3), factor ma rozmiar (1, 3)
factor = np.array([[1, 2, 3]], dtype=np.float)
print('Broadcasted:\n', np.multiply(a, factor), '\n')

# TODO: sprawdź również broadcasted ops dla innych operacji jak dodawanie, odejmowanie.

Tablica a:
 [[ 0.86069312 -0.80442444 -0.90262408]
 [-0.17692724  0.77384834 -0.17342113]
 [-0.79306741  0.55623775 -1.36992593]] 

Tablica b:
 [[-0.20774855  0.35195247  0.68132976]
 [ 0.50443912 -0.89080362  0.74712184]
 [ 0.16152897  0.79177582  0.9078355 ]] 

Mnożenie elementwise:
 [[-0.17880775 -0.28311917 -0.61498464]
 [-0.08924902 -0.68934691 -0.12956671]
 [-0.12810336  0.4404156  -1.24366738]] 

Mnożenie macierzy:
 [[-0.73039085  0.30483135 -0.83402141]
 [ 0.39910322 -0.88892754  0.30017534]
 [ 0.22406397 -1.85929486 -1.36843044]] 

Transpozycja:
 [[ 0.86069312 -0.17692724 -0.79306741]
 [-0.80442444  0.77384834  0.55623775]
 [-0.90262408 -0.17342113 -1.36992593]] 

Potęgowanie:
 [[0.74079264 0.64709868 0.81473022]
 [0.03130325 0.59884126 0.03007489]
 [0.62895592 0.30940044 1.87669705]] 

Broadcasted:
 [[ 0.86069312 -1.60884888 -2.70787223]
 [-0.17692724  1.54769669 -0.52026339]
 [-0.79306741  1.11247551 -4.10977778]] 



Podstawowe operacje jak dodawanie, odejmowanie, mnożenie (element-wise), potęgowanie jest również dostępne korzystając z Python-owych operatorów (+, -, ...)

In [None]:
a = np.ones([3, 3])

print(a, '\n')
print((a * 2) ** 2, '\n')
print(a + 10, '\n')
print(a * 10, '\n')

### Zadanie 0
Wykonaj poniższe polecenia:

In [None]:
arr = np.linspace(0, 20, 20)

#TODO: zmień kształt tablicy na (2, 10) - 2 wiersze po 10 wartości
arr = ...
print(arr, '\n')

#TODO: powiększ pierwszy wiersz o 2, drugi o 5. Operacja powinna być wykonana w 1 linii (zaalokuj zmienną a i wykorzystaj ją w operacji)
a = ...
arr = arr + a

print(arr, '\n')

#TODO: tablice NumPy można indeksować tak jak w innych językach programowania (np C, C++, Java)
#TODO: ''wybierz'' z tablicy drugi wiersz, podnieś do kwadratu jego elementy i wyświetl funkcją print()
arr = ...
print(arr)

### Zadanie 1
Napisz funkcję liniową dla wielu zmiennych (**X** ma rozmiar *n* - liczba zmiennych), jednego współczynnika kierunkowego **a** i jednego wyrazu wolnego **b**. Następnie sprawdź, czy funkcja działa również, gdy dla każdej zmiennej przypiszemy osobne wartości a i b.

In [None]:
x = np.array([1, 2, 3, 4, 5])
a = np.array(2)
b = np.array(-1)

def f1(x, a, b):
  # TODO:
  raise NotImplementedError()

print(f1(x, a, b))

a = np.array([1, 5, 2, 3, 1])
b = np.array([5, 2, 3, 5, 1])

print(f1(x, a, b))

Mechanizm polegający na wykonaniu tej samej operacji dla wszystkich wartości w danej osi nazywa się **broadcasting**. Przykładowo, wynikiem mnożenia dwóch zmiennych o wymiarach [20] i [1] będzie zmienna o wymiarze [20], dla zmiennych o wymiarach [20, 1] i [1, 20] wynikiem będzie zmienna o wymiarach [20, 20] (a więc każdy element z pierwszej zmiennej, przemnożony zostanie przez wszystkie wartości (**osobno**) z drugiej zmiennej.

### Zadanie 2

Napisz funkcję, która będzie wykonywała kombinację liniową wektora zmiennych **X** oraz wektora **a**. Sprawdź, czy dla wielu wektorów **a** (kolumny tablicy **a**) funkcja będzie działała (jeśli nie, popraw funkcję).


In [None]:
x = np.array([2, 3, 5])
a = np.array([5, 1, 5])

def f2(x, a):
  # TODO:
  raise NotImplementedError()

print(f2(x, a))

# for broadcast
x = np.expand_dims(x, 0)

a = np.array([
    [5, 2],
    [1, 2],
    [5, 1]
])

print(f2(x, a))

## Perceptron (Neuron)

Podstawowym elementem każdej sieci neuronowej jest perceptron. Jest to jednostka która wykonuje następującą operację:

$$z = \sum_i x_i * w_i + b$$
$$y = f(z)$$

Gdzie $x_i$ to i-te *wejście* perceptronu, $w_i$ to waga tego wejścia, natomiast $b$ to pewna stała. Wyjście funkcji liniowej $z$ jest następnie podawane na wejście pewnej funkcji aktywacji $f$.

Istnieje wiele funkcji aktywacji takich jak:
* skokowa (*funkcja progowa unipolarna*),
$${\displaystyle y(x)=\left\{{\begin{matrix}0 & dla & x\lt a\\1 & dla&x\geq a\\\end{matrix}}\right.}$$
* sigmoid,
$$y(x)={\frac {1}{1+e^{-\beta x}}}$$
* tangens hiperboliczny,
$$y(x)={\frac {2}{1+e^{-\beta x}}}-1={\frac {1-e^{-\beta x}}{1+e^{-\beta x}}}$$
* relu,
$$y(x)=max(0, x)$$


 Dla skokowej funkcji aktywacji zwyczajowo mówimy o perceptronie, dla innych funkcji aktywacji mówimy o **neuronie**.


---


Neuron wchodzi w skład wielu różnych elementów sieci neuronowej jak *konwolucja* czy *warstwa w pełni połączona* (fully connected).
W przypadku warstwy fully connected wzór rozszerza się trywialnie na:

$$z_j = \sum_i x_i * w_{ij} + b_j$$
$$y_j = f(z_j)$$

Gdzie $j$ oznacza j-ty neuron.
Jak widać powyżej, każdy z neuronów korzysta ze wszystkich wejść. Składnik $\sum_i x_i * w_{ij}$ to kombinacja liniowa (patrz zadanie 2).



---

### Zadanie 3
Zaimplementuj z wykorzystaniem biblioteki NumPy prosty perceptron (linear) oraz następujące funkcje aktywacji: **sigmoid**, **relu**.

In [None]:
def linear(x, w, b):
  # TODO:
  raise NotImplementedError()


def sigmoid(z, beta=0.5):
  # TODO:
  raise NotImplementedError()


def relu(z):
  # TODO:
  raise NotImplementedError()

# UWAGA: rozmiar wejściowy (1, 5) ma dodaną jedynkę tylko ze względów obliczeniowych
x = np.random.normal(0, 1, [1, 5])
w = np.random.normal(0, 1, [5, 2])
b = np.random.normal(0, 1, [2])

z = linear(x, w, b)

print('Linear activation:\n', z, '\n')
print('Sigmoid activation:\n', sigmoid(z), '\n')
print('Relu activation:\n', relu(z), '\n')

## Uczenie neuronów

Podstawową metodą uczenia sieci neuronowych jest **metoda największego spadku**. Aby wykonać tę metodę niezbędne jest zdefiniowanie odpowiedniej **funkcji straty**. Funkcja straty określa jak bardzo nasza sieć myli się na danym przykładzie. Przykładowo jeśli neuron ma za zadanie odwzorować funkcję sinus to funkcją straty może być różnica pomiędzy estymowanym wyjściem neuronu ($y$) a pożądanym wyjściem ($y'$). Innym przykładem może byc klasyfikacja - sieć może estymować rozkład prawdopodobieństwa klas dla danego obrazka wejściowego (np. czy jest to kot czy pies), natomiast pożądanym wyjściem będzie **one-hot** wektor z zapalonym bitem na pozycji klasy prawdziwej. Wówczas jako funkcję straty możemy określić **cross-entropy**.

Dla różnego rodzaju sieci (i ich przeznczenia) można korzystać z różnych funkcji strat. Do najpopularniejszych należą:
* Mean Square Error:
$$L = \frac{1}{n}\sum_i^n(y - y')^2$$
gdzie $y$ to wyjście z neuronu (sieć), natomiast $y'$ to tzw. ground-truth - wartość, którą neuron (sieć) ma aproksymować,
* Mean Absolute Error:
$$L = \frac{1}{n}\sum_i^n |y - y'|$$
* Cross-Entropy:
$$L(p,q)=-\sum _{x}p(x)\,\log q(x)$$
gdzie p to pewien rozkład prawdopodobieństwa estymowany przez sieć, q to ground-truth rozkład prawdopodobieństwa. $x$ to przykład wejściowy.

### Zadanie 4
Zaimplementuj funkcję straty Mean Square Error (UWAGA: Mean Square Error jest liczony dla każdego przykładu (wiersza) osobno - przy obliczaniu średniej podaj odpowiedni parametr axis, wykorzystaj funkcję **np.mean**):

In [None]:
y = np.array([
    [5, 1, 2],
    [2, 2, 3]
])
y_hat = np.array([
    [1, 5, 2],
    [2, 3, 2]
])

def mse(y, y_hat):
  # TODO:
  raise NotImplementedError()

print('Mean Square Error:', mse(y, y_hat))

#### Aktualizacja wag

We wcześniejszych zadaniach można wyróżnić **zmienne uczące** oraz **propagowany sygnał**. Zmiennymi uczącymi nazywamy wszystkie parametry, które wchodzą w skład neuronów ale nie są podawane na wejściu. Z ich pomocą uczymy sieć aby produkowała pożądane wyjście na podstawie przykładów wejściowych. Przykłady wejściowe jak i rezultaty neuronów nazywamy propagowanym sygnałem. Jest to sygnał wykorzystany w procesie uczenia do określenia błędu jaki popełnił każdy z neuronów i w końcu do **obliczenia nowych wartości zmiennych**.

Wyliczenie nowych wartości zmiennych przebiega zgodnie z zasadą:

$$w_i' = w_i - \mu \frac{\partial L}{\partial w_i} $$

Gdzie $\mu$ to prędkość uczenia.

Jak widać największy problem stanowi obliczenie pochodnej funkcji straty po danej wadze. W przypadku jednowarstwowej sieci neuronowej otrzymujemy (korzystając z chain-rule):

$$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial y} \frac{\partial y}{\partial w_i}$$

Wówczas ponownie korzystając z chain rule:

$$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial y} \frac{\partial y}{\partial w_i} = \frac{\partial L}{\partial y} \frac{\partial y}{\partial z}\frac{\partial z}{\partial w_i}$$

Gdzie $\frac{\partial y}{\partial z}$ to pochodna funkcji aktywacji, natomiast $z = \sum_iw_ix_i + b$, dla której pochodna jest równa $x_i$, stąd:

$$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial y} f'(z) x_i$$

Końcowo:

$$w_i' = w_i - \mu \frac{\partial L}{\partial y} f'(z) x_i $$

*Wskazówka do kolejnych zadań:*

* Zastępując $\frac{\partial L}{\partial y} f'(z) = \delta$ zwór można zapisać jako:
$$w_i' = w_i - \mu \delta x_i $$


---

### Zadanie 5
Zaimplementuj pochodne funkcji aktywacji: **relu** oraz **sigmoid** oraz funkcji liniowej. Dodatkowo zaimplementuj pochodną funkcji straty **Mean Square Error**.

**Podpowiedź:** tablice w NumPy można indeksować tablicą bool-ową. Przykład:


```
a = np.random.normal(0, 1, [3, 3])
a[a<0] = -1
a[a>=0] = 1
```

Powyższy przykład ustawia wartości w tablicy na -1, gdzie poprzednio była wartość ujemna, natomiast dla wartości dodatnich (lub 0) ustawia wartość 1.




In [None]:
def d_relu(z):
  # TODO:
  raise NotImplementedError()


def d_sigmoid(z, beta=0.5):
  # TODO:
  raise NotImplementedError()


# pochodna po zmiennych tylko W
def d_linear(x, w, b):
  # TODO:
  raise NotImplementedError()z


def d_mse(y, y_hat):
  # TODO:
  raise NotImplementedError()


### Zadanie 6
Zaimplementuj funkcję obliczającą nową wartość dla zmiennych **w**.

In [None]:
mu = 1e-2

# UWAGA: rozmiar wejściowy (1, 5) ma dodaną jedynkę tylko ze względów obliczeniowych
x = np.random.normal(0, 1, [1, 5])
w = np.random.normal(0, 1, [5, 1])
b = np.random.normal(0, 1, [1])

y_hat = np.ones([1, 1], dtype=np.float32)

z = linear(x, w, b)
y = relu(z)

print('Z:\n', z, '\n')
print('Y:\n', y)

delta = d_relu(z) * d_mse(y, y_hat)

print('Delta:\n', delta, '\n')


def update(variable, mu, delta, x):
  # TODO:
  raise NotImplementedError()


w_new = update(w, mu, delta, x)

print('Wagi przed:\n', w, '\n')
print('Wagi po:\n', w_new)

### Zadanie 7*
Wyznacz regułę aktualizacji dla zmiennych **b**.