# Wprowadzenie do sieci neuronowych i uczenia maszynowego

## Lab 4a: Wprowadzenie do biblioteki Numpy, podstawy sieci neuronowych

---

**Prowadzący:** Iwo Błądek, Anna Labijak-Kowalska <br>

---

## Dlaczego Colab

* Obliczenia wykonywane przez sieci są wymagające obliczeniowo, a ich specyfika sprawia, że można je dużo szybciej wykonywać na GPU.
* Nie każdy ma odpowiedni GPU w swoim komputerze (rekomendowane GPU to GPU firmy Nvidia, alternatywnie układy Apple Silicon).
* Dlatego sugerowany sposób pracy będzie przez Colab na którym jest skonfigurowane środowisko wraz ze skromnym GPU.

Nie ma oczywiście przeszkód by zadania realizować lokalnie, np. w Jupyter Notebook.

## Praca w środowisku Colab

* **Aby wykonać polecenia należy najpierw przejść do trybu 'playground': Plik -> Otwórz w trybie doświadczalnym (File -> Open in Playground Mode), jeżeli środowisko nie otworzyło się w nim automatycznie. Może być konieczne zalogowanie się do swojego konta Google.**
* Dodatkowe pliki można wczytywać z dysku Google przy użyciu poniższego kodu:


```
from google.colab import drive
drive.mount('/content/drive')
```



## Cel ćwiczeń:

* zapoznanie się z językiem Python oraz popularną biblioteką NumPy do przetwarzania danych,
* przedstawienie podstaw teoretycznych, na których oparte są sieci neuronowe,
* implementacja podstawowych elementów sieci neuronowej: neuron, funkcja aktywacji, warstwa neuronów.

## NumPy

NumPy jest biblioteką przeznaczoną do obliczeń o charakterze naukowym. Zawiera implementacje operacji na macierzach i wektorach, jak i bardziej zaawansowane funkcje typu transformata Fouriera.

Aby korzystać z NumPy należy wykonać następującą instrukcję:

In [2]:
# import biblioteki NumPy i przypisanie aliasu ''np''
import numpy as np

In [3]:
# Użyj tej linijki by zobaczyć dane karty graficznej udostępnionej dla środowiska Colab przez Google
!nvidia-smi

/bin/bash: line 1: nvidia-smi: command not found


Podstawowym typem danych w NumPy jest tablica, poniżej zostały zaprezentowane różne metody alokacji takich tablic.

In [4]:
# funkcja np.array() zmienia parametr (lista/tuple) na tablicę NumPy,
# jednym z parametrów jest dtype który określa typ alokowanych danych (np.int32, np.float32, itp.)

arr = np.array([1, 2, 3], dtype=np.int32)

print('Tablica int:', arr, '\n')

arr = np.array([1, 2, 3], dtype=np.float32)
print('Tablica float:', arr, '\n')

arr = np.zeros([2, 3], dtype=np.float32)
print('Tablica zer:\n', arr, '\n')

arr = np.ones([2, 3], dtype=np.float32)
print('Tablica jedynek:\n', arr, '\n')

arr = np.random.normal(5, 2, [5])
print('5 wartości z rozkładu normalnego N(5, 2):\n', arr, '\n')

arr = np.random.uniform(0, 2, [5])
print('5 wartości losowych z przedziału <0, 2):\n', arr, '\n')

arr = np.zeros_like(arr, dtype=np.float64)
print('Tablica zer (float64) o takim samym rozmiarze co poprzednia tablica:\n', arr, '\n')

arr = np.zeros_like(arr, dtype=np.uint8)
print('Tablica zer (uint8) o takim samym rozmiarze co poprzednia tablica:\n', arr, '\n')

Tablica int: [1 2 3] 

Tablica float: [1. 2. 3.] 

Tablica zer:
 [[0. 0. 0.]
 [0. 0. 0.]] 

Tablica jedynek:
 [[1. 1. 1.]
 [1. 1. 1.]] 

5 wartości z rozkładu normalnego N(5, 2):
 [3.94371913 5.00522456 4.48880815 4.43760132 4.79392044] 

5 wartości losowych z przedziału <0, 2):
 [1.57635752 0.71676978 0.10687216 1.59592523 0.96817224] 

Tablica zer (float64) o takim samym rozmiarze co poprzednia tablica:
 [0. 0. 0. 0. 0.] 

Tablica zer (uint8) o takim samym rozmiarze co poprzednia tablica:
 [0 0 0 0 0] 



Dodatkowo w bibliotece można znaleźć metody alokacji według pewnego wzorca jak *range* czy *linspace* (UWAGA: sprawdź, czy metody zwracają również przypadki krańcowe jako elementy tablicy):

In [4]:
# alokacja tablicy 10 wartości od 0 do 10 z równym krokiem
arr = np.linspace(0, 10, 10)

print('Linspace:', arr, '\n')

# alokacja tablicy z wartościami od 0 do 10 z krokiem 0.5
arr = np.arange(0, 10, 0.5)

print('ARange:', arr, '\n')

Linspace: [ 0.          1.11111111  2.22222222  3.33333333  4.44444444  5.55555556
  6.66666667  7.77777778  8.88888889 10.        ] 

ARange: [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5] 



Kolejną przydatną funkcją jest funkcja **reshape** do zmiany wymiarów tablicy.

In [5]:
# alokacja danych (tablica 25 wartości)
arr = np.linspace(0, 10, 25)


# zmiana rozmiaru z (25) na (5, 5):
arr = np.reshape(arr, [5, 5])

print(arr)


[[ 0.          0.41666667  0.83333333  1.25        1.66666667]
 [ 2.08333333  2.5         2.91666667  3.33333333  3.75      ]
 [ 4.16666667  4.58333333  5.          5.41666667  5.83333333]
 [ 6.25        6.66666667  7.08333333  7.5         7.91666667]
 [ 8.33333333  8.75        9.16666667  9.58333333 10.        ]]


NumPy dostarcza implementacji wielu przydatnych operacji na tablicach. Poniżej zaprezentowane zostały podstawowe operacje:

In [7]:
# alokacja danych
a = np.random.normal(0, 1, [3, 3])
b = np.random.uniform(-1, 1, [3, 3])

print('Tablica a:\n', a, '\n\nTablica b:\n', b, '\n')

# mnożenie element-wise:
print('Mnożenie elementwise:\n', np.multiply(a, b), '\n')

# mnożenie macierzy:
print('Mnożenie macierzy:\n', np.matmul(a, b), '\n')

# transpozycja tablicy
print('Transpozycja:\n', np.transpose(a, [1, 0]), '\n')

# potęgowanie:
print('Potęgowanie:\n', np.power(a, 2), '\n')

# broadcasted ops (są to operacje które wykonują pewien wzorzec dla wszystkich elementów):
# np. dla macierzy o wymiarach (5, 10) możemy zdefiniować tablicę o wymiarach (1, 10)
# wówczas podstawowe operacje spowodują, że dla każdego wiersza (5 wierszy) zostanie wykonana
# taka operacja z wykorzystaniem 10 elementów drugiej tablicy
# poniżej a ma rozmiar (3, 3), factor ma rozmiar (1, 3)
factor = np.array([[1, 2, 3]], dtype=np.float32)
print('Broadcasted:\n', np.multiply(a, factor), '\n')

# DONE: sprawdź również broadcasted ops dla innych operacji jak dodawanie, odejmowanie.

Tablica a:
 [[-0.50852512  1.85908436  0.3528652 ]
 [-0.84844271  0.6669448  -1.59173486]
 [-1.00831699 -0.07430977 -0.84196301]] 

Tablica b:
 [[-0.46400492  0.47995709  0.78504368]
 [ 0.9902958   0.63961183  0.81065113]
 [-0.82796098  0.52093389 -0.28148906]] 

Mnożenie elementwise:
 [[ 0.23595816  0.89228072  0.27701459]
 [-0.84020925  0.42658578 -1.29034166]
 [ 0.83484712 -0.03871048  0.23700337]] 

Mnożenie macierzy:
 [[ 1.78484297  1.12884155  1.00852672]
 [ 2.37204858 -0.80981894  0.32265092]
 [ 1.0913879  -0.97008536 -0.6148088 ]] 

Transpozycja:
 [[-0.50852512 -0.84844271 -1.00831699]
 [ 1.85908436  0.6669448  -0.07430977]
 [ 0.3528652  -1.59173486 -0.84196301]] 

Potęgowanie:
 [[0.2585978  3.45619467 0.12451385]
 [0.71985504 0.44481537 2.53361986]
 [1.01670315 0.00552194 0.7089017 ]] 

Broadcasted:
 [[-0.50852512  3.71816873  1.05859559]
 [-0.84844271  1.33388961 -4.77520457]
 [-1.00831699 -0.14861955 -2.52588902]] 



Podstawowe operacje jak dodawanie, odejmowanie, mnożenie (element-wise), potęgowanie jest również dostępne korzystając z Python-owych operatorów (+, -, ...)

In [8]:
a = np.ones([3, 3])

print(a, '\n')
print((a * 2) ** 2, '\n')
print(a + 10, '\n')
print(a * 10, '\n')

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]] 

[[4. 4. 4.]
 [4. 4. 4.]
 [4. 4. 4.]] 

[[11. 11. 11.]
 [11. 11. 11.]
 [11. 11. 11.]] 

[[10. 10. 10.]
 [10. 10. 10.]
 [10. 10. 10.]] 



### Zadanie 0
Wykonaj poniższe polecenia:

In [16]:
arr = np.linspace(0, 20, 20)

#DONE: zmień kształt tablicy na (2, 10) - 2 wiersze po 10 wartości
arr = np.reshape(arr, (2,10))
print(arr, '\n')

#DONE: powiększ pierwszy wiersz o 2, drugi o 5. Operacja powinna być wykonana w 1 linii (zaalokuj zmienną a i wykorzystaj ją w operacji)
a = [[2],[5]]
arr = arr + a

print(arr, '\n')

#DONE: tablice NumPy można indeksować tak jak w innych językach programowania (np C, C++, Java)
#DONE: ''wybierz'' z tablicy drugi wiersz, podnieś do kwadratu jego elementy i wyświetl funkcją print()
arr = arr[1] ** 2
print(arr)

[[ 0.          1.05263158  2.10526316  3.15789474  4.21052632  5.26315789
   6.31578947  7.36842105  8.42105263  9.47368421]
 [10.52631579 11.57894737 12.63157895 13.68421053 14.73684211 15.78947368
  16.84210526 17.89473684 18.94736842 20.        ]] 

[[ 2.          3.05263158  4.10526316  5.15789474  6.21052632  7.26315789
   8.31578947  9.36842105 10.42105263 11.47368421]
 [15.52631579 16.57894737 17.63157895 18.68421053 19.73684211 20.78947368
  21.84210526 22.89473684 23.94736842 25.        ]] 

[241.06648199 274.86149584 310.87257618 349.09972299 389.54293629
 432.20221607 477.07756233 524.16897507 573.47645429 625.        ]


### Zadanie 1
Napisz funkcję liniową dla wielu zmiennych (**X** ma rozmiar *n* - liczba zmiennych), jednego współczynnika kierunkowego **a** i jednego wyrazu wolnego **b**. Następnie sprawdź, czy funkcja działa również, gdy dla każdej zmiennej przypiszemy osobne wartości a i b.

In [6]:
x = np.array([1, 2, 3, 4, 5])
a = np.array(2)
b = np.array(-1)

def f1(x, a, b):
  return a * x + b

print(f1(x, a, b))

a = np.array([1, 5, 2, 3, 1])
b = np.array([5, 2, 3, 5, 1])

print(f1(x, a, b))

[1 3 5 7 9]
[ 6 12  9 17  6]


Mechanizm polegający na wykonaniu tej samej operacji dla wszystkich wartości w danej osi nazywa się **broadcasting**. Przykładowo, wynikiem mnożenia dwóch zmiennych o wymiarach [20] i [1] będzie zmienna o wymiarze [20], dla zmiennych o wymiarach [20, 1] i [1, 20] wynikiem będzie zmienna o wymiarach [20, 20] (a więc każdy element z pierwszej zmiennej, przemnożony zostanie przez wszystkie wartości (**osobno**) z drugiej zmiennej.

### Zadanie 2

Napisz funkcję, która będzie wykonywała kombinację liniową wektora zmiennych **X** oraz wektora stałych **a**. Sprawdź, czy dla wielu wektorów **a** (kolumny tablicy **a**) funkcja będzie działała (jeśli nie, popraw funkcję tak by wykorzystywała mechanizm broadcasting).


In [35]:
x = np.array([2, 3, 5])
a = np.array([5, 1, 5])

def f2(x, a):
  return np.dot(x,a)

print(f2(x, a))

# f2 powinno sobie także radzić z "równoległym" obliczaniem kombinacji liniowej dla kilku wektorów na raz
a = np.array([
    [5, 2],
    [1, 2],
    [5, 1]
])

# by zadziałał broadcasting
x = np.expand_dims(x, 0)

print(f2(x, a))

38
[[38 15]]


## Neuron

Podstawowym elementem każdej sieci neuronowej jest neuron. Jest to jednostka która wykonuje następującą operację:

$$z = \sum_i x_i * w_i + b$$
$$y = f(z)$$

gdzie $x_i$ to i-te *wejście* neuronu, $w_i$ to waga tego wejścia, natomiast $b$ to pewna stała. Wyjście funkcji liniowej $z$ jest następnie podawane na wejście pewnej funkcji aktywacji $f$.

Istnieje wiele funkcji aktywacji takich jak:
* skokowa (*funkcja progowa unipolarna*),
$${\displaystyle y(x)=\left\{{\begin{matrix}0 & dla & x\lt a\\1 & dla&x\geq a\\\end{matrix}}\right.}$$
* sigmoid,
$$y(x)={\frac {1}{1+e^{-\beta x}}}$$
* tangens hiperboliczny,
$$y(x)={\frac {2}{1+e^{-\beta x}}}-1={\frac {1-e^{-\beta x}}{1+e^{-\beta x}}}$$
* relu,
$$y(x)=max(0, x)$$


 Dla neuronu ze skokową funkcją aktywacji używa się także czasami ze względów historycznych nazwy *perceptron*.


---


Neuron wchodzi w skład wielu różnych elementów sieci neuronowej jak *warstwa konwolucyjna* czy *warstwa w pełni połączona* (fully connected).
W przypadku warstwy fully connected wzór rozszerza się trywialnie na:

$$z_j = \sum_i x_i * w_{ij} + b_j$$
$$y_j = f(z_j)$$

gdzie $j$ oznacza j-ty neuron, $x_i$ oznacza wyjście neuronu $i$ z warstwy poprzedzającej, a $w_{ij}$ oznacza wagę połączenia wychodzącego z neuronu $i$ do neuronu $j$.
Składnik $\sum_i x_i * w_{ij}$ to kombinacja liniowa (patrz zadanie 2).



---

### Zadanie 3
Zaimplementuj z wykorzystaniem biblioteki NumPy następujące funkcje aktywacji: **linear**, **sigmoid**, **relu**.

In [81]:
def linear(x, w, b):
  return np.dot(x,w) + b


def sigmoid(z, beta=0.5):
  return 1 / (1 + np.exp(-1 * beta * z))


def relu(z):
  return np.maximum(z,0)

# UWAGA: rozmiar wejściowy (1, 5) ma dodaną jedynkę tylko ze względów obliczeniowych
x = np.random.normal(0, 1, [1, 5])
w = np.random.normal(0, 1, [5, 2])
b = np.random.normal(0, 1, [2])

z = linear(x, w, b)

print('Linear activation:\n', z, '\n')
print('Sigmoid activation:\n', sigmoid(z), '\n')
print('Relu activation:\n', relu(z), '\n')

Linear activation:
 [[-3.00343666  2.73669203]] 

Sigmoid activation:
 [[0.18216938 0.7971128 ]] 

Relu activation:
 [[0.         2.73669203]] 



### Zadanie 4

Zaimplementuj klasę FullyConnectedLayer, reprezentującą całą warstwę w pełni połączoną (fully connected). Załóż, że wagi i biasy w warstwie są ustalane losowo w konstruktorze.

In [78]:
class FullyConnectedLayer:
  def __init__(self, n, previous_layer_shape):
    _, shape = previous_layer_shape
    # DONE: Wypełnij konstruktor, zainicjalizuj wagi i biasy neuronów w warstwie
    self.w = np.random.normal(0, 1, [shape, n])
    self.b = np.random.normal(0, 1, [n])

    # DONE: Ustal wymiary macierzy wyjściowej warstwy w postaci krotki
    self.shape = (1,n)

  def propagate(self, X):
    # DONE: Zaimplementuj propagację sygnału w przód. Pamiętaj, by użyć mnożenia macierzy a nie mnożenia po elementach.
    return np.dot(X,self.w) + self.b


# Definicja sieci neuronowej
L1 = FullyConnectedLayer(5, (1, 3))
L2 = FullyConnectedLayer(10, L1.shape)
L3 = FullyConnectedLayer(1, L2.shape)

# Użycie sieci neuronowej do predykcji dla przykładu X
X = np.array([1, 2, 0], ndmin=2)
print("X: {}\t\t(shape: {})".format(X, X.shape))
y1 = L1.propagate(X)
print("y1: {}\t\t(shape: {})".format(y1, y1.shape))
y2 = L2.propagate(y1)
print("y2: {}\t\t(shape: {})".format(y2, y2.shape))
y3 = L3.propagate(y2)
print("Network's output: {}\t\t(shape: {})".format(y3.item(), y3.shape))

X: [[1 2 0]]		(shape: (1, 3))
y1: [[ 1.70691156 -1.4310056  -2.35698596 -2.00245152 -3.72682354]]		(shape: (1, 5))
y2: [[-1.62670405  2.6424669   7.94513587  7.03449565 -0.69413376 -2.3092451
   2.96129381 -3.18501466  7.53299714  1.3875025 ]]		(shape: (1, 10))
Network's output: 14.886613452836958		(shape: (1, 1))
