# Wprowadzenie do sieci neuronowych

Organizator: Koło naukowe BioMedicalAI  
![biomedical.svg](biomedical.svg)

## Idea i historia sieci neuronowych (30m)
Sieci neuronowe są podzbiorem technik maszynowego uczenia, stosowane w obszarach wizji komputerowej, przetwarzania języka naturalnego, generacji tekstu i obrazów itp. Sieć zazyczaj skłąda się z kilku warstw: warstwy wejściowej, N warstw ukrytych oraz warstwy wyjścia. Pomiędzy warstwami stosuje się nieliniowe funkcje aktywancji w celu modelowania nieliniowego zachowania. Sieci trenowane są zazwyczaj z wykorzystaniem mechanizmu propagacji wstecznej, wykorzystującej pochodne funkcji w celu propagowania błedu oraz zmiany parametrów.

!["Schemat sieci neuronowej"](./The-Fully-Connected-Neural-Network-model-used-in-our-paper_W640.jpg)  
*Dumor, Koffi & Li, Yao. (2019). Estimating China’s Trade with Its Partner Countries within the Belt and Road Initiative Using Neural Network Analysis. Sustainability. 11. 1449. 10.3390/su11051449.*

### Historia sieci neuronowych
Historia sieci neuronowych bardzo mocno splata się z historią psychologii oraz poznania mechanizów stojących za ludzkim postrzeganiem oraz podejmowaniem decyzji.  

Koncept sieci neuronowych pojawia się już w 1943r. w artykule "A logical calculus of the ideas immanent in nervous activity" W. McCulloch, W. Pitts, gdzie próbowano zamodelować działanie mózgu poprzez proste elementy logiczne.  

Dużym osiagnięciem bylo opublikowanie w 1958r. artykułu "The perceptron: A probabilistic model for information storage and organization in the brain." Franka Rosenblatta opisujący system przetwarzania informacji wizyjnej - mark I Perceptron.   
System zbudowany był w oparciu o maszynę IBM 704 i składał się z 3 warstw:
* sensory units (S-units) - warstwa wejściowa, 20x20 fotodetektorów, gdzie każdy S-unit łączył się losowo z warstwą A-unitów
* association units (A-units) - warstwa ukryta składająca się z 512 neuronów, ustawiana ręcznie poprzez odpowiednie ustawienie potencjometrów
* response units(R-units) - warstwa wyjścia
Badane było wykorzystanie Perceptrona do analizy zdjęć lotniczych i detekcji systemów wojskowych

!["Wykorzystanie systemu Perceptron"](./perceptron-use.jpg)
*By National Museum of the U.S. Navy - 330-PSA-80-60 (USN 710739), Public Domain, https://commons.wikimedia.org/w/index.php?curid=70710209*

!["Schemat opisujący elementy Perceptrona"](./percpetron-op-man.png)  
*By John C. Hay, Albert E. Murray - https://apps.dtic.mil/sti/tr/pdf/AD0236965.pdf, Public Domain, https://commons.wikimedia.org/w/index.php?curid=143176022*

!["Figura z artykułu F. Rosenblatta porównująca działanie ludzkiego mózgu z perceptronem do przetwarzania widzenia."](./Organization_of_a_biological_brain_and_a_perceptron.png)  
*By Rosenblatt, F. - Rosenblatt, F. The Design of an Intelligent Automaton, Research Reviews, Office of Naval Research. Washington, October 1958, 5-13, Public Domain, https://commons.wikimedia.org/w/index.php?curid=139658945*

W 1974 r. Paul Werbos w swojej pracy doktorskiej opisał użycie propagacji wstecznej w celu uczenia sieci neuronowej, natomiast w 1985r. David Rumelhart wraz z  Geoffrey Hintonem oraz Ronald J. Williamsem niezaleznie opisali zastosowanie algorytmu propagacji wstecznej w celu uczenia MLP.

Sepp Hochreiter w 1995 r. zaproponował LSTM (long short-term memory) jako rozwiązanie problemu zanikającego gradientu w rekurencyjnych sieciach neuronowych.

W 1980 r. Kunihiko Fukushima zaproponowal CNN bazując na badaniach z lat 50-60 opisujących sposób postrzegania przez koty. Warta wspomnienia jest praca Yann LeCun, który w 1989 r. zaproponował sieć LeNet bazującą na CNN do odczytu odręcznego pisma, co spowodowało budowę komercyjnych zastosowań opartych na sieciach neuronowych i CNN.

Głębokie uczenie określane jako uczenie wielowarstwowe dużych sieci zaczęło się rozpowszechniać wraz z zastsoowaniem GPU do przyśpieszenia uczenia. W 2009 r. Raina, Madhavan, oraz Andrew Ng pracowali nad sieciami trenowanymi z użyciem GPU. W 2012 r. głęboka sieć AlexNet znacząco poprawiła najwyższy wynik w konkursie ImageNet, co uposzechniło głębokie uczenie.

W 2017r. w artykule "Attention Is All You Need" Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Lukasz Kaiser, and Illia Polosukhin zaproponowano architekturę transformer, rewolucjonizującą przetwarzanie sekwencji (NLP). 


## Algorytm propagacji wstecznej (5m)

In [None]:
%matplotlib tk
from matplotlib import animation
import matplotlib.pyplot as plt
import numpy as np

n_steps = 100
x_lin = np.linspace(-2, 2, 400)
y_lin = np.linspace(-2, 2, 400)
x, y = np.meshgrid(x_lin, y_lin)
positions = np.zeros((n_steps+1, 2))
lr = 0.1

# Funkcja którą optymalizujemy
def func(x, y):
    return x**2 - y**2

# Nasz model składający się z 2 parametrów
theta_x, theta_y = np.random.normal(size=(2))
positions[0, 0] = theta_x
positions[0, 1] = theta_y

for epoch in range(n_steps):
    grad_x = 2 * theta_x
    grad_y = -2 * theta_y

    theta_x -= lr * grad_x
    theta_y -= lr * grad_y

    positions[epoch+1, 0] = theta_x
    positions[epoch+1, 1] = theta_y

# Animation of SGD steps
fig, ax = plt.subplots()
ax.set_aspect('equal')

scat = ax.scatter(positions[0, 0], positions[0, 1], color="red")
line, = ax.plot(positions[0, 0], positions[0, 1], color="red")

plt.imshow(func(x, y), extent=[-2, 2, 2, -2])

def animate(i):
    line.set_data(positions[:i+1, 0], positions[:i+1, 1])
    scat.set_offsets([positions[i, 0], positions[i, 1]])
    plt.draw()

anim = animation.FuncAnimation(fig, animate, frames=n_steps+1, interval=100)
plt.show()


## Optymalizatory (10m)
Optymalizatory pozwalają na bardziej skomplikowane mechanizmy zmiany parametrów np. poprzez zachowanie momentu. Naczęściej używane Adam, RMSProp

In [None]:
%matplotlib tk
from matplotlib import animation
import torch

n_steps = 10
x_lin = torch.linspace(-2, 2, 1000)
y_lin = torch.linspace(-2, 2, 1000)
x, y = torch.meshgrid(x_lin, y_lin)

def func(x, y):
    return x**2 - y**2

optimizers_cls = [
    torch.optim.SGD,
    torch.optim.Adam,
    torch.optim.RMSprop
]

theta_init = torch.rand((2)) * 2 - 1
optim_theta = [theta_init.clone().requires_grad_() for _ in optimizers_cls]
optimizers = [opti_cls([theta], lr=0.1) for theta, opti_cls in zip(optim_theta, optimizers_cls)]
positions = torch.zeros((len(optimizers_cls), n_steps+1, 2))

# Training loop
positions[:, 0] = theta_init.detach()


for epoch in range(n_steps):
    for i, (opti, theta) in enumerate(zip(optimizers, optim_theta)):
        opti.zero_grad()
        output = -1 * func(theta[0], theta[1])
        output.backward()
        opti.step()
        positions[i, epoch+1] = theta.detach()

# Animation of SGD steps
fig, ax = plt.subplots()
ax.set_aspect('equal')

scat = [None] * len(optimizers)
line = [None] * len(optimizers)
for i, opti in enumerate(optimizers):
    scat[i] = ax.scatter(positions[i, 0, 0], positions[i, 0, 1])
    line[i], = ax.plot(positions[i, 0, 0], positions[i, 0, 1], label=opti)

plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))
plt.imshow(func(x, y), extent=[-2, 2, 2, -2])

def animate(frame):
    for i, _ in enumerate(optimizers):
        line[i].set_data(positions[i, :frame+1, 0], positions[i, :frame+1, 1])
        scat[i].set_offsets([positions[i, frame, 0], positions[i, frame, 1]])
    plt.draw()

anim = animation.FuncAnimation(fig, animate, frames=n_steps+1, interval=100)
plt.show()


## Funkcje aktywacji (5m)
Funkcje aktywacji określają wyściowy poziom aktywacji neuronu.

In [None]:
# Liniowa
import matplotlib.pyplot as plt
import numpy as np

def relu_activation(x):
    return x

inputs = np.linspace(-10, 10, 50)
outputs = np.vectorize(relu_activation)(inputs)

plt.plot(inputs, outputs)
plt.title('Liniowa funkcja aktywacji')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.show()


In [None]:
# Sigmoida
import matplotlib.pyplot as plt
import numpy as np

def relu_activation(x):
    return 1 / (1 + np.e ** -x)

inputs = np.linspace(-10, 10, 50)
outputs = np.vectorize(relu_activation)(inputs)

plt.plot(inputs, outputs)
plt.title('Sigmoidalna funkcja aktywacji')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.show()

In [None]:
# ReLU
import matplotlib.pyplot as plt
import numpy as np

def relu_activation(x):
    return x if x >= 0.0 else 0.0

inputs = np.linspace(-10, 10, 51)
outputs_relu = np.vectorize(relu_activation)(inputs)

plt.plot(inputs, outputs_relu)
plt.title('Rectifier Linear Unit')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.show()

In [None]:
# Softmax
import numpy as np

def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum()

scores = np.array([3.0, 1.0, 0.2])
print(softmax(scores))

## Funkcje straty (10m)

* Regresja
  * MSE - średni błąd kwadratowy $1/n * \sum{(x - y) ^ 2}$
  * MAE - średni błąd absolutny $1/n * \sum{|x - y|}$

* Klasyfikacja
  * CE - cross entropy  $-\sum_{c=1}^My_{o,c}\log(p_{o,c})$ gdzie M to liczba klas
  * NLL - negative loglikelihood $NLL(y) = -{\log(p(y))}$
  * KL divergence - Kullback-Leibler Divergence $KL(\hat{y} || y) = \sum_{c=1}^{M}\hat{y}_c \log{\frac{\hat{y}_c}{y_c}}$

## Zbudujmy własną sieć (15m)

In [None]:
class Linear:
  def __init__(self, input_dim: int, num_hidden: int = 1):
    self.weights = np.random.randn(input_dim, num_hidden) * np.sqrt(2. / input_dim)
    self.bias = np.zeros(num_hidden)
  
  def __call__(self, x):
    self.x = x
    output = x @ self.weights + self.bias
    return output

  def backward(self, gradient, lr):
    # Calculate gradients
    self.weights_gradient = self.x.T @ gradient
    self.bias_gradient = np.sum(gradient, axis=0)
    self.x_gradient = gradient @ self.weights.T

    # Apply update
    self.weights = self.weights - lr * self.weights_gradient
    self.bias = self.bias - lr * self.bias_gradient
    return self.x_gradient


In [None]:
class MSE:
  def __call__(self, y_pred, y_true):
    self.y_pred = y_pred
    self.y_true = y_true
    return np.mean((y_pred - y_true) ** 2)

  def backward(self):
    n = self.y_true.shape[0]
    self.gradient = 2. * (self.y_pred - self.y_true) / n
    return self.gradient

In [None]:
class Model:
    def __init__(self, layers: list):
        self.layers = layers

    def __call__(self, x):
        for layer in self.layers:
            x = layer(x)
        return x
    
    def backward(self, gradient, lr):
        for layer in self.layers[::-1]:
            gradient = layer.backward(gradient, lr)
        return gradient

In [None]:
import matplotlib.pyplot as plt

def plot_3d(x, y, y_pred=None):
  fig = plt.figure()
  ax = fig.add_subplot(111, projection='3d')
  ax.scatter(x[:, 0], x[:, 1], y, label='base function')
  if y_pred is not None:
    ax.scatter(x[:, 0], x[:, 1], y_pred, label='our function')
  plt.legend()

In [None]:
# generacja liniowego datasetu
sample_size = 100
dimensions = 2
x = np.random.uniform(-1.0, 1.0, (sample_size, dimensions))

weights = np.array([[4, -1]]).T
bias = np.array([0.5])
y = x @ weights + bias
plot_3d(x, y[:,0])

In [None]:
num_epoch = 100
lr = 0.1
model = Model([
    Linear(2)
])
loss = MSE()

plot_3d(x, y[:, 0], model(x)[:, 0])

for epoch in range(100):
    y_pred = model(x)
    loss_val = loss(y_pred, y)
    gradient_from_loss = loss.backward()
    model.backward(gradient_from_loss, lr)
    print(loss_val)

plot_3d(x, y[:, 0], model(x)[:, 0])


In [None]:
# generacja nie liniowego datasetu
sample_size = 100
dimensions = 2
x = np.random.uniform(-1.0, 1.0, (sample_size, dimensions))

a = np.array([[7, -1]]).T
b = np.array([[3, 1]]).T
bias = np.array([7])
y = (x ** 2) @ a + x @ b + bias
plot_3d(x, y[:, 0])


In [None]:
num_epoch = 100
lr = 0.1
model = Model([
    Linear(2)
])
loss = MSE()

plot_3d(x, y[:, 0], model(x)[:, 0])

for epoch in range(num_epoch):
    y_pred = model(x)
    loss_val = loss(y_pred, y)
    gradient_from_loss = loss.backward()
    model.backward(gradient_from_loss, lr)
    print(loss_val)

plot_3d(x, y[:, 0], model(x)[:, 0])

In [None]:
class ReLU:
    def __call__(self, input_):
        self.input_ = input_
        self.output = np.clip(self.input_, 0, None)
        return self.output
    
    def backward(self, output_gradient, _):
      self.input_gradient = (self.input_ > 0) * output_gradient
      return self.input_gradient

In [None]:
num_epoch = 100
lr = 0.1
model = Model([
    Linear(2, 2),
    ReLU(),
    Linear(2),
])
loss = MSE()

plot_3d(x, y[:, 0], model(x)[:, 0])

for epoch in range(num_epoch):
    y_pred = model(x)
    loss_val = loss(y_pred, y)
    gradient_from_loss = loss.backward()
    model.backward(gradient_from_loss, lr)
    print(loss_val)

plot_3d(x, y[:, 0], model(x)[:, 0])

In [None]:
class Sigmoid:
    def __call__(self, input):
        self.output =  1 / (1  + np.exp(-input))
        return self.output
    
    def backward(self, output_gradient, _):
      return output_gradient *self.output * (1-self.output)

In [None]:
num_epoch = 100
lr = 0.1
model = Model([
    Linear(2, 2),
    Sigmoid(),
    Linear(2),
])
loss = MSE()

plot_3d(x, y[:, 0], model(x)[:, 0])

for epoch in range(num_epoch):
    y_pred = model(x)
    loss_val = loss(y_pred, y)
    gradient_from_loss = loss.backward()
    model.backward(gradient_from_loss, lr)
    print(loss_val)

plot_3d(x, y[:, 0], model(x)[:, 0])

## Ankieta
!["Ankieta"](./ankieta.png)  

## Dodatkowe linki
[Wizualizacja algorytmow optymalizacji](https://imgur.com/a/visualizing-optimization-algos-Hqolp#NKsFHJb)  
[Wizualizacja crossentropy i loglikelihood](https://towardsdatascience.com/cross-entropy-negative-log-likelihood-and-all-that-jazz-47a95bd2e81)  
[3Brown1Blue - propagacja wsteczna](https://www.youtube.com/watch?v=tIeHLnjs5U8)  
