# Neuron

[Sieci neuronowe](https://pl.wikipedia.org/wiki/Sie%C4%87_neuronowa) składają się z neuronów połączonych ze sobą. W najprostszym przypadku każdy neuron może mieć wiele wejść, ale tylko jedno wyjście. Ponadto każdy neuron posiada wektor wag (jedna waga na każde wejście) oraz bias, który jest liczbą.
Wagi należy początkowo zainicjalizować do losowych wartości. Najczęściej losuje się je z rozkładu normalnego o zerowej średniej. Z kolei początkowy bias można przyjąć w zasadzie dowolny. Zazwyczaj wybiera się losowo jakąś niewielką liczbę dodatnią np. z przedziału $[0,0.1]$

Do zaimplementowania neuronu wystarczą 3 podstawowe funkcje:

Forward pass - propagujemy dane od wejścia neuronu do wyjścia

Backward pass - propagujemy gradient od wyjścia do wejścia, oraz wyliczamy gradienty wag

Parameter update - etap w którym zmieniamy wagi neuronu (etap uczenia neuronu)


# Neuron

[Neural networks] (https://en.wikipedia.org/wiki/Artificial_neural_network) consist of neurons connected to each other. In the simplest case, each neuron can have many inputs, but only one output. In addition, each neuron has a weight vector (one weight for each input) and bias, which is a number.
Initially, weights should be initialized to random values. They are most often drawn from the normal distribution with zero mean. In turn, the initial bias can be taken basically any. Usually a small positive number is randomly selected, e.g. from $[0,0.1]$

To implement a neuron, 3 basic functions are sufficient:

Forward pass - we propagate data from neuron input to output

Backward pass - we propagate the gradient from output to input, and calculate weight gradients

Parameter update - a stage where we change the neuron weights (neuron learning stage)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
class Neuron:
    
    def __init__(self, numberOfInputs):
        self.weights = None
        self.bias = 0.0
        
        self.tmp_input = None
        self.tmp_gradient = 0.0
        self.tmp_output = 0.0
        ### BEGIN SOLUTION
        self.weights = np.random.randn(numberOfInputs) / np.sqrt(numberOfInputs)
        self.bias = 0.1 * np.random.uniform()
        ### END SOLUTION
        
    def forward(self, inputVector):
        ### BEGIN SOLUTION
        output = float(np.dot(self.weights , inputVector) + self.bias)
        output = 1.0 / (1.0 + np.exp(-output))
        self.tmp_input = np.copy(inputVector)
        self.tmp_output = output
        return output
        ### END SOLUTION
        
    def backward(self, gradient):
        ### BEGIN SOLUTION
        activation_gradient = self.tmp_output * (1.0 - self.tmp_output)
        self.tmp_gradient = gradient * activation_gradient
        output = self.tmp_gradient * self.weights
        return output
        ### END SOLUTION
        
    def learn(self, learningRate):
        ### BEGIN SOLUTION
        weight_update = self.tmp_input * self.tmp_gradient
        bias_update = self.tmp_gradient
        
        # SGD
        self.weights += learningRate * weight_update
        self.bias += learningRate * bias_update
        ### END SOLUTION


### Forward pass

Każdy neuron wylicza swoją aktywację (wartość na wyjściu) w następujący sposób.

$$ y_{out}=f_{act}(\overline{w} \cdot \overline{x_{in}}+b)$$

gdzie $\cdot$ to iloczyn skalarny, $\overline{w}$ to wektor wag neuronu, $\overline{x_{in}}$ to wektor danych wejściowych, $b$ to bias, a $f_{act}$ to pewna nieliniowa funkcja aktywacyjna. Można wybrać wiele różnych takich funkcji, w tym zestawie użyjemy funkcji sigmoidalnej
$$f_{act}(x)=sigm(x)=\frac{1}{1+e^{-x}}$$

Należy zwrócić uwagę, żeby wartość zwracana przez funkcję $forward$ była liczbą. Ponadto należy skopiować wektor wejściowy do tmp_input, oraz zapamiętać wynik w tmp_output. Będzie to potrzebne w następnych zadaniach.

### Forward pass

Each neuron calculates its activation (output value) as follows.

$$ y_{out}=f_{act}(\overline{w} \cdot \overline{x_{in}}+b)$$

where $\cdot$ is a scalar product, $\overline{w}$ is a neuron weights vector, $\overline{x_{in}}$ is an input vector, $b$ is a bias, and $f_{act}$ is a nonlinear activation function. You can choose many different such functions, in this set we will use the sigmoidal function
$$f_{act}(x)=sigm(x)=\frac{1}{1+e^{-x}}$$

Note that the value returned by $forward$ should be a number. In addition, copy the input vector to tmp_input, and save the result in tmp_output. You will need it in the next tasks.

In [None]:
n = Neuron(4)
n.weights = np.array((0.1, -0.2, 0.3, -0.1))
n.bias = 1.0

inp = np.array((1, 2, 3, -4))
out = n.forward(inp)

np.testing.assert_almost_equal(out, 1.0 / (1.0 + np.exp(-2)))
np.testing.assert_equal(type(out), np.float64)
np.testing.assert_equal(n.tmp_input, inp)
np.testing.assert_equal(n.tmp_output, out)

## Backward pass

W tej części [propagujemy gradient wstecz](https://en.wikipedia.org/wiki/Backpropagation) według następującego wzoru

$$ \overline{g}_{out}=g_{in} f_{act}' \overline{w}$$

Gdzie $g_{in}$ to gradient który dociera do wyjścia neuronu (argument funkcji $backward$), $\overline{w}$ to wektor wag neuronu, a $f_{act}'$ to pochodna funkcji aktywacyjnej. Funkcja sigmoidalna ma przydatną własność $sigm(x)'=sigm(x)*(1-sigm(x))$, w której należy wykorzystać zapamiętaną wartość $y_{out}$.

Przy okazji propagacji wstecz można wyliczyć gadienty ze względu na wagi oraz bias.
$$ \Delta \overline{w}=g_{in} f_{act}' \overline{x}_{in}$$
$$ \Delta b=g_{in} f_{act}' $$
Przydaje się tutaj zapamiętana wartość tmp_input.

## Backward pass

In this part [we propagate a gradient back] (https://en.wikipedia.org/wiki/Backpropagation) according to the following formula

$$ \overline{g}_{out}=g_{in} f_{act}' \overline{w}$$

Where $g_{in}$ is the gradient that reaches the neuron output (argument of the $backward$ function), $\overline{w}$ is the neuron weight vector, and $f_{act}'$ is the derivative of the activation function. The sigmoid function has the useful property of $sigm(x)'=sigm(x)*(1-sigm(x))$, in which the stored value of $y_{out}$ should be used.

During back propagation, you can calculate gradients by weight and bias.
$$ \Delta \overline{w}=g_{in} f_{act}' \overline{x}_{in}$$
$$ \Delta b=g_{in} f_{act}' $$
The stored tmp_input value is useful here.

In [None]:
n = Neuron(4)
n.weights = np.array((0.1, -0.2, 0.3, -0.1))
n.bias = 1.0

inp = np.array((1, 2, 3, -4))
out = n.forward(inp)
back = n.backward(0.4)
v = 0.4 * out * (1 - out) * n.weights
np.testing.assert_almost_equal(back, v)
np.testing.assert_equal(type(back), np.ndarray)

## Update

Mając gradienty ze względu na wagi i bias $ \Delta \overline{w}$, $ \Delta b$ można wyliczyć ich nowe wartości, które nieco zmniejszą błąd.

$$\overline{w}_{i+1}=\overline{w}_{i}+\alpha  \Delta \overline{w}$$
$$b_{i+1}=b_{i}+\alpha  \Delta b$$

Powyższe wzory odpowiadają metodzie SGD z poprzedniego zestawu.

## Update

Given the $ \Delta \overline{w}$ weight and bias gradients, $ \Delta b$ can calculate their new values ​​that will slightly reduce the error.

$$\overline{w}_{i+1}=\overline{w}_{i}+\alpha  \Delta \overline{w}$$
$$b_{i+1}=b_{i}+\alpha  \Delta b$$

The above formulas correspond to the SGD method from the previous notebooks.

In [None]:
n = Neuron(1)

for i in range(20000):
    inp = np.array((2 * np.random.randint(0, 2) - 1))   
    out = n.forward(inp)
    back = n.backward(1.0/(1.0 + np.exp(1 - 2 * inp)) - out)
    n.learn(0.1)

np.testing.assert_equal(int(round(100 * n.weights[0])), 200)
np.testing.assert_equal(int(round(100 * n.bias)), -100)