# Umělé neuronové sítě typu MLP

Pro získání bonusového bodu je potřeba dosáhnout s ReLU aktivační funkci úspěšnosti > 90%. Pro tento účel je nutné odladit hodnotu parametru $\alpha$


## Data

In [62]:
import numpy as np
npzfile = np.load('data/data_10.npz')
npzfile.files


['x', 'xTest', 'y', 'yTest', 'w1', 'w2']

In [47]:
x = npzfile['x']
xTest = npzfile['xTest']

y = npzfile['y']
yTest = npzfile['yTest']

x.shape, y.shape

w1test = npzfile['w1']
w2test = npzfile['w2']

### Funkce sigmoid

$$ sigmoid(u) = \sigma (u) = \frac{e^u}{1+e^u} = \frac{1}{1+e^{-u}} $$


In [48]:
def sigmoid(u):
    #################################################################
    # ZDE DOPLNIT
    
    sig = 1 / (1 + np.exp(-u))

    return sig

    #################################################################


In [49]:
#Kontrola:
u = np.array([[1,2],[-3,-4]])
sigmoid(u)

array([[0.73105858, 0.88079708],
       [0.04742587, 0.01798621]])

#### Derivace funkce sigmoid:
$$ \sigma' (u) = \sigma (u) (1 - \sigma(u)) $$

In [50]:
def sigmoid_grad(u):
    
    #################################################################
    # ZDE DOPLNIT
    
    grad = sigmoid(u) * (1 - sigmoid(u))
    
    return grad

    #################################################################


In [51]:
#Kontrola:
sigmoid_grad(u)

array([[0.19661193, 0.10499359],
       [0.04517666, 0.01766271]])

### ReLU

$$ f(u) = max(0, u) $$



In [52]:
def relu(u):
    #################################################################
    # ZDE DOPLNIT

    relu = np.maximum(0, u)
    
    return relu
    #################################################################


In [53]:
#Kontrola:
relu(u)

array([[1, 2],
       [0, 0]])

#### Derivace funkce ReLU:
$$ f'(x) = \boldsymbol{1} (x \ge 0)$$

Derivace přímo v bodě nula je dodefinována na hodnotu nula.

Gradient se přes tento blok přenáší:
1) Nezměněný, pokud je hodnota na vstupu z dopředného průchodu větší než nula.
2) Přenesená hodnota je nula, pokud je hodnota na vstupu z dopředného průchodu menší nebo rovna nule.

In [54]:
def relu_grad(u):
    #################################################################
    # ZDE DOPLNIT

    grad = u >= 0

    return np.array(grad, dtype=bool)
    #################################################################


In [55]:
#Kontrola:
relu_grad(u)

array([[ True,  True],
       [False, False]])

### One Hot Encoding
$ \pi $ nabývá hodnoty 1 pouze pro jednu třídu. Např. máme celkem 3 třídy (0, 1, 2): $\pi_0 = [0,1,0]$  pro $y_0 = 1$


$$
    classes = 
        \begin{bmatrix}
        1 \\
        0 \\
        2\\
        1 \\
        \end{bmatrix} 
    \implies
        \pi = 
        \begin{bmatrix}
        0 & 1 & 0 \\
        1 & 0 & 0 \\
        0 & 0 & 1 \\
        0 & 1 & 0 \\
        \end{bmatrix} 
$$

In [56]:
def one_hot_encoding(data):
    #################################################################
    # ZDE DOPLNIT

    n_classes = len(np.unique(data))

    one_hot = np.zeros((len(data), n_classes))
    one_hot[np.arange(len(data)), data.flatten()] = 1
    
    return one_hot
    #################################################################


In [57]:
#Kontrola:
encoded = one_hot_encoding(y)
encoded[[0,900,1800,2700,3500,4200],:]

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]])

### Softmax

- Funkce softmax má c vstupů a c výstupů. 
- Všechny výstupy jsou kladná čísla. 
- Součet všech výstupů dohromady je roven číslu 1.
$$\widehat{y_c} = softmax(u) = \frac{e^{u_c}}{\sum_{d=0}^{c} {e^{u_d}}} $$


In [58]:
def softmax(u):
    """
    softmax !radkove!
    """
    #################################################################
    # ZDE DOPLNIT

    y = np.exp(u) / np.sum(np.exp(u), axis=1)[:, np.newaxis]
    
    return y 
    #################################################################


In [None]:
#Kontrola:
softmax(u)

array([[0.26894142, 0.73105858],
       [0.73105858, 0.26894142]])

In [60]:
 def theta_grad(grad_on_output, input_data):
    #################################################################
    # ZDE DOPLNIT
    weight_grad = (input_data.T @ grad_on_output).T
    bias_grad = np.sum(grad_on_output, axis=0)
    #################################################################
    return weight_grad, bias_grad

In [61]:
#test vypoctu gradientu pro matici vah a biasy

#dva vstupni vektory, kazdy ma 4 hodnoty, cili jde o vrstvu, kde kazdy neuron ma 4 vstupy
input_test = np.array([[7,8,4,1],[9,10,4,2]])
print(input_test.shape)

#dva gradienty na vystupu, kazdy ma 3 hodnoty, cili jde o vrstvu, ktera ma 3 neurony [a kazdy ma 4 vstupy])
grad_on_output_test = np.array([[1,2,3],[4,2,6]])
print(grad_on_output_test.shape)

w_grad_test,u_grad_test = theta_grad(grad_on_output_test,input_test)

#gradienu vektoru vah ma tedy rozmery 3*4
print(w_grad_test.shape)
print(w_grad_test)

#gradient biasu ma 3 hodnoty
print(u_grad_test.shape)
print(u_grad_test)

(2, 4)
(2, 3)
(3, 4)
[[43 48 20  9]
 [32 36 16  6]
 [75 84 36 15]]
(3,)
[5 4 9]


## Sítě typu vícevrstvý perceptron = Multi-Layer Perceptron (MLP)



### Předzpracování dat
Pro trénování neuronových sítí je vhodné provádět standardizaci dat na nulovou střední hodnotu a jednotkový rozptyl.

### Inicializace parametrů (váhových koeficientů)
- Váhy neuronů nesmí být nastaveny na stejné hodnoty (např. 0), aby neměly stejnou hodnotu výstupu a stejný gradient
=>
- Je třeba porušit symetrii:
    - Váhy se inicializují jako malá náhodná čísla (polovina kladná, polovina záporná)
    - V praxi se pro ReLU používá hodnota $randn(n) * sqrt(2.0/n)$, kde n je počet vstupů neuronu
    - Započítání počtu vstupů pak zajišťuje, že neurony s různým počtem vstupů mají výstup se stejným rozptylem hodnot
    - Biasy se inicializují na hodnotu 0 nebo 0.01 (symetrie je již porušena inicializací váhových koeficientů)

### Dopředný průchod
Kroky:
1. $u_1 = \theta_1^T x_1$ (vstupní vrstva)
2. $a_1 = ReLU(u_1)$ (aktivační funkce)
3. $u_2 = \theta_2^T a_1$ (skrytá vrstva)
4. $\tilde{y} = softmax(u_2)$ (výstupní vrstva)

Na výstupu vznikne podle zvoleného kritéria chyba či odchylka

### Zpětný průchod

(hodnoty z dopředného průhodu $a_1$ a $u_2$ je vhodné si během dopředného průchodu uložit)

1. $du_2 = softmax(x)-\pi(y)$

2. $dW_2 = du_2^T a_1$  a  $db_2 = du_2 $

3. $da_1 = W_2^T du_2$

4. $du_1 = relu'(da_1) = relu'(W_2^T du_2)$

5. $dW_1 = du_1^T x$  a  $db = du_1 $



In [63]:
#################################################################
# ZDE DOPLNIT
class TwoLayerPerceptron:
    def __init__ (self, input_data, classes, 
                  test_data, test_classes,
                  input_layer_size, hidden_layer_size, output_size,
                  activation_function, activation_function_derivation, alpha=0.00015, lmbd=0):
    
        self.input_data = input_data
        self.classes = classes
        
        self.test_data = test_data
        self.test_classes = test_classes
        
        self.w1 = np.random.rand(hidden_layer_size, input_layer_size + 1) * np.sqrt(2. / input_layer_size)
        self.w2 = np.random.rand(output_size, hidden_layer_size + 1) * np.sqrt(2. / hidden_layer_size)
        
        self.activation_function = activation_function
        self.activation_function_derivation = activation_function_derivation
        
        self.alpha = alpha
        self.lmbd = lmbd
        
    def forward(self, mode='training'):
        if(mode=='training'):
            x = self.input_data
        else:
            x = self.test_data

        #1. vrstva
        x1 = np.hstack((np.ones((x.shape[0],1)),x))
        u1 = x1 @ self.w1.T

        #aktivacni funkce pomocí funkce self.activation_function
        a1 = self.activation_function(u1)

        #2. vrstva (skryta vrstva)
        x2 = np.hstack((np.ones((a1.shape[0],1)),a1))
        u2 = x2 @ self.w2.T

        #vystup po softmaxu
        scores = softmax(u2)
        
        #cache
        self.scores = scores
        self.a1 = a1
        
        return scores

    def backward(self):
                
        
        #pomocí self.scores, self.classes a one_hot_encoding 
        du2 = self.scores - one_hot_encoding(self.classes)
        
        #pomocí funkce theta_grad
        dw2, db2 = theta_grad(du2, self.a1)
        
        da1 = du2 @ self.w2[:,1:]
        
        #pomocí funkce self.activation_function_derivation
        #POZOR: tato funkce se musí aplikovat na vstupní hodnotu z dopředného průchodu !!
        du1 = da1 * self.activation_function_derivation(self.a1)
        
        #pomocí funkce theta_grad
        dw1, db1 = theta_grad(du1, self.input_data)
        
        #POZOR: dw2 není gradient celé matice w2 ale pouze její části
        #gradient celé matice w2 pro update vah vznikne vhodným spojením dw2 a db2

        w2 = self.w2 * (1 - self.alpha * self.lmbd) - self.alpha * np.c_[db2,dw2]
        
        #obdobně dw1 není gradient celé matice w1 !!
        w1 = self.w1 * (1 - self.alpha * self.lmbd) - self.alpha * np.c_[db1,dw1]
        
        self.w1 = w1
        self.w2 = w2
        
        return w1, w2 
    
    def accuracy(self):
        scores = self.forward('test')
        predicted_classes = np.argmax(scores,axis=1)
        return (predicted_classes==self.test_classes.T).mean() * 100
    
    def setWeigtsForTest(self,w1,w2):
        self.w1 = w1
        self.w2 = w2
            
#################################################################


In [64]:
input_layer_size = 400
hidden_layer_size = 25
output_size = len(np.unique(y))


In [65]:
#Instance pro odladění:

testTlp = TwoLayerPerceptron(x, y, xTest, yTest, 
                         input_layer_size, hidden_layer_size, output_size, 
                         sigmoid, sigmoid_grad, 
                         alpha = 0.0005, lmbd=0)
testTlp.setWeigtsForTest(w1test,w2test)

scores = testTlp.forward()
# print(testTlp.a1[0]) 
# print(scores[3]) 
w1, w2 = testTlp.backward()
print(w1[1,3:10])
print(w2[2,:])

[ 1.04783135e-06 -6.15187918e-06 -3.09972922e-05 -5.11502892e-04
 -1.01684694e-03 -1.00431299e-03  1.41514706e-04]
[-0.68741076 -1.94362559  2.01300712 -3.12207333 -0.23513146  1.38975155
  0.91141916 -1.54754314 -0.79837387 -0.65466578  0.73622662 -2.58579641
  0.47383578  0.55547437  2.51500361 -2.41635527 -1.63847029  1.20323884
 -1.20416007 -1.83481622 -1.88023829 -0.33927671  0.23811071 -1.05911533
  1.02886739 -0.47560228]


In [66]:
tlp = TwoLayerPerceptron(x, y, xTest, yTest, 
                         input_layer_size, hidden_layer_size, output_size, 
                         sigmoid, sigmoid_grad, 
                         alpha = 0.0005, lmbd=0.002)

nIter = 150
#################################################################

for i in range(nIter):
            
    scores = tlp.forward()
    w1, w2 = tlp.backward()
    
pred = tlp.accuracy()
#################################################################
print(f"sigmoid testovaci mnozina : {pred}") 



sigmoid testovaci mnozina : 78.0


In [100]:
r = np.arange(0.00009, 0.001, 0.000001)
graph = []

for _r in r:
    tlp = TwoLayerPerceptron(x, y, xTest, yTest, 
                         input_layer_size, hidden_layer_size, output_size, 
                         relu, relu_grad, 
                         alpha = _r, lmbd=0.002)

    nIter = 150
    #################################################################

    for i in range(nIter):

        scores = tlp.forward()
        w1, w2 = tlp.backward()
    
    pred = tlp.accuracy()
    graph.append((_r, pred))
    print(f"sigmoid testovaci mnozina : {pred} alpha : {_r}")

import matplotlib.pyplot as plt
plt.plot([x[0] for x in graph], [x[1] for x in graph])
plt.show()
# tlp = TwoLayerPerceptron(x, y, xTest, yTest, 
#                          input_layer_size, hidden_layer_size, output_size,
#                          relu, relu_grad, 0.00008, 0)

# nIter = 150
#################################################################

# for i in range(nIter):
            
#     scores = tlp.forward()
#     w1, w2 = tlp.backward()
    
# pred = tlp.accuracy()
#################################################################
# print(f"relu testovaci mnozina : {pred}")

sigmoid testovaci mnozina : 89.0 alpha : 9e-05
sigmoid testovaci mnozina : 88.6 alpha : 9.1e-05
sigmoid testovaci mnozina : 87.6 alpha : 9.2e-05
sigmoid testovaci mnozina : 88.6 alpha : 9.3e-05
sigmoid testovaci mnozina : 88.8 alpha : 9.4e-05
sigmoid testovaci mnozina : 88.0 alpha : 9.499999999999999e-05
sigmoid testovaci mnozina : 89.0 alpha : 9.599999999999999e-05
sigmoid testovaci mnozina : 89.2 alpha : 9.699999999999999e-05
sigmoid testovaci mnozina : 89.4 alpha : 9.799999999999998e-05
sigmoid testovaci mnozina : 88.0 alpha : 9.899999999999998e-05
sigmoid testovaci mnozina : 88.2 alpha : 9.999999999999998e-05
sigmoid testovaci mnozina : 88.6 alpha : 0.00010099999999999997
sigmoid testovaci mnozina : 87.8 alpha : 0.00010199999999999997
sigmoid testovaci mnozina : 70.6 alpha : 0.00010299999999999997
sigmoid testovaci mnozina : 89.0 alpha : 0.00010399999999999997
sigmoid testovaci mnozina : 76.0 alpha : 0.00010499999999999996
sigmoid testovaci mnozina : 88.8 alpha : 0.0001059999999999

KeyboardInterrupt: 