# Umělé neuronové sítě typu MLP

Pro získání bonusového bodu je potřeba dosáhnout s ReLU aktivační funkci úspěšnosti > 90%. Pro tento účel je nutné odladit hodnotu parametru $\alpha$


## Data

In [2]:
import numpy as np
npzfile = np.load('data/data_10.npz')
npzfile.files


['x', 'xTest', 'y', 'yTest', 'w1', 'w2']

In [3]:
x = npzfile['x']
xTest = npzfile['xTest']

y = npzfile['y']
yTest = npzfile['yTest']

x.shape, y.shape

w1test = npzfile['w1']
w2test = npzfile['w2']

### Funkce sigmoid

$$ sigmoid(u) = \sigma (u) = \frac{e^u}{1+e^u} = \frac{1}{1+e^{-u}} $$


In [4]:
def sigmoid(u):
    #################################################################
    # ZDE DOPLNIT

    sig = np.exp(u)/(1+np.exp(u))

    return sig

    #################################################################

In [5]:
#Kontrola:
u = np.array([[1,2],[-3,-4]])
sigmoid(u)

array([[0.73105858, 0.88079708],
       [0.04742587, 0.01798621]])

#### Derivace funkce sigmoid:
$$ \sigma' (u) = \sigma (u) (1 - \sigma(u)) $$

In [6]:
def sigmoid_grad(u):

    #################################################################
    # ZDE DOPLNIT

    grad = sigmoid(u)*(1-sigmoid(u))

    return grad

    #################################################################

In [7]:
#Kontrola:
sigmoid_grad(u)

array([[0.19661193, 0.10499359],
       [0.04517666, 0.01766271]])

### ReLU

$$ f(u) = max(0, u) $$



In [8]:
def relu(u):
    #################################################################
    # ZDE DOPLNIT

    relu = np.maximum(0,u)

    return relu
    #################################################################


In [9]:
#Kontrola:
relu(u)

array([[1, 2],
       [0, 0]])

#### Derivace funkce ReLU:
$$ f'(x) = \boldsymbol{1} (x \ge 0)$$

Derivace přímo v bodě nula je dodefinována na hodnotu nula.

Gradient se přes tento blok přenáší:
1) Nezměněný, pokud je hodnota na vstupu z dopředného průchodu větší než nula.
2) Přenesená hodnota je nula, pokud je hodnota na vstupu z dopředného průchodu menší nebo rovna nule.

In [10]:
def relu_grad(u):
    #################################################################
    # ZDE DOPLNIT
    grad = (u > 0)
    return grad
    #################################################################


In [11]:
#Kontrola:
relu_grad(u)

array([[ True,  True],
       [False, False]])

### One Hot Encoding
$ \pi $ nabývá hodnoty 1 pouze pro jednu třídu. Např. máme celkem 3 třídy (0, 1, 2): $\pi_0 = [0,1,0]$  pro $y_0 = 1$


$$
    classes = 
        \begin{bmatrix}
        1 \\
        0 \\
        2\\
        1 \\
        \end{bmatrix} 
    \implies
        \pi = 
        \begin{bmatrix}
        0 & 1 & 0 \\
        1 & 0 & 0 \\
        0 & 0 & 1 \\
        0 & 1 & 0 \\
        \end{bmatrix} 
$$

In [12]:
def one_hot_encoding(data):
    #################################################################
    # ZDE DOPLNIT
    data = np.array(data)
    one_hot = np.zeros((data.size, data.max()+1))
    for i in range(data.size):
        one_hot[i,data[i]] = 1

    return one_hot
    #################################################################

In [13]:
#Kontrola:
encoded = one_hot_encoding(y)
encoded[[0,900,1800,2700,3500,4200],:]

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]])

### Softmax

- Funkce softmax má c vstupů a c výstupů. 
- Všechny výstupy jsou kladná čísla. 
- Součet všech výstupů dohromady je roven číslu 1.
$$\widehat{y_c} = softmax(u) = \frac{e^{u_c}}{\sum_{d=0}^{c} {e^{u_d}}} $$


In [14]:
def softmax(u):
    """
    softmax !radkove!
    """
    #################################################################
    # ZDE DOPLNI
    e = np.exp(u)
    y = e / np.array(np.sum(e,axis=1), ndmin=2).T
    return y
    #################################################################


In [15]:
#Kontrola:
softmax(u)

array([[0.26894142, 0.73105858],
       [0.73105858, 0.26894142]])

In [16]:
def theta_grad(grad_on_output, input_data):
    #################################################################
    # ZDE DOPLNIT
    weight_grad = np.dot(input_data.T, grad_on_output).T
    bias_grad = np.sum(grad_on_output, axis=0)


    #################################################################
    return weight_grad, bias_grad

In [17]:
#test vypoctu gradientu pro matici vah a biasy

#dva vstupni vektory, kazdy ma 4 hodnoty, cili jde o vrstvu, kde kazdy neuron ma 4 vstupy
input_test = np.array([[7,8,4,1],[9,10,4,2]])
print(input_test.shape)

#dva gradienty na vystupu, kazdy ma 3 hodnoty, cili jde o vrstvu, ktera ma 3 neurony [a kazdy ma 4 vstupy])
grad_on_output_test = np.array([[1,2,3],[4,2,6]])
print(grad_on_output_test.shape)

w_grad_test,u_grad_test = theta_grad(grad_on_output_test,input_test)

#gradienu vektoru vah ma tedy rozmery 3*4
print(w_grad_test.shape)
print(w_grad_test)

#gradient biasu ma 3 hodnoty
print(u_grad_test.shape)
print(u_grad_test)

(2, 4)
(2, 3)
(3, 4)
[[43 48 20  9]
 [32 36 16  6]
 [75 84 36 15]]
(3,)
[5 4 9]


## Sítě typu vícevrstvý perceptron = Multi-Layer Perceptron (MLP)



### Předzpracování dat
Pro trénování neuronových sítí je vhodné provádět standardizaci dat na nulovou střední hodnotu a jednotkový rozptyl.

### Inicializace parametrů (váhových koeficientů)
- Váhy neuronů nesmí být nastaveny na stejné hodnoty (např. 0), aby neměly stejnou hodnotu výstupu a stejný gradient
=>
- Je třeba porušit symetrii:
    - Váhy se inicializují jako malá náhodná čísla (polovina kladná, polovina záporná)
    - V praxi se pro ReLU používá hodnota $randn(n) * sqrt(2.0/n)$, kde n je počet vstupů neuronu
    - Započítání počtu vstupů pak zajišťuje, že neurony s různým počtem vstupů mají výstup se stejným rozptylem hodnot
    - Biasy se inicializují na hodnotu 0 nebo 0.01 (symetrie je již porušena inicializací váhových koeficientů)

### Dopředný průchod
Kroky:
1. $u_1 = \theta_1^T x_1$ (vstupní vrstva)
2. $a_1 = ReLU(u_1)$ (aktivační funkce)
3. $u_2 = \theta_2^T a_1$ (skrytá vrstva)
4. $\tilde{y} = softmax(u_2)$ (výstupní vrstva)

Na výstupu vznikne podle zvoleného kritéria chyba či odchylka

### Zpětný průchod

(hodnoty z dopředného průhodu $a_1$ a $u_2$ je vhodné si během dopředného průchodu uložit)

1. $du_2 = softmax(x)-\pi(y)$

2. $dW_2 = du_2^T a_1$  a  $db_2 = du_2 $

3. $da_1 = W_2^T du_2$

4. $du_1 = relu'(da_1) = relu'(W_2^T du_2)$

5. $dW_1 = du_1^T x$  a  $db = du_1 $



In [18]:
#################################################################
# ZDE DOPLNIT
class TwoLayerPerceptron:
    def __init__ (self, input_data, classes, 
                  test_data, test_classes,
                  input_layer_size, hidden_layer_size, output_size,
                  activation_function, activation_function_derivation, alpha=0.00015, lmbd=0):
    
        self.input_data = input_data
        self.classes = classes
        
        self.test_data = test_data
        self.test_classes = test_classes
        
        self.w1 = np.random.rand(hidden_layer_size, input_layer_size + 1) * np.sqrt(2. / input_layer_size)
        self.w2 = np.random.rand(output_size, hidden_layer_size + 1) * np.sqrt(2. / hidden_layer_size)
        
        self.activation_function = activation_function
        self.activation_function_derivation = activation_function_derivation
        
        self.alpha = alpha
        self.lmbd = lmbd
        
    def forward(self, mode='training'):
        if mode == 'training':
            x = self.input_data
        else:
            x = self.test_data

        #1. vrstva
        #x1 = ... #nezapomente na bias(prvni sloupec) #4500x401
        #u1 = ...

        x1 = np.hstack((np.ones((x.shape[0],1)),x))
        #print("x1 ", x1.shape)
        #print(x1[:,0:4])
        u1 = np.dot(x1,self.w1.T)
        #print("u1 ", u1.shape)
        #print(u1[:,0:4])

        #aktivacni funkce pomocí funkce self.activation_function
        #a1 = ... #4500x25
        a1 = self.activation_function(u1)
        #print("a1 ", a1.shape)
        #print(a1[0])

        #2. vrstva (skryta vrstva)
        #x2 = ... #4500x26
        #u2 = ...

        x2 = np.hstack((np.ones((a1.shape[0],1)),a1))
        #print("x2 ", x2.shape)
        u2 = np.dot(x2,self.w2.T)


        #vystup po softmaxu
        #scores = ... #4500x10 scores pro kazdou tridu
        scores = softmax(u2)
        
        #cache
        self.scores = scores
        self.a1 = a1
        
        return scores

    def backward(self):

        #pomocí self.scores, self.classes a one_hot_encoding 
        du2 = self.scores - one_hot_encoding(self.classes)
        #print("du2", du2[3,0:4])

        #pomocí funkce theta_grad
        #dw2, db2 = ...
        dw2, db2 = theta_grad(du2,self.a1)

        #da1 = ...
        da1 = np.dot(du2,self.w2)
        da1 = da1[:,1:]
        
        #pomocí funkce self.activation_function_derivation
        #POZOR: tato funce se musí aplikovat na vstupní hodnotu z dopředného průchodu !!
        #print("da1", da1[1,0:4])
        du1 = self.activation_function_derivation(self.a1) * da1

        #print("du1", du1[1,0:4])

        #pomocí funkce theta_grad
        dw1, db1 = theta_grad(du1,self.input_data)

        #print("db1[0:4]", db1[0:4])

        m = self.input_data.shape[0]

        dw1_reg = (self.lmbd / m) * dw1
        dw2_reg = (self.lmbd / m) * dw2

        dw1 = dw1 + dw1_reg
        dw2 = dw2 + dw2_reg

        #print("dw1", dw1[3,0:4])

        #POZOR: dw2 není gradient celé matice w2 ale pouze její části
        #gradient celé matice w2 pro update vah vznikne vhodným spojením dw2 a db2

        db2 = db2.reshape(-1, 1)
        w2 = np.hstack((db2, dw2))
        
        #obdobně dw1 není gradient celé matice w1 !!
        w1 = np.hstack((db1.reshape(-1, 1), dw1))

        self.w1 -= self.alpha * w1
        self.w2 -= self.alpha * w2

        # self.w1 = w1
        # self.w2 = w2

        return self.w1, self.w2
    
    def accuracy(self):
        scores = self.forward('test')
        predicted_classes = np.argmax(scores,axis=1)
        return (predicted_classes==self.test_classes.T).mean() * 100
    
    def setWeigtsForTest(self,w1,w2):
        self.w1 = w1
        self.w2 = w2
            
#################################################################


In [19]:
input_layer_size = 400
hidden_layer_size = 25
output_size = len(np.unique(y))


In [20]:
#Instance pro odladění:

testTlp = TwoLayerPerceptron(x, y, xTest, yTest, 
                         input_layer_size, hidden_layer_size, output_size, 
                         sigmoid, sigmoid_grad, 
                         alpha = 0.00005, lmbd=0)
testTlp.setWeigtsForTest(w1test,w2test)

scores = testTlp.forward()
print(testTlp.a1[0]) 
print(scores[3]) 
w1, w2 = testTlp.backward()
print("w1[1,3:10]")
print(w1[1,3:10])
print("w2[2,:]")
print(w2[2,:])

[9.88910953e-01 1.18307825e-04 9.44813682e-01 9.87532276e-01
 9.61459910e-01 1.31154023e-02 9.79568046e-01 7.05262715e-01
 5.76467884e-03 9.19662205e-01 9.97263993e-01 9.08968353e-01
 3.54340337e-03 1.54639813e-01 3.48157918e-03 9.64035515e-01
 6.28337854e-04 7.80228020e-03 1.46816393e-01 9.29857033e-01
 9.88740224e-01 4.21889681e-02 9.95978182e-01 1.23596237e-02
 3.08083417e-02]
[1.70049726e-05 1.30427018e-04 6.67761717e-07 2.30092641e-02
 5.11252228e-03 3.23657653e-04 2.31894141e-04 5.87981895e-04
 9.70496699e-01 8.98808528e-05]
w1[1,3:10]
[ 1.04748295e-06 -6.14212351e-06 -3.10738969e-05 -5.12334111e-04
 -1.01522623e-03 -1.00762293e-03  1.39424437e-04]
w2[2,:]
[-0.68914772 -1.94520592  2.01354627 -3.12305302 -0.23607182  1.38710368
  0.90998378 -1.54772406 -0.79831546 -0.65586508  0.73546763 -2.58591928
  0.47228113  0.55369292  2.51279944 -2.41670639 -1.63893467  1.20278107
 -1.20262867 -1.83449526 -1.88014107 -0.34043256  0.23704342 -1.0611528
  1.02771983 -0.47677771]


In [21]:
tlp = TwoLayerPerceptron(x, y, xTest, yTest, 
                         input_layer_size, hidden_layer_size, output_size, 
                         sigmoid, sigmoid_grad, 
                         alpha = 0.0003, lmbd=0.002)

nIter = 150
#################################################################

for i in range(nIter):
            
    scores = tlp.forward()
    w1, w2 = tlp.backward()
    
pred = tlp.accuracy()
#################################################################
print(f"sigmoid testovaci mnozina : {pred}") 



sigmoid testovaci mnozina : 86.8


In [48]:
np.random.seed(42) # nutnost nastavit seed, jinak to skace i treba o 10 procent
tlp = TwoLayerPerceptron(x, y, xTest, yTest,
                         input_layer_size, hidden_layer_size, output_size,
                         relu, relu_grad, 0.00011, 0)

nIter = 150
#################################################################

for i in range(nIter):
            
    scores = tlp.forward()
    w1, w2 = tlp.backward()
    
pred = tlp.accuracy()
#################################################################
print(f"relu testovaci mnozina : {pred}")

relu testovaci mnozina : 90.2
