# Zadania

In [4]:
# Two-class MNIST 

from keras.datasets import mnist
import numpy as np

d1 = 5
d2 = 6

(mnist_x_train, mnist_y_train), (mnist_x_test, mnist_y_test) = mnist.load_data()

X_train = (mnist_x_train.astype('float32') / 255.).reshape((len(mnist_x_train), np.prod(mnist_x_train.shape[1:])))
y_train = mnist_y_train
X_test = (mnist_x_test.astype('float32') / 255.).reshape((len(mnist_x_test), np.prod(mnist_x_test.shape[1:])))
y_test = mnist_y_test

X_train = X_train[np.logical_or(y_train == d1, y_train == d2)]
y_train = y_train[np.logical_or(y_train == d1, y_train == d2)]
y_train[y_train==d1] = 0
y_train[y_train==d2] = 1
X_test = X_test[np.logical_or(y_test == d1, y_test == d2)]
y_test = y_test[np.logical_or(y_test == d1, y_test == d2)]
y_test[y_test==d1] = 0
y_test[y_test==d2] = 1

print X_train.shape
print X_test.shape

(11339L, 784L)
(1850L, 784L)


## Ćwiczenie 1 [5 pkt]

Uzupełnij metody forward_pass oraz backward_pass w klasach ReLU, Sigmoid i Dense. Metoda forward_pass ma przyjmować batch inputów i zwracać batch outputów. Metoda backward_pass ma przyjmować batch inputów oraz batch pochodnych cząstkowych outputów i zwracać batch pochodnych cząstkowych inputów oraz wektor (**nie batch**) pochodnych cząstkowych wag. Jeśli wagi przechowujemy w macierzy dwuwymiarowej, to możemy najpierw policzyć pochodne cząstkowe w macierzy o takim samym kształcie, a następnie np. użyć .flat.

## Ćwiczenie 2 [4 pkt]

Uzupełnij metodę _forward_pass klasy Network. Metoda ta ma przyjmować batch inputów (X) i zwracać dwie rzeczy:
* inps - lista batchów inputów dla każdej warstwy w sieci (włącznie z X); te wartości będziemy używali w metodzie _backward_pass
* output - batch outputów z sieci (czyli $\mathbf{\hat y}$); output **nie** powinien być ostatnim elementem inps.

## Ćwiczenie 3 [5 pkt]

Uzupełnij metodę _backward_pass klasy Network. Zwróć uwagę, że pochodna funkcji kosztu po neuronach ostatniej warstwy jest już liczona w metodzie _fit_on_batch. Metoda ma zwracać listę layer_grads, której elementy to wektory pochodnych cząstkowych funkcji kosztu po kolejnych warstwach (zwrócone przez metodę Layer.backward_pass). Kolejność wektorów w tej liście ma być zgodna z kolejnością warstw w sieci.

## Ćwiczenie 4 [3 pkt]
Naucz sieć neuronową z jedną warstwą ukrytą i aktywacją Sigmoid na powyższych danych (dwuklasowy MNIST). Użyj MSE jako funkcji kosztu (oznacza to regresję do numeru klasy, co jest złym pomysłem, ale póki nie mamy klasy Crossentropy musi nam to wystarczyć). Użyj GD. Reportuj loss oraz accuracy.

## Ćwiczenie 5 [3 pkt]
Uzupełnić klasę Crossentropy, wzorując się na klasie MSE.

## Ćwiczenie  6 [3 pkt]
Uzupełnić klasę Momentum, wzorując się na klasie GD. Wzory można znaleźć tutaj: http://distill.pub/2017/momentum/

## Ćwiczenie 7 [3 pkt]
Naucz sieć neuronową z jedną warstwą ukrytą. Rozważ dwa przypadki: aktywację ReLU oraz Sigmoid. Czy jest sens używać ReLU jako ostatnią warstwę? Użyj Crossentropy jako funkcji kosztu. Użyj Momentum. Reportuj loss oraz accuracy.

## Ćwiczenie 8 [6 pkt]
Vanishing gradient.

Zadanie polega na zbadaniu zjawiska *vanishing gradient* w głębokich sieciach. Należy zmodyfikować kod warstwy Dense i dodać monitorowanie **normy euklidesowej** wektora delta_weights. Każdą warstwę Dense w trenowanej sieci należy monitorować oddzielnie. Po każdym wywołaniu metody fit_on_batch każdy z monitorów powinien zapamiętać nową normę. Po nauczeniu sieci dla każdej warstwy należy narysować wykres: poziomo - numer wywołania fit_on_batch, pionowo - norma delta_weights. Im niżej znajduje się warstwa Dense, tym silniej będzie zachodziło zjawisko *vanishing gradient*.

Naucz dwuwarstwową sieć z aktywacjami Sigmoid, reportując normy delta_weights. Powtórz to dla głębszej sieci (np. 6-10 warstw).

## Ćwiczenie 9 [4 pkt]
Przetestować kod z ćwiczenia 7. (dwuwarstwowa sieć) stosując inne inicjalizacje wag w warstwach Dense. Napisać własną inicjalizację wag, która sprawi, że sieć niczego się nie nauczy (init='stupid').


In [5]:
# Warstwy
import math
import numpy as np
class Layer():

    def forward_pass(self, input):
        # return output
        raise NotImplementedError()

    def backward_pass(self, input, output_grad):
        # return input_grad, weight_grad
        raise NotImplementedError()

    def update_weights(self, delta_weights):
        pass

    def debug_grad(self, evaluate_loss):
        return None

class ReLU(Layer):

    def forward_pass(self, input):
        return np.array([ [ max(0,x) for x in y] for y in input])
        
    def backward_pass(self, input, output_grad):
        return  np.array([ np.multiply( output_grad[i],  [ 1 if x>=0 else 0 for x in input[i]]   ) for i in xrange(len(input))])    
        

class Sigmoid(Layer):

    def forward_pass(self, input):
        return np.array([ [ 1.0/(1.0+math.exp(-x)) for x in y] for y in input])
        pass

    def backward_pass(self, input, output_grad):
        return  np.array([ np.multiply( output_grad[i],  [ 1.0/(1.0+math.exp(-x)) * (1.0 - 1.0/(1.0+math.exp(-x)) )    for x in input[i]]   ) for i in xrange(len(input))])    
        

class Dense(Layer):

    def __init__(self, input_size, output_size, init = 'gaussian'):
        input_size += 1
        if init == 'zeros':
            self.weights = np.zeros((input_size, output_size))
        elif init == 'gaussian':
            np.random.seed(1)
            self.weights = np.random.normal(
                0.,
                2. / (input_size + output_size),
                (input_size, output_size)
            )
        elif init == 'aaa':
            # Ćwiczenie 8
            raise NotImplementedError()            
        else:
            raise NotImplementedError()
        #self.weights = np.asmatrix(self.weights)

    def forward_pass(self, input):
        return  np.array([ np.dot(input[i], self.weights)   for i in xrange(len(input))])    
        
    
    def backward_pass(self, input, output_grad):
        N = len(input)
        n = len(input[0])
        m = len(output_grad[0])
        input_grad = np.array([ [  np.dot(output_grad[a], self.weights[b])   for b in xrange(n)]   for a in xrange(N)])    
        weight_grad=  np.array( [ [  np.dot(output_grad[:,b], input[:,a])  for b in xrange(m)]  for a in xrange(n) ] )  
        return input_grad[:,1:], weight_grad#.flat

    def backward_pass_2(self, input, output_grad):
        input_grad = np.dot(output_grad, self.weights.T)
        weight_grad= np.dot(input.T, output_grad)
    
        return input_grad[:,1:], weight_grad#.flat
        
    def update_weights(self, delta_weights):
        # Ćwiczenie 7 - monitorowanie normy wektora delta_weights
        self.weights += delta_weights.reshape(self.weights.shape)

    def debug_grad(self, evaluate_loss):
        base = evaluate_loss()
        grad = []
        for (x, y), w in np.ndenumerate(self.weights):
            self.weights[x, y] = w + 0.0001
            changed = evaluate_loss()
            grad.append(10000. * (changed - base))
            self.weights[x, y] = w
        return grad

In [6]:
assert np.allclose(ReLU().forward_pass(np.array([ [-1,-2], [1,0], [2,2] ])), np.array([[0, 0], [1, 0], [2, 2]]))
assert np.allclose(Sigmoid().forward_pass(np.array([ [0,0,0], [1,1,1], [2,2,2] ])), np.array([[ 0.5       ,  0.5       ,  0.5       ],[ 0.73105858,  0.73105858,  0.73105858],[ 0.88079708,  0.88079708,  0.88079708]]))
assert np.allclose(ReLU().backward_pass(np.array([ [-5,-3], [1.2,2], [-2,2.5] ]), np.array([ [1,-2], [1.1,0], [-2,2.7] ])), np.array([[ 0. , -0. ],[ 1.1,  0. ],[-0. ,  2.7]]) )
assert np.allclose(Sigmoid().backward_pass(np.array([ [0,0,0], [1,1,1], [2,2,2] ]), np.array([ [0,0,0], [1,1,1], [2,2,2] ])), np.array([[ 0.        ,  0.        ,  0.        ],[ 0.19661193,  0.19661193,  0.19661193], [ 0.20998717,  0.20998717,  0.20998717]]))
#print Dense(input_size=3,output_size=2).forward_pass( np.array( [  [0,0,0,0],[1,1,1,0],[2,2,2,0]  ] ) )
tmp1, tmp2= Dense(input_size=3,output_size=2).backward_pass( np.array( [  [0,0,0,0],[1,1,1,0],[2,2,2,0]  ] ), np.array( [  [0,0],[1,1],[2,2]  ] ) )
print tmp1, tmp2
print "---"
tmp1, tmp2= Dense(input_size=3,output_size=2).backward_pass_2( np.array( [  [0,0,0,0],[1,1,1,0],[2,2,2,0]  ] ), np.array( [  [0,0],[1,1],[2,2]  ] ) )
print tmp1, tmp2

[[ 0.          0.          0.        ]
 [-0.53371346 -0.47871036  0.32786829]
 [-1.06742692 -0.95742071  0.65573658]] [[5 5]
 [5 5]
 [5 5]
 [0 0]]
---
[[ 0.          0.          0.        ]
 [-0.53371346 -0.47871036  0.32786829]
 [-1.06742692 -0.95742071  0.65573658]] [[5 5]
 [5 5]
 [5 5]
 [0 0]]


In [7]:
# Optimizers

class Optimizer():

    def calculate_deltas(self, grad):
        raise NotImplementedError()

class GD(Optimizer):

    def __init__(self, learning_rate):
        self.learning_rate = learning_rate

    def calculate_deltas(self, grad):
        return -self.learning_rate * grad

class Momentum(Optimizer):

    def __init__(self, alpha, beta):
        # Ćwiczenie 6
        pass
        
    def calculate_deltas(self, grad):
        # Ćwiczenie 6
        pass
        

In [8]:
# Funkcje kosztu

class Loss():

    def forward_pass(self, y, t):
        # return cost
        raise NotImplementedError()

    def backward_pass(self, y, t):
        # return y_grad
        raise NotImplementedError()

class MSE(Loss):

    def forward_pass(self, y, t):
        return np.average(0.5 * np.square(y - t))

    def backward_pass(self, y, t):
        return (y - t) / y.size

class Crossentropy(Loss):

    def forward_pass(self, y, t):
        # Ćwiczenie 5
        pass
        
    def backward_pass(self, y, t):
        # Ćwiczenie 5
        pass


In [9]:
class Network():

    def __init__(self, loss, optimizer, metrics = []):
        self.layers = []
        self.loss = loss
        self.optimizer = optimizer
        self.metrics = metrics

    def add(self, layer):
        self.layers.append(layer)

    def fit(self, X, t, epochs, batch_size=256, print_stats=False):
        X = np.array(X)
        t = np.array(t)
        X = X.reshape(len(X), -1)
        t = t.reshape(len(t), -1)
        if X.shape[0] != t.shape[0]:
            raise ValueError("Array sizes don't match")

        for epoch in range(epochs):
            if print_stats:
                print("Epoch %d" % (epoch+1))
                print("    -> batch size: %d" % batch_size)
            rng_state = np.random.get_state()
            np.random.shuffle(X)
            np.random.set_state(rng_state)
            np.random.shuffle(t)
            pos = 0
            while pos < len(X):
                batch_X = X[pos:pos+batch_size]
                batch_t = t[pos:pos+batch_size]
                self._fit_on_batch(batch_X, batch_t)
                pos += batch_size
            if print_stats:
                _, y = self._forward_pass(X)
                l = self.loss.forward_pass(y, t)
                print("    -> loss: %f" % l)
                for m in self.metrics:
                    print("    -> %s: %f" % (m.__name__, m(y, t)))

    def predict(self, X):
        inps, out = self._forward_pass(X)
        return out

    def _fit_on_batch(self, batch_X, batch_t):
        inps, out = self._forward_pass(batch_X)
        layer_grads = self._backward_pass(
            inps,
            self.loss.backward_pass(out, batch_t)
        )
        grad = self._join(layer_grads)
        deltas = self.optimizer.calculate_deltas(grad)
        for l, d in zip(self.layers, self._split(deltas, layer_grads)):
            if not d is None:
                l.update_weights(d)

    def _join(self, grads):
        return np.concatenate([g for g in grads if not g is None])

    def _split(self, grads, layer_grads):
        out = []
        start = 0
        for l in layer_grads:
            if l is None:
                out.append(None)
            else:
                out.append(grads[start:start+len(l)])
                start += len(l)
        return out

    def _forward_pass(self, X):
        inps = []
        output = None

        # Ćwiczenie 2
        inps.append(X)
        for layer in self.layers:
            inps.append(layer.forward_pass(inps[-1]))
            
        output = inps[-1]
        inps.pop()
        return inps, output

    def _backward_pass(self, inps, grad):
        n = len(self.layers)
        layer_grads = [0 for i in xrange(n)]
        
        layer_grads[n-1] = grad
        # Ćwiczenie 3
        for i in xrange(n-1, 1,-1):
            input_grad, weights_grad = self.layers[i-1].backward_pass(insp[i-1], layer_grads[i]  ) 
            layer_grads[i-1] =  input_grad
        return layer_grads

    def _debug_grads(self, X, t):
        layer_grads = []
        for l in self.layers:
            g = l.debug_grad(
                lambda: self.loss.forward_pass(self._forward_pass(X)[1], t)
            )
            if not g is None:
                g = np.array(np.array(g).flat)
            layer_grads.append(g)
        return layer_grads

In [14]:
# Ćwiczenie 4
network = Network(loss=MSE(), optimizer=GD(learning_rate=0.01))
network.add(Dense(2,1))
network.add(Sigmoid())
network.fit(X,t, epochs= 15)


In [11]:
# Ćwiczenie 7

In [12]:
# Ćwiczenie 8

In [None]:
# Ćwiczenie 9