<a href="https://colab.research.google.com/github/Microvolts1/Learning_NN/blob/main/Fully_connected_NN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Phân tích chi tiết cho Fully connected Layer.

## Layer by layer
- Ta thiết kế luồng hoạt động như sau:


1.   Đầu tiên cho dữ liệu đầu vào NN.
2.   Dữ liệu tiếp tục đi qua các layer khác nhau cho tới layer output.
3.   Khi đã có output, ta có thể tính độ lỗi dùng làm độ đo.
4.   Cuối cùng là điều chỉnh các tham số(weight - trọng số hoặc bias) bằng cách đạo hàm qua từng lớp tham số.
5.   Lặp lại quá trình trên




## Mỗi layer gồm có:

- Mỗi layer bất kì đều có điểm chung là input data và output data.
<img src='https://miro.medium.com/max/1252/0*3cUc4jsQlHsoovn9.png'>



### Forward propagation - Lan truyền tiến.

- Nghĩa là output của layer trước sẽ là input của lớp sau đó.
<img src='https://miro.medium.com/max/1352/1*ddDKxWSAYci2dHaG3O_DOg.png'>

- Khi đó, tại layer cuối ta sẽ cho ra output, ta gọi là $\hat{Y}$, có giá trị sẽ lệch so với giá trị $Y$ thật. Lúc này ta sẽ tính toán độ lỗi $E$ thông qua hai giá trị trước đó, và mục đích tính toán độ lỗi nhằm để điều chỉnh các tham số nhằm giảm thiểu độ lỗi nhỏ nhất có thể. Và các điều chỉnh đó gọi là Backward propagation - Lan truyền ngược. 



### Gradient Descent.

- Liên quan tới việc sử dụng đạo hàm, cụ thể hơn là ta sẽ điều chỉnh tham số $w$ trong NN nhằm mục đích giảm thiểu độ lỗi $E$ và đạo hàm là một trong những phương pháp hay để giải quyết.

<img src='https://miro.medium.com/max/620/0*MZYPbIwBn5SOEpG7.png'   align="center">

- $\alpha$ là gọi là learning rate với miền giá trị trong khoảng $[0,1]$

### Backward Propagation - Lan truyền ngược.





- Giả sử ta đã có output $Y$, ta sẽ thực hiện đạo hàm trên độ lỗi $E$ với output $Y$ và thực hiện ngược lại cho tới lớp input $X$.
<img src='https://miro.medium.com/max/1400/0*bL0jVGoQiH_TsrvT.png'>

- Lưu ý rằng $E$ là một con số còn $X$ và $Y$ là ma trận.

<img src='https://miro.medium.com/max/1052/0*KYFYEbu_o9j1_a5w.png'>


- Và để tính được $\frac{\partial{E}}{\partial{w}}$ thì áp dụng công thức toán học chain rule trong đạo hàm để tính toán:

<img src='https://miro.medium.com/max/650/0*3xceKA-7b2oNbE4T.png'>

- Tiếp đến ta tính $\frac{\partial{E}}{\partial{X}}$, lý do cần tính là vì output của layer này sẽ là input của layer khác nên ta cũng phải tính toán để có thể lan truyền đi tốt hơn.
- Cũng sử dụng chain rule để ta có thể tính toán dễ dàng: 


<img src='https://miro.medium.com/max/658/0*Of8qDiWo31MK-MU0.png'>



- Sơ đồ mô phong cách thức hoạt động của lan truyền ngược:
1. Ban đầu ta có: 

<img src='https://miro.medium.com/max/1352/1*ddDKxWSAYci2dHaG3O_DOg.png'>


2. Sau đó thực hiện lan truyền ngược:


<img src='https://miro.medium.com/max/1400/1*0QPRST83oBicKPE_R4biJA.png'>

# Thiết lập chi tiết cho các layer

## Base class Layer:
- Đây sẽ là Base layer mà các Layer sẽ kế thừa. Chứa các thuộc tính đơn giản là input từ layer khác và output truyền đi. Kèm với phương thức foward và backward propagation.

In [1]:
# Base class
class Layer:
    def __init__(self):
        self.input = None
        self.output = None

    # computes the output Y of a layer for a given input X
    def forward_propagation(self, input):
        raise NotImplementedError

    # computes dE/dX for a given dE/dY (and update parameters if any)
    def backward_propagation(self, output_error, learning_rate):
        raise NotImplementedError

## Fully Connected Layer.

- Đây là layer cơ bản nhất: Mỗi input nơ-ron sẽ nối hết tới tất cả output nơ-ron ở layer kế tiếp nó.

<img src='https://miro.medium.com/max/876/1*jOObSF4HAB5VL5wO6petqA.png'>

### Forward propagation.

- Việc lan tuyền tiến(Forward propagation) thực hiện như sau:

<img src='https://miro.medium.com/max/674/0*Ec9fiXkNOoA5Z2v5.png'>

- Với việc chúng ta sử dụng mà trận thì chúng ta có tích vô hướng (dot product) như sau:

1. Ta có các ma trận:


<img src='https://miro.medium.com/max/1400/0*qTBPwmzIjBOGKpXH.png'>


2. Từ đó ta có được:


<img src='https://miro.medium.com/max/506/0*FsJQ82GmKlV2X22z.png'>

### Backward propagation.


- Giả sử chúng ta đã có $Y$ và $E$, từ đó ta tính toán được $\frac{\partial{E}}{\partial{Y}}$ hay đạo hàm độ lỗi với output. Tiếp đến ta cần tính toán 2 thứ:
1. Đạo hàm độ lỗi $E$ với từng tham số: $\frac{\partial{E}}{\partial{W}}$, $\frac{\partial{E}}{\partial{B}}$

2. Đạo hàm độ lỗi $E$ với input $X$: $\frac{\partial{E}}{\partial{X}}$ 

1. Đầu tiên là tính $\frac{\partial{E}}{\partial{W}}$, ma trận này nên cùng kích thước với ma trận $W$ với kích thước $i \times j$. $i$ là số lượng input nơ-ron và $j$ là số lượng output nơ-ron.

<img src='https://miro.medium.com/max/802/0*PiVZ-czmfvBaAFSe.png'>

- Sử dụng chain rule, ta có:

<img src='https://miro.medium.com/max/1242/0*cKYlxf87ZwkKtnrt.png'>




- Cuối cùng ta rút ra được: 

<img src='https://miro.medium.com/max/1042/0*sEeQVqIapym6O9VH.png'>






- Tiếp đến ta tính $\frac{\partial{E}}{\partial{B}}$


<img src='https://miro.medium.com/max/1032/0*sJVXt05jf2cgd_Ys.png'>



- Ở đây ta tiếp tục sử dụng chain rule:

<img src='https://miro.medium.com/max/1114/0*ud43sxuKpgPo9Rlo.png'>


- Cuối cùng rút ra được là: 

<img src='https://miro.medium.com/max/1046/0*sovSd27ja1_7R2yU.png'>

2. Tính toán cho $\frac{\partial{E}}{\partial{X}}$

<img src='https://miro.medium.com/max/1052/0*nPzn6Jgv-P0wxUA7.png'>




- Đầu tiên là chain rule:

<img src='https://miro.medium.com/max/1118/0*x6uE01GkG3NKLNQp.png'>


- Cuối cùng rút ra được là: 



<img src='https://miro.medium.com/max/1400/0*JWCzIdtJVTeQ_PG8.png'>

### Tổng kết và coding layer.

- Ta có được các công thức để áp dụng như sau:

<img src='https://miro.medium.com/max/492/0*HlI8qj8qZqGIWBrk.png'>

- Và giờ ta code fully connected layer như dưới

In [2]:
import numpy as np

# inherit from base class Layer
class FCLayer(Layer):
    # input_size = number of input neurons
    # output_size = number of output neurons
    def __init__(self, input_size, output_size):
        self.weights = np.random.rand(input_size, output_size) - 0.5
        self.bias = np.random.rand(1, output_size) - 0.5

    # returns output for a given input
    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = np.dot(self.input, self.weights) + self.bias
        return self.output

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        input_error = np.dot(output_error, self.weights.T)
        weights_error = np.dot(self.input.T, output_error)
        # dBias = output_error

        # update parameters
        self.weights -= learning_rate * weights_error
        self.bias -= learning_rate * output_error
        return input_error

## Activation Layer - Lớp kích hoạt.

- Giả sử ta có hai hàm kích hoạt $f$ và $f'$ tương ứng cho việc forward và backward.

<img src='https://miro.medium.com/max/770/1*xl7UacJfCUAk_KqX3WI49Q.png'>




### Forward propagation.

- Là hàm kích hoạt cho từng phần tử trong ma trận input.

<img src='https://miro.medium.com/max/906/0*Aw9jCvpliMjaO00W.png'>



### Backward propagation.

- Giả sử đã có $\frac{\partial{E}}{\partial{Y}}$, giờ thì ta tính $\frac{\partial{E}}{\partial{X}}$ cho layer này.

<img src='https://miro.medium.com/max/1400/0*9aXZPVNHXXpz1vd9.png'>


- Lưu ý dòng cuối biểu tượng $\odot$ ám chỉ phép toán [Hamada product](https://en.wikipedia.org/wiki/Hadamard_product_(matrices)) nghĩa là ma trận cùng kích thước nhân tương ứng các phần tử với nhau. (VD: ma trận $A$,$B$ thì nhân tương ứng là $a_{ij} \times b_{ij}$)

### Coding layer

In [3]:

# inherit from base class Layer
class ActivationLayer(Layer):
    def __init__(self, activation, activation_prime):
        self.activation = activation
        self.activation_prime = activation_prime

    # returns the activated input
    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = self.activation(self.input)
        return self.output

    # Returns input_error=dE/dX for a given output_error=dE/dY.
    # learning_rate is not used because there is no "learnable" parameters.
    def backward_propagation(self, output_error, learning_rate):
        return self.activation_prime(self.input) * output_error

In [4]:
# activation function and its derivative
def tanh(x):
    return np.tanh(x);

def tanh_prime(x):
    return 1-np.tanh(x)**2;

## Loss function - Hàm mất mát.

### Tính toán layer cuối cùng nhất.

- Với các layer trước thì luôn có $\frac{\partial{E}}{\partial{Y}}$ tính được từ layer sau. Nhưng với layer out cuối cùng nhất thì lấy ở đâu?

- Đáp án chính là việc ta tính toán từ hàm mất mát. Một trong số đó là hàm MSE - Mean Square Error. 

<img src='https://miro.medium.com/max/726/0*CuLKvZnTvjT1d6KJ.png'>

- Đạo hàm ta có:


<img src='https://miro.medium.com/max/1176/0*2ggVYLPNH-vIJir6.png'>

### Coding

In [5]:
# loss function and its derivative
def mse(y_true, y_pred):
    return np.mean(np.power(y_true-y_pred, 2));

def mse_prime(y_true, y_pred):
    return 2*(y_pred-y_true)/y_true.size;

## Xây dựng Network.

In [13]:
class Network:
    def __init__(self):
        self.layers = []
        self.loss = None
        self.loss_prime = None

    # add layer to network
    def add(self, layer):
        self.layers.append(layer)

    # set loss to use
    def use(self, loss, loss_prime):
        self.loss = loss
        self.loss_prime = loss_prime

    # predict output for given input
    def predict(self, input_data):
        # sample dimension first
        samples = len(input_data)
        result = []

        # run network over all samples
        for i in range(samples):
            # forward propagation
            output = input_data[i]
            for layer in self.layers:
                output = layer.forward_propagation(output)
            result.append(output)

        return result

    # train the network
    def fit(self, x_train, y_train, epochs, learning_rate):
        # sample dimension first
        samples = len(x_train)

        # training loop
        for i in range(epochs):
            err = 0
            for j in range(samples):
                # forward propagation
                output = x_train[j]
                for layer in self.layers:
                    output = layer.forward_propagation(output)

                # compute loss (for display purpose only)
                err += self.loss(y_train[j], output)

                # backward propagation
                error = self.loss_prime(y_train[j], output)
                for layer in reversed(self.layers):
                    error = layer.backward_propagation(error, learning_rate)

            # calculate average error on all samples
            err /= samples
            if (i % 100 == 0 or epochs < 101):
              print('epoch %d/%d   error=%f' % (i+1, epochs, err))

# Thử nghiệm.

## Giải bài toán XOR.

In [14]:
# training data
x_train = np.array([[[0,1]], [[1,1]], [[1,0]], [[1,1]], [[0,0]]])
y_train = np.array([[[0]], [[1]], [[0]], [[1]], [[0]]])

# network
net = Network()
net.add(FCLayer(2, 3))
net.add(ActivationLayer(tanh, tanh_prime))
net.add(FCLayer(3, 1))
net.add(ActivationLayer(tanh, tanh_prime))

# train
net.use(mse, mse_prime)
net.fit(x_train, y_train, epochs=1000, learning_rate=0.1)

# test
out = net.predict(x_train)
print(out)

epoch 1/1000   error=0.327503
epoch 101/1000   error=0.042206
epoch 201/1000   error=0.009154
epoch 301/1000   error=0.001532
epoch 401/1000   error=0.000666
epoch 501/1000   error=0.000416
epoch 601/1000   error=0.000301
epoch 701/1000   error=0.000235
epoch 801/1000   error=0.000192
epoch 901/1000   error=0.000162
[array([[0.00120986]]), array([[0.98138596]]), array([[0.00147417]]), array([[0.98138596]]), array([[-0.00088333]])]


## Giải bài toán MNIST.

In [8]:
from keras.datasets import mnist
from keras.utils import np_utils

# load MNIST from server
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# training data : 60000 samples
# reshape and normalize input data
x_train = x_train.reshape(x_train.shape[0], 1, 28*28)
x_train = x_train.astype('float32')
x_train /= 255
# encode output which is a number in range [0,9] into a vector of size 10
# e.g. number 3 will become [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
y_train = np_utils.to_categorical(y_train)

# same for test data : 10000 samples
x_test = x_test.reshape(x_test.shape[0], 1, 28*28)
x_test = x_test.astype('float32')
x_test /= 255
y_test = np_utils.to_categorical(y_test)

# Network
net = Network()
net.add(FCLayer(28*28, 100))                # input_shape=(1, 28*28)    ;   output_shape=(1, 100)
net.add(ActivationLayer(tanh, tanh_prime))
net.add(FCLayer(100, 50))                   # input_shape=(1, 100)      ;   output_shape=(1, 50)
net.add(ActivationLayer(tanh, tanh_prime))
net.add(FCLayer(50, 10))                    # input_shape=(1, 50)       ;   output_shape=(1, 10)
net.add(ActivationLayer(tanh, tanh_prime))

# train on 1000 samples
# as we didn't implemented mini-batch GD, training will be pretty slow if we update at each iteration on 60000 samples...
net.use(mse, mse_prime)
net.fit(x_train[0:1000], y_train[0:1000], epochs=35, learning_rate=0.1)

# test on 3 samples
out = net.predict(x_test[1000:2000])
#print("\n")
#print("predicted values : ")
#print(out, end="\n")
#print("true values : ")
#print(y_test[0:3])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
epoch 0/35   error=0.226004
epoch 1/35   error=0.090320
epoch 2/35   error=0.073019
epoch 3/35   error=0.062484
epoch 4/35   error=0.054875
epoch 5/35   error=0.049250
epoch 6/35   error=0.044715
epoch 7/35   error=0.040702
epoch 8/35   error=0.037110
epoch 9/35   error=0.033852
epoch 10/35   error=0.030767
epoch 11/35   error=0.027991
epoch 12/35   error=0.025645
epoch 13/35   error=0.023661
epoch 14/35   error=0.021943
epoch 15/35   error=0.020377
epoch 16/35   error=0.019048
epoch 17/35   error=0.017584
epoch 18/35   error=0.016446
epoch 19/35   error=0.015414
epoch 20/35   error=0.014429
epoch 21/35   error=0.013654
epoch 22/35   error=0.012661
epoch 23/35   error=0.011922
epoch 24/35   error=0.011245
epoch 25/35   error=0.010684
epoch 26/35   error=0.010032
epoch 27/35   error=0.009553
epoch 28/35   error=0.009035
epoch 29/35   error=0.008585
epoch 30/35   error=0.008150
epoch 31/35   error