# Multi-layer perceptrons

A perceptron produces a single output based on several real-valued inputs by forming a linear combination using its input weights and passing the output through a nonlinear activation function. A perceptron is computed as a linear combination of all the nodes from the previous layers as
$y=\delta \left ( \sum_{0}^{n} w_ix_i \right ) = \delta \left ( w^Tx \right )$ where `w` denotes the vector of weights, `x` is the vector of inputs, $x_0 = 1$, $w_0$ is the bias weight, and \delta is the non-linear activation function.

A multilayer perceptron (MLP) is a deep, artificial neural network. It is composed of more than one perceptron. They are composed of an input layer to receive the signal, an output layer that makes a decision or prediction about the input, and in between those two, an arbitrary number of hidden layers that are the true computational engine of the MLP. MLPs with one hidden layer are capable of approximating any continuous function.

Multilayer perceptrons are often applied to supervised learning problems: they train on a set of input-output pairs and learn to model the correlation (or dependencies) between those inputs and outputs. Training involves adjusting the parameters, or the weights and biases, of the model in order to minimize error. Backpropagation is used to make those weigh and bias adjustments relative to the error, and the error itself can be measured in a variety of ways, including by root mean squared error (RMSE).

In the forward pass, the signal flow moves from the input layer through the hidden layers to the output layer, and the decision of the output layer is measured against the ground truth labels.

In the backward pass, using backpropagation and the chain rule of calculus, partial derivatives of the error function w.r.t. the various weights and biases are back-propagated through the MLP. That act of differentiation gives us a gradient, or a landscape of error, along which the parameters may be adjusted as they move the MLP one step closer to the error minimum. This can be done with any gradient-based optimisation algorithm such as stochastic gradient descent.

#### Examples of MLPs

1) A multi-layer perceptron that has a hidden layer.
 - Input layer has 2 nodes
 - Hidden layer has 2 nodes
 - Output layer has 1 node
 
<img src="images/fig1.png" width="500">

Mỗi layer có một node không nhận giá trị từ các node ở layer phía trước, mà luôn có giá trị là `1`. Khi phác họa MLP, đôi khi node này được ngầm hiểu sự tồn tại và không được vẽ ra. Tuy nhiên, để hiểu đúng và đầy đủ các thành phần và cách thức hoạt động của MLP, cấu trúc của network được trình bày như sau:

<img src="images/fig11.png" width="500">
 
2) A multi-layer perceptron that has two hidden layers.
 - Input layer has 2 nodes
 - Hidden layer 1 has 2 nodes
 - Hidden layer 2 has 3 nodes
 - Output layer has 1 node

<img src="images/fig22.png" width="600">

3) Giả sử chúng ta cần thiết kế một MLP để dự đoán giá nhà dựa vào hai tiêu chí: diện tích nhà ($m^2$) và khoảng cách đến trung tâm thành phố (km).

Dựa vào yêu cầu bài toán, chúng ta có thể xác định input layer có 2 node và output layer có 1 node. Giả sử chúng ta muốn network có 1 hidden layer gồm 2 node, network cho bài toán này cho cấu trúc như sau:

<img src="images/fig3.png" width="600">

Hai giá trị $a_1$ và $a_2$ được tính như sau:

$
a_1 = \delta \left ( x_1  \times w_1  + x_2  \times w_3  + x_3  \times w_5 \right )\\
a_2 = \delta \left ( x_1  \times w_2  + x_2  \times w_4  + x_3  \times w_6 \right )
$

Để thấy rõ hơn các bước tính toán cho giá trị $a_1$ và $a_2$, network có thể vẽ lại chi tiết hơn như sau:

<img src="images/fig4.png" width="600">

Lúc này,
$
z_1 = x_1  \times w_1  + x_2  \times w_3  + x_3  \times w_5\\
z_2 = x_1  \times w_2  + x_2  \times w_4  + x_3  \times w_6\\
a_1 = \delta \left ( z_1 \right )\\
a_2 = \delta \left ( z_2 \right )
$

Hàm activation $\delta \left ( \right )$ được dùng phổ biến hiện nay là hàm ReLU, được định nghĩa `y = max(0, x)`. Ý nghĩa của hàm ReLU là khi giá trị `x` lớn hơn `0` thì trả về chính giá trị đó; ngược lại trả về `0`. Hàm ReLU được phác họa như sau:

<img src="images/fig5.png" width="600">

Khi xác định dùng hàm ReLU, giá trị $a_1$ và $a_2$ được tính như sau:

$
a_1 = ReLU \left ( z_1 \right )\\
a_2 = ReLU \left ( z_2 \right )
$

Network chúng ta thiết kế có 9 biến trọng số. Khi network được khởi tạo, 9 biến trọng số này được gán giá trị ngẫu nhiên. Quá trình train (huấn luyện) network là quá trình thay đổi các giá trị của các biến trọng số sao cho network hoạt động chính xác hơn.

Để huấn luyện network theo phương pháp supervised learning, chúng ta cần bộ dữ liệu mẫu (training data) bao gồm (`diện-tích-nhà`, `khoảng-cách-đến-trung-tâm`, `giá-nhà`). Dữ liệu `diện-tích-nhà` và `khoảng-cách-đến-trung-tâm` được dùng để truyền cho $x_1$ và $x_2$. Dựa vào giá trị của các biến trọng số, chúng ta có thể tính được giá trị của $o_1$ (chính là giá nhà mà network tiên đoán). Độ chính xác của network được tính dựa vào sự khác biệt giữa $o_1$ và `giá-nhà`. 

Ví dụ, tiên giá nhà giá nhà với `diện-tích-nhà = 60`($m^2$), `khoảng-cách-đến-trung-tâm = 20 (km)`. Các giá trị biến trọng số được gán với các giá trị nguyên để cho đơn giản việc tính toán. Chú ý rằng trong thực tế, giá trị của các biến trọng số thường là số thực. Hình sau thể hiện network với các giá trị input, tham số, và output.

<img src="images/fig6.png" width="600">

$
 x_1  = 60 \\ 
 x_2  = 20 \\ 
 z_1  = x_1  \times w_1  + x_2  \times w_3  + 1  \times w_5  = 60 \times 1.0 + 20 \times 1.0 + 1 \times 2.0 = 82.0 \\ 
 z_2  = x_1  \times w_2  + x_2  \times w_4  + 1  \times w_6  = 60 \times ( - 2.0) + 20 \times ( - 3.0) + 1 \times 1.0 =  - 179.0 \\ 
 a_1  = {\mathop{\rm Re}\nolimits} LU(z_1 ) = {\mathop{\rm Re}\nolimits} LU(82.0) = 82.0 \\ 
 a_2  = {\mathop{\rm Re}\nolimits} LU(z_2 ) = {\mathop{\rm Re}\nolimits} LU( - 179.0) = 0 \\ 
 o_1  = a_1  \times w_7  + a_2  \times w_8  + 1  \times w_9 = 85 \\ 
$

#### Qui trình huấn luyện MLP

Qui trình huấn luyện MLP theo phương pháp supervised learning gồm 5 bước, được mô tả trong hình sau: 

<img src="images/step.png" width="300">

Từ bước 3 đến bước 5 được thực hiện nhiều lần cho đến khi nào điều kiện dừng lại được thỏa mãn. Các điền kiện dừng thường dùng là số lần huấn luyện hết một lượt training data (hay còn gọi là số epoch).

1) Chuẩn bị training data

Training data là bộ dữ liệu được thu thập từ thực tế. Ví dụ trong bài toán tiên đoán giá nhà ở trên, mỗi mẫu (sample) thu thập bao gồm diện tích nhà, khoảng cách đến trung tâm thành phố và giá nhà thực tế. Trong đó, diện tích nhà và khoảng cách đến trung tâm thành phố là dữ liệu đặc trưng (feature) và là giá trị đầu vào cho network, còn giá nhà thực tế là dữ liệu thực (label hay ground truth) và được dùng để tính loss bằng cách so sánh nó với giá trị output của network. Hình sau minh họa training data cho bài toán tiên đoán giá nhà.

<img src="images/p1.png" width="300">

2) Thiết kế network

Ở bước này, dựa vào mô tả bài toán, chúng ta có thể xác định được số node cần thiết trong input layer và output layer. Ví dụ cho bài toán tiên đoán giá nhà, input layer bao gồm 2 node, tương ứng với 2 thuộc tính là diện tích nhà và khoảng cách đến trung tâm thành phố. Output layer bao gồm 1 node; chính là giá nhà tiên đoán.

Việc tiếp theo là chọn lựa số lượng hidden layer và số node trong mỗi hidden layer. Đây là một vấn đề mở, nghĩa là không có một lý thuyết hay công thức nào xác định con số tối ưu cho số hidden layer và số node trong đó. Những con số này thường được lựa chọn dựa vào độ lớn của training data, số node trong input layer và output layer, và độ phức tạp của bài toán.

Sau khi thiết kế network xong, chung ta có thể xác định được số lượng biến trọng số. Quay trở lại với ví dụ tiên đoán giá nhà, network với 1 hidden layer, bao gồm 2 node, có 9 biến trọng số, được minh họa trong hình sau:

<img src="images/fig3.png" width="600">

3) Forward pass (tính output)

Ở bước này, dữ liệu đặc trưng được đưa vào network để tính giá trị output, cũng chính là giá nhà tiên đoán. Cách thức tính output đã được trình bày ở phần trên. Người đọc xem lại nếu nắm chưa vững phần này.


<img src="images/p2.png" width="500">

4) Tính loss

Dựa vào giá nhà tiên đoán và giá nhà thực, chúng ta có thể tính được mức độ sai (không chính xác) của network với các biến trọng số hiện tại. Hàm loss được dùng phổ biến trong các bài toán tiên đoán (prediction) là hàm mean-squared-error (MSE). MSE của 2 vector `a` và `b` được tính như sau:

$
MSE = \frac{1}{n} \sum_{1}^{n} (a - b)^2
$

Hình sau minh họa việc tính loss dựa vào giá nhà tiên đoán và giá nhà thưc.

<img src="images/p3.png" width="500">

5) Cập nhập giá trị biến trọng số

Ở bước này, thuật toán back-propagation được sử dụng để tính giá trị đạo hàm cho từng biến trọng số. Biết được giá trị đạo hàm cho một biến đồng nghĩa với việc xác định được hướng của biến (tăng hay giảm giá trị cho biến đó) để network hoạt động tốt hơn (loss giảm).

Lúc này, các biến trọng số được thay đổi giá trị theo giá trị đạo hàm đã tính trước đó. Tuy nhiên, cách thức thay đổi giá trị các biến trọng số này có nhiều cách, đồng nghĩa với việc có rất nhiều thuật toán thực hiện điều này như stochastic gradient descent hay Adam. Thực ra, sự khác biệt của các thuật toán này không nhiều khi số epoch đủ lớn. Nếu không có lý do gì đặc biệt, thuật toán Adam thường được dùng rộng rãi.

Hình sau mô tả việc tính giá trị đạo hàm và thay đổi giá trị cho các biến trọng số (hình này cần vẽ lại chi tiết hơn): 

<img src="images/p4.png" width="500">

#### Thảo luận

Qui trình huấn luyện network ở trên có đề cập đến một số thuật toán như back-propagation và Adam, nhưng những thuật toán này không được trình này chi tiết. Có vài lý do cho việc này:
 - Chưa cần thiết cho người học ở dạng beginner và intermediate. Các thư viện deep learning hiện nay đã trang bị hầu hết các thuật toán phổ biến, và chúng ta có thể coi các thuật toán này như các công cụ thể hoàn thành bài toán đang xem xét.
 - Hiểu chi tiết các thuật toán này hữu ích khi bạn muốn phát triển một thuật toán thay thế, cho kết quả chính xác hơn hay nhanh hơn. Cái này thuộc loại khó. Các bạn nên dành thời gian và công sức học những cái giúp bản thân làm được nhiều thứ hơn.
 - Việc không nắm được chi tiết các thuật toán này hầu như không ảnh hưởng tới việc giải quyết các bài toán trong thực tế và trong nghiên cứu.
 - Sức người có hạn, nhiều cái chúng ta nên sử dụng dạng black-box.
 
Ở mức độ hiện tại, khi thiết kế và huấn luyện một network, chúng ta có thể sử dụng 
 - ReLU cho hàm activation, 
 - Dùng MSE để tính loss cho bài toán prediction
 - Dùng Adam để cập nhật biến trọng số


# Ứng dụng cho bài toán tiên đoán giá nhà dùng Boston data


#### Data description

Boston dataset has 13 properties and a label (medv). These properties are presented in the following table.

| Plugin     | <p align="center">README </p>|
| ---------- | ------------- |
| **crim**   | <p align="center"> per capita crime rate by town </p> |
| **zn**     | <p align="center">proportion of residential land zoned for lots over 25,000 sq.ft</p> |
|  **indus** | <p align="center">proportion of non-retail business acres per town </p> |
| **chas**   | <p align="center">Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) </p> |
|  **nox**   | <p align="center">nitrogen oxides concentration (parts per 10 million)</p>  |
|  rm        | <p align="center">average number of rooms per dwelling </p> |
|  **age**   | <p align="center">proportion of owner-occupied units built prior to 1940 </p> |
| **dis**    | <p align="center">weighted mean of distances to five Boston employment centres </p> |
|  **rad**   | <p align="center">index of accessibility to radial highways </p> |
|  **tax**   | <p align="center">full-value property-tax rate per $\$$10,000</p> |
|  ptratio   | <p align="center">pupil-teacher ratio by town</p> |
|  **black** | <p align="center">1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town</p> |
|  lstat     | <p align="center">lower status of the population (percent)</p> |
|  **medv**  | <p align="center">median value of owner-occupied homes in $\$$1000s</p> |


<img src="images/b1.png" width="700">

Input and output layers of a MLP are determined by a considered problem. Specifically, the house price prediction problem predicts `medv` from a list of 13 features.

<img src="images/b2.png" width="700">

<img src="images/b3.png" width="700">

#### Source 

Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.

Belsley D.A., Kuh, E. and Welsch, R.E. (1980) Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. New York: Wiley.


#### Chuẩn bị training data

Dữ liệu được tách thành dữ liệu đặc trưng và ground truth (medv), được minh họa như hình sau:

<img src="images/b4.png" width="700">

Tensorflow cung cấp hàm `load_data()` được xây dựng sẵn để lấy dữ liệu giá nhà Boston. Hàm `load_data()` cung cấp training data để huấn luyện network và testing data để kiểm tra độ chính xác của network sau khi được huấn luyện. Ở bước này, để việc huấn luyện dễ dàng hơn, training data thường được chuẩn hóa (normalize) cho từng đặc trưng để đưa về giá trị trung bình (mean) bằng `0` và độ lệch chuẩn (standard deviation) bằng `1`.

```python
(train_features, train_labels), (test_features, test_labels) = tensorflow.keras.datasets.boston_housing.load_data()
# (train_features, train_labels) is training data
# (test_features, test_labels) is testing data

# normalize
train_mean = np.mean(train_features, axis=0)
train_std = np.std(train_features, axis=0)
train_features = (train_features - train_mean) / train_std
```

#### Model construction

For instance, we want to construct a MLP that have a hidden layer, including 20 nodes. For the house price prediction problem, the input layer has 13 nodes and the output layer has 1 node.

```python
model = keras.Sequential([
                            Dense(20, activation=tf.nn.relu, input_shape=[13]), 
                            Dense(1)
                        ])
```

# Ôn lại kiến thức numpy và matplotlib trước khi đọc source code

## Introduction to numpy

Numpy is the core library for scientific computing in Python. It provides a high-performance multidimensional array object, and tools for working with these arrays.

#### Arrays

A numpy array is a grid of values, all of the same type, and is indexed by a tuple of nonnegative integers. The number of dimensions is the rank of the array; the shape of an array is a tuple of integers giving the size of the array along each dimension.

```python
import numpy as np

a = np.array([1, 2, 3])   # Create a rank 1 array
print(type(a))            # Prints "<class 'numpy.ndarray'>"
print(a.shape)            # Prints "(3,)"
print(a[0], a[1], a[2])   # Prints "1 2 3"
a[0] = 5                  # Change an element of the array
print(a)                  # Prints "[5, 2, 3]"

b = np.array([[1,2,3],[4,5,6]])    # Create a rank 2 array
print(b.shape)                     # Prints "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # Prints "1 2 4"
```

Numpy also provides many functions to create arrays:

```python
import numpy as np

a = np.zeros((2,2))   # Create an array of all zeros
print(a)              # Prints "[[ 0.  0.]
                      #          [ 0.  0.]]"

b = np.ones((1,2))    # Create an array of all ones
print(b)              # Prints "[[ 1.  1.]]"

c = np.full((2,2), 7)  # Create a constant array
print(c)               # Prints "[[ 7.  7.]
                       #          [ 7.  7.]]"

d = np.eye(2)         # Create a 2x2 identity matrix
print(d)              # Prints "[[ 1.  0.]
                      #          [ 0.  1.]]"

e = np.random.random((2,2))  # Create an array filled with random values
print(e)                     # Might print "[[ 0.91940167  0.08143941]
                             #               [ 0.68744134  0.87236687]]"

```

#### Broadcasting

Broadcasting is a powerful mechanism that allows numpy to work with arrays of different shapes when performing arithmetic operations. Frequently we have a smaller array and a larger array, and we want to use the smaller array multiple times to perform some operation on the larger array.

```python
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)  # Prints "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

```

#### Mean function

numpy.mean(arr, axis = None) : Compute the arithmetic mean (average) of the given data (array elements) along the specified axis. 

arr : input array.
axis : axis along which we want to calculate the arithmetic mean. axis = 0 means along the column and axis = 1 means working along the row.

```python
import numpy as np 
    
# 2D array  
arr = [[4, 1, 1, 3, 4],   
       [5, 6, 2, 8, 9],  
       [3, 2, 5, 1, 4]]  
    
# mean along the axis = 0  
print("\nmean of arr, axis = 0 : ", np.mean(arr, axis = 0))
# mean of arr, axis = 0 :  [4.  3.  5.  4.  6.]
   
# mean along the axis = 1  
print("\nmean of arr, axis = 1 : ", np.mean(arr, axis = 1))  
#mean of arr, axis = 1 :  [3.8   6.  3.4]
```

#### Standard deviation function

numpy.std(arr, axis = None) : Compute the standard deviation of the given data (array elements) along the specified axis(if any).

Standard Deviation (SD) is measured as the spread of data distribution in the given data set.

```python
import numpy as np 
    
# 2D array  
arr = [[4, 1, 1, 3, 4],   
       [5, 6, 2, 8, 9],  
       [3, 2, 5, 1, 4]]  
      
# std along the axis = 0  
print("\nstd of arr, axis = 0 : ", np.std(arr, axis = 0))  
#std of arr, axis = 0 :  [0.81  2.16  1.69  2.94  2.35]

# std along the axis = 1  
print("\nstd of arr, axis = 1 : ", np.std(arr, axis = 1))
#std of arr, axis = 1 :  [1.35   2.44   1.41]
```

#### Min and max functioins

The min() and max() functions returns the minimum and maximum values of an ndarray object along the axis specified.

```python
import numpy as np 
    
# 2D array  
arr = [[4, 1, 1, 3, 4],   
       [5, 6, 2, 8, 9],  
       [3, 2, 5, 1, 4]]  
      
# std along the axis = 0  
print("\nstd of arr, axis = 0 : ", np.min(arr, axis = 0))  
#std of arr, axis = 0 :  [3 1 1 1 4]

# std along the axis = 1  
print("\nstd of arr, axis = 0 : ", np.max(arr, axis = 0))
#std of arr, axis = 0 :  [5 6 5 8 9]
```

## Matplotlib

The most important function in matplotlib is `plot`, which allows you to plot 2D data. Here is a simple example:

```python
import numpy as np
import matplotlib.pyplot as plt

# Compute the x and y coordinates for points on a sine curve
x = np.arange(0, 10, 0.1)
y = np.sin(x)

# Plot the points using matplotlib
plt.plot(x, y)
plt.show()  # You must call plt.show() to make graphics appear.
```

Running this code produces the following plot:

<img src="images/house1.png" width="500">

```python
import numpy as np
import matplotlib.pyplot as plt

# Compute the x and y coordinates for points on a sine curve
y_sin = np.sin(x)
y_cos = np.cos(x)

# Plot the points using matplotlib
plt.plot(x, y_sin)
plt.plot(x, y_cos)
plt.xlabel('x axis label')
plt.ylabel('y axis label')
plt.title('Sine and Cosine')
plt.legend(['Sine', 'Cosine'])
plt.plot(x, y)
#plt.show()
```

Running this code produces the following plot:

<img src="images/house2.png" width="500">


# Source code

#### Source code for training

```python
# TensorFlow and tf.keras
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense

# Commonly used modules
import numpy as np

# Images, plots, display, and visualization
import matplotlib.pyplot as plt

(train_features, train_labels), (test_features, test_labels) = keras.datasets.boston_housing.load_data()

# get per-feature statistics (mean, standard deviation) from the training set to normalize by
train_mean = np.mean(train_features, axis=0)
train_std = np.std(train_features, axis=0)
train_features = (train_features - train_mean) / train_std

def build_model():
    model = keras.Sequential([
        Dense(20, activation=tf.nn.relu, input_shape=[len(train_features[0])]), Dense(1)
    ])

    model.compile(optimizer=tf.train.AdamOptimizer(), 
                  loss='mse',
                  metrics=['mse'])
    return model

model = build_model()
model.fit(train_features, train_labels, epochs=500, verbose=1, validation_split = 0.1)
model.save_weights('house_price_prediction.ckpt')
```

#### Source code for tesing 1

```python
# TensorFlow and tf.keras
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense

# Commonly used modules
import numpy as np

# Images, plots, display, and visualization
import matplotlib.pyplot as plt


def build_model():
    model = keras.Sequential([
        Dense(20, activation=tf.nn.relu, input_shape=[13]), Dense(1)
    ])

    model.compile(optimizer=tf.train.AdamOptimizer(), 
                  loss='mse',
                  metrics=['mse'])
    return model

model = build_model()
model.load_weights('house_price_prediction.ckpt')

(train_features, train_labels), (test_features, test_labels) = keras.datasets.boston_housing.load_data()
train_mean = np.mean(train_features, axis=0)
train_std = np.std(train_features, axis=0)

test_features_norm = (test_features - train_mean) / train_std
mse, _ = model.evaluate(test_features_norm, test_labels)
rmse = np.sqrt(mse)
print('Root Mean Square Error on test set: {}'.format(round(rmse, 3)))
```

#### Source code for tesing 2

```python
# TensorFlow and tf.keras
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense

import numpy as np
import matplotlib.pyplot as plt

def build_model():
    model = keras.Sequential([
        Dense(20, activation=tf.nn.relu, input_shape=[13]), Dense(1)
    ])

    model.compile(optimizer=tf.train.AdamOptimizer(), 
                  loss='mse',
                  metrics=['mse'])
    return model

model = build_model()
model.load_weights('house_price_prediction.ckpt')

(train_features, train_labels), (test_features, test_labels) = keras.datasets.boston_housing.load_data()
train_mean = np.mean(train_features, axis=0)
train_std = np.std(train_features, axis=0)

test_features_norm = (test_features - train_mean) / train_std


test_predictions = model.predict(test_features_norm).flatten()

plt.figure()
plt.xlabel('Testing samples')
plt.ylabel('Predicted and label values')
plt.plot(np.arange(0,test_predictions.shape[0]),test_predictions, label='test_predictions')
plt.plot(np.arange(0,test_predictions.shape[0]),test_labels, label='test_labels')
plt.legend()
plt.show()
```