# Initialization

Đây là bài tập đầu tiên trong chuỗi các bài về cải thiện Neural Network.

Training một neural network đòi hỏi chúng ta phải khởi tạo các tham số W và b cho tất cả layer. Ở các bài trước, ta khởi tạo W ngẫu nhiên và nhân W với 0.01 để đảm bảo W nhỏ, và b khởi tạo bằng zero. Với logistic regression và neural network với 1 hidden layer thì cách khởi tạo này hoạt động được (mạng có thể học được). Nhưng khi thử với mạng L layer thì mạng lại không học được (cost không giảm sau các lần lặp). 

Trong bài tập này, chúng ta sẽ thử qua các cách khởi tạo khác nhau và học cách khởi tạo hợp lý cho neural network.


Khởi tạo tham số một cách hợp lý giúp
- Tăng tốc độ hội tụ của gradient descent
- Tăng cơ hội gradient descent hội tụ về một mức lỗi nhỏ hơn ở tập train 
- Làm giảm đáng kể hiện tượng vanishing và exploding gradient

Để bắt đầu, hãy load dataset "circle".



In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import sklearn.datasets

from c2_a1_nit_utils import sigmoid, relu, compute_loss, forward_propagation, backward_propagation
from c2_a1_nit_utils import update_parameters, predict, load_dataset, load_cat_dataset, plot_decision_boundary, predict_dec


%matplotlib inline
plt.rcParams['figure.figsize'] = (7.0, 4.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# load image dataset: blue/red dots in circles
train_X, train_Y, test_X, test_Y = load_dataset()

Bạn cần train Neural Network để phân loại 2 lớp xanh và đỏ. 

## 1 - Neural Network model 

Bạn sẽ dùng một neural network với 3 lớp (được cài đặt tương tự Neural Network L layer). Ở đây bạn sẽ thử nghiệm 3 phương pháp khởi tạo tham số:
 
- *Zeros initialization* --  khởi tạo tham số toàn zero.
- *Random initialization* -- khởi tạo tham số random.
- *He initialization* -- khởi tạo tham số ngẫu nhiên nhưng sau đó scale lại theo một factor đề xuất bởi He et al., 2015. 

Dưới đây là mô hình Neural Network của chúng ta. Ngoài các biến đầu vào quen thuộc thì ta có một biến "init_method" là một chuỗi dùng để chỉ định 1 trong 3 phương pháp khởi tạo đề cập ở trên.

In [None]:
def model(X, Y, layers_dims, learning_rate = 0.01, num_iterations = 15000, print_cost = True, init_method = "he"):

        
    grads = {}
    costs = [] # to keep track of the loss
    m = X.shape[1] # number of examples
    
    
    # dùng phương pháp khởi tạo chỉ định bởi biến init_method
    if init_method == "zeros":
        parameters = initialize_parameters_zeros(layers_dims)
    elif init_method == "random":
        parameters = initialize_parameters_random(layers_dims)
    elif init_method == "he":
        parameters = initialize_parameters_he(layers_dims)

    # Loop (gradient descent)

    for i in range(0, num_iterations):

        # Forward propagation: LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID.
        a3, cache = forward_propagation(X, parameters)
        
        # Loss
        cost = compute_loss(a3, Y)

        # Backward propagation.
        grads = backward_propagation(X, Y, cache)
        
        # Update parameters.
        parameters = update_parameters(parameters, grads, learning_rate)
        
        # Print the loss every 1000 iterations
        if print_cost and i % 1000 == 0:
            print("Cost after iteration {}: {}".format(i, cost))
            costs.append(cost)
            
    # plot the loss
    plt.plot(costs)
    plt.ylabel('cost')
    plt.xlabel('iterations (per hundreds)')
    plt.title("Learning rate =" + str(learning_rate))
    plt.show()
    
    return parameters

## 2 - Zero initialization

Bài tập 1:

Khởi tạo ma trận W và vector cột b cho tất cả L layer. Hãy chú ý số chiều của W và b khớp với kích thước của các layer.

In [None]:
# GRADED FUNCTION: initialize_parameters_zeros 

def initialize_parameters_zeros(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.
    
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    
    parameters = {}
    L = len(layers_dims)            # number of layers in the network
    
    for l in range(1, L):
        ### START CODE HERE ### (≈ 2 lines of code)
        parameters['W' + str(l)] = 
        parameters['b' + str(l)] = 
        ### END CODE HERE ###
    return parameters

In [None]:
parameters = initialize_parameters_zeros([3,2,1])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**Expected Output**:

<table> 
    <tr>
    <td>
    **W1**
    </td>
        <td>
    [[ 0.  0.  0.]
 [ 0.  0.  0.]]
    </td>
    </tr>
    <tr>
    <td>
    **b1**
    </td>
        <td>
    [[ 0.]
 [ 0.]]
    </td>
    </tr>
    <tr>
    <td>
    **W2**
    </td>
        <td>
    [[ 0.  0.]]
    </td>
    </tr>
    <tr>
    <td>
    **b2**
    </td>
        <td>
    [[ 0.]]
    </td>
    </tr>

</table> 

Thử train mô hình với 15,000 lần lặp.

In [None]:
layers_dims = [train_X.shape[0], 10, 5, 1]
parameters = model(train_X, train_Y, layers_dims, init_method = "zeros")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)

Mô hình có độ chính xác 50%, tức là ngang với việc chọn bằng cách tung đồng xu. Hãy xem thử mô hình sẽ đưa ra nhãn dự đoán thế nào cho tất cả các điểm trên mặt phẳng.

In [None]:
print ("predictions_train = " + str(predictions_train))
print ("predictions_test = " + str(predictions_test))

In [None]:
plt.title("Model with Zeros initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, np.squeeze(train_Y))

Như vậy mô hình dự đoán nhãn 0 cho tất cả mọi điểm. 

Nguyên nhân cho điều này là khi ta khởi tạo tham số W toàn zeros, mọi neuron ở mỗi layer sẽ học như nhau. Như vậy, neural network của chúng ta sẽ tương đương với một neural network có số neuron bằng 1 ($n^{[l]}=1$) tại mỗi layer. Rõ ràng một neural network như thế thì không thể học được gì. 

Lưu ý ta chỉ cần khởi tạo W ngẫu nhiên (không phải toàn zero), còn b thì có thể được khởi tạo toàn zeros.

## 3 - Random initialization

Bài tập 2:

Như vậy ta cần phải khởi tạo W ngẫu nhiên (không phải toàn zero). Để điều chỉnh độ lớn của W, ta sẽ nhân W cho một biến "scale" có giá trị mặc định là 10. Ta có thể thử các "scale" khác nhau. Tham số b vẫn được khởi tạo toàn zero.

In [None]:
# GRADED FUNCTION: initialize_parameters_random

def initialize_parameters_random(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.
    
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    scale=10;
    #np.random.seed(3)               # This seed makes sure your "random" numbers will be the as ours
    parameters = {}
    L = len(layers_dims)            # integer representing the number of layers
    
    for l in range(1, L):
        ### START CODE HERE ### 
        parameters['W' + str(l)] = 
        parameters['b' + str(l)] = np.zeros((layers_dims[l],1))
        ### END CODE HERE ###

    return parameters

In [None]:
parameters = initialize_parameters_random([3, 2, 1])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**Expected Output**:

<table> 
    <tr>
    <td>
    **W1**
    </td>
        <td>
    [[ 17.88628473   4.36509851   0.96497468]
 [-18.63492703  -2.77388203  -3.54758979]]
    </td>
    </tr>
    <tr>
    <td>
    **b1**
    </td>
        <td>
    [[ 0.]
 [ 0.]]
    </td>
    </tr>
    <tr>
    <td>
    **W2**
    </td>
        <td>
    [[-0.82741481 -6.27000677]]
    </td>
    </tr>
    <tr>
    <td>
    **b2**
    </td>
        <td>
    [[ 0.]]
    </td>
    </tr>

</table> 

Hãy thử train mô hình với 15,000 lần lặp.

In [None]:
layers_dims = [train_X.shape[0], 10, 5, 1]
parameters = model(train_X, train_Y, layers_dims, init_method = "random")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)

Bạn có thể thấy cost giảm sau mỗi lần lặp, điều này chứng tỏ mô hình có thể học ở một mức nhất định. Hãy xem thử mô hình dự đoán nhãn thế nào cho mọi điểm trên mặt phẳng.

In [None]:
print (predictions_train)
print (predictions_test)

In [None]:
plt.title("Model with large random initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, np.squeeze(train_Y))

**Observations**:
- The cost starts very high. This is because with large random-valued weights, the last activation (sigmoid) outputs results that are very close to 0 or 1 for some examples, and when it gets that example wrong it incurs a very high loss for that example. Indeed, when $\log(a^{[3]}) = \log(0)$, the loss goes to infinity.
- Poor initialization can lead to vanishing/exploding gradients, which also slows down the optimization algorithm. 
- If you train this network longer you will see better results, but initializing with overly large random numbers slows down the optimization.

<font color='blue'>

    
Bạn có thể thử với các mức scale khác. Khi giảm scale về 1 mô hình đạt hiệu suất khá cao, nhưng khi giảm scale tiếp về 0.1 thì mô hình lại không học được. Ở phần tiếp theo, ta sẽ học được cách điều chỉnh scale thế nào để mô hình học tốt nhất.

## 4 - He initialization

Phương pháp khởi tạo này được đặt theo tên của tác giả đề xuất ra nó trong bài báo He et al., 2015. 

Bài tập 3: Cài đặt hàm khởi tạo theo phương pháp He. Với phương pháp này, ma trận W tại layer $[l]$ sẽ được nhân với một factor $scale=\sqrt{\frac{2}{\text{kích thước layer [l-1]}}}$ (tức là $scale=\sqrt{\frac{2}{n^{[l-1]}}}$).



In [None]:
# GRADED FUNCTION: initialize_parameters_he

def initialize_parameters_he(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.
    
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    
    #np.random.seed(3)
    parameters = {}
    L = len(layers_dims) - 1 # integer representing the number of layers
     
    for l in range(1, L + 1):
        ### START CODE HERE ### 
        scale =        
        parameters['W' + str(l)] = np.random.randn(layers_dims[l],layers_dims[l-1])*scale;
        parameters['b' + str(l)] = np.zeros((layers_dims[l],1))
        ### END CODE HERE ###
        
    return parameters

In [None]:
parameters = initialize_parameters_he([2, 4, 1])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**Expected Output**:

<table> 
    <tr>
    <td>
    **W1**
    </td>
        <td>
    [[ 1.78862847  0.43650985]
 [ 0.09649747 -1.8634927 ]
 [-0.2773882  -0.35475898]
 [-0.08274148 -0.62700068]]
    </td>
    </tr>
    <tr>
    <td>
    **b1**
    </td>
        <td>
    [[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]
    </td>
    </tr>
    <tr>
    <td>
    **W2**
    </td>
        <td>
    [[-0.03098412 -0.33744411 -0.92904268  0.62552248]]
    </td>
    </tr>
    <tr>
    <td>
    **b2**
    </td>
        <td>
    [[ 0.]]
    </td>
    </tr>

</table> 

Hãy thử train mô hình với 15,000 lần lặp.

In [None]:

layers_dims = [train_X.shape[0], 10, 5, 1]
parameters = model(train_X, train_Y, layers_dims, init_method = "he")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)

In [None]:
plt.title("Model with He initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, train_Y)

Ta thấy cost giảm sau mỗi lần lặp, điều này chứng tỏ mô hình học được. Thực tế ở ví dụ này kích thước các layer không khác nhau nhiều, nên ta có thể thử các mức scale khác nhau và cũng có thể đạt được mức cost tương tự. Ở những mô hình mà kích thước các layer khác nhau nhiều thì ta không thể nào tìm và set một mức scale phù hợp cho mô hình mà không bị hiện tượng vanishing gradient hoặc exploding gradient. 

Ở Assignment Neural Network L layer, mô hình không học được (cost không giảm sau các lần lặp) là do hiện tượng vanishing gradient. Ta hãy thử lại đúng Neural Network đấy nhưng lần này khởi tạo theo phương pháp "He" xem kết quả thế nào nhé.


## 5 - Thử lại với tập dữ liệu ảnh mèo

In [None]:
import h5py
def load_cat_dataset():
    print('here')
    train_dataset = h5py.File('Deeplearning/datasets/train_catvnoncat.h5', "r")
    train_set_x_orig = np.array(train_dataset["train_set_x"][:]) # your train set features
    train_set_y_orig = np.array(train_dataset["train_set_y"][:]) # your train set labels
    test_dataset = h5py.File('Deeplearning/datasets/test_catvnoncat.h5', "r")
    test_set_x_orig = np.array(test_dataset["test_set_x"][:]) # your test set features
    test_set_y_orig = np.array(test_dataset["test_set_y"][:]) # your test set labels
    classes = np.array(test_dataset["list_classes"][:]) # the list of classes
    train_set_y_orig = train_set_y_orig.reshape((1, train_set_y_orig.shape[0]))
    test_set_y_orig = test_set_y_orig.reshape((1, test_set_y_orig.shape[0]))
    
    train_set_x_flatten = train_set_x_orig.reshape(train_set_x_orig.shape[0],-1).T
    test_set_x_flatten =  test_set_x_orig.reshape(test_set_x_orig.shape[0],-1).T


    train_set_x = train_set_x_flatten/255.
    test_set_x = test_set_x_flatten/255.


    return train_set_x, train_set_y_orig, test_set_x, test_set_y_orig, classes

train_X, train_Y, test_X, test_Y, classes = load_cat_dataset()



#layers_dims = [12288, 20, 7, 1] # 4-layer model
layers_dims = [train_X.shape[0], 10, 5, 1]
parameters = model(train_X, train_Y, layers_dims, learning_rate = 0.005, num_iterations = 15000, init_method = "he")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)

Ta thấy mô hình học rất tốt (cost giảm qua các lần lặp và độ chính xác trên tập train là 1.0). Tuy nhiên độ chính xác trên tập test lại không cao, đây là dấu hiệu của overfitting. Các bạn sẽ học được cách giảm overfitting sử dụng các phương pháp regulization ở bài tập sau.

Lưu ý: với bài tập này, nếu giảm số lần lặp thì độ chính xác trên tập train giảm, nhưng độ chính xác trên tập test lại tăng (thật ra giảm số lần lặp cũng là một phương pháp regulization gọi là Early Stopping).