### 1. Nhắc lại về Gradient Descent 

Gradient Descent là một thuật toán lặp tối ưu hoá được sử dụng trong các bài toán Machine Learning / Deep Learning (thường là các bài toán tối ưu lồi — Convex Optimization).

<img src="images/gd-2.png" style="width:50%;height:50%;">

Cách mà thuật toán Gradient Descent thực hiện là lấy đạo hàm của Cost Function theo $\theta$ (hay còn gọi là Weight - trọng số). Chúng ta đang cố gắng đưa chấm đen trên hình càng gần về điểm Minimum càng tốt bằng cách di chuyển **ngược dấu** với đạo hàm.

### 2. Batch Gradient Descent

Thuật toán Gradient Descent từ đầu cho đến bài này chúng ta đều sử dụng Batch Gradient Descent. Có nghĩa là: chúng ta đang sử dụng **toàn bộ dữ liệu** của tập training khi cập nhật tham số $\theta$. Nhược điểm của phương pháp này là với bộ dữ liệu lớn (hàng triệu dữ liệu) thì mỗi lần thực hiện tính toán đạo hàm tại mỗi vòng lặp sẽ rất tốn thời gian.

Ví dụ: Xét bài toán Linear Regression với $m$ dữ liệu training.

<img src="images/gd/1.png" style="width:70%;height:70%;">

Bây giờ thuật toán Batch Gradient Descent của chúng ta sẽ sử dụng toàn bộ tập dữ liệu.

<img src="images/gd/2.png" style="width:70%;height:70%;">

Nếu chúng ta có m = 3 triệu dữ liệu thì mỗi lần cập nhật $\theta$ sẽ phải tính 3 triệu lần hoặc sử dụng Vector hoá nhưng cũng gây tốn thời gian tính.

In [1]:
# Mã code Gradient Descent
def gradientDescent(X, y, theta, alpha, num_iters):
    """
       Thực hiện Gradient để tìm theta
    """
    m = y.size  # số lượng training
    for epoch in range(num_iters):
        y_hat = np.dot(X, theta)
        theta = theta - alpha * (1.0/m) * np.dot(X.T, y_hat-y)
    return theta

### 3. Stochastic Gradient Descent 

Trong Stochastic Gradient Descent (SGD), tại mỗi vòng lặp ta chỉ tính đạo hàm của hàm mất mát dựa trên **chỉ một** điểm dữ liệu $x_i$ rồi cập nhật $\theta$ dựa trên đạo hàm này. Chú ý hàm mất mát ở đây được lấy trung bình trên mỗi điểm dữ liệu nên đạo hàm tại một điểm cũng được kỳ vọng là khá gần với đạo hàm của hàm mất mát trên mọi điểm dữ liệu.

<img src="images/gd/3.png" style="width:70%;height:70%;">

In [2]:
# Mã giả thực hiện SGD 
def SGD(X, y, theta, alpha, num_iters):
    m = y.size
    for epoch in range(num_iters):
        for i in range(m):
            # lấy ngẫu nhiên 1 sample
            random_index = np.random.randint(m)
            xi = X[random_index:random_index+1]
            yi = y[random_index:random_index+1]
            
            """
            Thực hiện tính SGD cho xi, yi.
            Chúng ta sẽ thực hành chi tiết về SGD trong phần bài tập.
            """
       
    return theta

### 4. Mini-batch Gradient Descent 

Đúng theo cái tên của nó là Mini-batch tức chúng ta sẽ lấy một số lượng $k$ dữ liệu training với $1 < k < m$. Ta sẽ chia mỗi mini-batch có $k$ dữ liệu, có trường hợp mini-batch cuối cùng sẽ ít hơn $k$ nếu $m$ không chia hết cho $k$.

Chú ý rằng trong mỗi Epoch chúng ta sẽ xáo trộn dữ liệu ngẫu nhiên rồi chia vào mỗi mini-batch.

In [3]:
# Mã giả thực hiện Mini-batch GD 

def mini_batch_gradient_descent(X, y, theta, alpha, num_iters):

    m = y.size
    minibatch_size = 5
    
    for epoch in range(num_iters):
        shuffled_indices = np.random.permutation(m)
        X_b_shuffled = X_b[shuffled_indices]
        y_shuffled = y[shuffled_indices]
                
        for i in range(0, m, minibatch_size):
            xi = X_b_shuffled[i:i+minibatch_size]
            yi = y_shuffled[i:i+minibatch_size]
            
            """
            Thực hiện cập nhật theta với Mini-batch size = 5
            Chúng ta sẽ thực hành chi tiết về Mini-batch GD trong phần bài tập.
            """
    return theta


### 5. So sánh tốc độ hội tụ

Vì SGD sử dụng từng mẫu đơn cho tốc độ tính toán đạo hàm nhanh hơn nhưng tốc độ hội tụ của nó lâu hơn so với Mini-batch GD.

<img src="images/gd/gd_sgd.png" style="width:70%;height:70%;">

Mini-batch GD thường được sử dụng hơn vì:
- Tốc độ hội tụ nhanh hơn Stochastic Gradient Descent.
- Tốc độ tính đoạ hàm nhanh hơn Batch Gradient Descent.

### Tài liệu tham khảo 

[1] [CS230 - Deep Learning]()

[2] [Biến thể của Gradient Descent - Machine Learning Cơ Bản](https://machinelearningcoban.com/2017/01/16/gradientdescent2/#-batch-gradient-descent)

[3] [Difference between Batch Gradient Descent and Stochastic Gradient Descent](https://towardsdatascience.com/difference-between-batch-gradient-descent-and-stochastic-gradient-descent-1187f1291aa1)