## Programming Assignment: Stochastic, Mini-batch, Batch Gradient Descent

Chào mừng các bạn đến với bài tập lập trình về Stochastic, Mini-batch, Batch Gradient Descent. Trước khi thực hiện bài tập này, các bạn nên học kỹ các kiến thức lý thuyết. Nếu có bất kỳ câu hỏi hay vấn đề nào xảy ra, các bạn hãy để lại comment trực tiếp bên dưới bài đăng hoặc liên hệ qua Fanpage AIVIETNAM.

### Hướng dẫn làm bài 
- Trong bài tập này bạn sẽ sử dụng Python 3.
- Cố gắng không sử dụng các vòng lặp (for, while). 
- Hãy sử dụng các hàm của thư viện numpy.
- Sau khi bạn viết Code của mình xong, hãy chạy dòng Code đó để xem kết quả bên dưới. 

Các bạn sẽ bắt đầu Code trong phần `### START CODE HERE ###` và `### END CODE HERE ###`. Các bạn nhớ đừng sửa bất kỳ dòng Code nào bên ngoài những câu lệnh này. 

Sau khi viết xong Code của bạn, bạn hãy ấn "SHIFT"+"ENTER" để thực hiện chạy lệnh của Cell đó. 

Trong phần Code: các bạn hãy cố gắng thực hiện ít dòng Code nhất theo chỉ định "(≈ X lines of code)". Mặc dù đây không phải là hạn chế về số dòng Code của bạn, nhưng hãy tối ưu sao cho ít nhất có thể.

### Nhiệm vụ 

Trong bài tập này, các bạn sẽ đánh giá sự khác nhau giữa các biến thể của Gradient Descent.

### 1. Xây dựng bộ dữ liệu 

In [None]:
# Import thư viện 
import numpy as np 
import matplotlib.pyplot as plt 
%matplotlib inline

# Tạo dữ liệu m = 8000
mean = np.array([5.0, 6.0]) 
cov = np.array([[1.0, 0.95], [0.95, 1.2]]) 
data = np.random.multivariate_normal(mean, cov, 8000) 
  
# Trực quan hoá 500 dữ liệu ban đầu 
plt.scatter(data[:500, 0], data[:500, 1], marker = '.') 
plt.show() 

Thêm cột dữ liệu 1 vào data:

In [None]:
data = np.hstack((np.ones((data.shape[0], 1)), data)) 

Chia dữ liệu thành tập Train và tập Test
```
Tỷ lệ: split_factor = 0.90 
```

In [None]:
split_factor = 0.90
split = int(split_factor * data.shape[0]) 
  
X_train = data[:split, :-1] 
y_train = data[:split, -1].reshape((-1, 1)) 
X_test = data[split:, :-1] 
y_test = data[split:, -1].reshape((-1, 1)) 
  
print("Số lượng dữ liệu trong tập Train = % d"%(X_train.shape[0])) 
print("Số lượng dữ liệu trong tập Test = % d"%(X_test.shape[0])) 

### 2. Xây dựng thuật toán Linear Regression 

#### 1. Hàm giả thuyết

>$h_{\theta}(X) = X\theta$

#### 2. Cost Function

> $J(\theta) = \dfrac{1}{2m} (X\theta - \vec{y} )^T(X\theta - \vec{y})$

#### 3. Gradient

> $grad = X^T (X\theta - \vec{y}) $


In [None]:
# Hàm giả thuyết 
def hypothesis(X, theta): 
    return np.dot(X, theta) 

# Hàm mất mát 
def cost(X, y, theta): 
    h = hypothesis(X, theta) 
    J = np.dot((h - y).T, (h - y)) 
    J /= 2
    return J[0] 

# Gradient 
def gradient(X, y, theta): 
    h = hypothesis(X, theta) 
    grad = np.dot(X.T, (h - y)) 
    return grad 

#### 4. Gradient Descent 

**Bài tập:** Xây dựng Gradient Descent 

Trong phần này, chúng ta sẽ xây dựng thuật toán Gradient Descent:

> $\theta:= \theta - \frac{\alpha}{m} * grad $

Với `minibatch_size` tuỳ chọn ta có thể tạo thành 3 loại:
```
minibatch_size = 1: Stochastic Gradient Descent 
minibatch_size = m (số lượng train): Batch Gradient Descent 
minibatch_size = k (1 < k < m): Mini-batch Gradient Descent 
```

In [None]:
import time
def gradient_descent(X, y, learning_rate,  minibatch_size, n_iterations = 50):

    start_time = time.time()
    
    theta = np.zeros((X.shape[1], 1)) 
    losses = []
    
    m_train = y.shape[0]
    
    for epoch in range(n_iterations):
        
        ### START CODE HERE ### (≈ 3 line of code)
        """
        Xáo trộn bộ dữ liệu sử dụng hàm: numpy.random.permutation()
        """
        shuffled_indices = None
        X_shuffled = None
        y_shuffled = None
        ### END CODE HERE ###
        
        for i in range(0, m_train, minibatch_size):
            
            ### START CODE HERE ### (≈ 3 line of code)
            """
            Chia dữ liệu sau khi xáo trộn vào các batch 
            X_shuffled[i:i+minibatch_size]
            """
            xi = None
            yi = None
            ### END CODE HERE ###
            
            m = yi.shape[0]
            
            ### START CODE HERE ### (≈ 1 line of code)
            theta = None
            ### END CODE HERE ###
            
            losses.append(cost(xi, yi, theta))
            
    print("--- Thời gian chạy: %s seconds ---" % (time.time() - start_time))
            
    return theta, losses

**Bài tập:** Gọi hàm `gradient_descent` đã xây dựng và thực hiện so sánh giữa các thuật toán.

### 3. Stochastic Gradient Descent 

```
learning_rate = 0.001
minibatch_size = 1
```

In [None]:
### START CODE HERE ### (≈ 1 line of code)
theta, losses = None
### END CODE HERE ###

print("Bias = ", theta[0]) 
print("Coefficients = ", theta[1:]) 
print("Loss: ", losses[-1])
  
# visualising gradient descent 
plt.plot(losses) 
plt.xlabel("Number of iterations") 
plt.ylabel("Cost") 
plt.show() 

In [None]:
# predicting output for X_test 
y_pred = hypothesis(X_test, theta) 
plt.scatter(X_test[:, 1], y_test[:, ], marker = '.') 
plt.plot(X_test[:, 1], y_pred, color = 'orange') 
plt.show() 
  
# calculating error in predictions 
error = np.sum(np.abs(y_test - y_pred) / y_test.shape[0]) 
print("Mean absolute error = ", error) 

### 4. Mini-batch Gradient Descent 

```
learning_rate = 0.001
minibatch_size = k (k tuỳ chọn: thường là 8, 16, 32, 64, ...)
```

In [None]:
### START CODE HERE ### (≈ 1 line of code)
theta, losses = None
### END CODE HERE ###

print("Bias = ", theta[0]) 
print("Coefficients = ", theta[1:]) 
print("Loss: ", losses[-1])
  
# visualising gradient descent 
plt.plot(losses) 
plt.xlabel("Number of iterations") 
plt.ylabel("Cost") 
plt.show() 

In [None]:
# predicting output for X_test 
y_pred = hypothesis(X_test, theta) 
plt.scatter(X_test[:, 1], y_test[:, ], marker = '.') 
plt.plot(X_test[:, 1], y_pred, color = 'orange') 
plt.show() 
  
# calculating error in predictions 
error = np.sum(np.abs(y_test - y_pred) / y_test.shape[0]) 
print("Mean absolute error = ", error) 

### 5. Batch Gradient Descent 

```
learning_rate = 0.001
minibatch_size = m (số lượng train)
```
Nhận xét: với `learning_rate = 0.001` giống với 2 thuật toán bên trên. Các bạn sẽ thấy thuật toán không tối ưu. Hãy lựa chọn `learning_rate` khác tối ưu hơn.

In [None]:
### START CODE HERE ### (≈ 1 line of code)
theta, losses = None
### END CODE HERE ###

print("Bias = ", theta[0]) 
print("Coefficients = ", theta[1:]) 
print("Loss: ", losses[-1])
  
# visualising gradient descent 
plt.plot(losses) 
plt.xlabel("Number of iterations") 
plt.ylabel("Cost") 
plt.show() 

In [None]:
# predicting output for X_test 
y_pred = hypothesis(X_test, theta) 
plt.scatter(X_test[:, 1], y_test[:, ], marker = '.') 
plt.plot(X_test[:, 1], y_pred, color = 'orange') 
plt.show() 
  
# calculating error in predictions 
error = np.sum(np.abs(y_test - y_pred) / y_test.shape[0]) 
print("Mean absolute error = ", error) 

### Tổng kết

Thông qua bài tập này, các bạn đã nắm thấy rõ được sự khác nhau giữa các thuật toán:
- Với mỗi thuật toán khác nhau, việc lựa chọn Learning Rate có ảnh hưởng đến việc hội tụ của thuật toán.
- Thời gian chạy thuật toán.
