<h1 align="center" class="jp-toc-ignore" style="color: LightSeaGreen">Coder Mê Tài Chính</h1>

---
<table width="100%" style="border:0px;">
    <tr style="font-size: 14pt">
        <td><b>Evangelist:</b> Lê Minh Đạt</td>
        <td><b>Email:</b> <a href="mailto:sirminhdat@gmail.com">sirminhdat@gmail.com</a></td>
        <td><b>Zalo:</b> 0919 564 515</td>
    </tr>
</table>

<center><h1 class="jp-toc-ignore"><b>Machine Learning Cơ Bản</b></h1></center>

<center>
    <h1 style="color: Crimson; margin-top:10px; margin-bottom:0px">Hồi Quy Tuyến Tính Đa Biến</h1>
    <h1 style="color: Crimson; margin-top:10px; margin-bottom:0px">(Multivariate Linear Regression)</h1>
</center>

Bây giờ, ngoài cái thông tin diện tích (Size) thì chúng ta có thêm thông tin để dự đoán giá nhà (Price) gồm: Số Phòng ngủ (Number of Bedrooms), số tầng (Number of Floors), số tuổi căn nhà (Age of House)

| Size (sqft) | Number of Bedrooms  | Number of floors | Age of  House | Price (1000s dollars)  |   
| ----------------| ------------------- |----------------- |--------------|-------------- |  
| 2104            | 5                   | 1                | 45           | 460           |  
| 1416            | 3                   | 2                | 40           | 232           |  
| 852             | 2                   | 1                | 35           | 178           |  

In [30]:
import numpy as np

In [31]:
X_train = np.array([
    [2104, 5, 1, 45],
    [1416, 3, 2, 40],
    [852, 2, 1, 35]
])

y_train = np.array([460, 232, 178])

<h3>Model function</h3>

Do chúng ta có nhiều thông tin (feature) hơn, vì vậy chúng ta phải dùng ma trận để biểu diễn những giá trị của các features này:

$$
\Large 
\mathbf{X}_{m \times n} = 
\begin{bmatrix}
x^{(0)}_0 & x^{(0)}_1 & \cdots & x^{(0)}_{n-1} \\
x^{(1)}_0 & x^{(1)}_1 & \cdots & x^{(1)}_{n-1} \\
\vdots & \vdots & \ddots & \vdots \\
x^{(m-1)}_0 & x^{(m-1)}_1 & \cdots & x^{(m-1)}_{n-1} 
\end{bmatrix}
$$

Ký hiệu:
- $\mathbf{X}^{(i)}$: là dòng (vector) thứ $i$. $\mathbf{X}^{(i)}$ $ = (x^{(i)}_0, x^{(i)}_1, \cdots,x^{(i)}_{n-1})$
- $x^{(i)}_j$: là phần tử thứ $j$ của dòng (vector) thứ $i$.


Dựa vào cái linear regression model với 1 biến, chúng ta có thể mở rộng model này cho nhiều biến:

$$
\Large f_{\mathbf{W},b}(\mathbf{X}) = w_{0}x_{0} + w_{1}x_{1} + \cdots + w_{n-1}x_{n-1} + b \tag1
$$

Model theo kiểu vector:

$$
\Large f_{\mathbf{W},b}(\mathbf{X}) = \mathbf{X} \cdot \mathbf{W} + b  \tag2
$$

Parameter $w, b$:

$\mathbf{W}$ là một vector cột có $n$ phần tử:

$$
\Large
\mathbf{W}_{n \times 1} = 
\begin{bmatrix}
w_0 \\ 
w_1 \\
\vdots\\
w_{n-1}
\end{bmatrix}
$$

$b$ là một số thực (scalar)

<h3>Cost function</h3>

$$
\Large
J(\mathbf{W}, b) = \frac{1}{2m}\sum_{i=1}^{m} \bigl(f_{\mathbf{W}, b}(\mathbf{X}^{(i)}) - y^{(i)}\bigr)^2 \tag3
$$

Với:

$$
\Large 
f_{\mathbf{W},b}(\mathbf{X}^{(i)}) = \mathbf{W} \cdot \mathbf{X}^{(i)} + b \tag4
$$

Note:
- Trong Numpy, vector dòng cũng được biểu diễn là 1 vector cột

<h4>Viết code cho hàm chi phí (Cost function)</h4>

In [32]:
def compute_cost(X, y_vector, w_vector, b):
    """
    Parameters:
        X (numpy.ndarray(m,n)): Feature data with m samples (observations) and n features (columns)
        y_vector (numpy.ndarray(m,)): Target values
        w_vector (numpy.ndarray(n,)):  Model parameter
        b (scalar): Model parameter

    Return:
        j_wb (float): The cost of using parameters w_vector, b for linear regression
               to fit the data points in X and y_vector
    """

    m_samples = X.shape[0]
    sum_cost = 0

    for i in range(m_samples):
        f_wb = w_vector.dot(X[i]) + b # tính f_wb thứ i
        sum_cost += (f_wb - y_vector[i]) ** 2 # Tính bình phương sai số và cộng dồn vào biến tổng
        
    j_wb = sum_cost / (2 * m_samples)
    return j_wb

In [33]:
#init w, b
b = 750.27
w = np.array([0.35, 25.68, -53.42, -33.12])

In [34]:
compute_cost(X_train, y_train, w, b)

58630.386583333304

<h3>Gradient Descent</h3>

<h4>Khai triển công thức tính đạo hàm của Cost function</h4>

Thay $(4)$ vào $(3)$, ta được Cost function như sau:

$$
\Large
J(\mathbf{W}, b) = \frac{1}{2m}\sum_{i=1}^{m} \bigl([\mathbf{W} \cdot \mathbf{X}^{(i)} + b] - y^{(i)}\bigr)^2 \tag5
$$

Khai triển phép dot product $\mathbf{W} \cdot \mathbf{X}^{(i)}$:

$$
\Large
\mathbf{W} \cdot \mathbf{X}^{(i)} = w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1}
$$

$$
\Large
\Rightarrow J(\mathbf{W}, b) = \frac{1}{2m}\sum_{i=1}^{m} \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr)^2 \tag6
$$



Đưa $\dfrac{1}{2}$ vào trong tổng:

$$
\Large
\Rightarrow J(\mathbf{W}, b) = \frac{1}{m}\sum_{i=1}^{m}\frac{1}{2} \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr)^2 \tag7
$$

Gọi $L(\mathbf{W},b)^{(i)}$ là hàm lost thành phần thứ $i$:

$$
\Large L(\mathbf{W},b)^{(i)} = \frac{1}{2}\bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr)^2 \tag8
$$
$\newline$
$$
\Large\Rightarrow J(\mathbf{W},b) = \frac{1}{m}\sum_{i=1}^{m}L(\mathbf{W},b)^{(i)} \tag9
$$

Từ $(9)$, lấy đạo hàm 2 vế theo $w_j$ và $b$:

$$
\begin{align}
\Large  \frac{\partial J(\mathbf{W},b)}{\partial w_j} =& \Large \frac{1}{m}\sum_{i=1}^{m} \frac{\partial L(\mathbf{W},b)^{(i)}}{\partial w_j} \quad\quad \large j = [0 .. n-1] \tag{10} \\ \\
\Large \frac{\partial J(\mathbf{W},b)}{\partial b} =& \Large \frac{1}{m}\sum_{i=1}^{m} \frac{\partial L(\mathbf{W},b)}{\partial b}^{(i)} \tag{11}
\end{align}
$$

Từ $(8)$, lấy đạo hàm 2 vế theo $w_j$ và $b$:

$$
\begin{align}
\Large  \frac{\partial L(\mathbf{W},b)^{(i)}}{\partial w_j} =& \Large \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr)x_{j}^{(i)} \quad\quad \large j = [0 .. n-1] \tag{12} \\ \\
\Large \frac{\partial L(\mathbf{W},b)^{(i)}}{\partial b} =& \Large \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr) \tag{13}
\end{align}
$$

**Note:**
Nếu $u$ là hàm hợp: $(u^k)'=k.u^{(k-1)}.(u)'$

Thay $(12)$ vào $(10)$, $(13)$ vào $(11)$:

$$
\begin{align}
\Large  \frac{\partial J(\mathbf{W},b)}{\partial w_j} =& \Large \frac{1}{m}\sum_{i=1}^{m} \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr)x_{j}^{(i)} \quad\quad \large j = [0 .. n-1] \tag{14} \\ \\
\Large \frac{\partial J(\mathbf{W},b)}{\partial b} =& \Large \frac{1}{m}\sum_{i=1}^{m} \bigl([w_{0}x^{(i)}_{0} + w_{1}x^{(i)}_{1} + \cdots + w_{n-1}x^{(i)}_{n-1} + b] - y^{(i)}\bigr) \tag{15}
\end{align}
$$

<h4>Viết code cho hàm tính đạo hàm Cost function theo $\mathbf{W}$, b</h4>

In [35]:
def compute_partial_derivative(X, y_vector, w_vector, b):
    """
    Parameters:
        X (numpy.ndarray(m,n)): Feature data with m samples (observations) and n features (columns)
        y_vector (numpy.ndarray(m,)): Target values
        w_vector (numpy.ndarray(n,)):  Model parameter
        b (scalar): Model parameter

    Return:
        dj_dw (ndarray (n,)): The derivative value with respect to w
        dj_db (scalar): The derivative value with respect to b  
    """
    m_samples, n_features = X.shape
    dj_w = np.zeros([n_features])
    dj_b = 0
    
    for i in range(m_samples):
        f_wb = w_vector.dot(X[i]) + b
        dj_b += (f_wb - y_vector[i])
        for j in range(n_features):
            dj_w[j] += (f_wb - y_vector[i]) * X[i, j]
                
    dj_dw = dj_w / m_samples # dj_dw có shape(n,): mỗi phần tử của dj_dw là giá trị đạo hàm tương ứng của mỗi w trong w_vector
    dj_db = dj_b / m_samples # dj_db là số thực
    return dj_dw, dj_db

In [36]:
_dj_dw, _dj_db = compute_partial_derivative(X_train, y_train, w, b)
print(f'dj_dw at initial w,b: {_dj_dw}')
print(f'dj_db at initial w,b: {_dj_db}')

dj_dw at initial w,b: [-5.16052253e+05 -1.18250667e+03 -4.53666667e+02 -1.37668667e+04]
dj_db at initial w,b: -340.0899999999999


Cập nhật $w_j,b$ cho đến khi hàm cost $J(\mathbf{w},b)$ đạt cực tiểu (hoặc hội tụ), với $\eta$ (đọc là eta) là learning rate

$$
\begin{align}
\Large w_j &= \Large w_j - \eta \frac{\partial J(\mathbf{W},b)}{\partial w_j} \quad\quad \large j = [0 .. n-1] \\ \\
\Large b &= \Large b - \eta \frac{\partial J(\mathbf{W},b)}{\partial b} \\
\end{align}
$$

**Note:** Hàm cost $J(\mathbf{W},b)$ đạt cực tiểu khi $\dfrac{\partial J(\mathbf{W},b)}{\partial w_j}=0$ và $\dfrac{\partial J(\mathbf{W},b)}{\partial b}=0$

<h4>Viết code cho hàm tính Gradient Descent</h4>

In [37]:
def compute_gradient_descent(X, y, n_iters=1000, w_init=None, b_init=0, eta=0.01):
    """
    Parameters:
        X (numpy.ndarray(m,n)) : Feature data with m samples (observations)
        y (numpy.ndarray(m,)) : Target values
        n_iters (int) : Number of iterations to run gradient descent
        eta (float) : learning rate value between 0 and 1
        w_init (numpy.ndarray(n,)) : Initial values of model parameter w
        b_init (scalar) : Initial values of model parameter b

    Return:
        w (numpy.ndarray(n,)) : Updated values of parameters w
        b (scalar) : Updated value of parameter b
        trace (dict) : history value in each step of:
                            cost,
                            wb (values of w, b),
                            dj (derivative values of w, b)
    """
    m, n = X.shape
    w = np.zeros(n)
    b = b_init
    
    cost_hist = [] # Lưu cost ở từng bước thứ i
    wb_hist = [] # Lưu {w, b} ở từng bước thứ i
    dj_hist = [] # Lưu {dj_dw, dj_db} ở từng bước thứ i

    threshold = 10e4 # Ngưỡng giá trị để không lưu cost, wb, dj nếu như n_iters lớn hơn giá trị này, tránh bị tốn RAM
    
    if w_init != None:
        w = w_init

    for i in range(int(n_iters)):
        dj_dw, dj_db = compute_partial_derivative(X, y, w, b)
        w = w - eta * dj_dw # Cập nhật giá trị mới cho w
        b = b - eta * dj_db # Cập nhật giá trị mới cho b
        cur_cost = compute_cost(X, y, w, b)
        if i < threshold:
            cost_hist.append(cur_cost)
            wb_hist.append({'w': w, 'b': b})
            dj_hist.append({'w': {'dj_dw': dj_dw, 'eta*dj_dw': (eta * dj_dw)}, 'b': {'dj_db': dj_db, 'eta*dj_db': (eta * dj_db)}})

        # In các giá trị của cost, w, b, đạo hàm tại các bước
        if i % np.ceil(n_iters/10) == 0:
                print(f"Step {i:4}:")
                print(f"\tCost: {cur_cost}")
                print(f"\tdj_dw: {dj_dw}\tdj_db: {dj_db}")
                print(f"\tw: {w}\tb: {b}")           

    trace = { 
        'cost': cost_hist,
        'wb': wb_hist,
        'dj': dj_hist
    }
    return w, b, trace

In [46]:
_n_iters = 10000
_eta = 1.0e-8
_w, _b, _trace = compute_gradient_descent(X_train, y_train, n_iters=_n_iters, eta=_eta)
print("="*100)
print(f"w,b discovered by Gradient Descent: w={_w} | b={_b}")
print(f"Cost: {_trace['cost'][-1]}")
print("The convergence of the derivative process with learning rate:")
print(f"dj_dw={_trace['dj'][-1]['w']} | dj_db={_trace['dj'][-1]['b']}")

Step    0:
	Cost: 47214.659575642494
	dj_dw: [-4.82669333e+05 -1.11733333e+03 -3.67333333e+02 -1.20700000e+04]	dj_db: -290.0
	w: [4.82669333e-03 1.11733333e-05 3.67333333e-06 1.20700000e-04]	b: 2.9e-06
Step 1000:
	Cost: 696.8634057598148
	dj_dw: [ -3.67651396  -6.58990488  22.98155941 145.02042644]	dj_db: 4.8256566381728305
	w: [ 2.02203110e-01  5.31208205e-04 -6.65910849e-05  3.66405698e-03]	b: 7.516305370641109e-05
Step 2000:
	Cost: 696.6472028846148
	dj_dw: [ -3.67321158  -6.58897456  22.97491163 144.89078627]	dj_db: 4.821094328505315
	w: [ 0.20223986  0.0005971  -0.00029637  0.0022145 ]	b: 2.692932502294877e-05
Step 3000:
	Cost: 696.4313793733622
	dj_dw: [ -3.66992758  -6.5880451   22.96826972 144.76126095]	dj_db: 4.8165360656227945
	w: [ 0.20227657  0.00066299 -0.00052609  0.00076624]	b: -2.1258800777693547e-05
Step 4000:
	Cost: 696.2159345519202
	dj_dw: [ -3.66664649  -6.58711645  22.96163368 144.63185077]	dj_db: 4.811981855363389
	w: [ 0.20231326  0.00072886 -0.00075574 -0.00068

<h3>Tổng hợp lại vào một class</h3>

In [39]:
class ViiLinearRegression:
    """
    Parameters:
        n_iters (int) : Number of iterations
        eta (float) : Learning rate
        w (numpy.ndarray(n,)) : Model parameter
        b (scalar) : Model parameter
    """
    
    def __init__(self, n_iters=10000, eta=0.01):
        self.n_iters = int(n_iters)
        self.eta = eta
        self.w = None
        self.b = None

    def fit(self, X, y):
        _w, _b = self._compute_gradient_descent(X, y)
        self.w = _w
        self.b = _b

    def predict(self, X):
        preds = X.dot(self.w) + self.b # X(mxn).w(nx1) => vector(mx1)
        return preds

    def mse(self, preds, y_test):
        """
        Compute the Mean Squared Error
        """
        return np.mean((preds - y_test) ** 2)
        
    #===============================================
    def _compute_cost(self, X, y_vector, w_vector, b):
        """
        Parameters:
            X (numpy.ndarray(m,n)): Feature data with m samples (observations) and n features (columns)
            y_vector (numpy.ndarray(m,)): Target values
            w_vector (numpy.ndarray(n,)):  Model parameter
            b (scalar): Model parameter
    
        Return:
            j_wb (float): The cost of using parameters w_vector, b for linear regression
                   to fit the data points in X and y_vector
        """
        j_wb = np.mean(((X.dot(w_vector) + b) - y_vector) ** 2) / 2
        return j_wb
        
    def _compute_partial_derivative(self, X, y_vector, w_vector, b):
        """
        Parameters:
            X (numpy.ndarray(m,n)): Feature data with m samples (observations) and n features (columns)
            y_vector (numpy.ndarray(m,)): Target values
            w_vector (numpy.ndarray(n,)):  Model parameter
            b (scalar): Model parameter
    
        Return:
            dj_dw (ndarray (n,)): The derivative value with respect to w
            dj_db (scalar): The derivative value with respect to b  
        """
        m_samples = X.shape[0]        

        dj_b = (X.dot(w_vector) + b) - y_vector # dj_b có shape(m,)
        dj_w = np.dot(X.T, dj_b) # dj_w has có shape(n,)

        dj_dw = dj_w / m_samples # dj_dw có shape(n,): mỗi phần tử của dj_dw là giá trị đạo hàm tương ứng của mỗi w trong w_vector
        dj_db = dj_b.mean() # dj_db là số thực
        return dj_dw, dj_db

    def _compute_gradient_descent(self, X, y_vector):
        """
        Parameters:
            X (numpy.ndarray(m,n)) : Feature data with m samples (observations)
            y_vector (numpy.ndarray(m,)) : Target values
    
        Return:
            w (numpy.ndarray(n,)) : Updated values of parameters w
            b (scalar) : Updated value of parameter b            
        """
        _, n_features = X.shape
        w = np.zeros(n_features)
        b = 0
                
        for _ in range(self.n_iters):
            dj_dw, dj_db = self._compute_partial_derivative(X, y_vector, w, b)
            w = w - self.eta * dj_dw # Cập nhật giá trị mới cho w
            b = b - self.eta * dj_db # Cập nhật giá trị mới cho b

        return w, b

In [40]:
_n_iters = 10000
_eta = 1.0e-8
lin_reg = ViiLinearRegression(n_iters=_n_iters, eta=_eta)
lin_reg.fit(X_train, y_train)
print(f"w,b discovered by Gradient Descent: w={lin_reg.w} | b={lin_reg.b}")

w,b discovered by Gradient Descent: w=[ 0.20253263  0.00112386 -0.00213202 -0.00933395] | b=-0.00035725435431902723


In [41]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [42]:
df = pd.read_csv('data/ames_boston_housing_price.csv')
df[0:5]

Unnamed: 0,size(sqft),bedrooms,floors,age,price(1000USD)
0,1244.0,3.0,1.0,64.0,300.0
1,1947.0,3.0,2.0,17.0,509.8
2,1725.0,3.0,2.0,42.0,394.0
3,1959.0,3.0,2.0,15.0,540.0
4,1314.0,2.0,1.0,14.0,415.0


In [43]:
X_data = df[["size(sqft)", "bedrooms", "floors", "age"]].to_numpy()
y_data = df['price(1000USD)'].to_numpy()

In [44]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X_data, y_data, test_size=0.3, random_state=2024)

In [45]:
_n_iters = 10000
_eta = 1.0e-8
lin_reg2 = ViiLinearRegression(n_iters=_n_iters, eta=_eta)
lin_reg2.fit(X_train2, y_train2)
preds = lin_reg2.predict(X_test2)
print(f"w,b discovered by Gradient Descent: w={lin_reg2.w} | b={lin_reg2.b}")
print("="*50)
print(f"Predictions: {np.round(preds, 2)}")
print(f"y_test: {y_test2}")
print(f"MSE: {lin_reg2.mse(preds, y_test2)}")

w,b discovered by Gradient Descent: w=[ 0.25343629 -0.00027522 -0.00060382 -0.07321296] | b=0.0006128526200788889
Predictions: [332.5  302.81 263.75 250.72 424.59 272.07 275.31 309.33 511.18 500.95
 464.06 464.86 214.14 446.76 291.81 213.67 657.07 374.93 417.14 495.38
 408.38 193.85 259.03 240.99 415.22 434.1  276.04 441.92 236.38 364.64]
y_test: [400.282 369.8   284.    298.    401.    282.    304.    329.    390.
 450.    560.    460.    230.    449.8   275.    311.8   666.336 348.
 502.    540.    464.    200.    267.4   264.    430.    394.    290.
 350.    216.    350.   ]
MSE: 2503.670890317518
