# Hồi quy tuyến tính

Ý tưởng, cho một tập dữ liệu gồm nhiều feature, trong đó có một feature cần dự đoán. Bạn nhận thấy được mối quan hệ tuyến tính giữa feature cần dự đoán với các feature còn lại.

#### Hàm dự đoán
Ta có: 
$$
\hat{y} = w_0x_0 + ... + w_nx_n = \mathbf{x}\mathbf{w} 
$$

Trong đó:
- $\mathbf{x} = [x_0, ..., x_n]$ là các Feature  
- $\mathbf{w} = [w_0, ..., w_n]^T$ là trọng số tương ứng

#### Hàm mất mát  
Thể hiện sai số giữa giá trị dự đoán của mô hình với giá trị thực tế trên tập dữ liệu huấn luyện (traning set)

Trong mô hình Linear Regression, hàm mất mát được sử dụng là MSE (Mean Square Error) có công thức như sau:  
$$
\mathcal{L}(\mathbf{w}) 
= \frac{1}{2N}\sum_{i = 1}^N{(y_i - \hat{y_i})^2}   
= \frac{1}{2N}\sum_{i = 1}^N{(y_i - \mathbf{x}_i\mathbf{w})^2}$$

Trong đó:
- $N$ là số dữ liệu trong traning set

Mục tiêu của chúng ta là đi tối thiểu hóa hàm mất mát hay chính là đi tìm nghiệm của phương trình:  
$$
\mathbf{w}^* = \argmin_{\mathbf{w}} \mathcal{L}(\mathbf{w}) 
$$

Ta có:
$$
\mathcal{L}(\mathbf{w}) 
= \frac{1}{2N}\sum_{i = 1}^N{(y_i - \mathbf{x}_i\mathbf{w})^2}
= \frac{1}{2N} 
\left\|
\begin{bmatrix}
y_1 \\
... \\
y_N
\end{bmatrix}
-
\begin{bmatrix}
\mathbf{x}_1\mathbf{w} \\
... \\
\mathbf{x}_N\mathbf{w}
\end{bmatrix}
\right\|_2^2
= \frac{1}{2N} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_2^2
$$

Xét: 
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{w}} 
= \frac{1}{N}\mathbf{X}^T(\mathbf{X}\mathbf{w} - \mathbf{y}) 
= 0
$$
$$
\Leftrightarrow \mathbf{X}^T(\mathbf{X}\mathbf{w} - \mathbf{y}) = 0
$$
$$
\Leftrightarrow \mathbf{X}^T\mathbf{X}\mathbf{w} = \mathbf{X}^T\mathbf{y}
$$
$$
\Leftrightarrow \mathbf{w} = (\mathbf{X}^T\mathbf{X})^+\mathbf{X}^T\mathbf{y}
$$

Với: $\mathbf{A}^+$ được gọi là giả nghịch đảo của $\mathbf{A}$ 




### Ví dụ

Xây dựng mô hình dự đoán cân nặng theo chiều cao, với số liệu được cho trước

$$
\begin{array}{|c|c||c|c|}
\hline
\text{Chiều cao (cm)} & \text{Cân nặng (kg)} & \text{Chiều cao (cm)} & \text{Cân nặng (kg)} \\
\hline
147 & 49 & 168 & 60 \\
150 & 50 & 170 & 72 \\
153 & 51 & 173 & 63 \\
155 & 52 & 175 & 64 \\
158 & 54 & 178 & 66 \\
160 & 56 & 180 & 67 \\
163 & 58 & 183 & 68 \\
165 & 59 &      &    \\
\hline
\end{array}
$$


#### Sử dụng Toán

In [121]:
import numpy as np
import matplotlib.pyplot as plt

class Model:
    def __init__(self):
        self.w = None
        self.coef_ = None
        self.intercept_ = None

    def fit(self, X, y_true):
        one = np.ones((X.shape[0], 1))
        Xbar = np.concatenate((one, X), axis = 1)
        self.w = np.linalg.pinv(Xbar.T @ Xbar) @ (Xbar.T @ y_true)
        self.intercept_ = self.w[0]
        self.coef_ = self.w[1:]
    
    def predict(self, data):
        X = data.reshape(-1, 1)
        one = np.ones((X.shape[0], 1))
        Xbar = np.concatenate((one, X), axis = 1)
        return Xbar @ self.w 
    
    def show(self):
        return self.coef_

In [122]:

# height (cm), input data, each row is a data point
X = np.array([[147, 150, 153, 158, 163, 165, 168, 170, 173, 175, 178, 180, 183]]).T
# weight (kg)
y = np.array([[ 49,  50,  51,  54,  58,  59,  60,  62,  63,  64,  66,  67,  68]]).T

model = Model()
model.fit(X, y)
X_test = np.array([[155], [160]])
y_pred = model.predict(X_test)
print(y_pred)


[[52.94135889]
 [55.7373837 ]]


#### Sử dụng Scikit-Learn

In [123]:
from sklearn import datasets, linear_model
regr = linear_model.LinearRegression()
regr.fit(X, y) # in scikit-learn, each sample is one row
X_test = np.array([[155], [160]])
y_pred = regr.predict(X_test)
print(y_pred)

[[52.94135889]
 [55.7373837 ]]


#### So sánh Kết quả

In [None]:
print(f"Scikit-learn’s solution:\nw_1 = {regr.coef_}, w_0 = {regr.intercept_}")
print(f"Our solution:\nw_1 = {model.coef_}, w_0 = {model.intercept_}")

Scikit-learn’s solution:
w_1 = [[0.55920496]], w_0 = [-33.73541021]
Our solution:
w_1 = [[0.55920496]], w_0 = [-33.73541021]


### Thảo luận

#### Các bài toán có thể sử dụng Linear Regession

#### Hạn chế của Linear Regession

#### Ridge Regression