## Bối cảnh

Bài toán **Linear Regression**:

<div align="center">

$ 
\hat{y} = \mathbf{w}^\top \mathbf{x} + b 
$

</div>

Mục tiêu: tìm $ \mathbf{w}, b $ sao cho hàm mất mát (MSE) nhỏ nhất:
<div align="center">

$
J(\mathbf{w}, b) = \frac{1}{2m} \sum_{i=1}^m \Big( \hat{y}^{(i)} - y^{(i)} \Big)^2
$

</div>

Trong đó:
- $ m $: số lượng mẫu huấn luyện
- $ \mathbf{x}^{(i)} $: vector đặc trưng (feature vector) của mẫu thứ $ i $
- $ y^{(i)} $: giá trị thực tế (ground truth)
- $ \hat{y}^{(i)} $: giá trị dự đoán

Với **Gradient Descent**, ta cập nhật $ \mathbf{w}, b $ lặp đi lặp lại cho đến khi hội tụ.

Với **Normal Equation**, ta có thể tìm được nghiệm tối ưu trực tiếp (không cần lặp).


## Biểu diễn bằng ma trận

Gộp $b$ vào $\mathbf{w}$ bằng cách thêm một cột $1$ vào $\mathbf{X}$:  

$$
\mathbf{X} =
\begin{bmatrix}
1 & x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)} \\
1 & x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_1^{(m)} & x_2^{(m)} & \cdots & x_n^{(m)}
\end{bmatrix},
\quad
\mathbf{w} =
\begin{bmatrix}
b \\ w_1 \\ w_2 \\ \vdots \\ w_n
\end{bmatrix},
\quad
\mathbf{y} =
\begin{bmatrix}
y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)}
\end{bmatrix}
$$

Hàm dự đoán được viết gọn:  

$$
\hat{\mathbf{y}} = \mathbf{X}\mathbf{w}
$$


## &rarr; Normal Equation

Nghiệm tối ưu của **w** được cho bởi công thức **Normal Equation**:  

$$
\mathbf{w} = (X^{T}X)^{-1}X^{T}y
$$

**Ý nghĩa:**

- \(X^{T}X\): ma trận vuông kích thước \((n+1) \times (n+1)\)
- Nếu khả nghịch, ta lấy nghịch đảo để tìm nghiệm tối ưu
- Đây là nghiệm tối ưu (minimizing MSE) **một lần duy nhất**, không cần Gradient Descent


## ⚖️ So sánh với Gradient Descent

| Tiêu chí | **Gradient Descent** | **Normal Equation** |
|---------|----------------|----------------|
| **Cách tìm nghiệm** | Lặp dần đến khi hội tụ | Công thức đóng (closed-form), tính một lần |
| **Tốc độ** | Chậm khi số vòng lặp nhiều, nhưng mở rộng tốt cho dữ liệu lớn | Nhanh khi số feature nhỏ(<10.000), chậm nếu phải nghịch đảo ma trận lớn |
| **Độ phức tạp tính toán** | \(O(mn)\) mỗi vòng lặp (m = số mẫu, n = số feature) | \(O(n^3)\) để tính nghịch đảo |
| **Thích hợp khi** | n rất lớn (hàng triệu feature) | n nhỏ đến vừa |
| **Learning rate** | Cần chọn cẩn thận | Không cần |
| **Kết quả** | Xấp xỉ (cần hội tụ) | Chính xác (nếu ma trận khả nghịch) |

## Implement

$$
\mathbf{w} =
\begin{bmatrix}
b \\ w \\ 
\end{bmatrix} 
= (X^{T}X)^{-1}X^{T}y

$$

In [5]:
# Dữ liệu thực tế từ Gradient Descent (Houses Prices)
import numpy as np

# Simulation data
X = np.array([[1, 1],
              [1, 2]])  # cột 1 = bias term(cho b), cột 2 = x
y = np.array([300.0, 500.0])

# Normal Equation
w = np.linalg.inv(X.T @ X) @ X.T @ y

# b = 0.8333    (intercept)
# w1 = 0.75 
print(f"w = {w}")   # [b, w1]


w = [100. 200.]


- Mô hình dự đoán (Houses Prices)
$$
\hat{\mathbf{y}} = 100\mathbf{w} + 200
$$


### The end