### **Lesson 1 – Supervised Learning (Regression cơ bản)**

**🔑 Prerequisite**

* Biết **Python** (mày có rồi).
* Hiểu **array, hàm số, đồ thị** cơ bản.
* Biết chút về **vector/matrix** thì càng tốt.

---

#### ❓ Supervised Learning là cái quái gì?

* **Supervised Learning (SL)**: có **dữ liệu đầu vào (X)** + **nhãn đúng (y)**.
* Mục tiêu: học một **hàm f(X) ≈ y**.
* Ví dụ:

  * Input = diện tích nhà, Output = giá nhà.
  * Input = điểm kiểm tra, Output = điểm tổng kết.

---

#### ❓ Regression khác Classification như thế nào?

* **Regression** → dự đoán giá trị **liên tục** (continuous).
* **Classification** → dự đoán nhãn **rời rạc** (discrete).
* Ví dụ:

  * Regression: dự đoán cân nặng (50.2kg, 71.5kg).
  * Classification: dự đoán con mèo hay con chó.

---

#### ❓ Tại sao Linear Regression lại hay được dùng đầu tiên?

* Đơn giản, dễ hiểu.
* Mô hình:

  $$
  \hat{y} = w \cdot x + b
  $$

  (hoặc nhiều chiều thì $\hat{y} = Xw + b$)

---

#### ❓ Làm sao đo “độ sai” của mô hình?

* Dùng **Loss function**.
* Với Regression hay dùng **Mean Squared Error (MSE)**:

  $$
  L = \frac{1}{n} \sum (y_i - \hat{y}_i)^2
  $$

---

#### ❓ Làm sao tìm w, b tốt nhất?

* Dùng **Gradient Descent**: lặp đi lặp lại để giảm loss.
* Ý tưởng: tính gradient của loss, cập nhật w, b theo hướng làm loss nhỏ hơn.

---

#### 🚀 Practice Exercise

Tự code Linear Regression siêu đơn giản (1 feature)

Dữ liệu:

```
X = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
```

👉 Rõ ràng quan hệ là $y = 2x$.

Viết code Python:

1. Khởi tạo w, b ngẫu nhiên.
2. Tính loss (MSE).
3. Update w, b bằng gradient descent (vài vòng lặp).
4. In kết quả ra.

Gợi ý công thức update:

* $w = w - \alpha \cdot \frac{\partial L}{\partial w}$
* $b = b - \alpha \cdot \frac{\partial L}{\partial b}$

Với:

* $\frac{\partial L}{\partial w} = -\frac{2}{n}\sum x_i (y_i - \hat{y}_i)$
* $\frac{\partial L}{\partial b} = -\frac{2}{n}\sum (y_i - \hat{y}_i)$

---

#### 🧩 Solution

In [1]:
# Imports
import numpy as np
from tqdm import tqdm

In [2]:
# Dataset
X = np.arange(1, 6)
Y = np.arange(2, 11, 2)

In [3]:
# Parameters
w = b = 0
lr = 0.01
epochs = 1000

In [4]:
# Functions
def mse(y: np.ndarray):
    return ((Y - y) ** 2).mean()


def forward():
    return w * X + b


def deriv_w(y: np.ndarray):
    return -2 * ((Y - y) * X).mean()


def deriv_b(y: np.ndarray):
    return -2 * ((Y - y)).mean()

In [5]:
# Training
def train_step():
    global w, b
    y = forward()
    w -= lr * deriv_w(y)
    b -= lr * deriv_b(y)


for _ in tqdm(range(epochs)):
    train_step()

100%|██████████| 1000/1000 [00:00<00:00, 76307.24it/s]


In [6]:
# Report
print(f"Final loss: {mse(forward()):.4f}")

Final loss: 0.0001
