Decision Tree giống như một "chuỗi câu hỏi có điều kiện" giúp mô hình **phân loại** hoặc **dự đoán giá trị** – rất trực quan và dễ giải thích.


## 🧠 I. Decision Tree là gì?

**Decision Tree** (Cây quyết định) là một thuật toán học có giám sát, dùng cho cả:

* **Phân loại** (Classification Tree)
* **Hồi quy** (Regression Tree)

Mô hình có cấu trúc giống **cây**:

* **Nút gốc (root)**: bắt đầu chia tách
* **Nút quyết định**: kiểm tra điều kiện (ví dụ: “Tuổi > 30?”)
* **Nút lá (leaf)**: chứa nhãn (class) hoặc giá trị dự đoán


## 🧭 II. Cách hoạt động

1. **Bắt đầu từ toàn bộ dữ liệu**
2. Tại mỗi nút:

   * Tìm **thuộc tính và ngưỡng** chia dữ liệu tốt nhất
   * Tách dữ liệu thành 2 nhánh
3. Lặp lại đến khi đạt điều kiện dừng:

   * Hết phân tách được nữa
   * Hoặc đạt số lượng mẫu tối thiểu
4. Mỗi **lá cây** sẽ chứa:

   * Class phổ biến (nếu phân loại)
   * Trung bình giá trị (nếu hồi quy)


## 🧮 III. Chỉ số dùng để chia nhánh

| Chỉ số                         | Dùng cho  | Ý nghĩa                                           |
| ------------------------------ | --------- | ------------------------------------------------- |
| **Gini Impurity**              | Phân loại | Đo độ hỗn tạp                                     |
| **Entropy (Information Gain)** | Phân loại | Tương tự Gini, nhưng dựa trên lý thuyết thông tin |
| **Variance Reduction / MSE**   | Hồi quy   | Đo độ biến thiên trước & sau khi chia             |

### Ví dụ công thức Gini:

$$
Gini = 1 - \sum_{i=1}^{C} p_i^2
$$

* $p_i$: tỉ lệ của class $i$


## 🧪 IV. Ví dụ code với `scikit-learn`

```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)
model = DecisionTreeClassifier(criterion='gini', max_depth=3)
model.fit(X, y)

y_pred = model.predict(X)
print(classification_report(y, y_pred))
```


## 📊 V. Ưu & nhược điểm

| Ưu điểm                         | Nhược điểm                             |
| ------------------------------- | -------------------------------------- |
| Dễ hiểu, dễ diễn giải           | Dễ **overfitting**                     |
| Không cần chuẩn hóa dữ liệu     | Nhạy cảm với dữ liệu nhiễu             |
| Dùng được với cả số và danh mục | Các cây nhỏ có thể không mạnh          |
| Hỗ trợ cả phân loại và hồi quy  | Không ổn định khi dữ liệu thay đổi nhỏ |


## 🛡️ VI. Cách chống Overfitting

| Kỹ thuật                | Ý tưởng                                  |
| ----------------------- | ---------------------------------------- |
| **max\_depth**          | Giới hạn độ sâu cây                      |
| **min\_samples\_split** | Tối thiểu số mẫu để chia nhánh           |
| **min\_samples\_leaf**  | Tối thiểu số mẫu ở lá                    |
| **pruning (cắt tỉa)**   | Cắt bớt các nhánh yếu sau khi huấn luyện |


## 🌲 VII. Các biến thể nổi bật

| Biến thể                          | Mô tả                                            |
| --------------------------------- | ------------------------------------------------ |
| **Random Forest**                 | Tập hợp nhiều cây ngẫu nhiên (bagging)           |
| **Gradient Boosted Trees**        | Cây học nối tiếp nhau, cải thiện sai số dần      |
| **Extra Trees**                   | Random hơn Random Forest                         |
| **XGBoost / LightGBM / CatBoost** | Các thư viện Boosted Tree mạnh nhất hiện nay     |
| **Oblique Decision Tree**         | Chia nhánh không theo trục (dùng vector nghiêng) |


## 🎓 Tổng kết

| Mục           | Nội dung                                      |
| ------------- | --------------------------------------------- |
| Loại mô hình  | Supervised – Classification & Regression      |
| Cách học      | Chia nhánh theo thuộc tính tốt nhất           |
| Ưu điểm       | Dễ hiểu, không cần chuẩn hóa                  |
| Nhược điểm    | Dễ overfit, không ổn định                     |
| Biến thể mạnh | Random Forest, Gradient Boosting (XGBoost...) |
