## 🌲 I. Random Forest là gì?

**Random Forest** là mô hình học có giám sát dựa trên **ensemble (tập hợp)** nhiều cây quyết định (decision trees) và kết hợp kết quả của chúng để tạo ra **dự đoán mạnh mẽ hơn, ổn định hơn**.

> 👉 Nó là một dạng của **Bagging (Bootstrap Aggregating)** áp dụng lên Decision Trees.


## 🧠 II. Ý tưởng chính

1. Tạo **n cây quyết định**:

   * Mỗi cây được huấn luyện trên một **mẫu con** lấy ngẫu nhiên từ tập huấn luyện (sampling with replacement – bootstrap)
   * Tại mỗi node, chỉ xét một **tập con ngẫu nhiên** của các đặc trưng để chọn thuộc tính chia

2. Khi dự đoán:

   * **Phân loại**: mỗi cây "bỏ phiếu", chọn lớp chiếm đa số
   * **Hồi quy**: tính trung bình các giá trị dự đoán


## ⚙️ III. Tại sao lại "random"?

| Ngẫu nhiên gì?                                     | Mục đích                        |
| -------------------------------------------------- | ------------------------------- |
| **Random mẫu huấn luyện** (bootstrap)              | Làm mỗi cây khác nhau           |
| **Random tập đặc trưng** tại mỗi node              | Giảm sự tương quan giữa các cây |
| → Kết quả là **đa dạng mô hình**, giảm overfitting |                                 |


## 📏 IV. Tham số quan trọng

| Tham số             | Ý nghĩa                              |
| ------------------- | ------------------------------------ |
| `n_estimators`      | Số lượng cây                         |
| `max_features`      | Số lượng đặc trưng dùng tại mỗi node |
| `max_depth`         | Độ sâu tối đa của mỗi cây            |
| `min_samples_split` | Tối thiểu mẫu để tách                |
| `bootstrap=True`    | Có dùng bootstrap sampling không?    |
| `oob_score=True`    | Dùng “out-of-bag” để đánh giá        |


## 📊 V. Ưu và nhược điểm

| Ưu điểm                               | Nhược điểm                                              |
| ------------------------------------- | ------------------------------------------------------- |
| Rất mạnh và thường cho kết quả tốt    | Chậm với dữ liệu rất lớn                                |
| Giảm overfitting so với Decision Tree | Khó diễn giải từng cây                                  |
| Làm việc tốt với dữ liệu mất cân bằng | Tốn bộ nhớ                                              |
| Không cần chuẩn hoá dữ liệu           | Không mạnh bằng các mô hình boosting nếu tinh chỉnh tốt |


## 🔬 VI. Đánh giá mô hình

Có thể dùng các metric thông thường:

* Accuracy, Precision, Recall, F1 (phân loại)
* RMSE, MAE, R² (hồi quy)


## 🧪 VII. Code ví dụ với `scikit-learn`

```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)

model = RandomForestClassifier(n_estimators=100, max_depth=4, random_state=42)
model.fit(X, y)

y_pred = model.predict(X)
print(classification_report(y, y_pred))
```

👉 Có thể truy xuất:

* `model.feature_importances_` để xem đặc trưng quan trọng
* `model.oob_score_` nếu bật oob


## 🌟 VIII. So sánh với Decision Tree

| Mục             | Decision Tree | Random Forest   |
| --------------- | ------------- | --------------- |
| Overfitting     | Dễ bị         | Giảm nhiều      |
| Tính ngẫu nhiên | Không có      | Có              |
| Diễn giải       | Rất dễ        | Khó hơn         |
| Hiệu suất       | Trung bình    | Cao hơn đáng kể |
| Ổn định         | Không ổn định | Rất ổn định     |


## 🔥 IX. Random Forest dùng tốt khi nào?

* Khi muốn **mô hình mạnh, nhanh, ít tinh chỉnh**
* Dữ liệu **nhiễu, nhiều outlier**
* Không muốn/không cần xử lý đặc trưng quá kỹ
* Tìm **đặc trưng quan trọng** (feature selection)


## 📦 X. Biến thể & mở rộng

| Biến thể                                    | Mô tả                                            |
| ------------------------------------------- | ------------------------------------------------ |
| **ExtraTrees (Extremely Randomized Trees)** | Thêm ngẫu nhiên khi chọn ngưỡng chia             |
| **Random Forest Regression**                | Với bài toán hồi quy                             |
| **Quantile Forests**                        | Ước lượng phân phối đầu ra                       |
| **Rotation Forest**                         | Sử dụng PCA để xoay đặc trưng trước khi phân cụm |


## 🎓 Tổng kết

| Mục          | Nội dung                             |
| ------------ | ------------------------------------ |
| Loại mô hình | Ensemble – supervised                |
| Thành phần   | Nhiều cây quyết định (decision tree) |
| Dự đoán      | Bỏ phiếu hoặc trung bình             |
| Ưu điểm      | Mạnh, chống overfitting, ổn định     |
| Nhược điểm   | Khó giải thích, tốn RAM              |
