# 🌲 Giới thiệu: Decision Tree và Random Forest

## ⚖️ Bài toán về Decision Tree

Decision Tree để lại cho bạn một **quyết định khó khăn**:

- **Cây sâu, nhiều lá:**
  - Dễ **overfitting**, vì mỗi dự đoán chỉ dựa trên **một số ít ngôi nhà trong lá đó**.
- **Cây nông, ít lá:**
  - Dễ **underfitting**, vì cây không thể nắm bắt đủ các phân biệt trong dữ liệu thô.

Ngay cả các kỹ thuật mô hình hóa **tân tiến nhất hiện nay** cũng gặp phải **xung đột giữa underfitting và overfitting**.

---

## 🌳 Random Forest: Giải pháp cải thiện

Random Forest là một ví dụ về mô hình cải thiện vấn đề trên:

- Sử dụng **nhiều cây quyết định**.
- Dự đoán bằng cách **trung bình các dự đoán của từng cây con**.
- Ưu điểm:
  - Độ chính xác dự đoán **cao hơn nhiều so với một cây đơn lẻ**.
  - Hoạt động tốt ngay cả với **tham số mặc định**.

Nếu tiếp tục mô hình hóa, bạn có thể học thêm các mô hình khác với hiệu suất tốt hơn.
Tuy nhiên, nhiều mô hình phức tạp hơn lại **nhạy cảm với việc chọn đúng tham số**.


## 📝 Ví dụ: Chuẩn bị dữ liệu cho mô hình

Bạn đã từng thấy cách **load dữ liệu** vài lần.
Sau khi load xong và chia dữ liệu, ta có các biến chính sau:

- `train_X` : tập features dùng để huấn luyện mô hình
- `val_X`   : tập features dùng để kiểm định mô hình
- `train_y` : target (giá nhà) cho tập huấn luyện
- `val_y`   : target (giá nhà) cho tập kiểm định

Các biến này sẽ được sử dụng để huấn luyện **Decision Tree** hoặc **Random Forest** và đánh giá hiệu suất bằng MAE.


In [1]:
import pandas as pd

# Load data
melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea',
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

## Xây dựng mô hình Random Forest

Chúng ta xây dựng mô hình **Random Forest** tương tự như khi xây dựng **Decision Tree** trong scikit-learn.
Điểm khác là lần này sử dụng **`RandomForestRegressor`** thay vì **`DecisionTreeRegressor`**.

```python
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Khởi tạo mô hình Random Forest
rf_model = RandomForestRegressor(random_state=1)

# Huấn luyện trên tập train
rf_model.fit(train_X, train_y)

# Dự đoán trên tập validation
rf_preds = rf_model.predict(val_X)

# Tính MAE để đánh giá mô hình
rf_mae = mean_absolute_error(val_y, rf_preds)
print(f"MAE của Random Forest: {rf_mae:,.0f}")
