In [2]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.model_selection import train_test_split
import pandas as pd                  # Xử lý dữ liệu dạng bảng
import numpy as np                  # Xử lý số liệu
import seaborn as sns               # Trực quan hóa nâng cao
import matplotlib.pyplot as plt     # Trực quan hóa cơ bản

path = "https://raw.githubusercontent.com/NCT-NEU/Sach_Khoa_hoc_du_lieu_python/refs/heads/main/datasets/HN_housing_price_clean.csv"
df = pd.read_csv(path, index_col=0, parse_dates=True)

# Thống nhất các biến kiểu số
num_vars = ["Diện tích", "Dài",	"Rộng", "Giá/m2"]
for var in num_vars:
    df[var] = df[var].astype('float')
    
X_train, X_test, Y_train, Y_test = train_test_split(
    df[["Quận", "Huyện", "Loại hình nhà ở", "Giấy tờ pháp lý","Số tầng","Số phòng ngủ","Diện tích", "Dài","Rộng"]], df["Giá/m2"], 
    random_state = 0, test_size=0.3)

# Chuyển đổi biến sang kiểu one hot
X_train_encoded = pd.get_dummies(X_train, drop_first=True)
X_test_encoded = pd.get_dummies(X_test, drop_first=True)

# Đồng bộ hóa cột giữa train/test
X_train_encoded, X_test_encoded = X_train_encoded.align(X_test_encoded, join='left', axis=1, fill_value=0)

# Khởi tạo mô hình Random Forest
rf_model = RandomForestRegressor(
    n_estimators = 2000,      # số lượng cây
    max_depth = 50,        # độ sâu tối đa
    max_features = 9,        # số lượng đặc trưng của mỗi cây quyết định
    random_state = 10,       # khởi tạo ngẫu nhiên để tái lập kết quả
)

# Huấn luyện mô hình với dữ liệu huấn luyện
rf_model.fit(X_train_encoded, Y_train)

# Tính toán sai số
Y_pred = rf_model.predict(X_test_encoded)

# Tạo bản sao dữ liệu kiểm tra (đã chuẩn hóa)
X_test_display = X_test.copy()

# Gắn giá trị thực tế và dự đoán
X_test_display["Giá/m2_thực_tế"] = Y_test.values
X_test_display["Giá/m2_dự_đoán"] = Y_pred

# In ra 20 dòng đầu
print(X_test_display.head(10).to_string())
print(f"Sai số tuyệt đối trung bình: {mean_absolute_error(Y_test, Y_pred):.2f}")
print(f"Hệ số xác định (R²): {r2_score(Y_test, Y_pred):.3f}")

  df = pd.read_csv(path, index_col=0, parse_dates=True)


                    Quận               Huyện        Loại hình nhà ở Giấy tờ pháp lý  Số tầng Số phòng ngủ  Diện tích   Dài  Rộng  Giá/m2_thực_tế  Giá/m2_dự_đoán
6058        Quận Đống Đa    Phường Ô Chợ Dừa  Nhà mặt phố, mặt tiền        Đã có sổ        4            4      45.00  15.0   3.0          270.00      197.802392
3083        Quận Hà Đông      Phường Phúc La  Nhà mặt phố, mặt tiền        Đã có sổ        4            4      40.00  10.0   4.0          125.00      117.645681
1218       Quận Cầu Giấy     Phường Mai Dịch           Nhà ngõ, hẻm        Đã có sổ        4            6      57.96  12.6   4.6          127.59      106.032023
131     Quận Nam Từ Liêm  Phường Phương Canh           Nhà ngõ, hẻm        Đã có sổ        4            3      31.20   7.8   4.0           79.03       75.644608
11129  Quận Hai Bà Trưng    Phường Minh Khai  Nhà mặt phố, mặt tiền        Đã có sổ        4            4      45.00   9.0   5.0          162.86      114.504227
6197    Quận Bắc Từ Liêm     Phườn