In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.datasets import fetch_california_housing
import pandas as pd

# Load dữ liệu California housing
data = pd.read_csv('cadata.txt', header=None, delim_whitespace=True, encoding='latin1')
column_names = [
    'Median House Value', 'Median Income', 'Housing Median Age', 
    'Total Rooms', 'Total Bedrooms', 'Population', 'Households', 
    'Latitude', 'Longitude'
]
data.columns = column_names
X = data.drop(['Median House Value'], axis=1)
y = data['Median House Value']


# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo mô hình Random Forest
rf = RandomForestRegressor()

# Thiết lập lưới siêu tham số để tinh chỉnh
param_grid = {
    'n_estimators': [100, 200, 300],  # Số lượng cây trong rừng
    'max_depth': [None, 10, 20],  # Độ sâu tối đa của mỗi cây
    'min_samples_split': [2, 5, 10],  # Số lượng mẫu tối thiểu cần để chia một nút
    'min_samples_leaf': [1, 2, 4]  # Số lượng mẫu tối thiểu cần để tạo một láng giềng
}

# Tìm kiếm siêu tham số tốt nhất bằng GridSearchCV
grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Hiển thị siêu tham số tốt nhất và độ đo RMSE trên tập kiểm tra
print("Best Parameters:", grid_search.best_params_)
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test)
rmse = mean_squared_error(y_test, y_pred, squared=False)
print("Root Mean Squared Error on Test Set:", rmse)
