In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score, KFold

In [14]:
data = pd.read_csv('encode_data.csv')

In [15]:
X = data[['Quận (mã hóa)', 'Loại Nhà (mã hóa)', 'Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']]
y = data['Mức giá (tỷ)']

In [16]:
# Tham số cho việc chia tập dữ liệu để đánh giá hiệu suất chính xác hơn 
kfold = KFold(n_splits=10, shuffle=True, random_state=42)

### Baseline cho bài toán

In [17]:
# Phân chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

model_lr = LinearRegression()
model_lr.fit(X_train, y_train)

y_pred_lr = model_lr.predict(X_test)
mse = mean_squared_error(y_test, y_pred_lr)
print('- Mean Squared Error:', mse)
score = cross_val_score(model_lr, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())

- Mean Squared Error: 260.2562360157245
- Cross-validated scores: [0.51064668 0.47260574 0.55965191 0.26477782 0.3398747  0.43272753
 0.37182106 0.50481754 0.50628477 0.45522875]
- Mean accuracy: 0.4418436507556585


### Xây dựng các mô hình khác nhau và đánh giá hiệu suất

#### Mô hình Random Forest

In [18]:
# Mô hình Random Forest
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_rf = RandomForestRegressor()


model_rf.fit(X_train, y_train)

y_pred_rf = model_rf.predict(X_test)

mse = mean_squared_error(y_test, y_pred_rf)
print('- Mean Squared Error:', mse)
r2_score = r2_score(y_test, y_pred_rf)
print("- R2: ", r2_score)
mae = mean_absolute_error(y_test, y_pred_rf)
print("- MAE: ", mae)
score = cross_val_score(model_rf, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())

- Mean Squared Error: 180.42613784191704
- R2:  0.7173881430243907
- MAE:  3.551459426154833
- Cross-validated scores: [0.74703094 0.68689448 0.70900873 0.69180014 0.61831692 0.81138215
 0.73484161 0.8215641  0.48122397 0.80045228]
- Mean accuracy: 0.710251531612259


Tối ưu mô hình bằng cách thêm siêu tham số cho Random Forest

In [19]:
#from sklearn.model_selection import GridSearchCV

# Định nghĩa các giá trị để thử nghiệm cho các siêu tham số
#param_grid = {
    #'n_estimators': [100, 200, 300],
    #'max_depth': [None, 10, 20],
    #'min_samples_split': [2, 5, 10],
    #'min_samples_leaf': [1, 2, 4]
#}

# Tạo một đối tượng GridSearchCV
#grid_search = GridSearchCV(estimator=RandomForestRegressor(), param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

# Huấn luyện mô hình với dữ liệu huấn luyện
#grid_search.fit(X_train, y_train)

# In ra các siêu tham số tốt nhất
#print("Best Parameters:", grid_search.best_params_)

# Dùng mô hình tối ưu hóa để dự đoán và đánh giá
#best_model = grid_search.best_estimator_
#y_pred_best = best_model.predict(X_test)
#mse_best = mean_squared_error(y_test, y_pred_best)
#print('- Mean Squared Error (optimized):', mse_best)


#### Mô hình Support Vector Machine

In [20]:
# Mô hình Support Vector Machine
from sklearn.svm import SVR

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_svr = SVR()  

model_svr.fit(X_train, y_train)

y_pred_svr = model_svr.predict(X_test)

mse_svr = mean_squared_error(y_test, y_pred_svr)
print('- Mean Squared Error (Random Forest):', mse_svr)
score = cross_val_score(model_svr, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())


- Mean Squared Error (Random Forest): 498.7412698195552


#### Mô hình Gradient Boosting 

In [None]:
# Mô hình Gradient Boosting

from sklearn.ensemble import GradientBoostingRegressor

X = data[['Quận (mã hóa)', 'Loại Nhà (mã hóa)', 'Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']]
y = data['Mức giá (tỷ)']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_gb = GradientBoostingRegressor()

model_gb.fit(X_train, y_train)

y_pred_gb = model_gb.predict(X_test)

mse_gb = mean_squared_error(y_test, y_pred_gb)
print('- MSE (Gradient Boosting Regression):', mse_gb)
r2_gb = r2_score(y_test, y_pred_gb)
print('- R-squared (Gradient Boosting Regression):', r2_gb)

mae_gb = mean_absolute_error(y_test, y_pred_gb)
print('- MAEr (Gradient Boosting Regression):', mae_gb)

rmse_gb = np.sqrt(mse_gb)
print('- RMSE (Gradient Boosting Regression):', rmse_gb)

score = cross_val_score(model_gb, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())


- Mean Squared Error (Gradient Boosting Regression): 186.5436288077351
- Cross-validated scores: [0.68508902 0.73359579 0.70228167 0.66568529 0.75426631 0.7885658
 0.77499103 0.78505755 0.53571986 0.77846045]
- Mean accuracy: 0.7203712767917978
- R-squared (Gradient Boosting Regression): 0.7078059643968344
- MAEr (Gradient Boosting Regression): 3.841362191782379
- RMSE (Gradient Boosting Regression): 13.658097554481557
- Cross-validated scores: [0.68640567 0.74002139 0.69734117 0.67280665 0.7487702  0.7885658
 0.77150153 0.78498918 0.46574794 0.78126573]
- Mean accuracy: 0.7137415255855688


Thử tối ưu mô hình khi thêm các siêu tham số

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split, cross_val_score, KFold
import numpy as np

# Dữ liệu và các tính năng
X = data[['Quận (mã hóa)', 'Loại Nhà (mã hóa)', 'Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']]
y = data['Mức giá (tỷ)']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo mô hình Gradient Boosting Regression
model_gb = GradientBoostingRegressor(
    n_estimators=200,
    learning_rate=0.1,
    min_samples_split=2,
    max_depth=3
)

# Huấn luyện mô hình trên tập huấn luyện
model_gb.fit(X_train, y_train)

# Dự đoán giá trị trên tập kiểm tra
y_pred_gb = model_gb.predict(X_test)

mse_gb = mean_squared_error(y_test, y_pred_gb)
print('- MSE (Gradient Boosting Regression):', mse_gb)

r2_gb = r2_score(y_test, y_pred_gb)
print('- R-squared (Gradient Boosting Regression):', r2_gb)

mae_gb = mean_absolute_error(y_test, y_pred_gb)
print('- MAEr (Gradient Boosting Regression):', mae_gb)

rmse_gb = np.sqrt(mse_gb)
print('- RMSE (Gradient Boosting Regression):', rmse_gb)

score = cross_val_score(model_gb, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())


- MSE (Gradient Boosting Regression): 181.6731267811573
- R-squared (Gradient Boosting Regression): 0.715434912389617
- MAEr (Gradient Boosting Regression): 3.752965621820666
- RMSE (Gradient Boosting Regression): 13.478617391303802
- Cross-validated scores: [0.68218825 0.74224237 0.71926983 0.68669983 0.77576682 0.80217135
 0.77268249 0.79480233 0.52304653 0.78265862]
- Mean accuracy: 0.7281528419218496


#### Mô hình KNN

In [None]:
# Mô hình KNN
from sklearn.neighbors import KNeighborsRegressor

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_knn = KNeighborsRegressor(n_neighbors=7)

model_knn.fit(X_train, y_train)

y_pred_knn = model_knn.predict(X_test)

mse_knn = mean_squared_error(y_test, y_pred_knn)
print('- Mean Squared Error (KNN Regression):', mse_knn)
score = cross_val_score(model_knn, X, y, cv=kfold)
print("- Cross-validated scores:", score)
print("- Mean accuracy:", score.mean())

- Mean Squared Error (KNN Regression): 278.76155564031455
- Cross-validated scores: [0.56592188 0.65184781 0.51871488 0.23505568 0.42008432 0.4908515
 0.37780154 0.61264055 0.60449371 0.51573984]
- Mean accuracy: 0.4993151729584092
