In [41]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error ,r2_score, mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
import pandas as pd

In [42]:
data = pd.read_csv('final_data.csv')

In [43]:
# Tách dữ liệu thành features (X) và target (y)
X = data[['Quận', 'Loại nhà', 'Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']]
y = data['Mức giá (tỷ)']

In [44]:
# Phân chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=20)

In [45]:
# Xây dựng pipeline cho mô hình hồi quy tuyến tính với mã hóa one-hot
numeric_features = ['Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']
categorical_features = ['Quận', 'Loại nhà']

numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

categorical_transformer_onehot = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor_onehot = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer_onehot, categorical_features)
    ])

# Mô hình với mã hóa one-hot
model_onehot = Pipeline(steps=[('preprocessor', preprocessor_onehot),
                               ('regressor', LinearRegression())])

# Huấn luyện mô hình với mã hóa one-hot
model_onehot.fit(X_train, y_train)

# Đánh giá mô hình với mã hóa one-hot trên tập kiểm tra
y_pred_onehot = model_onehot.predict(X_test)
mse_onehot = mean_squared_error(y_test, y_pred_onehot)
print('MSE (One-Hot Encoding):', mse_onehot)
r2_onehot = r2_score(y_test, y_pred_onehot)
print("R2: ", r2_onehot)
mae_onehot = mean_absolute_error(y_test, y_pred_onehot)
print("MAE: ", mae_onehot)

MSE (One-Hot Encoding): 90.37495896480813
R2:  0.671920406604551
MAE:  5.621589350559333


In [46]:
# Mô hình với mã hóa one-hot và Random Forest
model_onehot_rf = Pipeline(steps=[
    ('preprocessor', preprocessor_onehot),
    ('regressor', RandomForestRegressor())
])

# Huấn luyện mô hình với mã hóa one-hot và Random Forest
model_onehot_rf.fit(X_train, y_train)

# Đánh giá mô hình với mã hóa one-hot và Random Forest trên tập kiểm tra
y_pred_onehot_rf = model_onehot_rf.predict(X_test)
print("MSE: ",mean_squared_error(y_test, y_pred_onehot_rf))
r2_onehot_rf = r2_score(y_test, y_pred_onehot_rf)
print("R2: ", r2_onehot_rf)
mae_onehot_rf = mean_absolute_error(y_test, y_pred_onehot_rf)
print("MAE: ", mae_onehot_rf)

MSE:  54.2477139146707
R2:  0.8030696984251119
MAE:  2.905369015555096


In [47]:
# Mô hình với mã hóa one-hot và Gradient Boosting
model_onehot_gb = Pipeline(steps=[
    ('preprocessor', preprocessor_onehot),
    ('regressor', GradientBoostingRegressor())
])

# Huấn luyện mô hình với mã hóa one-hot và Gradient Boosting
model_onehot_gb.fit(X_train, y_train)

# Đánh giá mô hình với mã hóa one-hot và Gradient Boosting trên tập kiểm tra
y_pred_onehot_gb = model_onehot_gb.predict(X_test)
print("MSE: ", mean_squared_error(y_test, y_pred_onehot_gb))
r2_onehot_gb = r2_score(y_test, y_pred_onehot_gb)
print("R2: ", r2_onehot_gb)
mae_onehot_gb = mean_absolute_error(y_test, y_pred_onehot_gb)
print("MAE: ", mae_onehot_gb)

MSE:  56.85730389639018
R2:  0.7935963528221031
MAE:  3.2507490003654875
