In [137]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor

In [138]:
data = pd.read_csv('final_data.csv')

In [139]:
# Tách dữ liệu thành features (X) và target (y)
X = data[['Quận', 'Loại', 'Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']]
y = data['Mức giá (tỷ)']

# Phân chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=20)

# Xây dựng pipeline cho mô hình hồi quy tuyến tính với mã hóa one-hot
numeric_features = ['Diện tích (m²)', 'Số phòng ngủ', 'Số toilet']
categorical_features = ['Quận', 'Loại']

numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

categorical_transformer_onehot = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor_onehot = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer_onehot, categorical_features)
    ])

# Mô hình với mã hóa one-hot
model_onehot = Pipeline(steps=[('preprocessor', preprocessor_onehot),
                               ('regressor', LinearRegression())])

# Huấn luyện mô hình với mã hóa one-hot
model_onehot.fit(X_train, y_train)

# Đánh giá mô hình với mã hóa one-hot trên tập kiểm tra
y_pred_onehot = model_onehot.predict(X_test)
mse_onehot = mean_squared_error(y_test, y_pred_onehot)
print('Mean Squared Error (One-Hot Encoding):', mse_onehot)
model_onehot.score(X_test, y_test)

Mean Squared Error (One-Hot Encoding): 127.46897198509714


0.6308115709077001

In [140]:
# Mô hình với mã hóa one-hot và Random Forest
model_onehot_rf = Pipeline(steps=[
    ('preprocessor', preprocessor_onehot),
    ('regressor', RandomForestRegressor())
])

# Huấn luyện mô hình với mã hóa one-hot và Random Forest
model_onehot_rf.fit(X_train, y_train)

# Đánh giá mô hình với mã hóa one-hot và Random Forest trên tập kiểm tra
y_pred_onehot_rf = model_onehot_rf.predict(X_test)
print("MSE: ",mean_squared_error(y_test, y_pred_onehot_rf))
model_onehot_rf.score(X_test, y_test)


MSE:  82.03881933653703


0.7623909382513561