In [1]:
# Chuẩn bị các thư viện
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [3]:
# Đọc dữ liệu từ file CSV
df = pd.read_csv('/content/vietnam_housing_dataset.csv')
df.head()


Unnamed: 0,Address,Area,Frontage,Access Road,House direction,Balcony direction,Floors,Bedrooms,Bathrooms,Legal status,Furniture state,Price
0,"Dự án The Empire - Vinhomes Ocean Park 2, Xã L...",84.0,,,,,4.0,,,Have certificate,,8.6
1,"Dự án The Crown - Vinhomes Ocean Park 3, Xã Ng...",60.0,,,,,5.0,,,,,7.5
2,"Dự án The Crown - Vinhomes Ocean Park 3, Xã Ng...",90.0,6.0,13.0,Đông - Bắc,Đông - Bắc,5.0,,,Sale contract,,8.9
3,"Đường Nguyễn Văn Khối, Phường 11, Gò Vấp, Hồ C...",54.0,,3.5,Tây - Nam,Tây - Nam,2.0,2.0,3.0,Have certificate,Full,5.35
4,"Đường Quang Trung, Phường 8, Gò Vấp, Hồ Chí Minh",92.0,,,Đông - Nam,Đông - Nam,2.0,4.0,4.0,Have certificate,Full,6.9


In [5]:
# Loại bỏ cột không cần thiết
if "Address" in df.columns:
    df = df.drop(columns=["Address"])

df = df.dropna() # Loại bỏ các giá trị trống
df.columns

Index(['Area', 'Frontage', 'Access Road', 'House direction',
       'Balcony direction', 'Floors', 'Bedrooms', 'Bathrooms', 'Legal status',
       'Furniture state', 'Price'],
      dtype='object')

In [7]:
# Xác định cột số và cột phân loại
numeric_features = ["Area", "Frontage", "Access Road", "Floors", "Bedrooms", "Bathrooms"]
categorical_features = ["House direction", "Balcony direction", "Legal status", "Furniture state"]
# Chia dữ liệu tệp train/test
X = df.drop(columns=["Price"])
y = df["Price"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [8]:
# Xây dựng pipeline
# Tiền xử lý
numeric_transformer = Pipeline(steps=[
    ("scaler", StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ("onehot", OneHotEncoder(drop="first", handle_unknown="ignore"))
])

# Gộp các bước xử lý
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features)
    ]
)

# Pipeline tổng thể
model = Pipeline(steps=[
    ("preprocessor", preprocessor),
    ("regressor", LinearRegression())
])


In [9]:
# Huấn luyện và dự đoán

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [10]:
# Đánh giá
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

print(f"✅ R² = {r2:.4f}")
print(f"✅ RMSE = {rmse:.2f}")
print(f"✅ MAE = {mae:.2f}")

✅ R² = 0.3021
✅ RMSE = 1.85
✅ MAE = 1.48
