In [12]:
import pandas as pd
import numpy as np

# 1) Đọc dữ liệu
CSV_PATH = r"C:\Users\ducli\Downloads\archive (1)\vietnam_housing_dataset.csv"
df = pd.read_csv(CSV_PATH)

# 2) Giữ lại 3 đặc trưng + đích
features = ["Area", "Bedrooms", "Floors"]
target   = "Price"
data = df[features + [target]].dropna()        # bỏ hàng có NaN

# 3) Chuẩn hoá đặc trưng (z‑score) cho tốc độ hội tụ
X_raw = data[features].values
y     = data[target].values.reshape(-1, 1)

mu    = X_raw.mean(axis=0)
sigma = X_raw.std(axis=0)
Xn    = (X_raw - mu) / sigma                  # X chuẩn hoá
m     = Xn.shape[0]

# 4) Thêm cột bias
X = np.hstack([np.ones((m, 1)), Xn])          # (m × 4)
theta = np.zeros((X.shape[1], 1))             # khởi tạo 0

# 5) Các hàm tiện ích
def compute_cost(X, y, theta):
    m = len(y)
    return (1/(2*m)) * np.sum((X @ theta - y) ** 2)

def gradient_descent(X, y, theta, alpha=0.01, iters=1000):
    cost_history = []
    m = len(y)
    for _ in range(iters):
        error  = X @ theta - y
        grad   = (1/m) * (X.T @ error)
        theta -= alpha * grad
        cost_history.append(compute_cost(X, y, theta))
    return theta, cost_history

# 6) Huấn luyện
theta_opt, J_hist = gradient_descent(X, y, theta,
                                     alpha     = 0.01,
                                     iters     = 1000)

# 7) In kết quả
print("Thông số đã học (theta):")
print(f"θ0 (bias)      = {theta_opt[0,0]:.4f}")
print(f"θ1 (Area)      = {theta_opt[1,0]:.4f}")
print(f"θ2 (Bedrooms)  = {theta_opt[2,0]:.4f}")
print(f"θ3 (Floors)    = {theta_opt[3,0]:.4f}")
print(f"J cuối cùng     = {J_hist[-1]:.4f}")


Thông số đã học (theta):
θ0 (bias)      = 5.8270
θ1 (Area)      = 0.5055
θ2 (Bedrooms)  = 0.4899
θ3 (Floors)    = 0.6772
J cuối cùng     = 1.8285


In [13]:
from sklearn.metrics import r2_score    

y_pred = X @ theta_opt
r2 = r2_score(y, y_pred)     
print(f"R² (in‑sample) = {r2:.3f}")

R² (in‑sample) = 0.225
