In [2]:
import numpy as np
import pandas as pd

# Load the data
data = pd.read_csv('train.csv')

# Chọn các đặc trưng cần thiết và loại bỏ các hàng có giá trị null
data_clean = data[['LotArea', 'YearBuilt', 'GrLivArea', 'SalePrice']].dropna()

# X là ma trận đầu vào (có các đặc trưng diện tích lô đất, năm xây dựng, diện tích sinh hoạt), y là biến đích (giá nhà)
X = data_clean[['LotArea', 'YearBuilt', 'GrLivArea']].values
y = data_clean['SalePrice'].values

# Thêm một cột toàn giá trị 1 vào X để tính hệ số chặn (bias term)
one = np.ones((X.shape[0], 1))
Xbar = np.concatenate((one, X), axis=1)

# Tính toán hệ số hồi quy bằng công thức: w = (X^T * X)^(-1) * X^T * y
A = np.dot(Xbar.T, Xbar)         # X^T * X
b = np.dot(Xbar.T, y)            # X^T * y
w = np.dot(np.linalg.pinv(A), b)  # w = (X^T * X)^(-1) * X^T * y

# Hệ số hồi quy
w_0, w_1, w_2, w_3 = w

print("Hệ số chặn (bias):", w_0)
print("Hệ số của LotArea:", w_1)
print("Hệ số của YearBuilt:", w_2)
print("Hệ số của GrLivArea:", w_3)

# Dự đoán giá nhà
y_pred = np.dot(Xbar, w)

# Tính sai số bình phương trung bình (MSE)
mse = np.mean((y_pred - y) ** 2)
print("Sai số bình phương trung bình (MSE):", mse)


Hệ số chặn (bias): -2047635.6592803001
Hệ số của LotArea: 0.7927518593099094
Hệ số của YearBuilt: 1056.2651905043167
Hệ số của GrLivArea: 91.08634755634512
Sai số bình phương trung bình (MSE): 2124069526.463791
