In [3]:
import numpy as np
import pandas as pd

# Load the data (đoạn này thay thế bằng cách đọc từ file)
data = pd.read_csv('train.csv')

# Chọn các đặc trưng và loại bỏ các hàng có giá trị null
data_clean = data[['LotArea', 'YearBuilt', 'GrLivArea', 'SalePrice']].dropna()

# X là ma trận đầu vào (có thêm cột toàn 1 để tính hệ số chặn), y là biến đích (giá nhà)
X = data_clean[['LotArea', 'YearBuilt', 'GrLivArea']].values
print(X)
y = data_clean['SalePrice'].values
print(y)

# Thêm một cột toàn giá trị 1 vào X để tính hệ số chặn (bias term)
X = np.column_stack([np.ones(X.shape[0]), X])
print(X)
# Tính toán hệ số hồi quy theo công thức OLS: w = (X^T * X)^(-1) * X^T * y
XtX = np.dot(X.T, X)           # X^T * X
XtX_inv = np.linalg.inv(XtX)    # (X^T * X)^(-1)
XtY = np.dot(X.T, y)            # X^T * y
w = np.dot(XtX_inv, XtY)        # w = (X^T * X)^(-1) * X^T * y

# Hệ số hồi quy (w[0] là hệ số chặn, w[1:] là hệ số của các đặc trưng)
print("Hệ số chặn (bias):", w[0])
print("Hệ số của LotArea:", w[1])
print("Hệ số của YearBuilt:", w[2])
print("Hệ số của GrLivArea:", w[3])

# Dự đoán giá nhà với các đặc trưng đã chọn
y_pred = np.dot(X, w)

# Tính sai số bình phương trung bình (MSE) để đánh giá mô hình
mse = np.mean((y_pred - y) ** 2)
print("Sai số bình phương trung bình (MSE):", mse)


[[ 8450  2003  1710]
 [ 9600  1976  1262]
 [11250  2001  1786]
 ...
 [ 9042  1941  2340]
 [ 9717  1950  1078]
 [ 9937  1965  1256]]
[208500 181500 223500 ... 266500 142125 147500]
[[1.000e+00 8.450e+03 2.003e+03 1.710e+03]
 [1.000e+00 9.600e+03 1.976e+03 1.262e+03]
 [1.000e+00 1.125e+04 2.001e+03 1.786e+03]
 ...
 [1.000e+00 9.042e+03 1.941e+03 2.340e+03]
 [1.000e+00 9.717e+03 1.950e+03 1.078e+03]
 [1.000e+00 9.937e+03 1.965e+03 1.256e+03]]
Hệ số chặn (bias): -2047635.6194185019
Hệ số của LotArea: 0.7927518564289073
Hệ số của YearBuilt: 1056.2651701436262
Hệ số của GrLivArea: 91.08634776316467
Sai số bình phương trung bình (MSE): 2124069526.4637902
