In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [3]:
# Đọc dữ liệu từ file CSV
file_path = 'kc_house_data.csv'
data = pd.read_csv(file_path)


In [4]:
# Hiển thị thông tin cơ bản về dữ liệu
print(data.info())
print(data.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

In [5]:
# Kiểm tra giá trị thiếu
missing_values = data.isnull().sum()
print(missing_values)

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64


In [6]:
# Định nghĩa các biến đầu vào và biến mục tiêu
X = data.drop(['price', 'id', 'date'], axis=1)
y = data['price']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [8]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)


(17290, 18) (4323, 18) (17290,) (4323,)


In [9]:
model = LinearRegression()


In [10]:
model.fit(X_train, y_train)


In [11]:
y_pred = model.predict(X_test)


In [12]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
rmse = mse ** 0.5

print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'Root Mean Squared Error (RMSE): {rmse}')

Mean Squared Error (MSE): 45173046132.792
Mean Absolute Error (MAE): 127493.34208655688
Root Mean Squared Error (RMSE): 212539.5166381819


In [13]:
# Đầu vào mẫu cho một căn nhà cụ thể
input_data = {
    'bedrooms': 3,
    'bathrooms': 2.5,
    'sqft_living': 2000,
    'sqft_lot': 5000,
    'floors': 2,
    'waterfront': 0,
    'view': 0,
    'condition': 3,
    'grade': 7,
    'sqft_above': 2000,
    'sqft_basement': 0,
    'yr_built': 1995,
    'yr_renovated': 0,
    'zipcode': 98103,
    'lat': 47.6512,
    'long': -122.3506,
    'sqft_living15': 1800,
    'sqft_lot15': 4000
}

# Chuyển đổi đầu vào thành DataFrame
input_df = pd.DataFrame([input_data])

# Dự đoán giá nhà
predicted_price = model.predict(input_df)
print(f"Giá nhà dự đoán: {predicted_price[0]}")


Giá nhà dự đoán: 477706.6271363739


In [14]:
import joblib

# Huấn luyện mô hình
model.fit(X_train, y_train)

# Lưu mô hình đã huấn luyện
joblib.dump(model, 'house_price_model.pkl')

['house_price_model.pkl']

: 