In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score


In [None]:
# Đọc dữ liệu từ đường dẫn
data = pd.read_csv('housing_price_dataset.csv')

# Kiểm tra dữ liệu
print(data.head())
print(data.info())
print(data.describe())

# In ra danh sách các cột để kiểm tra
print("Danh sách các cột trong DataFrame:", data.columns)

# Kiểm tra và loại bỏ cột không cần thiết (nếu có)
if 'id' in data.columns:
    data.drop(['id'], axis=1, inplace=True)


In [None]:

# Điền giá trị thiếu cho các cột số
numeric_cols = data.select_dtypes(include=[np.number]).columns
data[numeric_cols] = data[numeric_cols].fillna(data[numeric_cols].mean())

# Điền giá trị thiếu cho các cột không phải số (nếu cần)
non_numeric_cols = data.select_dtypes(exclude=[np.number]).columns
data[no
# Kiểm tra và loại bỏ cột không cần thiết (nếu có)
if 'id' in data.columns:
    data.drop(['id'], axis=1, inplace=True)
n_numeric_cols] = data[non_numeric_cols].fillna('unknown')

# Chuyển đổi các biến phân loại thành biến số
data = pd.get_dummies(data, drop_first=True)

       SquareFeet  Bedrooms  Bathrooms Neighborhood  YearBuilt          Price  \
0            2126         4          1        Rural       1969  215355.283618   
1            2459         3          2        Rural       1980  195014.221626   
2            1860         2          1       Suburb       1970  306891.012076   
3            2294         2          1        Urban       1996  206786.787153   
4            2130         5          2       Suburb       2001  272436.239065   
...           ...       ...        ...          ...        ...            ...   
49995        1282         5          3        Rural       1975  100080.865895   
49996        2854         2          2       Suburb       1988  374507.656727   
49997        2979         5          3       Suburb       1962  384110.555590   
49998        2596         5          2        Rural       1984  380512.685957   
49999        1572         5          3        Rural       2011  221618.583218   

       Rural  Suburb  Urban

In [None]:

# Kiểm tra xem cột giá nhà có tồn tại hay không
price_column = 'Price'  # Đặt tên cột là 'Price'
if price_column in data.columns:
    # Chia dữ liệu thành biến độc lập và biến phụ thuộc
    X = data.drop(price_column, axis=1)
    y = data[price_column]
else:
    print(f"Cột '{price_column}' không tồn tại trong DataFrame.")
    print("Danh sách các cột hiện tại:", data.columns)
    raise KeyError(f"Cột '{price_column}' không tìm thấy.")


In [None]:
 Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng mô hình hồi quy
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


       SquareFeet  Bedrooms  Bathrooms  YearBuilt          Price  Rural  \
0            2126         4          1       1969  215355.283618      1   
1            2459         3          2       1980  195014.221626      1   
2            1860         2          1       1970  306891.012076      0   
3            2294         2          1       1996  206786.787153      0   
4            2130         5          2       2001  272436.239065      0   
...           ...       ...        ...        ...            ...    ...   
49995        1282         5          3       1975  100080.865895      1   
49996        2854         2          2       1988  374507.656727      0   
49997        2979         5          3       1962  384110.555590      0   
49998        2596         5          2       1984  380512.685957      1   
49999        1572         5          3       2011  221618.583218      1   

       Suburb  Urban  
0           0      0  
1           0      0  
2           1      0  
3      

In [None]:

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# In các chỉ số thống kê mà không cần in ra kiểu dữ liệu
print("Mean Squared Error:", mse)
print("R2 Score:", r2)



In [None]:

# Vẽ biểu đồ dự đoán so với giá thực tế
plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel('Giá thực tế')
plt.ylabel('Giá dự đoán')
plt.title('Giá thực tế vs Giá dự đoán')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='--')
plt.show()


(40000, 7)