Dự đoán giá nhà tại California

In [1]:
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split


In [3]:
# Tải dữ liệu
housing = fetch_california_housing()
X = pd.DataFrame(housing.data, columns=housing.feature_names)
y = pd.Series(housing.target)

In [4]:
# Hiểu nhanh về dữ liệu
print("Các đặc trưng (X):")
print(X.head())
print("\nGiá trị cần dự đoán (y) - đơn vị: $100,000")
print(y.head())

Các đặc trưng (X):
   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  
0    -122.23  
1    -122.22  
2    -122.24  
3    -122.25  
4    -122.25  

Giá trị cần dự đoán (y) - đơn vị: $100,000
0    4.526
1    3.585
2    3.521
3    3.413
4    3.422
dtype: float64


In [6]:
# Chia dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test)
# 80% cho huấn luyện, 20% cho kiểm tra. random_state để đảm bảo kết quả có thể tái lập.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"\nKích thước tập huấn luyện: {X_train.shape}")
print(f"Kích thước tập kiểm tra: {X_test.shape}")


Kích thước tập huấn luyện: (16512, 8)
Kích thước tập kiểm tra: (4128, 8)


In [7]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 1. Khởi tạo mô hình
model = LinearRegression()

# 2. Huấn luyện mô hình với dữ liệu huấn luyện
model.fit(X_train, y_train)

# 3. Dự đoán trên dữ liệu kiểm tra
y_pred = model.predict(X_test)

# 4. Đánh giá mô hình
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\n--- KẾT QUẢ ĐÁNH GIÁ MÔ HÌNH ---")
print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"R-squared (R2 Score): {r2:.4f}")


--- KẾT QUẢ ĐÁNH GIÁ MÔ HÌNH ---
Mean Absolute Error (MAE): 0.5332
Mean Squared Error (MSE): 0.5559
R-squared (R2 Score): 0.5758
