In [None]:
# %% [markdown]
# # BÀI TẬP THỰC HÀNH PYTHON (JUPYTER NOTEBOOK)
# 
# Nội dung này bao gồm 2 bài tập:
# 1.  **Dự đoán giá nhà** (Regression)
# 2.  **Phân cụm khách hàng** (Clustering)

# %% [markdown]
# ## 0. Tải các thư viện cần thiết
# 
# Ô này sẽ tải tất cả thư viện cho cả 2 bài tập.

# %%
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Tắt các cảnh báo (optional)
import warnings
warnings.filterwarnings('ignore')

# Cấu hình cho biểu đồ
%matplotlib inline
sns.set(style='whitegrid')

print("Tất cả thư viện đã được import thành công!")

# %% [markdown]
# ---
# ## BÀI TẬP 1: DỰ ĐOÁN GIÁ NHÀ
# ---

# %% [markdown]
# ### 1.1. Tải và chuẩn bị dữ liệu

# %%
# !!! THAY THẾ ĐƯỜNG DẪN CỦA BẠN VÀO ĐÂY
HOUSE_PRICES_PATH = './datasets/Bengaluru_House_Data.csv' 

try:
    df_house = pd.read_csv(HOUSE_PRICES_PATH)
    print(f"Đã tải thành công file: {HOUSE_PRICES_PATH}")
    
    # 1. Chọn các biến theo yêu cầu
    features = ['GrLivArea', 'BedroomAbvGr', 'Neighborhood']
    target = 'SalePrice'
    
    # Tạo X (features) và y (target)
    # Xử lý các giá trị thiếu (nếu có) bằng cách đơn giản là xóa hàng đó
    df_house_cleaned = df_house[features + [target]].dropna()
    
    X = df_house_cleaned[features]
    y = df_house_cleaned[target]

    # Xử lý biến 'Neighborhood' (vị trí) - Đây là biến categorical
    # Chúng ta sẽ dùng One-Hot Encoding để chuyển nó thành số
    X = pd.get_dummies(X, columns=['Neighborhood'], drop_first=True)

    print("Dữ liệu đã sẵn sàng cho Bài 1.")
    X.head()
    
except FileNotFoundError:
    print(f"LỖI: Không tìm thấy file tại '{HOUSE_PRICES_PATH}'.")
    print("Vui lòng tải file 'train.csv' từ Kaggle và cập nhật đường dẫn.")


# %% [markdown]
# ### 1.2. Chia dữ liệu (Train/Test 80/20)

# %%
if 'X' in locals():
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    print(f"Kích thước tập huấn luyện (train): {X_train.shape[0]} mẫu")
    print(f"Kích thước tập kiểm tra (test): {X_test.shape[0]} mẫu")
else:
    print("Vui lòng chạy lại ô 1.1 và đảm bảo file được tải thành công.")

# %% [markdown]
# ### 1.3. So sánh Linear Regression và Random Forest (bằng RMSE)

# %%
if 'X_train' in locals():
    # --- Mô hình 1: Linear Regression ---
    lr_model = LinearRegression()
    lr_model.fit(X_train, y_train)
    y_pred_lr = lr_model.predict(X_test)
    rmse_lr = np.sqrt(mean_squared_error(y_test, y_pred_lr))

    # --- Mô hình 2: Random Forest Regressor ---
    rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
    rf_model.fit(X_train, y_train)
    y_pred_rf = rf_model.predict(X_test)
    rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf))

    # --- In kết quả so sánh ---
    print("--- SO SÁNH KẾT QUẢ RMSE (Càng thấp càng tốt) ---")
    print(f"Linear Regression:    {rmse_lr:,.2f}")
    print(f"Random Forest Regressor: {rmse_rf:,.2f}")

    if rmse_rf < rmse_lr:
        print("\n=> Nhận xét: Random Forest Regressor cho kết quả chính xác hơn.")
    else:
        print("\n=> Nhận xét: Linear Regression cho kết quả chính xác hơn.")
else:
    print("Vui lòng chạy lại các ô trước đó.")

# %% [markdown]
# ---