In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 1. 데이터 불러오기
df = pd.read_csv("train.csv")

# 2. 결측값이 많은 열 제거 (30% 이상 결측값이 있는 열 제거 예시)
missing_ratio = df.isnull().mean()
df = df.drop(columns=missing_ratio[missing_ratio > 0.3].index)

# 3. LotFrontage 결측값 평균으로 대체
df['LotFrontage'] = df['LotFrontage'].fillna(df['LotFrontage'].mean())

# 4. 나머지 결측값 간단히 삭제 (단순 처리)
df = df.dropna()

# 5. 'Id' 열 제거
df = df.drop(columns=['Id'])

# 6. 범주형 변수 원-핫 인코딩
df_encoded = pd.get_dummies(df, drop_first=True)

# 7. X, y 분리
X = df_encoded.drop(columns=['SalePrice'])
y = df_encoded['SalePrice']

# 8. 학습 / 테스트 데이터 분리 (8:2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 9. 모델 학습 - Decision Tree
model = DecisionTreeRegressor(random_state=42)
model.fit(X_train, y_train)

# 10. 예측
y_pred = model.predict(X_test)

# 11. 성능 평가 지표
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# 12. 결과 출력
print(f"MAE : {mae:.2f}")
print(f"RMSE : {rmse:.2f}")
print(f"R2 : {r2:.4f}")


MAE : 22592.02
RMSE : 34590.60
R² : 0.7204
