In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 1. 데이터 불러오기
df = pd.read_csv('train.csv')

# 2. 결측치 처리 (결측이 많은 열 삭제, LotFrontage는 평균으로 대체)
df = df.drop(columns=[col for col in df.columns if df[col].isnull().sum() > 0.2 * len(df)])
df['LotFrontage'] = df['LotFrontage'].fillna(df['LotFrontage'].mean())

# 3. 범주형 변수 인코딩 (pd.get_dummies로 처리)
df = pd.get_dummies(df)

# 4. 불필요한 열 제거 (Id)
df = df.drop(columns=['Id'])

# 5. 특성과 타겟 분리
X = df.drop('SalePrice', axis=1)
y = df['SalePrice']

# 6. 학습/테스트 데이터 분리 (8:2 비율)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 7. 모델 학습 (DecisionTreeRegressor)
model = DecisionTreeRegressor(random_state=42)
model.fit(X_train, y_train)

# 8. 예측 및 모델 평가
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# 9. MAE, MSE, RMSE, R2 출력
print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R2: {r2:.4f}")


MAE: 26925.88
MSE: 1647217251.13
RMSE: 40585.92
R2: 0.7852
