In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# -----------------------------
# 1) 데이터 준비
# -----------------------------
# boston.csv 파일 로드
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/boston.csv").dropna()

# 특성(X)과 타겟(y) 분리
# 회귀 문제이므로 예측할 값인 'PRICE'를 타겟으로 설정합니다.
X = df.drop(columns=["PRICE"])
y = df["PRICE"]

# 학습 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# -----------------------------
# 2) 모델 구성
# -----------------------------
# 회귀 분석을 위한 모델들입니다.
dt = DecisionTreeRegressor(random_state=42)
rf = RandomForestRegressor(n_estimators=200, random_state=42, n_jobs=-1)

# 선형회귀는 스케일링과 함께 파이프라인 구성
# 데이터의 스케일 차이를 보정하여 성능을 향상시킵니다.
lr = make_pipeline(StandardScaler(), LinearRegression())

# -----------------------------
# 3) 모델 학습
# -----------------------------
dt.fit(X_train, y_train)
rf.fit(X_train, y_train)
lr.fit(X_train, y_train)

# -----------------------------
# 4) 모델 평가
# -----------------------------
# 회귀 모델의 성능을 평가하는 함수
def eval_reg(y_true, y_pred):
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    r2 = r2_score(y_true, y_pred)
    return mae, rmse, r2

# 모델별 예측
dt_pred = dt.predict(X_test)
rf_pred = rf.predict(X_test)
lr_pred = lr.predict(X_test)

# 모델별 평가 지표 출력
dt_mae, dt_rmse, dt_r2 = eval_reg(y_test, dt_pred)
rf_mae, rf_rmse, rf_r2 = eval_reg(y_test, rf_pred)
lr_mae, lr_rmse, lr_r2 = eval_reg(y_test, lr_pred)

print("=== Test Metrics (Regression) ===")
print("[Decision Tree]")
print(f"MAE: {dt_mae:.3f} | RMSE: {dt_rmse:.3f} | R^2: {dt_r2:.3f}")

print("[Random Forest]")
print(f"MAE: {rf_mae:.3f} | RMSE: {rf_rmse:.3f} | R^2: {rf_r2:.3f}")

print("[Linear Regression]")
print(f"MAE: {lr_mae:.3f} | RMSE: {lr_rmse:.3f} | R^2: {lr_r2:.3f}")

=== Test Metrics (Regression) ===
[Decision Tree]
MAE: 0.444 | RMSE: 0.694 | R^2: 0.632
[Random Forest]
MAE: 0.315 | RMSE: 0.490 | R^2: 0.817
[Linear Regression]
MAE: 0.532 | RMSE: 0.745 | R^2: 0.577
