In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

# 회귀 모델 평가 지표를 import합니다.
'''
mean_squared_error
- 평균 제곱 오차(MSE)를 계산하는 함수
- 실제 값과 예측 값의 차이를 제곱하여 평균을 낸 값
- 값이 작을수록 모델의 예측이 실제에 가깝다는 것을 의미

r2_score
- 결정 계수(R^2)를 계산하는 함수
- 실제 값과 예측 값의 상관 관계를 나타내는 지표
- 값이 1에 가까울수록 모델의 설명력이 좋다는 것을 의미
'''
from sklearn.metrics import mean_squared_error, r2_score

# -----------------------------
# 1) 데이터 준비
# -----------------------------
df = pd.read_csv("/content/drive/MyDrive/data/boston.csv")

df.head()

Unnamed: 0.1,Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,PRICE
0,0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [None]:
X = df.drop(columns=["PRICE"])
y = df["PRICE"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# -----------------------------
# 2) 모델 구성
# -----------------------------
dt = DecisionTreeRegressor(random_state=42)
rf = RandomForestRegressor(n_estimators=200, random_state=42)
lr = LinearRegression()

# -----------------------------
# 3) 모델 학습
# -----------------------------
dt.fit(X_train, y_train)
rf.fit(X_train, y_train)
lr.fit(X_train, y_train)

# -----------------------------
# 4) 모델 평가
# -----------------------------
dt_y_predict = dt.predict(X_test)
rf_y_pred = rf.predict(X_test)
lr_y_pred = lr.predict(X_test)

# accuracy_score 대신 mean_squared_error를 사용합니다.

# 의사결정나무 모델의 예측값(dt_y_predict)과 실제 정답(y_test)의 차이를 제곱해 평균한 값(MSE)을 구함
dt_mse = mean_squared_error(y_test, dt_y_predict)

# 랜덤포레스트 모델의 예측값(dt_y_predict)과 실제 정답(y_test)의 차이를 제곱해 평균한 값(MSE)을 구함
rf_mse = mean_squared_error(y_test, rf_y_pred)

# 로지스틱 회귀 모델의 예측값(dt_y_predict)과 실제 정답(y_test)의 차이를 제곱해 평균한 값(MSE)을 구함
lr_mse = mean_squared_error(y_test, lr_y_pred)

print("=== Test MSE ===")
print(f"Decision Tree : {dt_mse:.4f}")
print(f"Random Forest : {rf_mse:.4f}")
print(f"Linear Regression : {lr_mse:.4f}")