In [1]:
print('hello')

hello


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# 1. 데이터 준비 (샘플 DataFrame 생성)
# 실제 상황에서는 이 부분을 pd.read_csv('your_data.csv') 등으로 대체합니다.
data = {
    '크기_sqft': [1500, 1800, 1300, 2400, 2000, 1600, 2200, 1400, 2600, 1900],
    '방_개수': [3, 4, 3, 5, 4, 3, 4, 3, 5, 4],
    '지어진_연도': [2005, 2010, 2002, 2015, 2012, 2008, 2018, 2003, 2020, 2011],
    '가격_만원': [30000, 40000, 28000, 55000, 48000, 32000, 52000, 29000, 60000, 42000]
}
df = pd.DataFrame(data)

print("--------- 초기 데이터 (DataFrame) ---------")
print(df)
print("\n")


# 2. 데이터 분리
# a) 피처(X)와 타겟(y) 분리
#    - X: 예측에 사용할 입력 변수들 ('크기', '방_개수', '지어진_연도')
#    - y: 예측하고자 하는 목표 변수 ('가격_만원')
X = df[['크기_sqft', '방_개수', '지어진_연도']]
y = df['가격_만원']

# b) 훈련 데이터와 테스트 데이터로 분리 (80% 훈련, 20% 테스트)
#    - random_state: 재현 가능성을 위해 난수 시드를 고정
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("--------- 훈련 데이터 (X_train) ---------")
print(X_train)
print("\n")


# 3. 모델 선택 및 훈련
#    - RandomForestRegressor: 여러 개의 의사결정 나무를 사용하는 앙상블 모델로, 일반적으로 성능이 좋습니다.
#    - n_estimators: 사용할 나무의 개수
model = RandomForestRegressor(n_estimators=100, random_state=42)

#    - fit() 메서드를 사용하여 모델을 훈련시킵니다.
model.fit(X_train, y_train)
print("--------- 모델 훈련 완료 ---------\n")


# 4. 예측 수행
#    - 훈련에 사용하지 않은 '테스트 데이터(X_test)'를 가지고 예측을 수행합니다.
y_pred = model.predict(X_test)


# 5. 모델 평가
#    - MSE (평균 제곱 오차): 예측값과 실제값의 차이의 제곱 평균. 작을수록 좋습니다.
#    - RMSE (평균 제곱근 오차): MSE에 루트를 씌운 값. 실제 값과 비슷한 단위를 가집니다.
#    - R^2 (결정 계수): 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표. 1에 가까울수록 좋습니다.
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("--------- 모델 평가 결과 ---------")
print(f"평균 제곱 오차 (MSE): {mse:.2f}")
print(f"평균 제곱근 오차 (RMSE): {rmse:.2f}")
print(f"R^2 (결정 계수): {r2:.2f}")
print("\n")


# 6. 예측 결과 비교
#    - 실제 가격과 모델이 예측한 가격을 비교하여 확인합니다.
results = pd.DataFrame({'실제_가격': y_test, '예측_가격': y_pred})
print("--------- 실제 가격 vs 예측 가격 ---------")
print(results)

--------- 초기 데이터 (DataFrame) ---------
   크기_sqft  방_개수  지어진_연도  가격_만원
0     1500     3    2005  30000
1     1800     4    2010  40000
2     1300     3    2002  28000
3     2400     5    2015  55000
4     2000     4    2012  48000
5     1600     3    2008  32000
6     2200     4    2018  52000
7     1400     3    2003  29000
8     2600     5    2020  60000
9     1900     4    2011  42000


--------- 훈련 데이터 (X_train) ---------
   크기_sqft  방_개수  지어진_연도
5     1600     3    2008
0     1500     3    2005
7     1400     3    2003
2     1300     3    2002
9     1900     4    2011
4     2000     4    2012
3     2400     5    2015
6     2200     4    2018


--------- 모델 훈련 완료 ---------

--------- 모델 평가 결과 ---------
평균 제곱 오차 (MSE): 27623300.00
평균 제곱근 오차 (RMSE): 5255.79
R^2 (결정 계수): 0.72


--------- 실제 가격 vs 예측 가격 ---------
   실제_가격    예측_가격
8  60000  52710.0
1  40000  41450.0
