## 1. 파일 통합 후 중복되는 데이터 삭제 및 필터링
    - 각 데이터 연말에 중복되는 데이터 삭제 ex) 2022년 csv파일에 있는 2023-01-01 데이터 존재 

In [1]:
# 필요한 경우 아래 명령어를 실행하여 필수 패키지를 설치
# !pip install pandas==2.2.3 numpy==2.1.3 scikit-learn==1.6.1 xgboost==3.0.0 matplotlib==3.10.1 

import pandas as pd

# 파일 불러오기
df_2022 = pd.read_csv('../data/Seoul_Rent_Data_2022.csv')
df_2023 = pd.read_csv('../data/Seoul_Rent_Data_2023.csv')
df_2024 = pd.read_csv('../data/Seoul_Rent_Data_2024.csv')

# 컬럼명 영문화
col_rename = {
    '자치구명': 'district',
    '법정동명': 'dong_name',
    '법정동코드': 'dong_code',
    '계약일': 'contract_date',
    '임대면적': 'area_m2',
    '층': 'floor',
    '보증금(만원)': 'deposit',
    '임대료(만원)': 'rent',
    '전월세구분': 'rent_type',
    '건물용도': 'building_type',
    '건축년도': 'built_year'
}

df_2022.rename(columns=col_rename, inplace=True)
df_2023.rename(columns=col_rename, inplace=True)
df_2024.rename(columns=col_rename, inplace=True)

# 연도 컬럼 추가
df_2022['year'] = 2022
df_2023['year'] = 2023
df_2024['year'] = 2024

# 통합
df_all = pd.concat([df_2022, df_2023, df_2024], ignore_index=True)

# 성북구 / 월세 필터링
df_filtered = df_all[
    (df_all['district'] == '성북구') & (df_all['rent_type'] == '월세')
]

# 불필요한 컬럼 제거
columns_to_drop = [
    '건물명', '접수년도', '자치구코드', '계약기간', '신규계약구분',
    '갱신청구권사용', '종전보증금', '종전임대료', '지번구분코드', '본번', '부번', '지번구분'
]
df_filtered = df_filtered.drop(columns=columns_to_drop, errors='ignore')  # 없는 경우 대비

# 완전 중복 제거
df_filtered = df_filtered.drop_duplicates()

# 실사용 컬럼 기준 중복 제거 
df_filtered = df_filtered.drop_duplicates(subset=[
    'district', 'dong_code', 'contract_date', 'area_m2', 'floor', 'deposit', 'rent'
])

# 저장
df_filtered.to_csv('../results/seongbuk_rent_merged.csv', index=False)


df_filtered.head(10)

Collecting pandas==2.2.3
  Using cached pandas-2.2.3-cp310-cp310-win_amd64.whl.metadata (19 kB)
Collecting numpy==2.1.3
  Using cached numpy-2.1.3-cp310-cp310-win_amd64.whl.metadata (60 kB)
Collecting scikit-learn==1.6.1
  Using cached scikit_learn-1.6.1-cp310-cp310-win_amd64.whl.metadata (15 kB)
Collecting xgboost==3.0.0
  Using cached xgboost-3.0.0-py3-none-win_amd64.whl.metadata (2.1 kB)
Collecting matplotlib==3.10.1
  Using cached matplotlib-3.10.1-cp310-cp310-win_amd64.whl.metadata (11 kB)
Collecting python-dateutil>=2.8.2 (from pandas==2.2.3)
  Using cached python_dateutil-2.9.0.post0-py2.py3-none-any.whl.metadata (8.4 kB)
Collecting pytz>=2020.1 (from pandas==2.2.3)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas==2.2.3)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting scipy>=1.6.0 (from scikit-learn==1.6.1)
  Using cached scipy-1.15.3-cp310-cp310-win_amd64.whl.metadata (60 kB)
Collecting jobli

Unnamed: 0,district,dong_code,dong_name,floor,contract_date,rent_type,area_m2,deposit,rent,built_year,building_type,year
19,성북구,13900,석관동,,20220101,월세,19.0,1000,48,2018.0,단독다가구,2022
37,성북구,13600,하월곡동,,20220101,월세,17.0,1000,50,2016.0,단독다가구,2022
73,성북구,12500,안암동5가,,20220101,월세,19.8,1000,40,1989.0,단독다가구,2022
129,성북구,10200,성북동1가,2.0,20220101,월세,40.42,6000,40,2002.0,연립다세대,2022
167,성북구,10100,성북동,1.0,20220101,월세,108.89,5000,30,1977.0,연립다세대,2022
233,성북구,11300,삼선동3가,,20220101,월세,53.2,500,31,1992.0,단독다가구,2022
336,성북구,12000,동선동5가,3.0,20220101,월세,49.93,1000,80,1992.0,연립다세대,2022
368,성북구,10800,동소문동5가,9.0,20220101,월세,16.67,1000,87,2017.0,아파트,2022
372,성북구,10800,동소문동5가,6.0,20220101,월세,16.67,5000,68,2017.0,아파트,2022
422,성북구,11800,동선동3가,3.0,20220102,월세,40.78,2000,95,2001.0,연립다세대,2022


## 2.성북구 월세 데이터 + 거시경제 변수(금리, 물가지수)를 포함

In [2]:
# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_merged.csv')
cpi = pd.read_csv('../data/Consumer_Living_Price_Index.csv')
rate = pd.read_csv('../data/Korea_Base_Interest_Rate_Trend.csv')

# 계약일 날짜 변환
df['contract_date'] = pd.to_datetime(df['contract_date'], format='%Y%m%d')

# 금리 컬럼명 영문화
rate.rename(columns={'변경일자': 'change_date', '기준금리': 'interest_rate'}, inplace=True)
rate['change_date'] = pd.to_datetime(rate['change_date'])
rate = rate.sort_values('change_date')
rate['next_change_date'] = rate['change_date'].shift(-1)

# 금리 매칭
def match_rate(date):
    row = rate[(rate['change_date'] <= date) & (rate['next_change_date'] > date)]
    if not row.empty:
        return row['interest_rate'].iloc[0]
    else:
        last_row = rate[rate['change_date'] <= date].iloc[-1]
        return last_row['interest_rate']

df['interest_rate'] = df['contract_date'].apply(match_rate)

# CPI 컬럼명 영문화
cpi.rename(columns={'시점': 'base_date', '생활물가지수': 'cpi'}, inplace=True)
cpi['base_date'] = cpi['base_date'].str.replace(' ', '')
cpi['base_date'] = pd.to_datetime(cpi['base_date'], format='%Y.%m')
cpi = cpi.sort_values('base_date')
cpi['next_base_date'] = cpi['base_date'].shift(-1)

# CPI 매칭
def match_cpi(date):
    row = cpi[(cpi['base_date'] <= date) & (cpi['next_base_date'] > date)]
    if not row.empty:
        return row['cpi'].iloc[0]
    else:
        last_row = cpi[cpi['base_date'] <= date].iloc[-1]
        return last_row['cpi']

df['cpi'] = df['contract_date'].apply(match_cpi)

# 저장
df.to_csv('../results/seongbuk_rent_with_macro.csv', index=False)

# 확인
print(df[['contract_date', 'interest_rate', 'cpi']].head())

  contract_date  interest_rate     cpi
0    2022-01-01            1.0  104.85
1    2022-01-01            1.0  104.85
2    2022-01-01            1.0  104.85
3    2022-01-01            1.0  104.85
4    2022-01-01            1.0  104.85


##3. 층, 건축년도 결측치 해결
 1. 층 : 단독다가구 -> NaN를 1로 대체
 2. 건축년도 : KNN Imputer 활용해 NaN값 보정
 3. 파생변수 연식 (계약일-건축년도 = 0) 생성

In [3]:
from sklearn.impute import KNNImputer
import numpy as np

# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_with_macro.csv')

# 계약일 datetime 변환
df['contract_date'] = pd.to_datetime(df['contract_date'], format='%Y-%m-%d')

# 단독다가구 → NaN 층값을 1로 대ㅃㅃ
df.loc[(df['building_type'] == '단독다가구') & (df['floor'].isna()), 'floor'] = 1

# KNN Imputer로 built_year 보정
imputer_cols = ['built_year', 'area_m2', 'dong_code']
imputer_data = df[imputer_cols]

imputer = KNNImputer(n_neighbors=5)
imputed_data = imputer.fit_transform(imputer_data)

df['built_year'] = pd.Series(imputed_data[:, 0]).round()

# 파생변수: 계약연도 & 연식 생성
df['contract_year'] = df['contract_date'].dt.year
df['building_age'] = df['contract_year'] - df['built_year']

# 확인
print(f"층 NaN 처리 후 NaN 개수: {df['floor'].isna().sum()}")
print(f"건축년도 KNN 보정 후 NaN 개수: {df['built_year'].isna().sum()}")
print(df[['contract_date', 'built_year', 'building_age']].head())

# 저장
df.to_csv('../results/seongbuk_rent_enriched.csv', index=False)

층 NaN 처리 후 NaN 개수: 0
건축년도 KNN 보정 후 NaN 개수: 0
  contract_date  built_year  building_age
0    2022-01-01      2018.0           4.0
1    2022-01-01      2016.0           6.0
2    2022-01-01      1989.0          33.0
3    2022-01-01      2002.0          20.0
4    2022-01-01      1977.0          45.0


## 4. 이상치 해결 - IQR 클리핑
  1. 실시하는 컬럼 : 임대료, 보증금, 임대면적, 층, 연식

  2. 도입한 이유
     임대료, 보증금, 임대면적, 층 같은 연속형 변수들은 특정 샘플에서 이상치가 존재할 수 있다.
     이런 값들은 모델 학습을 왜곡시키고 추후 진행할 Target Encoding에도 영향을 미쳐 전반적인 예측 성능의 하락의 요인이 되어 도입하였다.
     
  3. 결론
     IQR 클리핑을 통해 극단값을 잘라내고, 신뢰할 수 있는 데이터 범위 내로 정리한다.

In [4]:
# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_enriched.csv')

# 클리핑 대상 컬럼
clip_columns = ['rent', 'deposit', 'area_m2', 'floor', 'building_age']

# IQR 클리핑 함수
def iqr_clip(series):
    q1 = series.quantile(0.25)
    q3 = series.quantile(0.75)
    iqr = q3 - q1
    lower = q1 - 1.5 * iqr
    upper = q3 + 1.5 * iqr
    return series.clip(lower, upper)

# 각 컬럼에 클리핑 적용 
for col in clip_columns:
    df[col] = iqr_clip(df[col]).astype(int)

# 확인
print(df[clip_columns].describe())

# 저장
df.to_csv('../results/seongbuk_rent_iqr.csv', index=False)

               rent       deposit       area_m2         floor  building_age
count  27720.000000  27720.000000  27720.000000  27720.000000  27720.000000
mean      56.089827   6050.822330     42.854329      4.046212     18.131277
std       33.319521   7171.393115     24.728451      4.218798     12.704632
min        0.000000      0.000000      8.000000     -1.000000      0.000000
25%       33.000000   1000.000000     22.000000      1.000000      6.000000
50%       50.000000   3000.000000     38.000000      1.000000     18.000000
75%       70.000000  10000.000000     59.000000      6.000000     28.000000
max      125.000000  23500.000000    116.000000     13.000000     61.000000


## 5. 이상치 해결 - Isolation Forest 
  1. 실시하는 컬럼 : 임대료, 보증금, 임대면적, 층, 연식

  2. 도입한 이유
      Isolation Forest는 IQR 클리핑만으로는 탐지하기 어려운  
      복합 이상치를 탐지하기 위해 도입했다.
     
  3. 결론
     두 이상치 해결 방식을 채용하여 개별 컬럼 단위 + 다차원 관계까지 안정적으로 다듬을 수 있도록 한다.

In [5]:
from sklearn.ensemble import IsolationForest

# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_iqr.csv')

# 이상치 탐지 대상 컬럼
iso_columns = ['rent', 'deposit', 'area_m2', 'floor', 'building_age']

# Isolation Forest 모델 설정
iso = IsolationForest(contamination=0.01, random_state=123)

# 이상치 학습 및 예측
df['is_outlier'] = iso.fit_predict(df[iso_columns])

# 이상치: -1, 정상치: 1 → 이상치만 필터링
outliers = df[df['is_outlier'] == -1]
print(f"탐지된 이상치 개수: {outliers.shape[0]}")

# 이상치 제거
df_cleaned = df[df['is_outlier'] == 1].drop(columns=['is_outlier'])

# 저장
df_cleaned.to_csv('../results/seongbuk_rent_isoforest.csv', index=False)

탐지된 이상치 개수: 278


 ## 6. 법정동코드 + 건물용도 기반 Smooth Target Encoding 방식
  1.  대상 인코딩
      법정동 코드
      건물 용도 

      타겟 변수
      보증금
      임대료

  2. 법정동코드 + 건물용도 조합으로 평균 보증금 임대료 계산
     Target Encoding 적용 후 smooth 과적합 방지　
     
  3. 과적합 방지로 K-fold 대신 Smooth 방식을 선택한 이유
     K-fold는 fold마다 target 인코딩을 반복해서 계산해야 하니까
      계산량이 훨씬 크고, 코드도 더 복잡해짐.

  4. 법정동코드 + 건물용도 그룹별로
     보증금, 임대료의 평균값을 계산.

In [6]:
# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_isoforest.csv')

# Smooth Target Encoding 함수
def smooth_target_encoding(df, group_cols, target_col, alpha=10):
    global_mean = df[target_col].mean()
    agg = df.groupby(group_cols)[target_col].agg(['mean', 'count'])
    smooth = (agg['mean'] * agg['count'] + global_mean * alpha) / (agg['count'] + alpha)
    smooth = smooth.reset_index().rename(columns={0: f"{'_'.join(group_cols)}_{target_col}_encoded"})
    return df.merge(smooth, on=group_cols, how='left')[[f"{'_'.join(group_cols)}_{target_col}_encoded"]]

# 법정동코드 + 건물용도 → 보증금/임대료 인코딩
df['dong_code_building_type_deposit_encoded'] = smooth_target_encoding(df, ['dong_code', 'building_type'], 'deposit')
df['dong_code_building_type_rent_encoded'] = smooth_target_encoding(df, ['dong_code', 'building_type'], 'rent')

# 결과 확인
print(df.head())

# 저장
df.to_csv('../results/seongbuk_rent_encoded.csv', index=False)

  district  dong_code dong_name  floor contract_date rent_type  area_m2  \
0      성북구      13900       석관동      1    2022-01-01        월세       19   
1      성북구      13600      하월곡동      1    2022-01-01        월세       17   
2      성북구      12500     안암동5가      1    2022-01-01        월세       19   
3      성북구      10200     성북동1가      2    2022-01-01        월세       40   
4      성북구      10100       성북동      1    2022-01-01        월세      108   

   deposit  rent  built_year building_type  year  interest_rate     cpi  \
0     1000    48      2018.0         단독다가구  2022            1.0  104.85   
1     1000    50      2016.0         단독다가구  2022            1.0  104.85   
2     1000    40      1989.0         단독다가구  2022            1.0  104.85   
3     6000    40      2002.0         연립다세대  2022            1.0  104.85   
4     5000    30      1977.0         연립다세대  2022            1.0  104.85   

   contract_year  building_age  dong_code_building_type_deposit_encoded  \
0           2022       

## 7. 시간 컬럼
  1. 시간 파생 변수 생성
     기존 데이터 ‘계약일’에서 월 분리.
     연도는 만들어둔 컬럼 사용
     월별 주기성 컬럼 생성 : ex) 예: Month_sin, Month_cos

  3. Sin, Cos 변환
   (1~12)은 12월 → 1월로 순환하는 주기적(순환적) 속성을 가짐
   이를 단순 숫자로 쓰면 모델은 1월과 12월이 멀다고 잘못 이해함.
   
    Month_sin = sin(2π × Month / 12)
    Month_cos = cos(2π × Month / 12)

In [7]:
import numpy as np

# 파일 불러오기
df = pd.read_csv('../results/seongbuk_rent_encoded.csv')

# 계약일 datetime 변환 (이미 돼 있다면 생략 가능)
df['contract_date'] = pd.to_datetime(df['contract_date'], format='%Y-%m-%d')

# 계약월 분리
df['contract_month'] = df['contract_date'].dt.month

# 월 주기성 컬럼 생성
df['Month_sin'] = np.sin(2 * np.pi * df['contract_month'] / 12)
df['Month_cos'] = np.cos(2 * np.pi * df['contract_month'] / 12)

# 확인
print(df[['contract_date', 'contract_year', 'contract_month', 'Month_sin', 'Month_cos']].head())

# 저장
df.to_csv('../results/seongbuk_rent_time.csv', index=False)

  contract_date  contract_year  contract_month  Month_sin  Month_cos
0    2022-01-01           2022               1        0.5   0.866025
1    2022-01-01           2022               1        0.5   0.866025
2    2022-01-01           2022               1        0.5   0.866025
3    2022-01-01           2022               1        0.5   0.866025
4    2022-01-01           2022               1        0.5   0.866025


## 8. 정규화 적용.

In [8]:
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_time.csv')

# 타겟 및 피처 컬럼
target_cols = ['deposit', 'rent']
feature_cols = df.drop(columns=target_cols + ['contract_date', 'building_type']).select_dtypes(include=['number']).columns

# 스케일링 대상 컬럼
cols_to_scale = [
    'area_m2', 'floor', 'built_year', 'building_age',
    'contract_year', 'contract_month',
    'interest_rate', 'cpi',
    'dong_code_building_type_deposit_encoded', 'dong_code_building_type_rent_encoded'
]

# StandardScaler 적용
scaler = StandardScaler()
df_scaled = df.copy()
df_scaled[cols_to_scale] = scaler.fit_transform(df[cols_to_scale])

# 저장
df_scaled.to_csv('../results/seongbuk_rent_scaled.csv', index=False)

# 확인
print(df[[
    'area_m2', 'floor', 'built_year', 'building_age',
    'contract_year', 'contract_month',
    'interest_rate', 'cpi',
    'dong_code_building_type_deposit_encoded', 'dong_code_building_type_rent_encoded']].head())

   area_m2  floor  built_year  building_age  contract_year  contract_month  \
0       19      1      2018.0             4           2022               1   
1       17      1      2016.0             6           2022               1   
2       19      1      1989.0            33           2022               1   
3       40      2      2002.0            20           2022               1   
4      108      1      1977.0            45           2022               1   

   interest_rate     cpi  dong_code_building_type_deposit_encoded  \
0            1.0  104.85                              2548.772283   
1            1.0  104.85                              2385.997188   
2            1.0  104.85                              1520.874796   
3            1.0  104.85                              7982.856059   
4            1.0  104.85                             10291.851009   

   dong_code_building_type_rent_encoded  
0                             40.055015  
1                             43

## 9. XgBoost 학습 및 평가

x 값

계약연도
계약월	
연식	
임대면적	
층	
금리
CPI
월_sin, 월_cos
법정동코드_건물용도_보증금_인코딩	타겟 인코딩 값 (보증금)
법정동코드_건물용도_임대료_인코딩	타겟 인코딩 값 (임대료)

y값
보증금
임대료

In [9]:
from xgboost import XGBRegressor
from sklearn.multioutput import MultiOutputRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_scaled.csv')

# 타겟 변수
target_cols = ['deposit', 'rent']

# 입력 피처
feature_cols = df.drop(columns=target_cols + ['contract_date', 'building_type']).select_dtypes(include=['number']).columns

# 학습용: 2022 + 2023
train_df = df[df['year'].isin([2022, 2023])]
X_train = train_df[feature_cols]
y_train = train_df[target_cols]

# 테스트용: 2024
test_df = df[df['year'] == 2024]
X_test = test_df[feature_cols]
y_test = test_df[target_cols]

# XGBoost 모델 설정
xgb = XGBRegressor(n_estimators=200, max_depth=5, learning_rate=0.1, random_state=123)
model = MultiOutputRegressor(xgb)

# 학습
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"[2024년 예측 평가]")
print(f"MAE (평균 절대 오차): {mae:.2f}")
print(f"RMSE (평균 제곱근 오차): {rmse:.2f}")
print(f"R² (결정 계수): {r2:.4f}")

[2024년 예측 평가]
MAE (평균 절대 오차): 1786.31
RMSE (평균 제곱근 오차): 3566.16
R² (결정 계수): 0.4781


## 10. GridSearch

 1. 하이퍼 파라미터 값 조합해서 gird search 실행
 2. 각 조합의 대해 교차검증 실행 후 최적 조합 선택

In [10]:
from sklearn.model_selection import GridSearchCV

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_scaled.csv')

# 타겟 및 피처 컬럼
target_cols = ['deposit', 'rent']
feature_cols = df.drop(columns=target_cols + ['contract_date', 'building_type']).select_dtypes(include=['number']).columns

# 학습/테스트 분리
train_df = df[df['year'].isin([2022, 2023])]
X_train = train_df[feature_cols]
y_train = train_df[target_cols]

test_df = df[df['year'] == 2024]
X_test = test_df[feature_cols]
y_test = test_df[target_cols]

# 하이퍼파라미터 그리드
param_grid = {
    'estimator__n_estimators': [100, 300],
    'estimator__max_depth': [3, 5, 7],
    'estimator__learning_rate': [0.05, 0.1],
    'estimator__subsample': [0.8, 1],
    'estimator__colsample_bytree': [0.8, 1]
}

# 모델 설정
xgb = XGBRegressor(random_state=123)
multi_output = MultiOutputRegressor(xgb)

# GridSearchCV 실행
grid_search = GridSearchCV(
    multi_output, param_grid,
    scoring='neg_mean_absolute_error',
    cv=3, verbose=2, n_jobs=-1
)

# 학습
grid_search.fit(X_train, y_train)

# 결과 출력
print(f"\n 최적 파라미터: {grid_search.best_params_}")
print(f"최적 평균 MAE: {-grid_search.best_score_:.2f}")

# 테스트셋 성능 평가
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("\n[2024년 테스트셋 최종 평가]")
print(f"MAE (평균 절대 오차): {mae:.2f}")
print(f"RMSE (평균 제곱근 오차): {rmse:.2f}")
print(f"R² (결정 계수): {r2:.4f}")

Fitting 3 folds for each of 48 candidates, totalling 144 fits

 최적 파라미터: {'estimator__colsample_bytree': 1, 'estimator__learning_rate': 0.05, 'estimator__max_depth': 7, 'estimator__n_estimators': 100, 'estimator__subsample': 0.8}
최적 평균 MAE: 1707.93

[2024년 테스트셋 최종 평가]
MAE (평균 절대 오차): 1778.20
RMSE (평균 제곱근 오차): 3512.22
R² (결정 계수): 0.4871


## 11. 2022+2023+2024를 활용한 2025년 예측 (Grid Search 반영)

In [15]:
# 아래 패키지 필요하면 설치(없으면 작동안됨)
# !pip install ipywidgets==8.1.7 notebook 

from ipywidgets import interact, widgets

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_scaled.csv')

# 타겟 및 제외 컬럼
target_cols = ['deposit', 'rent']
excluded_cols = target_cols + ['contract_date', 'district', 'dong_name', 'rent_type']
feature_cols = df.drop(columns=excluded_cols).select_dtypes(include=['number']).columns.tolist()

# 평균값 추출 (결측 방지용)
feature_means = df[feature_cols].mean()

# 법정동코드-이름 매핑
dong_map = df[['dong_code', 'dong_name']].drop_duplicates()
dong_options = [(f"{row['dong_name']} ({row['dong_code']})", row['dong_code']) 
                for _, row in dong_map.iterrows()]

# 예측 함수
def predict_rent(dong_code, building_type, area_m2, floor, building_age, contract_month, interest_rate, cpi):
    month_sin = np.sin(2 * np.pi * contract_month / 12)
    month_cos = np.cos(2 * np.pi * contract_month / 12)

    input_row = feature_means.copy()
    input_row['dong_code'] = dong_code
    input_row['building_type'] = building_type
    input_row['area_m2'] = area_m2
    input_row['floor'] = floor
    input_row['building_age'] = building_age
    input_row['contract_year'] = 2025
    input_row['contract_month'] = contract_month
    input_row['Month_sin'] = month_sin
    input_row['Month_cos'] = month_cos
    input_row['interest_rate'] = interest_rate
    input_row['cpi'] = cpi
    input_row['dong_code_building_type_deposit_encoded'] = 0  # 실시간 계산 미적용 시 0
    input_row['dong_code_building_type_rent_encoded'] = 0

    input_df = pd.DataFrame([input_row])[feature_cols]

    pred = best_model.predict(input_df)
    deposit, rent = pred[0]

    print(f"\n[2025년 예측 결과]")
    print(f"예측 보증금(만원): {deposit:.2f}")
    print(f"예측 임대료(만원): {rent:.2f}")

# 인터랙티브 UI
interact(
    predict_rent,
    dong_code=widgets.Dropdown(options=dong_options, description='법정동'),
    building_type=widgets.Dropdown(options=list(df['building_type'].unique()), description='건물용도'),
    area_m2=widgets.FloatSlider(min=10, max=200, step=1, value=30, description='임대면적(m²)'),
    floor=widgets.IntSlider(min=1, max=50, step=1, value=2, description='층'),
    building_age=widgets.IntSlider(min=0, max=50, step=1, value=10, description='연식'),
    contract_month=widgets.IntSlider(min=1, max=12, step=1, value=1, description='계약월'),
    interest_rate=widgets.FloatSlider(min=0, max=5, step=0.1, value=2.5, description='기준금리'),
    cpi=widgets.FloatSlider(min=50, max=200, step=1, value=110, description='CPI')
)

interactive(children=(Dropdown(description='법정동', options=(('석관동 (13900)', 13900), ('하월곡동 (13600)', 13600), ('…

<function __main__.predict_rent(dong_code, building_type, area_m2, floor, building_age, contract_month, interest_rate, cpi)>

## 12. 기타 연구 - 스탠다드 스케일러(정규화) 적용 후 선형 회귀 및 랜덤 포레스트 정확도 체크

## 1) 선형 회귀

In [12]:
from sklearn.linear_model import LinearRegression

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_scaled.csv')

# 타겟 및 피처 컬럼
target_cols = ['deposit', 'rent']
feature_cols = df.drop(columns=target_cols + ['contract_date', 'building_type']).select_dtypes(include=['number']).columns

# 학습/테스트 분할
train_df = df[df['year'].isin([2022, 2023])]
X_train = train_df[feature_cols]
y_train = train_df[target_cols]

test_df = df[df['year'] == 2024]
X_test = test_df[feature_cols]
y_test = test_df[target_cols]

# 모델 학습 및 예측
model = MultiOutputRegressor(LinearRegression())
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 평가 출력
print("[LinearRegression 2024년 예측 결과]")
print(f"MAE: {mean_absolute_error(y_test, y_pred):.2f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.2f}")
print(f"R²: {r2_score(y_test, y_pred):.4f}")

[LinearRegression 2024년 예측 결과]
MAE: 2017.50
RMSE: 3902.20
R²: 0.3266


## 2) 랜덤 포레스트

In [13]:
from sklearn.ensemble import RandomForestRegressor

# 데이터 불러오기
df = pd.read_csv('../results/seongbuk_rent_scaled.csv')

# 타겟 및 피처 컬럼
target_cols = ['deposit', 'rent']
feature_cols = df.drop(columns=target_cols + ['contract_date', 'building_type']).select_dtypes(include=['number']).columns

# 학습/테스트 분할
train_df = df[df['year'].isin([2022, 2023])]
X_train = train_df[feature_cols]
y_train = train_df[target_cols]

test_df = df[df['year'] == 2024]
X_test = test_df[feature_cols]
y_test = test_df[target_cols]

# 모델 학습 및 예측
model = MultiOutputRegressor(RandomForestRegressor(n_estimators=100, max_depth=10, random_state=123))
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 평가 출력
print("[RandomForest (정규화 적용) 2024년 예측 결과]")
print(f"MAE: {mean_absolute_error(y_test, y_pred):.2f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.2f}")
print(f"R²: {r2_score(y_test, y_pred):.4f}")

[RandomForest (정규화 적용) 2024년 예측 결과]
MAE: 1795.22
RMSE: 3527.68
R²: 0.4841


### 실행환경 확인

In [14]:
import sys
import platform
import numpy
import pandas
import sklearn
import xgboost
import matplotlib
import ipywidgets

print(" Python:", platform.python_version())
print(" numpy:", numpy.__version__)
print(" pandas:", pandas.__version__)
print(" scikit-learn:", sklearn.__version__)
print(" xgboost:", xgboost.__version__)
print(" matplotlib:", matplotlib.__version__)
print(" ipywidgets:", ipywidgets.__version__)

 Python: 3.13.0
 numpy: 2.1.3
 pandas: 2.2.3
 scikit-learn: 1.6.1
 xgboost: 3.0.0
 matplotlib: 3.10.1
 ipywidgets: 8.1.7
