# 1. 기본 설정

In [None]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats
import datetime
import warnings
warnings.filterwarnings('ignore')

# 사용자 정의 컬럼 이름 설정
column_names = [
    'RCPT_YR', 'CGG_CD', 'CGG_NM', 'STDG_CD', 'STDG_NM',
    'LOTNO_SE', 'LOTNO_SE_NM', 'MNO', 'SNO', 'BLDG_NM',
    'CTRT_DAY', 'THING_AMT', 'ARCH_AREA', 'LAND_AREA', 'FLR',
    'RGHT_SE', 'RTRCN_DAY', 'ARCH_YR', 'BLDG_USG', 'DCLR_SE',
    'OPBIZ_RESTAGNT_SGG_NM'
]

# 컬럼별 데이터 타입 설정
dtype_dict = {
    'RCPT_YR': 'int64',
    'CGG_CD': 'string',
    'CGG_NM': 'string',
    'STDG_CD': 'string',
    'STDG_NM': 'string',
    'LOTNO_SE': 'string',
    'LOTNO_SE_NM': 'string',
    'MNO': 'string',
    'SNO': 'string',
    'BLDG_NM': 'string',
    'CTRT_DAY': 'string',
    'THING_AMT': 'int64',
    'ARCH_AREA': 'float64',
    'LAND_AREA': 'float64',
    'FLR': 'string',
    'RGHT_SE': 'string',
    'RTRCN_DAY': 'string',
    'ARCH_YR': 'string',
    'BLDG_USG': 'string',
    'DCLR_SE': 'string',
    'OPBIZ_RESTAGNT_SGG_NM': 'string'
}

In [None]:
# 데이터 시각화 시, 한글 폰트 깨지는 현상으로 인해, 폰트 설정 및 마이너스 기호 설정
import matplotlib.font_manager as fm
import matplotlib as mpl

plt.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

In [None]:
# 데이터프레임 컬럼 설명
import pprint

col_desc = {
    'RCPT_YR' : '부동산 거래가 접수된 연도 (예: 2024)',
    'CGG_CD' : '자치구를 나타내는 코드 (예: 11500)',
    'CGG_NM' : '자치구의 이름 (예: 성동구)',
    'STDG_CD' : '법정동을 나타내는 코드 (예: 10300)',
    'STDG_NM' : '법정동의 이름 (예: 하왕십리동)',
    'LOTNO_SE' : '지번의 구분 코드 (예: 1)',
    'LOTNO_SE_NM' : '지번 구분에 대한 명칭 (예: 대지)',
    'MNO' : '매물의 본번 정보',
    'SNO' : '매물의 부번 정보',
    'BLDG_NM' :'매물 건물의 이름 (예: 동인드림힐스)',
    'CTRT_DAY' : '계약이 체결된 날짜 (예: 20241014)',
    'THING_AMT' : '거래된 금액(단위: 만원) (예: 28850)',
    'ARCH_AREA' : '건물의 면적(㎡)',
    'LAND_AREA' : '토지의 면적(㎡)',
    'FLR' : '매물이 위치한 층수',
    'RGHT_SE' : '매물 권리 유형',
    'RTRCN_DAY' : '거래 취소일(해당 시)',
    'ARCH_YR' : '건축물이 지어진 연도',
    'BLDG_USG' : '건물이 주요 용도 (예: 오피스텔)',
    'DCLR_SE' : '신고의 구분 유형 (예: 중개거래)',
    'OPBIZ_RESTAGNT_SGG_NM' : '신고한 개업공인중개사가 위치한 시군구 명 (예: 서울 성동구)'
}

pprint.pprint(col_desc)

# 2. 데이터셋 불러오기

In [None]:
# 데이터셋 불러오기

# 2018년도 자료
df_2018 = pd.read_csv('dataset/2018.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2019년도 자료
df_2019 = pd.read_csv('dataset/2019.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2020년도 자료
df_2020 = pd.read_csv('dataset/2020.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2021년도 자료
df_2021 = pd.read_csv('dataset/2021.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2022년도 자료
df_2022 = pd.read_csv('dataset/2022.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2023년도 자료
df_2023 = pd.read_csv('dataset/2023.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

# 2024년도 자료
df_2024 = pd.read_csv('dataset/2024.csv', encoding='euc-kr', names=column_names, dtype=dtype_dict, skiprows=1)

In [None]:
# 2018년도 ~ 2024년도 테이블 수직 병합
df_total = pd.concat([df_2018, df_2019, df_2020, df_2021, df_2022, df_2023, df_2024], axis=0, ignore_index=True)
df_total.head()

# 3. 데이터 EDA

In [None]:
# 결측치 파악
df_total.info()

## 3-1. 주요 변수 기준 결측치 처리

In [None]:
# CGG_NM 자치구명, BLDG_NM 건물 이름, ARCH_YR 건축 연도 없는 경우 결측치 제거
df_total['ARCH_YR'] = df_total['ARCH_YR'].replace(0, np.nan)
df_total.dropna(subset = ['CGG_NM', 'BLDG_NM', 'ARCH_YR'], inplace=True)

# 거래 유형 직거래, 취소 거래 제거
df_total2 = df_total[(df_total['DCLR_SE'].isna() | (df_total['DCLR_SE'] != '직거래')) & (df_total['RTRCN_DAY'].isna())]

In [None]:
# 결측치 제거 후 확인
df_total2.info()

In [None]:
# 불필요한 컬럼 제거 (LOTNO_SE, LOTNO_SE_NM, MNO, SNO, LAND_AREA, RGHT_SE, OPBIZ_RESTAGNT_SGG_NM)
df_total2.drop(columns=['LOTNO_SE', 'LOTNO_SE_NM', 'MNO', 'SNO', 'LAND_AREA', 'RGHT_SE', 'OPBIZ_RESTAGNT_SGG_NM'], inplace=True)

In [None]:
df_total2.info()

## 3-3. 파생변수 생성

In [None]:
# 자치구를 생활권역으로 구별하는 컬럼 신규 생성
CT = ['종로구', '중구', '용산구'] # 도심권
WN = ['은평구', '서대문구', '마포구'] # 서북권
EN = ['강북구', '도봉구', '노원구', '성북구', '동대문구', '중랑구', '성동구', '광진구'] # 동북권
WS = ['강서구', '양천구', '영등포구', '구로구', '금천구', '동작구', '관악구'] # 서남권
ES = ['서초구', '강남구', '송파구', '강동구'] # 동남권

df_total2['AREA_NM'] = df_total2['CGG_NM'].apply(lambda x: '동남권' if x in ES else ('서북권' if x in WN else ('도심권' if x in CT else ('동북권' if x in EN else '서남권'))))

In [None]:
# CTRT_DAY 거래일을 CTRT_DATE라는 DATETIME 컬럼으로 신규 생성
df_total2['CTRT_YR'] = pd.to_datetime(df_total2['CTRT_DAY'], infer_datetime_format = True).dt.year

df_total2.info()

## 3-3. 데이터 유형 변환

In [None]:
# 숫자열로 변경 가능한 컬럼 변경
df_total2[['CGG_CD', 'STDG_CD', 'FLR', 'ARCH_YR']] = df_total2[['CGG_CD', 'STDG_CD', 'FLR', 'ARCH_YR']].apply(pd.to_numeric)

df_total2.info()

# 기본 데이터셋 준비 끝

In [None]:
df_total2.head()

# 4. 데이터 전처리

## 4-1. 고객 페르소나 설정 후 요구조건에 맞게 데이터 필터링

In [None]:
# 고객 요구 조건 필터링
# 1. 초기 조건 필터링 : 2024년도 거래 기준, 아파트, 면적 66 ~ 132, 15억 이하
df_APT_1 = df_total2[(df_total2['CTRT_YR'] == 2024) &
                (df_total2['BLDG_USG'] == '아파트') &
                (df_total2['ARCH_AREA'].between(66, 132)) &
                (df_total2['THING_AMT'] <= 150000)]

df_APT_1.info()

In [None]:
# 2. 추가 조건 필터링 : 위치 (동남권 : 서초, 강남, 송파, 강동 / 서북권 : 은평, 서대문, 마포), 층수 (9층 이상), 건축연도(2016년 ~ 2019년)

df_APT_2 = df_APT_1[((df_APT_1['AREA_NM'] == '동남권') |
                    (df_APT_1['AREA_NM'] == '서북권')) &
                    (df_APT_1['FLR'] >= 9) &
                    (df_APT_1['ARCH_YR'].between(2016, 2019))]

df_APT_2.info()

In [None]:
# 동일한 매물이나, 아파트명이 변경된 경우 아파트명 통일
df_APT_2['BLDG_NM'] = df_APT_2['BLDG_NM'].replace('힐스테이트암사', '힐스테이트 강동 리버뷰')
df_APT_2['BLDG_NM'] = df_APT_2['BLDG_NM'].replace('e편한세상신촌1단지', '이편한세상신촌(1단지)')

In [None]:
# 3. AREA_NM 과 CGG_NM으로 인덱스 잡고 피벗 테이블 만들기
# 이렇게 만들고 나서 아파트 이름 필터링 할 계획
# AREA_NM, CGG_NM 하고 필요한 컬럼들만 남기기

df_APT_3 = df_APT_2.set_index(['AREA_NM', 'CGG_NM'])[
    ['CGG_CD', 'CTRT_YR', 'STDG_CD', 'STDG_NM', 'BLDG_NM', 'BLDG_USG', 'FLR', 'ARCH_AREA', 'THING_AMT', 'ARCH_YR', 'CTRT_DAY']
].sort_index()

# 데이터프레임 행이 이제 줄어들어서 전체 다 표시할 수 있을 것 같아서 전체 데이터프레임 확인
from IPython.display import display
display(df_APT_3)

In [None]:
# 4. 중복 아파트 매물 제거 (층, 평수 무시))
df_APT_4 = df_APT_3.drop_duplicates(['BLDG_NM'])

In [None]:
# 5. 아파트 브랜드 명 필터링 진행
df_APT_final = df_APT_4[df_APT_4['BLDG_NM'].str.contains('래미안|힐스테이트|디에이치|푸르지오|자이|편한세상|아크로|더샵|롯데캐슬|SK뷰|아이파크|IPARK', regex=True, na=False)].sort_values(by=['AREA_NM', 'CGG_NM', 'STDG_NM'], ascending=[True, True, True])

display(df_APT_final)
df_APT_final.info()

In [None]:
# 중복 아파트 매물 제거 (층, 평수 무시))
df_APT_final = df_APT_final.drop_duplicates(['BLDG_NM'])
df_APT_final.info()

In [None]:
# 선형회귀 모델의 낮은 성능으로 인해, 랜덤 포레스트 모델로 신규 작업
# 랜덤 포레스트 모델 사용을 위해, 독립변수는 수치로 전부 변경 필요
# 영향이 낮거나 변환하기 어려운 RCPT_YR, BLDG_NM, RTRCN_DAY, BLDG_USG, DLCR_SE 컬럼 삭제
# 나머지는 전부 수치형, one-hot encoding 으로 변환

In [None]:
# 종속 변수 (THING_AMT) 로그 변환
df_total2['THING_AMT_LOG'] = np.log(df_total2['THING_AMT'])

# THING_AMT와 로그 변환 후 THING_AMT_LOG의 분포를 확인하는 단계
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df_total2['THING_AMT'], bins=50, kde=True, ax=axes[0])
axes[0].set_title('Original Data')

sns.histplot(df_total2['THING_AMT_LOG'], bins=50, kde=True, ax=axes[1])
axes[1].set_title('Log Transformed Data')

plt.show()

# Q-Q Plot을 통한 정규성 확인
stats.probplot(df_total2['THING_AMT_LOG'], dist="norm", plot=plt)
plt.title('Q-Q Plot of THING_AMT_LOG')
plt.show()

In [None]:
# 예측 모델에 사용할 자치구 설정 (위에서 페르소나로 필터링 완료된 자치구)
selected_CGG = ['강동구', '송파구', '마포구', '서대문구', '은평구']

# 건축 연도 0으로 되어있는 것을 결측치로 제거하기
df_total2['ARCH_YR'] = df_total2['ARCH_YR'].replace(0, np.nan)
df_total2.dropna(subset=['ARCH_YR'], inplace=True)

# 자치구, 아파트, 거래 체결 연도 필터링
df_modelset = df_total2[(df_total2['CGG_NM'].isin(selected_CGG))
            & (df_total2['CTRT_YR'].between(2018, 2024))
            & (df_total2['BLDG_USG'] == '아파트')]
df_modelset.info()

## 4-2. 필요한 외부 데이터 추가

In [None]:
# 0. 추가적으로 필요한 외부 데이터 컬럼 추가
# 자치구 내 지하철 개수
sub_cnt = {'강동구' : 15, '송파구' : 28, '마포구' : 16, '서대문구' : 5, '은평구' : 13 }

# 자치구 내 학교 개수
school_cnt = {'강동구' : 64, '송파구' : 97, '마포구' : 52, '서대문구' : 43, '은평구' : 68}

# 자치구 내 공원 개수
park_cnt = {'강동구' : 131, '송파구' : 174, '마포구' : 144, '서대문구' : 125, '은평구' : 136}

# 자치구 내 공원 면적
park_area = {'강동구' : 3408.1, '송파구' : 4776.8, '마포구' : 4569.3, '서대문구' : 5107.2, '은평구' : 14398.2}

# 자치구 내 가구수
household_cnt = {'강동구' : 212585, '송파구' : 287017, '마포구' : 181135, '서대문구' : 146221, '은평구' : 215305}

# 자치구 내 인구수
population_cnt = {'강동구' : 481474, '송파구' : 656310, '마포구' : 372745, '서대문구' : 318622, '은평구' : 465350}

# 자치구 내 가구 평균 인구 수
pop_house = {'강동구' : 2.24, '송파구' : 2.27, '마포구' : 2.00, '서대문구' : 2.07, '은평구' : 2.14}

add_set = pd.DataFrame({
    'CGG_NM' : sub_cnt.keys(),
    'SUB_CNT' : sub_cnt.values(),
    'SCL_CNT' : school_cnt.values(),
    'PARK_CNT' : park_cnt.values(),
    'PARK_AREA' : park_area.values(),
    'HAUS_CNT' : household_cnt.values(),
    'POP_CNT' : population_cnt.values(),
    'POPHAUS' : pop_house.values()
})
df_modelset = df_modelset.merge(add_set, on='CGG_NM', how='left')
df_modelset.head()

In [None]:
# 2018년 ~ 2024년 주담대 대출 금리 데이터 추가
df_loan = pd.read_csv('dataset/예금은행 대출금리(신규취급액 기준)_세로.csv')
df_loan.rename(columns={'변환' : 'LOAN_MON', '원자료' : 'LOAN'}, inplace=True)
df_loan['LOAN_MON'] = pd.to_datetime(df_loan['LOAN_MON'], infer_datetime_format = True).dt.strftime('%Y-%m')

# CTRT_DAY와 LOAN_MON의 형식 통일해주기
df_modelset['CTRT_MON'] = pd.to_datetime(df_modelset['CTRT_DAY'], format='%Y%m%d').dt.strftime('%Y-%m')

# df_loan과 df_modelset merge
df_modelset = pd.merge(df_modelset, df_loan, how='left', left_on='CTRT_MON', right_on='LOAN_MON')
df_modelset.info()
df_modelset.drop(columns='LOAN_MON', inplace=True)

In [None]:
# 자치구별 주택가격지수 외부 데이터 추가
# 2018년 ~ 2024년 자치구별 주택가격지수
df_hprice_index = pd.read_csv('dataset/주택가격지수(매매).csv')
df_hprice_index.drop(columns='자치구별(1)', inplace=True)
df_hprice_index.rename(columns={'자치구별(2)' : 'CGG_NM', '시점' : 'MONTH', '아파트' : 'HOPR_IDX'}, inplace=True)
df_hprice_index.head()

# CTRT_DAY와 MONTH 형식 통일해주기
df_hprice_index['MONTH'] = pd.to_datetime(df_hprice_index['MONTH'], infer_datetime_format = True).dt.strftime('%Y-%m')

# df_hprice_index과 df_modelset merge
df_modelset = pd.merge(df_modelset, df_hprice_index, how='left', left_on=['CGG_NM','CTRT_MON'], right_on=['CGG_NM', 'MONTH'])
df_modelset.drop(columns='MONTH', inplace=True)
df_modelset.head()

## 4-3. 불필요한 변수 제거 및 데이터 유형 변환

In [None]:
# RCPT_YR, BLDG_NM, RTRCN_DAY, BLDG_USG, DLCR_SE 열 삭제
df_rfmodelset = df_modelset.drop(columns=['RCPT_YR', 'BLDG_NM', 'RTRCN_DAY', 
                                          'BLDG_USG', 'DCLR_SE', 'STDG_NM', 
                                          'CTRT_YR', 'CTRT_MON'])

In [None]:
# CTRT_DAY를 날짜형 데이터로 변환
df_rfmodelset['CTRT_DAY'] = pd.to_datetime(df_rfmodelset['CTRT_DAY'], infer_datetime_format = True)

In [None]:
df_rfmodelset.info()

## 4-4. 파생변수 생성

In [None]:
# 날짜를 timestamp로 변환 후 년, 월로 분해해서 컬럼 생성
df_rfmodelset['CTRT_YR'] = df_rfmodelset['CTRT_DAY'].dt.year
df_rfmodelset['CTRT_MO'] = df_rfmodelset['CTRT_DAY'].dt.month

df_rfmodelset.info()

In [None]:
# CTRT_DAY는 수치형 변환하지 않을 것이기 때문에 삭제
df_rfmodelset.drop(columns='CTRT_DAY', inplace=True)

In [None]:
df_rfmodelset.info()

# 5. 모델링 - RandomForest

In [None]:
# 필요한 라이브러리 import
# 데이터 전처리 관련 라이브러리
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

# 데이터 전처리 컬럼별 적용
from sklearn.compose import ColumnTransformer

# 파이프라인
from sklearn.pipeline import Pipeline

# 모델
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# 성능 지표
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from math import sqrt


# 데이터셋 준비
df_rfcopy = df_rfmodelset.copy()

X = df_rfcopy.drop(columns=['THING_AMT', 'THING_AMT_LOG'])
y = df_rfcopy['THING_AMT_LOG'] # target변수

# 범주형 변수
cat_features = ['CGG_NM', 'AREA_NM']

# 수치형 변수
num_features = [col for col in X.columns if col not in cat_features]

# 변수 전처리 단계
preprocessor = ColumnTransformer(
    transformers=[
        ('numbers', StandardScaler(), num_features),  # 수치형 변수 그대로 사용
        ('categories', OneHotEncoder(), cat_features)  # 범주형 변수 원-핫 인코딩
    ])

# 랜덤 포레스트 모델 생성 (랜덤 서치로 최적화 완료)

rf = RandomForestRegressor(n_estimators=140, # 생성할 트리의 수, 트리의 수가 많을 수록 성능이 향상될 수 있지만 계산 비용 증가
                           max_depth=25, # 개별 트리의 최대 깊이, 값을 작게 설정하면 모델 단순, 분산 감소, 편향 증가되어 데이터의 다양한 패턴을 잡아내지 못함
                           min_samples_split=2, # 노드를 분할하기 위해 필요한 최소 샘플 개수, 값을 작게 설정하면 모델 복잡도 증가
                           random_state=42)  # 랜덤 시드 지정, 재현성을 위해 사용

pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', rf)
])

# 훈련 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 훈련
model = pipe.fit(X_train, y_train)

# 예측
y_pred_train = pipe.predict(X_train)
y_pred_test = pipe.predict(X_test)

In [None]:
# 모델 성능 평가 - RMSE
rmse_train = sqrt(mean_squared_error(y_train, y_pred_train))
rmse_test = sqrt(mean_squared_error(y_test, y_pred_test))

# MAE
mae_train = mean_absolute_error(y_train, y_pred_train)
mae_test = mean_absolute_error(y_test, y_pred_test)

# R square
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

# MAPE
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)
mape_test = mean_absolute_percentage_error(y_test, y_pred_test)

print("Train RMSE:", rmse_train)
print("Test RMSE:", rmse_test)
print("Train MAE:", mae_train)
print("Test MAE:", mae_test)

In [None]:
# # 랜덤 서치 사용하여 하이퍼파라미터 최적화 진행 (진행 완료하여 전부 주석처리함)
# from sklearn.model_selection import RandomizedSearchCV

# dist = {
#     'regressor__n_estimators': list(range(50, 201, 10)),
#     'regressor__max_depth': [5, 10, 15, 20, 25],
#     'regressor__min_samples_split': [2, 4, 6, 8, 10]
# }
# rf = RandomForestRegressor(random_state=42)

# pipe = Pipeline(steps=[
#     ('preprocessor', preprocessor),
#     ('regressor', rf)
# ])

# # RandomizedSearchCV
# random_search = RandomizedSearchCV(
#     estimator=pipe,
#     param_distributions=dist,
#     n_iter=30,
#     cv=5,
#     scoring='r2',
#     n_jobs=-1,
#     random_state=42
# )

# # 훈련 데이터 나누기
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# # 최적 하이퍼파라미터 탐색 & 모델 학습
# random_search.fit(X_train, y_train)

# # 최적 하이퍼파라미터 탐색 & 모델 학습
# random_search.fit(X_train, y_train)

# # 최적의 모델 선택
# best_model = random_search.best_estimator_

# # 예측
# y_pred_train = best_model.predict(X_train)
# y_pred_test = best_model.predict(X_test)

# # 최적의 하이퍼파라미터 확인
# print("Best Parameters:", random_search.best_params_)

In [None]:
# 변수 중요도 확인
importances = pipe.named_steps['regressor'].feature_importances_
figure_importance = {}
for f, i in zip(X.columns, importances):
    figure_importance[f] = i
    print(f"{f} : {i}")

df_figimp = pd.Series(figure_importance).to_frame(name="Importance")
df_figimp.index.name = "Feature"
df_figimp.reset_index(inplace=True)
print(df_figimp)

In [None]:
# 변수 중요도 시각화
df_figimp_sorted = df_figimp.sort_values(by='Importance', ascending=True)
plt.figure(figsize = (8,8))

plt.barh(df_figimp_sorted['Feature'], df_figimp_sorted['Importance'], color='#C4A484')
plt.title('변수별 중요도')
plt.xlabel('변수')
plt.ylabel('중요도')
plt.show()

In [None]:
print(model.score(X_train, y_train))
print(model.score(X_test, y_test))

# 예측 모델로 2024년도 5개의 자치구 자료로 2025년도 금액 예측해보기

In [None]:
# 피벗 테이블 생성 이전의 데이터프레임인 df_APT_2 데이터프레임 사용
# 2024년도 데이터로 2025년도 5개의 자치구의 거래 금액 예측해보기
df_2025_APT = df_APT_2.drop_duplicates(['BLDG_NM'])
df_2025_APT = df_2025_APT[df_2025_APT['BLDG_NM'].str.contains('래미안|힐스테이트|디에이치|푸르지오|자이|편한세상|아크로|더샵|롯데캐슬|SK뷰|아이파크|IPARK', regex=True, na=False)].sort_values(by=['AREA_NM', 'CGG_NM', 'STDG_NM'], ascending=[True, True, True])

df_2025_APT.head()

In [None]:
# SUB_CNT, SCL_CNT, PARK_CNT, PARK_AREA, HAUS_CNT,POP_CNT,  POPHAUS 컬럼 만들어주기
sub_cnt = {'강동구' : 15, '송파구' : 28, '마포구' : 16, '서대문구' : 5, '은평구' : 13 }
school_cnt = {'강동구' : 64, '송파구' : 97, '마포구' : 52, '서대문구' : 43, '은평구' : 68}
park_cnt = {'강동구' : 131, '송파구' : 174, '마포구' : 144, '서대문구' : 125, '은평구' : 136}
park_area = {'강동구' : 3408.1, '송파구' : 4776.8, '마포구' : 4569.3, '서대문구' : 5107.2, '은평구' : 14398.2}
household_cnt = {'강동구' : 212585, '송파구' : 287017, '마포구' : 181135, '서대문구' : 146221, '은평구' : 215305}
population_cnt = {'강동구' : 481474, '송파구' : 656310, '마포구' : 372745, '서대문구' : 318622, '은평구' : 465350}
pop_house = {'강동구' : 2.24, '송파구' : 2.27, '마포구' : 2.00, '서대문구' : 2.07, '은평구' : 2.14}

add_set = pd.DataFrame({
    'CGG_NM' : sub_cnt.keys(),
    'SUB_CNT' : sub_cnt.values(),
    'SCL_CNT' : school_cnt.values(),
    'PARK_CNT' : park_cnt.values(),
    'PARK_AREA' : park_area.values(),
    'HAUS_CNT' : household_cnt.values(),
    'POP_CNT' : population_cnt.values(),
    'POPHAUS' : pop_house.values()
})
df_2025_APT= df_2025_APT.merge(add_set, on='CGG_NM', how='left')
df_2025_APT.head()

In [None]:
# HOPR_IDX 컬럼 생성
df_2025_APT['CTRT_MON'] = pd.to_datetime(df_2025_APT['CTRT_DAY'], format='%Y%m%d').dt.strftime('%Y-%m')
df_2025_APT= pd.merge(df_2025_APT, df_hprice_index, how='left', left_on=['CGG_NM','CTRT_MON'], right_on=['CGG_NM', 'MONTH'])
df_2025_APT.drop(columns='MONTH', inplace=True)
df_2025_APT.head()

In [None]:
# 금리 (LOAN) 컬럼 생성
df_2025_APT = pd.merge(df_2025_APT, df_loan, how='left', left_on='CTRT_MON', right_on='LOAN_MON')
df_2025_APT.info()

In [None]:
# 훈련용 데이터와 동일하게 만들기 위해 불필요한 컬럼 제거
# 종속 변수 제거
df_2025_APT.drop(columns=['THING_AMT', 'LOAN_MON', 'RCPT_YR', 
                         'BLDG_NM', 'RTRCN_DAY', 'BLDG_USG', 
                         'DCLR_SE', 'CTRT_YR', 'CTRT_MON', 'STDG_NM'],  inplace=True)

In [None]:
# 2024년인 거래체결 일자 (CTRT_DAY) 임의의 2025년 날짜로 변환
date_range = pd.date_range(start='2025-01-01', end='2025-12-31')
df_2025_APT['CTRT_DAY'] = np.random.choice(date_range, size=len(df_2025_APT))
df_2025_APT['CTRT_DAY'] = pd.to_datetime(df_2025_APT['CTRT_DAY'], infer_datetime_format = True)

In [None]:
# 날짜를 timestamp로 변환 후 년, 월로 분해해서 컬럼 생성
df_2025_APT['CTRT_YR'] = df_2025_APT['CTRT_DAY'].dt.year
df_2025_APT['CTRT_MO'] = df_2025_APT['CTRT_DAY'].dt.month

# CTRT_DAY는 수치형 변환안할 것이기 때문에 삭제
df_2025_APT.drop(columns='CTRT_DAY', inplace=True)

In [None]:
# 범주형 변수 컬럼을 one-hot encoding
cat_features = ['CGG_NM', 'AREA_NM']
num_features = [col for col in df_2025_APT.columns if col not in cat_features]

preprocessor = ColumnTransformer(
    transformers=[
        ('numbers', 'passthrough', num_features),  # 수치형 변수 그대로 사용
        ('categories', OneHotEncoder(), cat_features)  # 범주형 변수 원-핫 인코딩
    ])

In [None]:
# 종속 변수(y) 제외하고, 독립 변수(X)만 사용
# df_2025_APT에는 종속 변수인 THING_AMT가 제거된 상태
X_test = df_2025_APT 

# 예측
predictions = model.predict(X_test)  # rf_model은 이전에 훈련한 랜덤 포레스트 모델

# 결과를 신규 컬럼으로 추가
df_2025_APT["Predicted_Target"] = predictions

# 예측 결과를 다시 지수변환
df_2025_APT["Predicted_Target"] = np.exp(df_2025_APT["Predicted_Target"])

display(df_2025_APT)

In [None]:
# 2024년도 실제 데이터와 비교하기
df_2025_APT['REAL_THING_AMT'] = df_APT_final['THING_AMT'].values

In [None]:
display(df_2025_APT)

# 예측 모델 결과로 2024년 대비 2025년 예측 거래 금액관련 시각화하기

In [None]:
# 2024년도 대비 2025년도 거래 금액 시각화 자료 만들기
# 모델 훈련 때문에 삭제했던 아파트이름 (BLDG_NM) 컬럼 추가하기
df_2425 = df_2025_APT.copy()
df_2425.insert(4, 'BLDG_NM', df_APT_final['BLDG_NM'].values)

In [None]:
# 시각화를 위해 2025년도 예측 거래금액을 거래금액 (THING_AMT) 컬럼으로 이름 변경해서 통일화하기
df_2425.rename(columns={'Predicted_Target' : 'THING_AMT'}, inplace=True)
df_2425.head()

In [None]:
# 상승률 확인을 위한 데이터 준비
df_2024_1 = df_APT_2.drop_duplicates(['BLDG_NM'])
df_2024_1 = df_2024_1[df_2024_1['BLDG_NM'].str.contains('래미안|힐스테이트|디에이치|푸르지오|자이|편한세상|아크로|더샵|롯데캐슬|SK뷰|아이파크|IPARK', regex=True, na=False)].sort_values(by=['AREA_NM', 'CGG_NM', 'STDG_NM'], ascending=[True, True, True])

df_2024_1.info()

In [None]:
# 2024년도 데이터프레임과 2025년도 데이터프레임 수직 결합
df_2425_1 = pd.concat([df_2024_1, df_2425], axis=0)

In [None]:
df_2025_APT.head()

In [None]:
# 2024년도 대비 2025년도 상승률 확인하기
df_growth = df_2025_APT.copy()
df_growth['GROW_RT']=(df_2025_APT['Predicted_Target'] - df_2025_APT['REAL_THING_AMT']) / df_2025_APT['REAL_THING_AMT'] * 100
df_growth.head()

In [None]:
# 아파트명 컬럼 추가
df_growth.insert(3, 'BLDG_NM', df_APT_final['BLDG_NM'].values)
df_growth.head()

In [None]:
# 상승률 (GROW_RT) 기준 내림차순 정렬하여, 2024년도 대비 2025년도 예측 거래금액 상승률이 큰 아파트 순서대로 정렬
df_growth1=df_growth.sort_values(by=['GROW_RT'], ascending=False)
df_growth1.head(24)

In [None]:
# 아파트별 2024년도 대비 2025년도 예측 거래금액
# 다중 막대그래프 그리기
plt.figure(figsize=(16, 6))
custom_palette = {2024: '#D2B48C', 2025: '#A67B5B'}

sns.barplot(data=df_2425_1, x='BLDG_NM', y='THING_AMT', hue='CTRT_YR', palette=custom_palette,
           order = df_growth1.sort_values('GROW_RT', ascending=False).BLDG_NM, width=0.5)

# 그래프 꾸미기
plt.title('2024년 대비 2025년도 예측 거래금액', fontsize=16)
plt.legend(title='CTRT_YR', bbox_to_anchor=(1, 1), loc='upper left')
plt.xticks(rotation=45, ha='right')
plt.xlabel('')
plt.ylabel('')

# 그래프 출력
plt.tight_layout()
plt.show()

In [None]:
# 아파트별 2024년도 대비 2025년도 가격 상승률
plt.figure(figsize = (8,8))

# 막대그래프 그리기
plt.barh(df_growth1['BLDG_NM'], df_growth1['GROW_RT'], color='#C4A484')
plt.title('아파트별 2024년도 대비 2025년도 거래 가격 상승률', fontsize=16)
plt.xlabel('')
plt.ylabel('')
plt.show()