## 아파트 실거래가 예측 프로젝트

## Stage 1. 데이터확인
데이터를 확인해 보고 어떻게 분석할지 계획해 봅시다!

### 1. 데이터 분석 전 준비
[문제1]
CSV 파일을 데이터프레임 형식으로 불러오기

In [None]:
import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sample_submission.csv')

### 2. 데이터 확인
[문제2]
train의 인덱스 기준 상위 5개 데이터 확인하기.
그리고 앞으로 어떻게 분석을 진행할지 생각해보기.

In [None]:
train.head()

### 3. 데이터 타입 확인
학습 데이터를 이용해서 머신러닝 모델을 학습 시키기 위해서는,
데이터의 타입(Dtype)이 계산 가능한 형태여야 함.

In [None]:
train.info()

### 4. 데이터 통계값 확인
[문제3] describe() 함수를 이용해 수치형 데이터의 통계값을 확인해보기.

In [None]:
def str_to_int(string):
    if type(string) == str:
        string = string.replace(',','')
        return int(string)
    else:
        return string

train['transaction_real_price'] = train['transaction_real_price'].apply(str_to_int)

columns = ['exclusive_use_area', 'floor', 'transaction_real_price']
train[columns].describe()

# 평균 mean값과 표준편차 std값을 통해 가격 분포 확인
# 1사분위수 25% 값과 2사분위수 50% 값 차이가 미미한 것으로 보아
# exclusive_use_area 는 좁은 범위에 몰려있음을 알 수 있음 

### 5. 테스트 데이터 확인
[문제4] 
test의 인덱스 기준 상위 10개 데이터 확인.

test.head(10)

### 6. 제출 데이터 확인
[문제5]
submission의 인덱스 기준 상위 10개 데이터 확인. 

In [None]:
submission.head(10)

### 7. 타겟의 평균값 구하기
[문제6] 
아파트 실거래가의 평균 값을 구하고, 그 값을 submission에 적용하기.

In [None]:
def str_to_int(string):
    if type(string) == str:
        string = string.replace(',','')
        return int(string)
    else:
        return string

train['transaction_real_price'] = train['transaction_real_price'].apply(str_to_int)

mean_apt_price = round(train['transaction_real_price'].mean())
submission['transaction_real_price'] = mean_apt_price
submission.head()

### 8. 제출 파일 생성
[문제7]
예측을 담은 submission을 CSV 파일로 생성하여 제출하기

In [None]:
submission.to_csv('submission.csv', index=False)

## Stage2. 탐색적 데이터 분석(EDA)
목표: 데이터 탐색을 통한 데이터 분석 방향 설정

### 1. 데이터 분석 전 준비
[문제1]
데이터 분석을 위해서는, 먼저 데이터를 볼 수 있어야 함.
학습용 데이터를 읽어와서 train 변수 안에 넣기.

In [None]:
import pandas as pd

train = pd.read_csv('train.csv')
train.head()

### 2. 타겟 데이터 살펴보기
[문제2] 
str_to_int 함수를 만들어 자료형이 str로 되어있는 'transaction_real_price'데이터를 int로 변경하기.
그리고 숫자 사이에 들어있는 ','(콤마) 제거하기.

In [None]:
import seaborn as sns 
import matplotlib.pyplot as plt

def str_to_int(string):
    if type(string) == str;
        string = string.replace(',','')
        return int(string)
    else: 
        return string
train['transaction_real_price'] = train['transaction_real_price'].apply(str_to_int)
data = train['transaction_real_price']

# Seaborn을 사용하여 히스토그램 그리기
sns.histplot(data, color='skyblue')

# 그래프에 제목과 축 레이블 추가
plt.title('아파트 실거래가 히스토그램')
plt.xlabel('아파트 실거래가')
plt.ylabel('빈도수')

# 그래프 표시
plt.show()

### 3. 시군구 컬럼 탐색
[문제3]
'Sigungu' 피처의 값들이 어떻게 구성되어 있는지 확인해보기.

In [None]:
train['Sigungu'].value_counts()

### 4. 지번 컬럼 탐색

In [None]:
train.['Jibun'].value_counts()

### 5. apt 컬럼 탐색(1)

In [None]:
print('아파트 종류 총 개수', len(train['apt_name'].unique()))
display(train['apt_name'].value_counts()[:50])

### 6. apt 컬럼 탐색(2)
[문제4] 
'apt_name'를 기준으로 groupby 연산을 적용해 'trasaction_real_price'의 평균값 구하기.

In [None]:
data = train[['apt_name', 'transaction_rea;_price']].groupby('apt_name').mean()

# Seaborn을 사용하여 히스토그램 그리기
sns.histplot(data, color='skyblue')

# 그래프에 제목과 축 레이블 추가
plt.title('아파트 실거래가 히스토그램')
plt.xlabel('아파트 실거래가')
plt.ylabel('아파트 수')

# 그래프 표시
plt.show()

### 7. exclusive_use_area 컬럼 탐색(1)

In [None]:
data = train['exclusive_use_area']

num_bins = 30 # 구간의 개수

plt.figure(figsize=(18,4))
sns.histplot(data, color='skyblue', bins=num_bins)

plt.title('아파트 실거래가 히스토그램')
plt.xlabel('아파트 실거래가')
plt.ylabel('빈도수')

x_ticks = [min(data) + i * (max(data) - min(data))/num_bins for i in range(num_bins + 1)]
plt.xticks(x_ticks)

plt.show()

# bins는 히스토그램을 만들 때, 데이터를 몇개의 구간으로 나눌지를 지정하는 파라미터.

# 결과해석
# 58~96 제곱미터 넓이의 집의 거래량이 가장 많은 것을 확인할 수 있음.
# 그리고 타겟 데이터와 마찬가지로 왼쪽으로 그래프가 쏠려있는 것을 확인할 수 있어,
# 두 값이 상관관계가 높은지 확인해볼 필요가 있어 보임. 

### 8. exclusive_use_area 컬럼 탐색(2)

In [None]:
data = train['exclusive_use_area']

num_bins = 10 # 구간의 개수

plt.figure(figsize=(18,4))
sns.histplot(data, color='skyblue', bins=num_bins)

plt.title('아파트 실거래가 히스토그램')
plt.xlabel('전용면적')
plt.ylabel('빈도수')

x_ticks = [min(data) + i * (max(data) - min(data) / num_bins for i in range(num_bins + 1 )]
plt.xticks(x_ticks)

plt.show()

# x_ticks는 전용면적 최소~최대 범위를 10등분했을 때의 경계값 목록이며, 
# plt.xticks(x_ticks)로 그 지점에 x축 눈금을 표시하는 역할을 함.

### 9. year_of_completion 컬럼 탐색

In [None]:
train_yearly = train.groupby(train['year_of_completion'])['transaction_real_price'].mean()

plt.plot(train_yearly.index, train_yearly.values)
plt.Xlabel('연도')
plt.ylabel('가격')
plt.title('연도별 아파트 가격')

plt.show()

# 결과해석
# 준공년도는 1979년부터 2017년까지 다양한 아파트들이 존재.
# 일반적으로 다른 조건이 동일하다면, 오래된 아파트는 새 아파트에 비해 가격이 상대적으로 낮음.
# 하지만 출력된 그래프를 보면 아파트 가격에 다른 요인들이 더 큰 영향을 미치기 때문에 
# 준공년도의 경향성으 찾기 어려워보임.


### 10. 날짜 데이터 전처리
[문제5]
'transaction_day'피처와 'transaction_date'피처를 합치고, 데이터의 형식을 datetime으로 변경하기.

In [None]:
def preprocess_tran_data(x):
    if type(x) == int:
        if x < 10:
            return '0'+str(x)
        else:
            return str(x)
    else:
        return x

train['transaction_day'] = train['transaction_day'].apply(preprocess_tran_date)
train['transaction_date'] = train['transaction_year_month'].astype(int).astype(str) + train['transaction_day'].astype(str)
train['transaction_date'] = pd.to_datetime(train['transaction_date'])
train = train.sort_values('transaction_date').reset_index(drop=True) 

# astype()은 지정한 데이터 타입으로 변환하는 메서드.
# 예를 들어, df['col'] = df['col'].astype('float32')는 'col' 열의 데이터 타입을 float32로 변환.

### 11. 날짜별 타겟 데이터 시각화

In [None]:
import matplotlib.dates as mdates

# Scatter Plot 그리기
sns.regplot(
        x=train['transaction_date'].map(mdates.date2num),
        y=train['transaction_real_price'],
        scatter_kws={'color': 'skyblue'},
        line_kws={'color': 'red'}
)

# x축과 y축 레이블 설정
plt.xlabel('transaction_date')
plt.ylabel('Price')

# 그래프 제목 설정
plt.title('Scatter Plot of Price over Time')

# 그래프 표시
plt.show()

# 서울의 아파트 가격은 과거부터 지금까지 꾸준히 오르는 경향성이 있는데,
# 정말로 그러한 경향이 있는지 확인해 보기.

# 그래프를 확인해 보면, 직선 하나를 확인 할 수 있음.
# 직선의 기울기가 양수이므로, 날짜와 가격 사이에 양의 상관관계가 있음을 알 수 있음. 

### 12. floor 데이터 탐색 
[문제6]
빈칸을 채워 'floor'가 1일때와 1이 아닐때의 아파트 시거래가 평균을 구해보자. 
단, 'sigungu'는 '서울특별시 강남구 대치동'이며, 'exclusive_use_area'는 60보다 큰 경우만 계산.

In [None]:
one_floor = train['floor'] == 1
daechi = train['sigungu'] == '서울특별시 강남구 대치동'
area_above_60 = train['exclusive_use_area'] > 60 

print('1층 이상: ', train[one_floor & daechi & area_above_60].transaction_real_price.mean())
print('2층 이상: ', train[~one_floor & daechi & area_above_60].transaction_real_price.mean())


## Stage3. 데이터 전처리(1)
날짜 데이터를 전처리하고, 이를 이용해 아파트 가격을 예측하는데 핵심이 되는 데이터들을 추가하기.
특히 아파트 가격은 금리에 영향을 받는 것으로 알려져 있어 이러한 데이터를 추가해주면 예측에 도움이 됨.
추가적으로, 최근에 거래된 가격을 추가해 보는 등 다양한 방법으로 날짜 데이터를 사용해 중요한 피처를 추가할 수 있음. 

목표
- 날짜 데이터 전처리
- 날짜와 Join할 수 있는 데이터 추가

### 1. 데이터 읽어오기
[문제1]
빈칸을 채워 train과 test를 하나의 데이터프레임으로 합쳐 봅시다. 

In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None # 경고 메시지 끄기 # 두개의 데이터를 합치면 인덱스 중복으로 인해 경고 메시지 뜸.

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sample_submission.csv')
interest_rate = pd.read_csv('interest_rate.csv') # 한국은행 기준금리 데이터 불러오기

train['train_test'] = 'train'
test['train_test'] = 'test' 
all_data = pd.concat([train, test])
all_data = all.data.reset_index(drop=True) # 인덱스 재설정 # 두 데이터를 합친 후 인덱스가 중복되므로 초기화 설정 

train.head()



### 2. 날짜 데이터
[문제2]
날짜 관련 데이터가 'transaction_year_month', 'transaction_day'로 분리되어 있는데, 
'transaction_date'에 합쳐 하나의 피쳐로 만들어 봅시다. 
하나로 합쳐진 'transaction_date'는 yyyymmdd형식의 문자열(str)로 만들어 줍니다. 
예를 들어 '20240101'과 같이 만들어 줍니다. 

그리고 나서 'transaction_date'를 to_datetime()함수를 이용해 datetime 형태로 만들어 줍시다. 

In [None]:
# 힌트 'transaction_day' 피처가 10보다 작은 경우에는 앞에 숫자 '0' 붙이기
# 데이터프레임에서 덧셈연산을 이용하면 문자열을 연결할 수 있음
# datetime은 덧셈, 뺄셈 및 비교 연산이 가능하기 때문에 시계열 데이터를 다룰 때 편리함. 연,월,일 부분 정보 추출도 가능.
# datetime형태로 변환하기 위해 pandas의 to_datetime()함수 사용


def preprocess_tran_date(x):
    ''' 
    정수형 변수인 transaction_day 피처를 전처리하는 함수 
    '''
    return  f"{int(x):02d}"  # x를 정수(int)로 변환 : 빈자리는 0으로 채우고 두 자릿수의 정수로(decimal) 포맷.

# 1. 일(day) 두 자리 문자열로 변환    
all_data['transaction_day'] = all_data['transaction_day'].apply(preprocess_tran_date)

# 2. 연월 + 일 결합 → '20240105' 형식
all_data['transaction_date'] = all_data['transaction_year_month'].astype(int).astype(str) + all_data['transaction_day'].astype(str)
# transaction_year_month 컬럼(예:"202401")을 astype(int) 정수로 바꿨다가 astype(str)문자로 바꾸기. 왜냐하면 바로 str로 바꾸면 nan값 생겨서 깨질 수 있기 때문. 
# 그다음 transaction_day 컬럼(예:"5")을 astype(str) 문자열로 변환. 위 f"{int(x):02d}" 함수로 "05" 라는 두자릿수 맞춰진 상태.
# + 로 합쳐서 결과적으로 "20240105" 라는 문자열로 맞춤. 

# 3. 문자열 날짜 → datetime 형식
all_data['transaction_date'] = pd.to_datetime(all_data['transaction_date']) 
# pd.to_datetime 으로 문자형(str) "20240105"를 진짜 날짜형(datetime64)로 변경 => 날짜 계산, 시계열 정렬, 월연도 추출 가능하도록.

# 4. 날짜순으로 정렬 + 인덱스 초기화
all_data = all_data.sort_values('transaction_date').reset_index(drop=True)
# sort_value: 오름차순 정렬. 내림차순은 ('컬럼명', ascending=False) 
# # 컬럼별로 오름, 내림차순 지정하고 싶을 떄 : sort_values(by=['컬럼1', '컬럼2'],ascending=[False, True]) 
# reset_index: 인덱스를 다시 0부터 순서대로 초기화. 
# drop=True: 기존 인덱스는 버림. (drop=False면 기존 인덱스 옆에 새로 생성됨)

### 3. 아파트 키값 생성
[문제3]
ngroup() 함수를 이용해 'sigungu','apt_name'을 이용한 그룹별 인덱스 만들어 봅시다. 

In [None]:
# '시군구+아파트명' 조합별 고유번호(=아파트 ID)을 새로운 컬럼으로 생성하기
all_data['apartment_id'] = all_data.groupby(['sigungu','apt_name']).nroup()
all_data['apartment_id'] 

# all_data.groupby(['sigungu','apt_name']): ('강남구','힐스테이트') , ('서초구', '래미안')으로 그룹 생성. 
# .ngroup(): 각 그룹에 번호 매겨주는 함수. 0부터 시작하는 정수 ID를 부여. 예: ('강남구','힐스테이트')= 0 , ('서초구', '래미안')= 1
# all_data['apartment_id'] : 'apartment_id'라는 이름의 컬럼으로 저장하기.
# # 이렇게 만든 apartment_id는 나중에 같은 아파트별 평균가격, 거래횟수 집계 또는 모델 학습시 아파트를 카테고리 변수로 인코딩할 때 유용함. 

#### 4. 아파트 실거래가 데이터 전처리

In [None]:
def str_to_int(string):
    if type(string) == str:
        string = string.replace(',','')
        return int(string)
    else:
        return string 
    
all_data['transaction_real_price'] = all_data['transaction_real_price'].apply(str_to_int)

### 5. 아파트 면적으로 분류하기
[문제4] 'exclusive_use_area' 피처에서 파생된 피처를 만들어 봅시다.
'bucket_area'피처를 새로 만들어 60 미만인 경우 0, 85 미만인 경우 1, 이외에는 2를 넣어줍시다. 

In [None]:
def make_area_bucket(area):
    '''
    exclusive_use_area(전용면적)에 따라 구간(bucket)을 나누는 함수
    60 미만 -> 0
    85 미만 -> 1
    그외 -> 2
    '''
    
    if area < 60:                              # area는 시리즈가 전체가 아니라 한 행의 값 하나씩.
    # if all_data['exclusive_use_area'] <= 60 : # 이렇게 쓰면 컬럼 전체를 비교하라는 뜻임.
        return 0 
        # return all_data['bucket_area'] == 0   # == 비교 연산자는 True/False를 반환. 
    if area < 85 :
        return 1
    else :                                      # else 뒤에 : 콜론 빼먹지 말기. 
        return 2
    
# 각 행의 exclusive_use_area 값에 함수 적용
all_data['bucket_area'] = all_data['exclusive_use_area'].apply(make_area_bucket)

# 결과 확인 
all_data[['exclusive_use_area','bucket_area']].head()

# 함수 안에서 all_data를 참조할 필요 없음
# apply는 각 원소(=area 값)을 area로 전달해주기 때문에, 함수 내부에서는 all_data 전체를 쓸 필요가 없다. 

### 6. 최근 아파트 가격 데이터
[문제5]
for문을 이용해 데이터프레임의 데이터를 처리하려고 합니다.
빈칸을 채워 반복문을 완성해 보세요.

In [None]:
from tqdm import tqdm  # 진행상황을 % 로 보여주는 라이브러리 
from datetime import datetime 

def get_recent_price(all_data, idx, row):
    # 전체 데이터에서, 현재 인덱스까지의 데이터를 추출한다.
    temp_df = all_data.loc[:idx]
    
    # 추출한 데이터에서, 거래날짜가 row기준으로 과거이고 비슷한 면적인 아파트 거래를 추출.
    temp_df = temp_df[
        (temp_df['transaction_date'] < row['transaction_date']) &
        (temp_df['bucket_area'] == row['bucket_area'])
    ]

    # 만약 추출한 결과가 아무것도 없으면, 2016-01-01 이전 데이터에서 데이터를 추출.
    if len(temp_df) == 0:
        temp_df = all_data[
         (all_data['transaction_date'] < datetime.strptime('2016-01-01', "%Y-%m-%d"))  
         (all_data['bucket_area'] == row['bucket_area'])
        ]
        
# datetime 라이브러리
# datetime.now() : 현재 날짜와 시간 (연월일시분초) 2025-10-23-10-24-12
# datetime.today() : 오늘 날짜와 시간 now()와 비슷
# datetime.strptime("2024-01-05","%Y-%m-%d") 
    # strptime = string parse time : 문자열 시간을 파싱(parse)해서 datetime 객체로 변환한다. 
    # 문자열 -> 날짜로 변환. "2024-01-05" -> datetime(2024,1,5)
    
# datetime.strftime("%Y년 %m월 %d일") 
    # strftime = string format time : 시간 데이터 datetime 객체를 지정한 형식(format)의 문자열로 만든다. 
    # 날짜 -> 문자열로 변환. "2024년 01월 05일"
    
# datetime.timedelta(days=7) : 7일 간격 생성. 오늘부터 7일 후의 날짜 -> today + timedelta(days=7) 
    
    
    # 추출한 데이터 중, 같은 아파트인 경우 해당 값을 추출.
    recent_price = temp_df[(temp_df['apartment_id'] == row['apartment_id'])]

    if len(recent_price) == 0:
        # 만약 같은 이름의 아파트가 존재하지 않으면, 같은 시궁구에 있는 아파틑 추출.
        recent_price = temp_df[(temp_df['sigungu'] == row['sigungu'])]
        recent_price = recent_price.iloc[-1]['transaction_real_price']
    else:
         # 만약 같은 시군구에 아파트 거래내역이 존재하지 않으면, 가장 최근 거래를 사용.
        recent_price = recent_price.iloc[-1]['transaction_rea_price'] 
    
    # 가장 최근 거래가 없으면 전체 평균을 사용.
    if recent_price is None:
        recent_price = temp_df['transaction_real_price'].mean()
    
    return recent_price

for idx, row in tqdm(all_data.iterrows(), total=all_data.shape[0]):  # iterrow()는 (idx, row)를 쌍으로 반복(iteration)할 수 있게 해주는 메서드. 
    if row['train_test'] == 'test':
        continue 
    all_data.loc[idx, 'recent_price'] = get_recent_price(all_data, idx, row)
    
    
    

## 7. 아파트 최근 거래량
[문제6] 빈칸을 채워, 거래일자 기준으로 90일 이전까지의 데이터를 추출해 봅시다.

In [None]:
from datetime import datetime, timedelta 

for idx, row in tqdm(all_date.iterrows(), total = all_data.shape[0]):
    # transaction_date가 2014-03-30 날짜 이전 데이터인 경우, 2014-03-30 ~ 2014-01-01 데이터를 추출.
    if row['transaction_date'] <= datetime.strptime('2014-03-30', "%Y-%m-%d") : 
        start_day = datetime.strptime('2014-03-30', "%Y-%m-%d")
        end_day = datetime.strptime('2014-01-01', "%Y-%m-%d")
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_Dat) & (all_date['sigungu'] == row['sigungu'])])
    
    # 거래날짜를 기준으로 3개월 이전 데이터를 추출해 봅시다.
    else:
        start_day = row['transacction_date'] - timedelta(days=90)
        end_day = row['transaction_date']
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_day) & (all_data['sigungu'] == row['sigungu'])])
        
    all_data.loc[idx, 'transaction_cnt'] = cnt 


### 8. 금리 데이터 불러오기 및 전처리

In [None]:
interest_rate = pd.read_csv('interest_rate.csv') # 한국은행 기준금리 

def make_date(row):
    month_day = row['월일'].replace('월','-')
    month_dat = month_day.replace('dlf','')
    date = str(row['연도']) + '-' + month_day
    return date

interst_rate['날짜'] = interst_rate.apply(lambda x: make_date(x), axis=1)
interest_rate['날짜'] = pd.to_datetime(interest_rate['날짜'])


### 9. 금리 데이터 적용하기
한국은행_기준금리.csv 파일에는 금리가 변동된 날짜 기준으로 데이터가 쌓여 있기 때문에
아파트 매매 날짜 기준으로 최근 갱신된 금리를 적용해봅시다.

In [None]:
for idx, row in tqdm(all_data.iterrows(), total = all_data.shape[0]):
    date = row['transaction_date']
    rate = interest_rate[interest_rate['날짜'] <= date].iloc[0]['금리']
    # 기준금리 데이터에서 "거래일(date) 이전의 금리만" 필터링해서 interest_rate라는 새로운 df 생성.
    # iloc[0] 그 결과에서 첫번째 행. ['금리'] 컬럼 값 가져와라. 
    all_data.loc[idx, 'interest_rate'] = rate 

### 10. 연월 변수 추가
연도별 월별 영향을 파악하기 위해 데이터 추가
이를 통해 연도별 전체적인 경향성과 월별로 반복되는 경향성을 확인할 수 있습니다. 

In [None]:
all_data['transaction_year'] = all_data['transaction_date'].dt.year  # dt는 datetime64 형식 데이터 accessor(접근자) # 날짜가 들어있는 컬럼에 .dt를 붙여 날짜 속성을 .으로 꺼내 쓸 수 있다. 
all_data['transaction_month'] = all_data['transaction_date'].dt.month 

### 데이터 합치기 
🔹 merge → “기준 열로 조인하는 가로 결합 (JOIN)”  
🔹 concat → “같은 구조 데이터를 단순히 이어붙이는 세로 결합 (UNION ALL과 유사)”  
🔹 union → “concat과 비슷하지만 중복을 제거하는 세로 결합 (SQL UNION과 동일)”
| 기능         | 공통점           | 차이점                              |
| ---------- | ------------- | -------------------------------- |
| **merge**  | DataFrame 합치기 | 공통 컬럼(key) 기준으로 **가로 결합 (JOIN)** |
| **concat** | DataFrame 합치기 | 단순히 **세로로 쌓기** (중복 유지)           |
| **union**  | DataFrame 합치기 | **세로로 쌓고 중복 제거** (SQL UNION과 동일) |


## Stage4. 데이터 전처리(2)

### 도입
이번 스테이지에서는 아파트에 대한 정보를 정리하는 작업을 진행할 것입니다.  
가지고 있는 데이터에는 아파트의 전용면적, 아파트 이름, 그리고 층수가 포함되어 있습니다.   
이를 이용해 아파트 실거래가를 예측할 수 있는 적합한 형태의 데이터로 변환할 예정입니다. 

### 목표
- 아파트 이름을 이용해 가격이 비슷한 단지 끼리 묶기
- 아파트 세금 혜택을 기준으로 전용면적 데이터 전처리
- 층수에 따라 인기가 적은 매물을 반영해 전처리 

### 1. 데이터 분석 전 준비
[문제1] 빈칸을 채워 데이터프레임의 인덱스를 초기화해 보세요.

In [None]:
import pandas as pd
pd. options.mode.chained_assignment = None # 연쇄할당 경고 숨기는 코드 # 데이터 합칠때 경고 발생 띄우지 말고 조용히 실행해. ('Warn'-경고표시, 'None'-경고끄기, 'Raise'-경고 대신 에러로 중단)

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sample_submission.csv')

train['train_test'] = 'train'
test['train_test'] = 'test'
all_data = pd.concat([train, test])
all_data = all_data.reset_index(drop=True)


# 경고 숨기는 options.mode.chained_assignment = None 대신 
# loc[] 사용해서 좀 더 명확히 표현하는 법. 
# pandas가 복사본을 수정하는 건지 혼동하지 않도록. 원본 수정이라고 명시.

# .loc을 사용하여 명확히 원본의 특정 열을 수정
# train.loc[:, 'train_test'] = 'train'
# test.loc[:, 'train_test'] = 'test'

# 두 데이터프레임 결합 (행 방향)
# all_data = pd.concat([train, test], axis=0, ignore_index=True)

all_data.tail()


### 2. 아파트 이름 전처리(1)
[문제2] 빈칸을 채워 kmeans 변수에 K-means 클러스터링 모델을 선언해 봅시다. 

In [None]:
from sklearn.cluster import KMeans
import numpy as np 

# 평균값을 구할 때에는 train 데이터에서 구한다.
train = all_data[all_data['train_test'] == 'train']

# 아파트 실거래가 수치형 변수로 변환
train['transaction_real_price'] = train['transaction_real_price'].str.replace(',','').astype('int')

# 아파트 이름을 기준으로 평균 실거래가 구하기
data = train[['apt_name', 'transaction_real_price']] 
data = data.groupby('apt_name').mean()
arr = data['transaction_real_price'].to_numpy().reshape(-1,1) 
# to_numpy 통해 순수한 숫자 배열로 변환. 계산 용이하도록. # reshape(-1,1)은 1차원 -> 2차원 배열 (n,1)형태로 만들어 머신러닝 모델 입력 형태로 변환.
# (n,) : 1차원 -> 모델이 인식 못함. [35000, 42000, 39000]
# (n, 1) : 2차원 -> 인식 가능. [[35000], [42000], [39000]]
# (-1,1) 의미는 -1: 행 개수를 자동으로 계산, 1: 열이 1개짜리 2차월 배열로 만들라는 뜻. 

# 가격을 기준으로 아파트 군집화
k = 5
kmeans = KMeans(n_cluster=k, n_init=10)
kmeans.fit(arr)

# 가격을 기준으로 군집의 순서를 정렬하기 위해 인덱스를 추출
sort_order = np.argsort(kmeans.cluster_centers_.flatten()) # np.argsort() 정렬된 순서의 인덱스를 반환. 
# flatten()은 1차원 한줄로 펴주는 함수. 인덱스 셀때 유용하기 때문에 같이 쓰임. 
# 내림차순은 np.argsort()[::-1] 또는 np.argsort(-arr) 

# 군집화 결과를 가격 순서대로 재할당
labels = np.zeros_like(kmeans.labels_)
for i, cluster in enumerate(sort_order):
    labels[kmeans.labels_ == cluster] = i 
    
# 군집화 결과와 가격을 데이터에 추가
data['cluste'] = labels
data = data.reset_indec()
data = data[['apart_name', 'cluster']]
data

### 3. 아파트 이름 전처리(2)
[문제3] 빈칸을 채워 위에서 구한 아파트의 분류 결과를 'all_data'에 'apt_name'을 기준으로 left join 연산을 해봅시다.

In [None]:
all_data = pd.merge(all_data, data, how='left', left_on='apt_name', right_on='apt_name')

cluster_mode = all_data.loc[all_data['train_test'] == 'train', 'cluster'].mode()
all_data['cluster'] = all_data['cluster'].fillna(cluster_mode)

all_data['cluster'].value_counts()

### 4. 아파트 면적 전처리

In [None]:
def make_area_bucket(area):
    if area < 60: #59타입
        return 0
    elif area < 85: #84타입
        return 1
    else:
        return 2 
    
all_data['bucket_area']= all_data['exclusive_use_area'].apply(make_area_bucket)
all_data['bucket_area'].value_counts()

### 5. 층수 전처리
[문제4] 빈칸을 채워 floor 피처를 활용해 전처리하는 코드를 작성해 봅시다.

아파트 층수는 저층일 경우, 일반적으로 가격이 낮습니다.  
그렇기 때문에 3층 이하의 층수는 따로 분류해 전처리 하도록 해보겠습니다. 

In [None]:
all_data['low_floor'] = all_data['floor'].apply(lambda x: 0 if x <= 3 else 1)
all_data['low_floor'].value_counts()

## Stage5. 모델 학습 및 검증

### 1.도입
앞에서 전처리한 데이터들을 이용해 모델을 학습해 보겠습니다.
어떤 데이터가 얼마나 실거래가 예측에 도움이 되는지 검증할 차례입니다.
추가적으로 데이터가 시간 순서대로 구성되어 있기 때문에, 그에 맞게 학습 데이터와 검증 데이터를 나눠 검증을 진행해 보겠습니다.

### 2. 목표
- 모델 학습 및 적정한 피처 선택

### 1. 데이터 분석 전 준비

In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sampled_submission.csv')
interest_rate = pd.read_Csv('interest_rate.csv')

train['train_test'] = 'train'
test['train_test'] = 'test'
all_data = pd.concat([train, test])
all_data = all_data.reset_index(drop=True)

train.head()


### 2. 가격 데이터 전처리

In [None]:
def str_to_int(string):
    if type(string) == str:
        string = string.replace(',','')
        return int(string)
    else:
        return string
    
all_data['trransaction_real_price'] = all_data['transaction_real_price'].apply(str_to_int)

### 3. 아파트 키값 생성

In [None]:
all_data['apartment_id'] = all_data.roupby(['sigungu', 'apt_name']).ngroup()

### 4. 날짜 데이터 전처리
[문제1] 빈칸을 채워 all_data를 transaction_Date를 기준으로 정렬하세요,   
그리고 인덱스(index)를 리셋(reset)해 주세요.

In [None]:
def preprocess_tran_date(x):
    if type(x) === int:
        if x < 10:
            return '0'+str(x)
        else:
            return str(x)
    else:
        return x
    
# 간단 한줄 함수 : return f"{int(x):02d}

all_data['transaction_day'] = all_data['transaction_day'].apply(preprocess_tran_date)
all_data['transaction_date'] = all_data['transaction_year_month'].astype(int).astype(str)+all_data['transaction_day'].astype(str)
all_data['transaction_date'] = pd.to_datetime(all_data['transaction_date'])
all_data = all_data.sort_values('transaction_date').reset_index(drop=True)

| 키워드               | 어떤 데이터    | 결과         | 기억하기      |
| ----------------- | --------- | ---------- | --------- |
| **sort_values()** | DataFrame | 정렬된 데이터 반환 | SQL ORDER BY 개념|
| **np.sort()**     | NumPy 배열  | 정렬된 값      | “값 정렬”    |
| **np.argsort()**  | NumPy 배열  | 정렬 순서 인덱스  | “인덱스값 반환”   |


### 5. 최근에 거래된 가격 구하기

In [None]:
from tqdm import tqdm
from datetime import datetime

def make_area_bucket(area):
    if area < 60: # 59타입
        return 0
    elif area < 85: # 84타입
        return 1
    else:
        return 2 
    
# 아파트 면적 전처리
all_data['bucket_area'] = all_data['exclusive_use_area'].apply(make_area_bucket)

def get_recent_price(idx, all_data):
    temp_df = all_data.loc[:idx]
    temp_df = temp_df[temp_df
        (temp_df['transaction_date'] < row['transaction_date']) &
        (temp_df['bucket_area'] == row['bucket_area'])
    ]
    if len(temp_df) == 0:
        temp_df = all_data[ 
            (all_data['transaction_date'] < datetime.strptime('2016-01-01', '%Y-%m-%d')) &
            (all_data['bucket_area'] == row['bucket_area']
        )]
    
    # 아파트 아이디 같은 것 찾기
    recent_price = temp_df[(temp_df['apartment_id'] == row['apartment_id'])]
    if len(recent_price) == 0:
        recent_price = temp_df[(temp_df['sigungu'] == row['sigungu'])]
        recent_price = recent_price.iloc[-1]['transaction_real_price']
    else:
        recent_price = recent_price.iloc[-1]['transaction_real_price']
        
    if recent_price is None:
        recent_price = temp_df['transaction_real_price'].mean() # 2019년 전체평균
        
    return recent_price
for idx, row in tqdm(all_data.iterrows(), total = all_data.shape[0]):
    if row['train_test'] == 'test' :
        continue 
    all_data.loc[idx, 'recent_price'] = get_recent_price(idx, all_data)
    

### 6. 아파트의 최근 거래량 구하기

In [None]:
from datetime import datetime, timedelta

for idx, row in tqdm(all_data.iterrows(), total = all_data.shape[0]):
    # transaction_date가 2014-03-30 날짜 이전 데이터인 경우, 2014-03-30 ~ 2014-01-01 데이터를 추출합니다. 
    if row['trandaction_date'] <= datetime.strptime('2014-03-30', "%Y-%m-%d"): 
        start_day = datetime.strptime('20214-03-30', "%Y-%m-%d")
        end_day = datetime..strptime('2014-01-01', "%Y-%m-%d")
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_day) & (all_data['sigungu'] == row['sigungu'])]) 
        
    # 거래날짜를 기준으로 3개월 이전 데이터를 추출해 봅시다.
    else:
        start_day = row['transaction_date'] - timedelta(days=90)
        end_day = row['transaction_date']
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_day) & (all_data['sigungu'] == row['sigungu'])])
    
    all_data.loc[idx, 'transaction_cnt'] = cnt

### 7. 금리 데이터 추가하기 
[문제2]
문자열 형식의 날짜 데이터를, datetime 형태로 변경해 봅시다.  
먼저 날짜 데이터를 '2023-12-01' 형태로 변경해 봅시다.

In [None]:
# interest_rate에 들어있는 날짜 데이터는 금리가 변동된 날짜. 
# 그렇기 때문에 거래일자 기준 최근 금리가 변동된 날짜의 금리를 사용하면 도미.

# 금리 변동일자 데이터를 전처리해 봅시다. pd.to_datetime()함수에는 '2023-01-01'형태의 문자열로 넣어야 함.
# '월일'을 '01월01일' -> '01-01'로 변경 

def make_date(row):
    '''
    "연도'와 '월일' 컬럼을 조합해 YYYY-MM-DD 문자열로 변환해야 함
    (ex. '2023', '1월13일' -> '2023-01-13')
    '''
    year = str(row['연도'])
    
    # '월', '일' 제거, 공백 제거
    monthday = str(row['월일']).replace('월','').replace('dlf','').strip()
    
    # 공백 기준으로 분리 -> ['1', '13'] 형태
    parts = monthday.split()
    if len(parts) == 2:
        month = parts[0].zfill(2) # zfill(n) 왼쪽에 0 추가해서 문자열 전체 길이를 n으로 맞춤. zero fill 0으로 채운다는 의미.
        day = parts[1].zfill(2)
    else:
        # 혹시 데이터가 '0113' 형태일 수도 있으니 대비
        month = monthday[:2].zfill(2)
        day = monthday[2:].zfill(2) 
    return f"{year}-{month}-{day}" 
    
interest_rate['날짜'] = interest_rate.apply(lambda x: make_date(x), axis=1) # axis=0 세로 방향 각 열(colums)에 함수 적용, axis=1 가로 방향 각 행(row)에 함수 적용
interest_rate['날짜'] = pd.to_datetime(interest_rate['날짜']
interest_rate['날짜']

In [None]:
# 날짜에 맞게 금리를 적용해 줍시다.
for idx, row in tqdm(all.iterrows(), total = all_data.shape[0]):
    date = row['transaction_date']
    rate = interest_rate[interest_rate['날짜'] <= date].iloc[0]['금리']
    all_data.loc[idx, 'interest_rate'] = rate 

# 연월 데이터 추가
all_data['transaction_year'] = all_data['transaction_date'].dt.year
all_data['transaction_month'] = all_data['transaction_date'].dt.month 

### 8. 아파트 이름 데이터 전처리
[문제2] 아파트 이름(apt_name)별 아파트 실거래가(transaction_real_price)의 평균을 구해봅시다. 

In [None]:
from sklearn.cluster import KMeans 
import numpy as np 

# 아파트 별로 가격 평균값 구하기
train = all_data[all_data['tran_test'] == 'train']
data = train[['apt_name', 'transaction_real_price']]

data = data.groupby('apt_name').mean()
arr = data['transaction_rea;_price'].to_numpy().reshape(-1,1)

# 가격을 기준으로 아파트 군집화
k = 5
kmeans = KMeans(n_clusters=k, n_init=10)
kmeans.fit(arr)

# 가격을 기준으로 군집의 순서를 정렬하기 위해 인덱스를 추출
sort_order = np.argsort(kmeans.cluster_centers_.flatten())

# 군집화 결과를 가격 순서대로 재할당
labels = np.zeros_like(kmeans.labels_)
for i, cluster in enumerate(sort_order):
    labels[kemeans.labels_==cluster] = i
    
# 군집화 결과와 가격을 데이터에 추가
data['cluster'] = labels
data = data.reset_index()
data = data[['apt_name', 'cluster']]

all_data = pd.merge(all_data, data, how='left', left_on='apt_name', right_on='apt_name')

cluster_mode = all_data.loc[all_data['train_test'] == 'train', 'cluste'].mean()[0]
all_data['cluster'] = all_data['cluster'].fillna(cluster_mode)

all_data['cluster'].value_counts()


### 9. 층수 전처리
[문제3] lambda 함수를 이용해 'floor'피처가 3층 이하인 경우 0,  
이외의 경우는 1인 새로운 피처를 만들어 봅시다. 

In [None]:
all_data['low_floor'] = all_data['floor'].apply(lambda x: 0 if x <= 3 else 1)
all_date['low_floor'].value_counts()

### 10. 모델 학습 및 검증
[문제4] 빈칸을 채워 옵투나를 이용해 하이퍼파라미터를 최적화해 봅시다. 

이번 문제에서는 랜덤포레스트 모델을 이용해 모델을 만들겠습니다.  
그리고 하이퍼파라미터를 최적화 하기 위해 옵투나(Optuna) 라이브러리를 사용해 봅시다.  
베이즈 최적화 알고리즘을 기반으로 탐색을 수행합니다.  
초기에느 하이퍼파라미터들의 랜덤한 조합을 선택하고, 목적 함수를 이용해 모델을 평가합니다.  
이후 평가된 결과를 바탕으로 더 나은 성능이 기대되는 하이퍼파라미터 영역으로 점진적으로 탐색하며, 더 나은 조합을 찾아냅니다.   
이 과정을 반복하여 최적의 하이퍼파라미터 조합을 찾습니다.


In [None]:
from sklearn.ensemble import RandaomForesttRegressor
from sklearn.metrics import mean_squared_error
import optuna 

validation_year = 2022

columns = [
    'year_of_completion', 'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year',
    'transaction_month', 'cluster', 'bucket_area', 'low_floor', 
]

train_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), columns] 
train_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'], 'transaction_real_price']
                       
val_x = all.data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), columns]
val_y = a;;_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), 'transaction_real_price'] 

def objective(trial) : 
    # 하이퍼파라미터 탐색 대상
    n_estimators = trial.suggest_int('n_estimators', 10, 100)
    max_depth = trial.suggest_int('max_depth', 2, 32)
    
    # RandomForestRegressor 모델 학습
    model = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth)
    model.fit(train_x, train_y)
    
    # 검증 데이터로 평가
    y_pred = model.predict(val_x)
    mse = mean_squared_error(val_y, y_pred)
    return mse 

# Optuna를 사용하여 하이퍼파라미터 탐색
study = optuna.create_study(direction='minimize') # 목표는 최소화 
    # direction='minimize' → 손실 함수(loss, RMSE 등) 최소화 
    # direction='maximize' → 정확도(accuracy, F1 등) 최대화
study.optimize(objective, n_traials=50) # 50회 반복하여 탐색

# 최적의 하이퍼파라미터 값 출력
best_params = study.best_params
print("Best Params:", best_params)


# 실행하면 날짜 시분초, Trial 1 부터 50까지 진행과정 리스트 뜨고 
# "Best Params: {'n_estimator':100, 'max_depth':5}" 출력됨. 베스트 파라미터 값 확인.

🔹 n_estimators — 트리(tree)의 개수

모델이 몇 개의 결정트리(Decision Tree)를 만들어서 예측할지를 결정.  
너무 적으면 학습 부족(underfitting), 너무 많으면 과적합(overfitting) 위험  
  
🔹*max_depth (또는 depth) — 각 트리의 최대 깊이

한 트리가 얼마나 “깊게” 분기할지를 결정.  
트리의 “질문 단계”가 몇 번까지 가능한지를 정하는 것  
(예: “가격이 1억 이상인가?” → “서울인가?” → “84㎡ 이상인가?” …)

✅ 정리 요약
| 파라미터           | 의미                 | 조절 효과                |
| -------------- | ------------------ | -------------------- |
| `n_estimators` | 모델이 학습할 **트리의 개수** | 많을수록 성능↑, 과적합/속도↓ 주의 |
| `max_depth`    | 각 트리의 **깊이(복잡도)**  | 깊을수록 복잡, 과적합 위험      |



### 11. 모델 학습
[문제5] 빈칸을 채워 예측한 결과를 MAE로 평가해 봅시다.

In [None]:
from sklearn.metrics import mean_absolute_error 

# 최적의 하이퍼파라미터로 모델 재학습
best_model = RandomForestRegressor(n_estimators=best_params['n_estimators'], 
                                   max_depth=best_params['max_depth'])
best_model.fit(train_x, train_y)

# 예측
pred_val_ls = best_model.predict(val_x)

mae = maean_absolute_error(val_y, pred_val_ls)
print(mae) 

# mean_absolute_error()
# → 실제값(val_y)과 예측값(pred_val_ls)의 차이(오차)의 절댓값 평균을 계산하는 함수


| 항목           | 현재 상황                        | 해석                |
| ------------ | ---------------------------- | ----------------- |
| MAE = 26,349 | 단위가 **만원**이라면 → 약 2.6억 오차    | ❌ 매우 큼 (모델 개선 필요) |
|              | 단위가 **원**이라면 → 약 26,000원 오차  | ✅ 매우 양호           |
|              | 데이터가 스케일링(normalized) 되어 있다면 | ⚠️ 복원 후 재평가 필요    |

MAE = 26349가 큰지 작은지는 타깃의 단위와 범위에 따라 다릅니다.  
만약 실거래가(만원 단위)를 예측 중이라면 오차 2~3억 수준으로 높은 편이므로  
모델 성능 개선이 필요합니다 (특징 추가, 스케일링, 하이퍼파라미터 조정 등).


## 12. 피처 중요도 확인
[문제6] 위에서 학습한 랜덤포레스트(Random Forest) 모델에서, 피처 중요도를 추출해 봅시다. 

In [None]:
import matplotlib.pyplot as plt 

importances = best_model.feature_importances_
feature_names = train_x.colounms

# 피처 중요도에 따라 내림차순으로 인덱스를 정렬
indices = np.argsort(importances)[::-1]

# 피처 이름을 중요도 순서에 맞게 재배열 
sorted_feature_names = [feature_names[i] for i in indices]

# 피처 중요도 시각화 
plt.figure()
plt.title("Feature Importance")
plt.barh(range(train_x.shape[1]), importances[indices], align="center") 
plt.yticks(range(train_x.shape[1], sorted_feature_name)
plt.ylabel("Features") 
plt.xlabel("Importance") 
plt.show()

### 13. 중요 피처(Feature) 선택

In [None]:
drop_columns = ['bucket_area', 'low_floor', 'year_of_completion']

train_filtered_x = train_x.drop(columns=drop_columns)
val_filtered_x = val_x.drop(columns=drop_columns)

best_model = RandomForestRegressor(n_estimators=best_params['n_estimators'],
                                   max_depth=best_params['max_depth'])
best_model.fit(train_filtered_x, train_y) 

# 예측
pred_vsl_ls = best_model.predict(val_fitered_x)
mae = mean_absolute_error(pred_val_ls, val_y)
print(mae)




### 14. 시계열 모델 교차검증

In [None]:
for validation_year in [2018,2019,2020,2021,2022]:
    columns = [
        'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year', 'transaction_month', 'cluster',
    ]
    train_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), columns]
    train_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), 'transaction_real_price']
    
    val_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), columns]
    val_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), 'transaction_real_price']
    
# 랜덤 포레스트 모델 생성 및 훈련
model_trial = RandomForestRegressor(
    n_estimators=best_params['n_estimators'],
    max_depth=best_params['max_depth']
)
model_trial.fit(train_x, train_y)

# 예측
pred_val_ls = model_trial.predict(val_x)
mae = mean_absolute_error(pred_val_ls, val_y)
print(validation_year, '년도 MAE:', mae)


### 15. 테스트 데이터 예측

In [None]:
from sklearn.ensemble import RandomForestRegressor 

columns = [
    'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year', 'transaction_month', 'cluster'
]
train_x = all_data.loc[all_datap['train_test'] == 'train', columns]
train_y = all_data.loc[all_data['train_test'] == 'train', 'transaction_real_price']
test_x = all_data.loc[all_data['train_test'] == 'test', columns]

# 랜덤 포레스트 모델 생성 및 훈련
model = RandomForestRegressor()
model.fit(train_x, train_y)

# 예측
pred_ls = list()
now_df = all_data.loc[all_data['train_test'] == 'train']
test = all_data.loc[all_data['train_test'] == 'test']

for idx, row in tqdm(test.iterrows(), total = test.shape[0]):
    now_df = pd.cincat([now_df, test.loc[[idc]]])
    test_x.loc[idx, 'recent_price'] = get_recent_price(idx, now_df)
    
    pred = model.predict(test_x.loc[idx:idx]) 
    
    now_df.loc[idx, 'transaction_real_price'] = pred
    pred_ls.append(pred[0]) 

### 16. 정답 제출 파일 생성

In [None]:
submission['transaction_real_price'] = pred_ls
submission.to_csv('submission.csv', index=False) 

## Stage6. 모델 고도화

앞에서 전처리한 데이터들을 이용해 모델을 학습해 보겠습니다.

목표: 모델 학습

### 1. 데이터 분석 전 준비

In [None]:
import pandas as pd
pd.option.mode.chained_assignement = None 

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.csv('sample_submission.csv')
interest_rate = pd.read_csv('interest_rate.csv')

train['train_test'] = 'train'
test['train_test'] = 'test'
all_data = pd.concat([train, test])
all_data = all_data.reset_index(drop=True)

train.head()

### 2. 가격 데이터 전처리

In [None]:
def str_to_int(string):
    if type(string) == str:
        string = string.replace(',','')
        return int(string)
    else:
        return string
all_data['transaction_real_price'] = all_data['transation_real_price'].apply(str_to_int)

### 3. 날짜 데이터 전처리

In [None]:
def preprocess_tran_date(x):
    if type(x) == int:
        if x < 10:
            return '0'+str(x)
        else:
            return str(x)
    else:
        return x 

all_data['transaction_day'] = all_data['transaction_day'].apply(preprocess_tran_date)
all_data['transaction_date'] = all_data['transaction_year_month'].astype(int).astype(str) + all_data['transaction_day'].astype(str)
all_data['transaction_date'] = pd.to_datetime(all_data['transaction_date'])
all_data = all_data.sort_values('transaction_date').reset_index(drop=True)

### 4. 최근에 거래된 가격 구하기
부동산에서 아파트의 시장 가격을 평가할 때, 최근에 거래된 아파트의 가격을 기준으로 매물을 평가하는 경우가 많습니다.   
  
그렇기 때문에 get_recent_price() 함수를 만들어서, 아파트의 최근 가격을 구해 봅시다.   
아파트의 최근 가격은 아파트가 거래된 과거 데이터에서 찾습니다.   
  
1. 전체 데이터에서, 현재 인덱스까지의 데이터를 추출한다.  
2. 추출한 데이터에서, 거래날짜가 row 기준으로 과거이고 비슷한 면적인 아파트 거래를 추출한다.  
3. 만약 추출한 결과가 없으면, 2016-01-01 이전 데이터에서 데이터를 추출한다.  
4. 추출한 데이터 중, 같은 아파트인 경우 해당 값을 추출한다.  
5. 만약 같은 이름의 아파트가 존재하지 않으면, 같은 시군구에 있는 아파트를 추출한다.  
6. 만약 같은 시구군에 아파트 거래내역이 존재하지 않으면, 가장 최근 거래를 사용한다.  
7. 가장 최근 거래가 없으면 전체 평균을 사용한다. 


In [None]:
from tqdm import tqdm
from datetime import datetime

def make_area_bucket(area):
    if area < 60: # 59타입
        return 0
    elif area < 85: #84타입
        return 1
    else:
        return 2 

# 아파트 면적 전처리
all_data['bucket_area'] = all_data['exclusive_use_area'].apply(make_area_bucket)

# 아파트 아이디 생성
all_data['apartment_id'] = all_data.groupby(['sigungu', 'apt_name']).ngroup()

def get_recent_price(all_data, idx, row):
    # 전체 데이터에서, 현재 이전 인덱스까지의 데이터를 추출한다.
    if idx >= 1:
        index = idx -1
    else:
        index = idx

    # 전체 데이터에서, 현재 인덱스까지의 데이터를 추출.
    temp_df = all_data.loc[:index]

    # 추출한 데이터에서, 거래날짜가 row기준으로 과거이고 비슷한 면적인 아파트 거래를 추출.
    tempt_df = temp_df[
        (temp_df['transaction_date'] < row['transaction_date']) & 
        (temp_df['bucket_area'] == row['bucket_area'])
    ]

    # 만약 추출한 결과가 아무것도 없으면, 2026-01-01 이전 데이터에서 데이터를 추출. 
    if len(temp_df) == 0:
        temp_df = all_data[
            (all_data[''])
        ]    
    
    # 추출한 데이터 중, 같은 아파트인 경우 해당 값을 추출.
    recent_price = temp_df[(ttemp_df['apartment_id'] == row['apartment_id'])]

    if len(recent_price) == 0:
        # 만약 같은 이름의 아파트가 존재하지 않으면, 같은 시군ㄱ구에 있는 아파트를 추출.
        recent_price = temp_df[(temp_df['sigungu'] == row['sigungu'])]
        recent_price = recent_price.iloc[-1]['transaction_real_price'] 
    else:
        # 만약 같은 시군구에 아파트 거래내역이 존재하지 않으면, 가장 최근 거래를 사용.
        recent_price = recent_price.iloc[-1]['transaction_real_price']

    # 가장 최근 거래가 없으면 전체 평균을 사용.
    if recent_price is None:
        recent_price = temp_df['transaction_real_price'].mean()
    
    return recent_price 

for idx, row in tqdm(all_data.iterrows(), total = all.data.shape[0]):
    if row['train_test'] == 'test':
        continue
    all_data.loc[idx, 'recent_price'] = get_recent_price(all_data, idx, row) 

   

### 5. 아파트 최근 거래량 구하기

In [None]:
from datetime import datetime, timedelta

for idx, row in tqdm(all_data.iterrows(), total = all_data.shape[0]):
    # transaction_date가 2014-03-30 날짜 이전 데이터인 경우, 2014-03-30 ~ 2014-01-01 데이터를 추출.
    if row['transaction_data'] <= datetime.strptime('2014-03-30', "%Y-%m-%d"):
        start_day = datetime.strptime('2014-03-30', "%Y-%m-%d")
        end_dat = datetime.strptime('2014-01-01', "%Y-%m-%d")
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_day) & (all_data['sigungu'] == row['sigungu'])])
        
    # 거래날짜를 기준으로 3개월 이전 데이터를 추출해 봅시다.
    else:
        start_day = row['transaction_date'] - timedelta(days=90) 
        end_day = row['transaction_date']
        cnt = len(all_data[(all_data['transaction_date'] >= start_day) & (all_data['transaction_date'] < end_day) & (all_data['sigungu'] == row['sigungu'])])
        
    all_data.loc[idx, 'transaction_cnt'] = cnt 

### 6. 금리 데이터 추가하기
[문제1] Datetime 유형인 데이터 'transaction_date'에서 'year', 'month' 데이터를 추출해 봅시다.

In [None]:
def make_date(row):
    month_day = row['월일'].replace('월 ','-')
    month_day = month_day.replace('일', '')
    date = str(row['연도'])+ '-' + month_day 
    return date

# 날짜 데이터 yyyy-mm-dd 형태로 변경
interest_rate['날짜'] = interest_rate.applt(lambda x: make_date(x), axis=1) 

# 날짜를 datetime 유형으로 변경
interest_rate['날짜'] = pd.to_datetime(interest_rate['날짜'])

for idx, row in tqdm(all_data.iterrow(), total = all_data.shape[0]):
    date = row['transaction_date']
    rate = interest_rate[interest_rate['날짜'] <= date].oloc[0]['금리']
    all_data.loc[idx, 'interest_rate'] = rate

# 연월 데이터 추가
all_data['transaction_year'] = all_data['transaction_date'].year # 반드시 .dt.year  # datetime은 DataFrame이 아니라 자료형(type)이라 .dt 없이 인덱싱 불가 
all_data['transaction_month'] = all_data['transaction_date'].month # .dt.month 로 출력.  # 메서드 함수가 아닌 속성이기 때문에 () 생략 ! 

### 7. 아파트 이름 데이터 전처리
[문제2] 빈칸을 채워 가격을 기준으로 K-means 클러스터링을 이용해 아파트를 군집화해 봅시다.

In [None]:
from sklearn.cluster import KMeans
import numpy as np 

# 아파트 별로 가격 평균값 구하기
train = all_data[all_data['train_test'] == 'train']
data = train[['apt_name', 'transaction_real_price']]

data = data.groupby('apt_name').mean()
arr = data['transaction_real_price'].to_numpy().reshape(-1, 1)

# 가격을 기준으로 아파트 군집화
k = 5
kmeans = KMeans(n_clusters=k, n_init=10)
kmeans.fit(arr)

# 가격을 기준으로 군집의 순서를 정렬하기 위해 인덱스를 추출 
sort_order = np.argsort(kmeans.cluster_centers.flatten())

# 군집화 결과를 가격 순서대로 재할당
labels = np.zeros_like(kmeans.labels_)
for i, cluster in enumerate(sort_order):
    labels[kmeans.labels_ == cluster] = i
    
# 군집화 결과와 가격을 데이터에 추가
data['cluster'] = labels
data = data.reset_index()
data = data[['apt_name', 'cluster']]

all_data = pd.merge(all_data, data, how='left', left_on='apt_name', right_on='apt_name')

cluster_mode = all_data.loc[all_data['train_test'] == 'train', 'cluster'].mode()[0]
all_data['cluster'] = all_data['cluster'].fillna(cluster_mode)

all_data['cluster'].value_counts()

## 8. 랜덤포레스트 모델 학습
[문제3] objective 메소드 이용해 옵튜나 실행 내용을 정의하고, 최적의 하이퍼파라미터를 찾아 봅시다. 

In [None]:
from sklearn.ensemble import RandomForestRegressor 
from sklearn.metrics import mean_squared_error
import optuna 

validation_year = 2022 

columns = [
    'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year', 'transaction_month', 'cluster'
]

train_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), columns]
train_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), 'transaction_real_price']

val_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), columns]
val_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year, 'transaction_real_price']
                     
def objective(trial):
    # 하이퍼파라미터 탐색 대상
    n_estimators = trial.suggest_int('n_estimators', 10, 100)
    max_depth = trial.suggest_int('mac_dapth', 2, 32)
    
    # 랜덤포레스트 모델 학습
    model = RandomForestRegressor(n_estimators, max_deppth=max_depth, random_state=7)
    model.fit(train_x, train_y) 
    
    # 검증 데이터로 평가
    y_pred = model.predict(val_x)
    mse = mean_squared_error(vla_y, y_pred)
    return mse 
    
# Optuna를 사용하여 하이퍼파라미터 탐색
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50)

best_params_rf = study.best_params
print("Best Params:", best_params_rf)

### 9. Xgboost 모델 학습
[문제4]
예측문제에 사용하는 xgboost 모델을 만들어 봅시다. 

In [None]:
import xgboost as xgb

def objective(trial):
    # 하이퍼파라미터 탐색 대상
    n_estimators = trial.suggest_int('n_estimators', 10, 100)
    max_depth = trial.sugget_int('max_depth', 2, 32)
    learning_rate = trial.suggest_loungeform('learning_rate', 0.001, 0.1)
    
    # xgboost 모델 학습
    model = xgb.XGBRegressor(n_estimators=n_estimators,
                             max_depth=max_dapth,
                             learning_rate = learning_rate,
                             random_state=7)
    model.fit(train_x, train_y)
    
    # 검증 데이터로 평가 
    y_pred = model.predict(val_x)
    mse = mean_squared_error(val_y, y_pred)
    return mse

# Optuna를 사용하여 하이퍼파라미터 탐색
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50)

best_params_xgb =study.best_params 
print("Best Params:", best_params_xgb)

## 10. 모델 교차검증
[문제5] 랜덤포레스트의 예측값과 XGBoost의 예측값의 평균을 구해 예측값을 계산해 봅시다. 

In [None]:
from sklearn.metrics import mean_absolute_error

for validation_year in [2018, 2019, 2020, 2021, 2022]
columns = [
    'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year', 'transaction_month', 'cluster',
]
train_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), columns]
train_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] < validation_year), 'transaction_real_price']

val_x = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), columns]
val_y = all_data.loc[(all_data['train_test'] == 'train') & (all_data['transaction_year'] == validation_year), 'transaction_real_price'] 

# 모델 생성 및 훈련
model_rf = RandomForestRegressor(n_estimators=best_params_rf['n_estimators'], 
                                 max_depth=best_params_rf['max_depth'],
                                 random_state=7
                                 )
model_rf.fit(train_x, train_y)

model_xgb = xgb.XGBRegressor(n_estimators=best_params_xgb['n_estimators'], 
                             max_depth=best_params_xgb['max_depth'],
                             learning_rate=best_params_xgb['learning_rate'],
                             random_state=7)

model_xgb.fit(train_x, train_y)

# 예측
pred_rf_ls = model_rf.predict(val_x)
pred_xgb_ls = model_xgb.predict(val_x)
blended_prediction = (pred_rf_ls + pred_xgb_ls) /2 

mae = mean_absolute_error(blended_prediction, val_y)
print(validation_year, '년도 MAE:' , mae)


## 11. 테스트 데이터 예측
[문제6] 빈칸을 채워 테스트 데이터를 예측하는 코드를 작성해 보세요.

In [None]:
from sklearn.ensemble import RandomForestRegressor 

columns = [
    'recent_price', 'transaction_cnt', 'interest_rate', 'transaction_year', 'transaction_month', 'cluste', 
]
train_x = all_data.loc[all_data['train_test'] == 'train', columns]
train_y = all_data.loc[all_data['train_test'] == 'train', 'transaction_real_price'] 
test_x = all_data.loc[all_data['train_test'] == 'test', columns] 

# 모델 생성 및 훈련
model_rf = RandomForestRegressor(n_estimators=best_params_rf['n_estimators'],
                                 max_depth=best_params_rf['max_depth'],
                                 random_state=7
                                )  
model_rf.fit(train_x, train_y)

model_xgb = xgb.XGBRgressor(n_estimators=best_params_xgb['n_estimators'],
                            max_depth=best_params_xgb['max_depth'],
                            learning_rate=best_params_xgb['learning_rate'],
                            random_state=7)
model_xgb.fit(train_x, train_y)

# 예측
pred_ls = list()
now_df = all_data.loc[all_data['train_test'] == 'train']
test = all_data.loc[all_data['train_test'] == 'test']

for idx, row in tqdm(test.iterrows(), total = test.shape[0]):
    now_df = pd.concat([now_df, test.loc[[idx]]]) 
    test_x.loc[idx, 'rescent_price'] = get_recent_price(now_df, idx, row)
    
    # 예측
    pred_rf_ls = model_rf.predict(test_x.loc[idx:idx])
    pred_xgb_ls = model_xgb.predict(test_x.loc[idx:idx])
    blended_prediction = (pred_rf_ls + pred_xgb_ls) / 2
    
    now_df.loc[idx, 'transaction_real_price'] = blended_prediction
    pred_ls.append(blended_prediction[0])


## 12. 정답 제출 파일 생성
[문제7] 예측한 결과가 들어있는 pred_ls를 submission['transaction_real_price']에 넣어주세요. 

In [None]:
submission['transaction_real_price'] = pred_ls
submission.to_csv('submission.csv', index=False) 