<a href="https://colab.research.google.com/github/fedor44/data_preprocessing/blob/main/Untitled28.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [44]:
import pandas as pd
from datetime import datetime

########################
# 부동산 데이터 로드
########################
real_estate_file = '/content/부동산정보.csv'
df = pd.read_csv(real_estate_file, index_col = False, encoding = 'cp949')

# 불필요 행 제거
spac = df[df['도로명건물본번호코드'] != 360].index
df.drop(spac , inplace=True)

# 입주 시기 이전의 매매 정보 제거 (분양권 정보 제거)
spac = df[(df['년'] == 2020) & (df['월'] == 1)].index
df.drop(spac, inplace=True)
spac = df[(df['년'] == 2020) & (df['월'] == 2)].index
df.drop(spac, inplace=True)
spac = df[(df['년'] == 2020) & (df['월'] == 3)].index
df.drop(spac, inplace=True)

# 년, 월, 일 데이터 병합
cols = ['년', '월', '일']
df['날짜'] = df[cols].apply(lambda row: '-'.join(row.values.astype(str)), axis=1)

# 불필요 열 제거
df = df.loc[:, ['날짜', '거래금액', '전용면적']]
df['날짜'] = pd.to_datetime(df['날짜'])

# 인덱스 재정렬
df.reset_index(drop=True, inplace=True)

########################
# KOSPI 지수 데이터 로드
########################
KOSPI_file = '/content/지수정보.csv'
df_KOSPI = pd.read_csv(KOSPI_file, index_col = False, encoding = 'cp949')
df_KOSPI['날짜'] = pd.to_datetime(df_KOSPI['날짜'])

# 부동산 정보 데이터 프레임에 지수 정보 병합
df = pd.merge(df, df_KOSPI, on = '날짜', how = 'left')

# 결측값 처리 (결측값 발생 시 이전 값과 동일하게 변경)
df = df.fillna(method = 'ffill')

########################
# 기준금리 데이터 로드
########################
interest_rate_file = '/content/기준금리정보.csv'
df_rate = pd.read_csv(interest_rate_file, index_col = False, encoding = 'cp949')
df_rate['날짜'] = pd.to_datetime(df_rate['날짜'])

# 날짜에 맞추어 금리 정보 붙여서 리스트 만들기
interest_rate_list = []
temp_date = datetime.today()
for df_date in df['날짜']:
  for idx, row in df_rate.iterrows():
    if row['날짜'] < df_date:
      line = []
      line.append(df_date)
      line.append(row['기준금리'])
      interest_rate_list.append(line)
      break

# 데이터 병합을 위해 dataframe 생성
items = pd.DataFrame(interest_rate_list)
items.columns = ['날짜', '기준금리']

# 부동산 정보 + 지수 데이터 프레임에 금리 정보 병합
df = pd.merge(df, items, on = '날짜', how = 'left')

########################
# 매매수급동향 데이터 로드
########################
supply_demand_index_file = '/content/매매수급동향.csv'
df_index = pd.read_csv(supply_demand_index_file, index_col = False, encoding = 'cp949')

# 불필요 컬럼 제거
df_index = df_index.drop(['주택유형별(1)', '지역별(1)', '지역별(2)', '지역별(3)'], axis = 1)

# 데이터 병합을 위해 날짜별로 재정렬
index_list = []
for col, item in df_index.iteritems():
  line = []
  line.append(col)
  line.append(item[0])
  index_list.append(line)

# 기존 데이터와의 병합을 위해 dataframe 생성 후 전처리
index_frame = pd.DataFrame(index_list)
index_frame.columns = ['날짜', '매매수급동향']
index_frame['날짜'] = pd.to_datetime(index_frame['날짜'])

# 날짜에 맞추어 매매수급동향 정보 붙여서 리스트 만들기
index_list = []
temp_date = datetime.today()
for df_date in df['날짜']:
  for idx, row in index_frame.iterrows():
    if row['날짜'] < df_date:
      line = []
      line.append(df_date)
      line.append(row['매매수급동향'])
      index_list.append(line)
      break

# 데이터 병합을 위해 dataframe 생성
items = pd.DataFrame(index_list)
items.columns = ['날짜', '매매수급동향']

# 부동산 정보 + 지수 데이터 + 금리 정보 프레임에 매매수급동향 정보 병합
df = pd.merge(df, items, on = '날짜', how = 'left')

df.to_csv('전체데이터.csv', index=False, encoding="euc-kr")

In [None]:
_