# 아파트 거래내역 전처리

In [1]:
import pandas as pd
import numpy as np
import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# plt 활용을 위해 한글 font 설치
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False


#csv 출처 http://rtdown.molit.go.kr/ 국토교통부 실거래가 공개자료
prop2015 = pd.read_csv("2015_properties.csv", encoding='utf-8', skiprows=15)
prop2016 = pd.read_csv("2016_properties.csv", encoding='utf-8', skiprows=16)
prop2017 = pd.read_csv("2017_properties.csv", encoding='utf-8', skiprows=16)
prop2018 = pd.read_csv("2018_properties.csv", encoding='utf-8', skiprows=16)
prop2019 = pd.read_csv("2019_properties.csv", encoding='utf-8', skiprows=16)
prop2020 = pd.read_csv("2020_properties.csv", encoding='utf-8', skiprows=16)


In [2]:
#2015~ 2020년 서울특별시 아파트 거래내역 concat
prop = pd.concat([prop2015,prop2016,prop2017,prop2018,prop2019,prop2020],ignore_index =True)
prop

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,201501,11,60000,5,1988,언주로 103,,-,-
1,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,201503,3,65000,5,1988,언주로 103,,-,-
2,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,201503,7,62500,2,1988,언주로 103,,-,-
3,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,201508,16,68000,6,1988,언주로 103,,-,-
4,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,201501,29,73000,5,1987,언주로 3,,-,-
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
576530,서울특별시 중랑구 중화동,274-77,274.0,77.0,한영(104),67.57,202008,7,26000,2,2003,동일로144길 74,,-,-
576531,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,95.94,202007,10,44000,6,2007,봉화산로27가길 23,,-,-
576532,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,100.17,202012,3,54800,5,2007,봉화산로27가길 23,,-,-
576533,서울특별시 중랑구 중화동,11-7,11.0,7.0,현대휴앤미(102동),77.71,202009,28,40000,5,2007,봉화산로27가길 19,20201027.0,-,-


In [3]:
#concat file null check
prop.isnull().sum()

시군구              0
번지             204
본번              68
부번              68
단지명              0
전용면적(㎡)          0
계약년월             0
계약일              0
거래금액(만원)         0
층                0
건축년도             0
도로명              0
해제사유발생일     573489
거래유형             0
중개사소재지           0
dtype: int64

In [4]:
#타입 변환, 주소 분할, 필요 column 추출

prop["계약년월"] = prop.copy()['계약년월'].astype(str)
prop['연도'] = prop.copy().계약년월.str[:4].astype(int)
prop['월'] = prop.copy().계약년월.str[4:].astype(int)
prop["전용면적(㎡)"] = prop.copy()['전용면적(㎡)'].fillna(0.0).astype(int)
prop["지번주소"] = prop.copy()["시군구"] + " " + prop.copy()["번지"]
prop["연수"] = prop.copy()["연도"] - prop.copy()["건축년도"].astype(int)
prop['시'] = prop.copy()["시군구"].str.split(" ", expand=True)[0]
prop['구'] = prop.copy()["시군구"].str.split(" ", expand=True)[1]
prop['동'] = prop.copy()["시군구"].str.split(" ", expand=True)[2]
prop["주소"] = prop.copy()['시'] + " " + prop.copy()['구'] + " " + prop.copy()['도로명']
prop["거래금액(만원)"] = prop.copy()["거래금액(만원)"].str.replace(pat=r'[^\w]', repl=r'', regex=True)
prop["거래금액(만원)"]= prop.copy()["거래금액(만원)"].astype(int)
prop

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,...,거래유형,중개사소재지,연도,월,지번주소,연수,시,구,동,주소
0,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77,201501,11,60000,5,...,-,-,2015,1,서울특별시 강남구 개포동 655-2,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
1,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77,201503,3,65000,5,...,-,-,2015,3,서울특별시 강남구 개포동 655-2,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
2,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77,201503,7,62500,2,...,-,-,2015,3,서울특별시 강남구 개포동 655-2,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
3,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77,201508,16,68000,6,...,-,-,2015,8,서울특별시 강남구 개포동 655-2,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
4,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79,201501,29,73000,5,...,-,-,2015,1,서울특별시 강남구 개포동 658-1,28,서울특별시,강남구,개포동,서울특별시 강남구 언주로 3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
576530,서울특별시 중랑구 중화동,274-77,274.0,77.0,한영(104),67,202008,7,26000,2,...,-,-,2020,8,서울특별시 중랑구 중화동 274-77,17,서울특별시,중랑구,중화동,서울특별시 중랑구 동일로144길 74
576531,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,95,202007,10,44000,6,...,-,-,2020,7,서울특별시 중랑구 중화동 11,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 23
576532,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,100,202012,3,54800,5,...,-,-,2020,12,서울특별시 중랑구 중화동 11,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 23
576533,서울특별시 중랑구 중화동,11-7,11.0,7.0,현대휴앤미(102동),77,202009,28,40000,5,...,-,-,2020,9,서울특별시 중랑구 중화동 11-7,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 19


In [5]:
#필요없는 column 삭제

prop.drop(['건축년도','도로명','해제사유발생일','거래유형','중개사소재지',"시군구","본번","부번","번지","계약년월","단지명","지번주소"], axis=1, inplace=True)
prop

Unnamed: 0,전용면적(㎡),계약일,거래금액(만원),층,연도,월,연수,시,구,동,주소
0,77,11,60000,5,2015,1,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
1,77,3,65000,5,2015,3,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
2,77,7,62500,2,2015,3,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
3,77,16,68000,6,2015,8,27,서울특별시,강남구,개포동,서울특별시 강남구 언주로 103
4,79,29,73000,5,2015,1,28,서울특별시,강남구,개포동,서울특별시 강남구 언주로 3
...,...,...,...,...,...,...,...,...,...,...,...
576530,67,7,26000,2,2020,8,17,서울특별시,중랑구,중화동,서울특별시 중랑구 동일로144길 74
576531,95,10,44000,6,2020,7,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 23
576532,100,3,54800,5,2020,12,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 23
576533,77,28,40000,5,2020,9,13,서울특별시,중랑구,중화동,서울특별시 중랑구 봉화산로27가길 19


In [7]:
prop1 = prop.copy()


In [8]:
#CSV 저장
prop1.to_csv("prop_concat2015~2020(1).csv",mode='w')