In [1]:
# 공급량 예측을 위해 사용하는 여러 데이터 중에서 '주택건설 인허가 데이터'와 '미분양 데이터'를 이용
# '주택건설 인허가 데이터'는 주택건설 사업자가 주택건설 사업 계획을 승인받은 숫자를 월별로 집계한 데이터로 2~3년 후에 
# 해당 지역에 새로 공급되는 주택 물량을 가늠하는 데이터로 사용할 수 있다. 물론 인허가 데이터이므로 실제 착공으로 이어지지 않을 수도 있지만
# 해당 지역 공급량의 큰 흐름을 파악하기에는 충분.

# '미분양 데이터'는 이름 그대로 분양되지 않은, 한마디로 팔리지 않고 남아있는 주택에 관한 데이터다. 

# 하지만 이 또한 한계가 있다!! 주의 할 것!
# 2012, 2013년에 인허가(공급)가 크게 상승하자 매매가 지수가 바닥을 찍엇고 
# 2015년 이후 추세적으로 공급이 점점 감소하자 가격이 계속 상승 하는 모습을 보인다. 
# 2017년에는 인허가의 일시적인 상승이 있었는데, 이때는 매매가 지수의 상승세는 꺽이지 않는 모습이 관찰된다.
# 인허가(공급) 데이터로 부동산 가격을 예측하는 것은 이러한 한계가 있으니 주의해야 한다.

# 공급이 증가했다 하더라도 수요가 그보다 더 많이 증가했을 가능성도 있고 공급량 외에도 많은 요소가 부동산 가격의 움직임에 영향을 미칠 수 있다.

# 인허가와 미분양 데이터를 가지고는 앞서 살펴본 수요에서처럼 특별히 계량화한 전략은 구현하지 않았다. 인허가와 미분양은 단순히 증가, 감소만 봐서는 안되고
# 절대값이 어느 정도수준이고 얼마나 이 상태를 지속하고 있는지 모두 중요하기 때문이다. 그래서 여기서는 인허가와 미분양 데이터를 앞에서 만든 수요 전략을 
# 보충하는 용도로 사용해보겠다.
# 수요 전략에 의해 선택된 지역들의 인허가나 미분양을 살펴보면서 공급 측면에서 투자하기 적합한 지역인지  살펴보고 선택된 지역들에 대한 확신을 다지는 용도로
# 사용하는 것이다.

In [2]:
# 인허가 데이터는 '한국 감정원 부동산 통계정보 시스템' 사이트에서 '부동산통계->부동산통계'

In [5]:
import pandas as pd

permission_path = r'/Users/gamgoon/Development/ML/realty/주택건설인허가실적.xlsx'
permission_raw = pd.read_excel(permission_path, skiprows=10, index_col=0)

In [6]:
permission_raw

Unnamed: 0_level_0,2007년 01월,2007년 02월,2007년 03월,2007년 04월,2007년 05월,2007년 06월,2007년 07월,2007년 08월,2007년 09월,2007년 10월,...,2018년 07월,2018년 08월,2018년 09월,2018년 10월,2018년 11월,2018년 12월,2019년 01월,2019년 02월,2019년 03월,2019년 04월
지 역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
전국,12038,17751,20038,19186,30593,30830,45848,48461,55745,103817,...,58295,38299,30268,35879,43859,98031,32023,42254,50863,35616
서울,1530,794,1888,1963,1866,1893,7338,11719,13182,8146,...,6305,4296,3644,5856,8509,9176,8065,5307,14885,3443
부산,455,1099,2121,364,897,235,9678,6688,5079,6098,...,10817,1637,939,1281,1153,1129,1921,1717,785,1700
대구,818,2731,1047,514,575,887,439,754,2305,75,...,829,3075,3074,822,4535,5779,471,1547,1117,1828
인천,69,116,930,3337,211,5349,1207,1401,4464,8846,...,1850,7872,1850,2138,6746,3793,932,9314,2908,2962
광주,1022,1178,1347,226,2071,139,1559,478,1117,2891,...,5436,246,358,148,2959,437,904,941,3929,1347
대전,55,34,65,81,511,427,54,51,46,3178,...,2372,309,364,595,95,470,3504,1255,1222,971
울산,183,1173,685,2281,244,1787,4248,1506,4007,1265,...,197,382,465,369,4087,2498,93,40,85,224
세종,-,-,-,-,-,-,-,-,-,-,...,81,42,85,35,32,1287,58,20,4111,27
경기,2647,2870,3188,3987,13168,7071,10964,15170,15969,54836,...,13733,9452,11030,10864,9451,46477,8837,11356,15678,15391


In [7]:
# permission_raw의 행과 열을 바꾸기
transposed_permission = permission_raw.T

In [8]:
transposed_permission

지 역,전국,서울,부산,대구,인천,광주,대전,울산,세종,경기,강원,충북,충남,전북,전남,경북,경남,제주
2007년 01월,12038,1530,455,818,69,1022,55,183,-,2647,452,188,1004,888,206,698,1691,132
2007년 02월,17751,794,1099,2731,116,1178,34,1173,-,2870,190,305,1306,602,494,2244,2515,100
2007년 03월,20038,1888,2121,1047,930,1347,65,685,-,3188,389,694,1890,663,391,2314,2321,105
2007년 04월,19186,1963,364,514,3337,226,81,2281,-,3987,1154,464,701,474,1219,1224,1049,148
2007년 05월,30593,1866,897,575,211,2071,511,244,-,13168,513,680,3087,311,353,850,5178,78
2007년 06월,30830,1893,235,887,5349,139,427,1787,-,7071,1535,2549,1600,927,3090,1184,1714,443
2007년 07월,45848,7338,9678,439,1207,1559,54,4248,-,10964,483,803,1856,315,1698,3482,1429,295
2007년 08월,48461,11719,6688,754,1401,478,51,1506,-,15170,1222,2075,1407,402,757,1200,3220,411
2007년 09월,55745,13182,5079,2305,4464,1117,46,4007,-,15969,913,1202,991,240,1762,2711,1714,43
2007년 10월,103817,8146,6098,75,8846,2891,3178,1265,-,54836,932,2317,4175,1217,1698,5441,2467,235


In [9]:
new_index = []

for old_date in transposed_permission.index:
    temp_list = old_date.split(' ')
    new_index.append(temp_list[0][:4] + '.' + temp_list[1][:2])

new_index

['2007.01',
 '2007.02',
 '2007.03',
 '2007.04',
 '2007.05',
 '2007.06',
 '2007.07',
 '2007.08',
 '2007.09',
 '2007.10',
 '2007.11',
 '2007.12',
 '2008.01',
 '2008.02',
 '2008.03',
 '2008.04',
 '2008.05',
 '2008.06',
 '2008.07',
 '2008.08',
 '2008.09',
 '2008.10',
 '2008.11',
 '2008.12',
 '2009.01',
 '2009.02',
 '2009.03',
 '2009.04',
 '2009.05',
 '2009.06',
 '2009.07',
 '2009.08',
 '2009.09',
 '2009.10',
 '2009.11',
 '2009.12',
 '2010.01',
 '2010.02',
 '2010.03',
 '2010.04',
 '2010.05',
 '2010.06',
 '2010.07',
 '2010.08',
 '2010.09',
 '2010.10',
 '2010.11',
 '2010.12',
 '2011.01',
 '2011.02',
 '2011.03',
 '2011.04',
 '2011.05',
 '2011.06',
 '2011.07',
 '2011.08',
 '2011.09',
 '2011.10',
 '2011.11',
 '2011.12',
 '2012.01',
 '2012.02',
 '2012.03',
 '2012.04',
 '2012.05',
 '2012.06',
 '2012.07',
 '2012.08',
 '2012.09',
 '2012.10',
 '2012.11',
 '2012.12',
 '2013.01',
 '2013.02',
 '2013.03',
 '2013.04',
 '2013.05',
 '2013.06',
 '2013.07',
 '2013.08',
 '2013.09',
 '2013.10',
 '2013.11',
 '20

In [11]:
transposed_permission.index = pd.to_datetime(new_index)
transposed_permission.columns.name = None # 날짜 위의 '지역'이라고 쓰여 있는 부분 제거

In [12]:
transposed_permission

Unnamed: 0,전국,서울,부산,대구,인천,광주,대전,울산,세종,경기,강원,충북,충남,전북,전남,경북,경남,제주
2007-01-01,12038,1530,455,818,69,1022,55,183,-,2647,452,188,1004,888,206,698,1691,132
2007-02-01,17751,794,1099,2731,116,1178,34,1173,-,2870,190,305,1306,602,494,2244,2515,100
2007-03-01,20038,1888,2121,1047,930,1347,65,685,-,3188,389,694,1890,663,391,2314,2321,105
2007-04-01,19186,1963,364,514,3337,226,81,2281,-,3987,1154,464,701,474,1219,1224,1049,148
2007-05-01,30593,1866,897,575,211,2071,511,244,-,13168,513,680,3087,311,353,850,5178,78
2007-06-01,30830,1893,235,887,5349,139,427,1787,-,7071,1535,2549,1600,927,3090,1184,1714,443
2007-07-01,45848,7338,9678,439,1207,1559,54,4248,-,10964,483,803,1856,315,1698,3482,1429,295
2007-08-01,48461,11719,6688,754,1401,478,51,1506,-,15170,1222,2075,1407,402,757,1200,3220,411
2007-09-01,55745,13182,5079,2305,4464,1117,46,4007,-,15969,913,1202,991,240,1762,2711,1714,43
2007-10-01,103817,8146,6098,75,8846,2891,3178,1265,-,54836,932,2317,4175,1217,1698,5441,2467,235


In [13]:
# 인허가 데이터를 데이터프레임으로 변환하는 함수 정의
def permission_preprocessing(path):
    permission_raw = pd.read_excel(permission_path, skiprows=10, index_col=0)
    transposed_permission = permission_raw.T
    new_index = []

    for old_date in transposed_permission.index:
        temp_list = old_date.split(' ')
        new_index.append(temp_list[0][:4] + '.' + temp_list[1][:2])
    transposed_permission.index = pd.to_datetime(new_index)
    transposed_permission.columns.name = None # 날짜 위의 '지역'이라고 쓰여 있는 부분 제거
    
    return permission_raw

In [19]:
# 미분양 데이터

unsold_path = r'/Users/gamgoon/Development/ML/realty/시·군·구별+미분양현황_2082_128_20190623201955.xlsx'
unsold_raw = pd.read_excel(unsold_path, skiprows=1, index_col=0)

In [20]:
unsold_raw

Unnamed: 0_level_0,시군구,2007-01,2007-02,2007-03,2007-04,2007-05,2007-06,2007-07,2007-08,2007-09,...,2018-07,2018-08,2018-09,2018-10,2018-11,2018-12,2019-01,2019-02,2019-03,2019-04
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
서울,계,697.0,590.0,687.0,685.0,704.0,778.0,840.0,730.0,724.0,...,42,39,29.0,28.0,28,27,27,50,770,292.0
부산,계,8680.0,8576.0,8548.0,8074.0,7964.0,9212.0,9557.0,9925.0,10739.0,...,3266,3129,3111.0,3205.0,3920,4153,5224,5228,5296,5401.0
대구,계,9467.0,9134.0,9189.0,9009.0,10888.0,12489.0,12179.0,12075.0,11944.0,...,1345,945,745.0,575.0,429,362,291,738,706,1585.0
인천,계,243.0,312.0,266.0,219.0,362.0,883.0,797.0,635.0,507.0,...,1260,1208,1135.0,1122.0,1394,1324,1357,1799,2454,2105.0
광주,계,7005.0,6246.0,5905.0,5829.0,7842.0,8272.0,7186.0,7433.0,7294.0,...,266,240,194.0,194.0,75,58,52,49,45,40.0
대전,계,819.0,803.0,1048.0,1020.0,957.0,1179.0,1191.0,1478.0,2095.0,...,973,978,948.0,990.0,1426,1183,1407,1475,1475,1225.0
울산,계,1180.0,1210.0,1687.0,1521.0,1500.0,1528.0,1741.0,1564.0,3240.0,...,1006,1005,1007.0,1010.0,1009,997,1006,1009,1008,1076.0
경기,계,819.0,3361.0,2579.0,2488.0,2488.0,3899.0,3883.0,4452.0,7906.0,...,7530,7287,6487.0,5529.0,5078,4968,6769,5878,7305,7048.0
강원,계,5312.0,5344.0,5801.0,5460.0,5212.0,6642.0,6850.0,6625.0,6558.0,...,4906,5240,5112.0,5350.0,5300,5736,5589,5802,5748,7882.0
충북,계,2548.0,2645.0,2565.0,3632.0,4012.0,4078.0,4263.0,4378.0,4167.0,...,4870,4880,4426.0,4944.0,4707,4560,3525,3375,3536,3514.0


In [21]:
del unsold_raw['시군구']
transposed_unsold = unsold_raw.T
transposed_unsold.index = pd.to_datetime(transposed_unsold.index)
transposed_unsold.columns.name = None

In [None]:
# 미분양 데이터를 데이터프레임으로 변환하는 함수
def unsold_preprocessing(path):
    unsold_raw = pd.read_excel(unsold_path, skiprows=1, index_col=0)
    del unsold_raw['시군구']
    transposed_unsold = unsold_raw.T
    transposed_unsold.index = pd.to_datetime(transposed_unsold.index)
    transposed_unsold.columns.name = None
    
    return transposed_unsold