# 한국 부동산 데이터 시각 경진대회

https://machinelearningmastery.com/time-series-data-visualization-with-python/

## Get Jupyter ready

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font',family='Malgun Gothic') 
plt.rc('axes',unicode_minus=False)
%matplotlib inline

In [2]:
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.expand_frame_repr', False)

## Set Functions
* 전체 데이터의 형태가 동일하여 function을 이용하여 데이터 분석

In [3]:
# 데이터의 날짜컬럼을 지수로 변경해주는 함수
def change_datetime(data):
    datetime_series=pd.to_datetime(data['Unnamed: 0'])
    datetime_index =pd.DatetimeIndex(datetime_series.values)
    data=data.set_index(datetime_index)
    data.drop(columns='Unnamed: 0',inplace=True)
    data.info()


## 지역별 지가 변동률

In [4]:
# 데이터 로드
region=pd.read_csv('data/realestate/지역별_지가변동률.csv',parse_dates=True)
region.shape

(194, 19)

In [5]:
region.head()

Unnamed: 0.1,Unnamed: 0,전국[%],서울[%],부산[%],대구[%],인천[%],광주[%],대전[%],울산[%],세종[%],경기[%],강원[%],충북[%],충남[%],전북[%],전남[%],경북[%],경남[%],제주[%]
0,2005-01-01,0.226,0.192,0.083,0.212,0.145,0.156,0.196,0.137,,0.374,0.142,0.221,0.463,0.108,0.099,0.163,0.14,0.15
1,2005-02-01,0.184,0.14,0.065,0.208,0.208,0.08,0.206,0.153,,0.256,0.169,0.178,0.531,0.084,0.071,0.135,0.16,0.111
2,2005-03-01,0.348,0.403,0.119,0.278,0.47,0.154,0.674,0.18,,0.324,0.257,0.227,1.154,0.085,0.139,0.161,0.225,0.102
3,2005-04-01,0.525,0.725,0.151,0.258,0.751,0.159,0.917,0.149,,0.591,0.221,0.358,0.804,0.071,0.127,0.209,0.291,0.181
4,2005-05-01,0.562,0.59,0.185,0.254,0.693,0.291,0.85,0.131,,0.882,0.229,0.476,0.883,0.094,0.152,0.224,0.31,0.247


In [6]:
# 데이터 타입 확인
region.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 19 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  194 non-null    object 
 1   전국[%]       194 non-null    float64
 2   서울[%]       194 non-null    float64
 3   부산[%]       194 non-null    float64
 4   대구[%]       194 non-null    float64
 5   인천[%]       194 non-null    float64
 6   광주[%]       194 non-null    float64
 7   대전[%]       194 non-null    float64
 8   울산[%]       194 non-null    float64
 9   세종[%]       104 non-null    float64
 10  경기[%]       194 non-null    float64
 11  강원[%]       194 non-null    float64
 12  충북[%]       194 non-null    float64
 13  충남[%]       194 non-null    float64
 14  전북[%]       194 non-null    float64
 15  전남[%]       194 non-null    float64
 16  경북[%]       194 non-null    float64
 17  경남[%]       194 non-null    float64
 18  제주[%]       194 non-null    float64
dtypes: float64(18), object(1)
mem

<div class="alert alert-block alert-warning">
    <b>Findings: </b> 다른 데이터도 날짜가 object타입으로 되어 있어 datetime으로 변경할 수 있도록 함수을 만듬</div>

In [7]:
# 날짜를 object에서 datetime타입으로 변경
change_datetime(region)

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 194 entries, 2005-01-01 to 2021-02-01
Data columns (total 18 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   전국[%]   194 non-null    float64
 1   서울[%]   194 non-null    float64
 2   부산[%]   194 non-null    float64
 3   대구[%]   194 non-null    float64
 4   인천[%]   194 non-null    float64
 5   광주[%]   194 non-null    float64
 6   대전[%]   194 non-null    float64
 7   울산[%]   194 non-null    float64
 8   세종[%]   104 non-null    float64
 9   경기[%]   194 non-null    float64
 10  강원[%]   194 non-null    float64
 11  충북[%]   194 non-null    float64
 12  충남[%]   194 non-null    float64
 13  전북[%]   194 non-null    float64
 14  전남[%]   194 non-null    float64
 15  경북[%]   194 non-null    float64
 16  경남[%]   194 non-null    float64
 17  제주[%]   194 non-null    float64
dtypes: float64(18)
memory usage: 28.8 KB


In [None]:
# 변동률임이 명시되어있어 지역컬럼명의 % 를 제거
# region.rename(columns=lambda x: x[:-3], inplace=True)
# region.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 19 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  194 non-null    object 
 1   전국[%]       194 non-null    float64
 2   서울[%]       194 non-null    float64
 3   부산[%]       194 non-null    float64
 4   대구[%]       194 non-null    float64
 5   인천[%]       194 non-null    float64
 6   광주[%]       194 non-null    float64
 7   대전[%]       194 non-null    float64
 8   울산[%]       194 non-null    float64
 9   세종[%]       104 non-null    float64
 10  경기[%]       194 non-null    float64
 11  강원[%]       194 non-null    float64
 12  충북[%]       194 non-null    float64
 13  충남[%]       194 non-null    float64
 14  전북[%]       194 non-null    float64
 15  전남[%]       194 non-null    float64
 16  경북[%]       194 non-null    float64
 17  경남[%]       194 non-null    float64
 18  제주[%]       194 non-null    float64
dtypes: float64(18), object(1)
mem

In [None]:
region.plot()

In [None]:
tempre=region.columns[1:]
tempre

In [None]:
plt.figure(figsize=(15,7))
for i in enumerate(tempre):
    sns.lineplot(region['날짜'],region[i[1]])
plt.legend(tempre)
plt.ylim(-4, 2.5)
plt.ylabel("지가변동률")
plt.show()

* 모든 지역의 지가변동률을 하나의 그래프로 표현하면 어떤 지역이 다른 특징을 지니고 변동하였는지 알기 어려우므로 각 지역별 변동률을 알아볼수 있도록 개별 그래프로 그림

In [None]:
#각 지역별 지가 변동률과 전국 지가변동률 표현
plt.figure(figsize=(20,25))
tempre=region.columns[1:]
for i in enumerate(tempre):
    plt.subplot(6,3,i[0]+1)
    plt.plot(region['날짜'],region[i[1]])
    plt.ylim(-4, 2.5) # 변동률의 폭이 각기 다름으로 객관적으로 보기위해 y축을 설정함
    plt.title(i[1])
    plt.ylabel("지가변동률")

<div class="alert alert-block alert-info">
<b>Insight:</b> <br> 지가 변동폭을 다르지만 대부분의 지역이 비슷한 형태를 보이고 있으나 제주와 세종 지역은 다른 지역들과는 다른 지가 변동률 등락을 보이고 있다.  또한 수도권 지역인 서울, 경기, 인천의 지가 변동률 등락은 다른 지역에 비해 큰 변동을 보이고 있음을 알 수 있다. 제주 세종지역의 가격 변동이 왜 다른 지는 지가 변동률 데이터로만으로 알기 어려우므로 추가적인 데이터가 필요할 것으로 보인다. 
</div>

## 건축허가현황

In [None]:
# 데이터 로드
const=pd.read_csv('data/realestate/건축허가현황.csv',parse_dates=True)
const.shape

In [None]:
const.head()

In [None]:
# 데이터 타입 확인
const.info()

In [None]:
change_datetime(const)

<div class="alert alert-block alert-warning">
    <b>Findings: </b> 지역별 지가 변동률을 제외한 다른 데이터의 컬럼은 정보성 성격이 있음으로 변경하지 않고 날짜 컬럼명만 변경하기 위해 함수 설정</div>

In [None]:
# 날짜컬럼명 변경 함수
def date_columnname(data):
    data=data.rename({'Unnamed: 0':'날짜'},axis='columns', inplace=True)
    print('날짜컬럼명 변경')

In [None]:
# 건축현황 날짜 컬럼명 변경
date_columnname(const) 

In [None]:
const.columns

In [None]:
plt.figure(figsize=(15,7))
const.index

In [None]:
domestic=pd.read_csv('data/realestate/국내건설수주액.csv',parse_dates=True)
domestic.info()

In [None]:
change_datetime(domestic)

In [None]:
date_columnname(domestic)

In [None]:
unsold=pd.read_csv('data/realestate/미분양주택현황.csv',parse_dates=True) 
unsold.info()

In [None]:
change_datetime(unsold)

In [None]:
date_columnname(unsold)

In [None]:
realprice=pd.read_csv('data/realestate/아파트 실거래가격지수.csv',parse_dates=True) 
realprice.info()

In [None]:
change_datetime(realprice)

In [None]:
date_columnname(realprice)

In [None]:
typeprice=pd.read_csv('data/realestate/유형별_주택월세통합가격지수.csv',parse_dates=True) 
typeprice.info()

In [None]:
change_datetime(typeprice)

In [None]:
date_columnname(typeprice)

In [None]:
permit=pd.read_csv('data/realestate/주택건설인허가실적.csv',parse_dates=True) 
permit.info()

In [None]:
change_datetime(permit)

In [None]:
date_columnname(permit)

In [None]:
trading=pd.read_csv('data/realestate/주택매매가격지수(KB).csv',parse_dates=True)
trading.info()

In [None]:
change_datetime(trading)

In [None]:
date_columnname(trading)

In [None]:
jeonse=pd.read_csv('data/realestate/주택전세가격지수(KB).csv',parse_dates=True) 
jeonse.info()

In [None]:
change_datetime(jeonse)

In [None]:
date_columnname(jeonse)