# 아파트 신규 분양 평당 가격 동향
* https://www.data.go.kr/data/15061057/fileData.do

## 필수 라이브러리

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

### 한국어 처리

In [2]:
import matplotlib.pyplot as plt
plt.rc('font', family='AppleGothic')
plt.rc("axes", unicode_minus=False)

### 그래프를 고해상도로 표현

In [3]:
%config InlineBackend.figure_formats = ['svg']

## 데이터 확인

In [4]:
df_last = pd.read_csv("../dataset/preprocessing/주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20211031.csv", encoding="cp949")

In [5]:
df_last.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015,10,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721
4,서울,전용면적 102제곱미터초과,2015,10,5879


In [6]:
df_last.tail()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
6200,제주,모든면적,2021,10,6860
6201,제주,전용면적 60제곱미터이하,2021,10,-
6202,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,10,6787
6203,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,10,5924
6204,제주,전용면적 102제곱미터초과,2021,10,6815


In [7]:
df_first = pd.read_csv("../dataset/preprocessing/주택도시보증공사_전국 평균 분양가격_201508.csv", encoding="cp949")

In [8]:
df_first.head()

Unnamed: 0,지역,2013년12월,2014년1월,2014년2월,2014년3월,2014년4월,2014년5월,2014년6월,2014년7월,2014년8월,...,2014년11월,2014년12월,2015년1월,2015년2월,2015년3월,2015년4월,2015년5월,2015년6월,2015년7월,2015년8월
0,서울,18189,17925,17925,18016,18098,19446,18867,18742,19274,...,20242,20269,20670,20670,19415,18842,18367,18374,18152,18443
1,부산,8111,8111,9078,8965,9402,9501,9453,9457,9411,...,9208,9208,9204,9235,9279,9327,9345,9515,9559,9581
2,대구,8080,8080,8077,8101,8267,8274,8360,8360,8370,...,8439,8253,8327,8416,8441,8446,8568,8542,8542,8795
3,인천,10204,10204,10408,10408,10000,9844,10058,9974,9973,...,10020,10020,10017,9876,9876,9938,10551,10443,10443,10449
4,광주,6098,7326,7611,7346,7346,7523,7659,7612,7622,...,7752,7748,7752,7756,7861,7914,7877,7881,8089,8231


In [9]:
df_first.tail()

Unnamed: 0,지역,2013년12월,2014년1월,2014년2월,2014년3월,2014년4월,2014년5월,2014년6월,2014년7월,2014년8월,...,2014년11월,2014년12월,2015년1월,2015년2월,2015년3월,2015년4월,2015년5월,2015년6월,2015년7월,2015년8월
12,전북,6282,6281,5946,5966,6277,6306,6351,6319,6436,...,6583,6583,6583,6583,6542,6551,6556,6601,6750,6580
13,전남,5678,5678,5678,5696,5736,5656,5609,5780,5685,...,5768,5784,5784,5833,5825,5940,6050,6243,6286,6289
14,경북,6168,6168,6234,6317,6412,6409,6554,6556,6563,...,6881,6989,6992,6953,6997,7006,6966,6887,7035,7037
15,경남,6473,6485,6502,6610,6599,6610,6615,6613,6606,...,7125,7332,7592,7588,7668,7683,7717,7715,7723,7665
16,제주,7674,7900,7900,7900,7900,7900,7914,7914,7914,...,7724,7739,7739,7739,7826,7285,7285,7343,7343,7343


## 데이터 전처리

### Null 처리

In [10]:
df_last.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6205 entries, 0 to 6204
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   지역명         6205 non-null   object
 1   규모구분        6205 non-null   object
 2   연도          6205 non-null   int64 
 3   월           6205 non-null   int64 
 4   분양가격(제곱미터)  5734 non-null   object
dtypes: int64(2), object(3)
memory usage: 242.5+ KB


In [11]:
df_last.isnull().sum()

지역명             0
규모구분            0
연도              0
월               0
분양가격(제곱미터)    471
dtype: int64

In [12]:
df_last["분양가격(제곱미터)"] = df_last["분양가격(제곱미터)"].str.replace(",", "")

In [13]:
df_last["분양가격(제곱미터)"] = pd.to_numeric(df_last["분양가격(제곱미터)"], errors="coerce")

In [14]:
df_last

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015,10,5841.0
1,서울,전용면적 60제곱미터이하,2015,10,5652.0
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882.0
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721.0
4,서울,전용면적 102제곱미터초과,2015,10,5879.0
...,...,...,...,...,...
6200,제주,모든면적,2021,10,6860.0
6201,제주,전용면적 60제곱미터이하,2021,10,
6202,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,10,6787.0
6203,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,10,5924.0


In [15]:
df_last.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6205 entries, 0 to 6204
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6205 non-null   object 
 1   규모구분        6205 non-null   object 
 2   연도          6205 non-null   int64  
 3   월           6205 non-null   int64  
 4   분양가격(제곱미터)  5703 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 242.5+ KB


### 불필요한 값 정리

In [16]:
df_last["규모구분"].unique()

array(['모든면적', '전용면적 60제곱미터이하', '전용면적 60제곱미터초과 85제곱미터이하',
       '전용면적 85제곱미터초과 102제곱미터이하', '전용면적 102제곱미터초과'], dtype=object)

In [17]:
df_last["규모구분"] = df_last["규모구분"].str.replace("전용면적 ", "")
df_last["규모구분"] = df_last["규모구분"].str.replace("초과 ", "~")
df_last["규모구분"] = df_last["규모구분"].str.replace("이하", "")

In [18]:
df_last["규모구분"].unique()

array(['모든면적', '60제곱미터', '60제곱미터~85제곱미터', '85제곱미터~102제곱미터', '102제곱미터초과'],
      dtype=object)

In [19]:
df_last.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6205 entries, 0 to 6204
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6205 non-null   object 
 1   규모구분        6205 non-null   object 
 2   연도          6205 non-null   int64  
 3   월           6205 non-null   int64  
 4   분양가격(제곱미터)  5703 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 242.5+ KB


In [20]:
df_last.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015,10,5841.0
1,서울,60제곱미터,2015,10,5652.0
2,서울,60제곱미터~85제곱미터,2015,10,5882.0
3,서울,85제곱미터~102제곱미터,2015,10,5721.0
4,서울,102제곱미터초과,2015,10,5879.0


### 계산 단위 변경

In [21]:
df_last["분양가격"] = df_last["분양가격(제곱미터)"] * 3.3

In [22]:
df_last

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터),분양가격
0,서울,모든면적,2015,10,5841.0,19275.3
1,서울,60제곱미터,2015,10,5652.0,18651.6
2,서울,60제곱미터~85제곱미터,2015,10,5882.0,19410.6
3,서울,85제곱미터~102제곱미터,2015,10,5721.0,18879.3
4,서울,102제곱미터초과,2015,10,5879.0,19400.7
...,...,...,...,...,...,...
6200,제주,모든면적,2021,10,6860.0,22638.0
6201,제주,60제곱미터,2021,10,,
6202,제주,60제곱미터~85제곱미터,2021,10,6787.0,22397.1
6203,제주,85제곱미터~102제곱미터,2021,10,5924.0,19549.2


# 데이터 분석

## 지역명, 규모구분을 기반으로한 분양가격 평균

In [23]:
df_last.groupby(["지역명", "규모구분"])["분양가격"].mean().unstack().round()

규모구분,102제곱미터초과,60제곱미터,60제곱미터~85제곱미터,85제곱미터~102제곱미터,모든면적
지역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
강원,9686.0,8311.0,8050.0,8951.0,8085.0
경기,15240.0,13485.0,13020.0,14158.0,13055.0
경남,10420.0,9049.0,9112.0,11320.0,9150.0
경북,9790.0,8544.0,8597.0,9732.0,8617.0
광주,12450.0,10318.0,10776.0,11587.0,10880.0
대구,14048.0,12881.0,12850.0,12502.0,12840.0
대전,14875.0,9908.0,10221.0,9078.0,10271.0
부산,13377.0,12032.0,12442.0,12441.0,12495.0
서울,25180.0,24900.0,24164.0,27959.0,24260.0
세종,10509.0,10155.0,10311.0,10330.0,10345.0


## 지역명, 규모구분을 기반으로한 분양가격 평균(피봇테이블)

In [24]:
pd.pivot_table(df_last, index=["지역명"], columns=["규모구분"], values=["분양가격"])

Unnamed: 0_level_0,분양가격,분양가격,분양가격,분양가격,분양가격
규모구분,102제곱미터초과,60제곱미터,60제곱미터~85제곱미터,85제곱미터~102제곱미터,모든면적
지역명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
강원,9685.906849,8310.891781,8050.282192,8951.493443,8084.593151
경기,15239.716438,13485.20137,13019.991781,14158.265753,13055.206849
경남,10419.9,9048.553521,9112.294521,11319.858904,9150.131507
경북,9789.732857,8544.016438,8597.449315,9732.127778,8616.978082
광주,12449.635,10317.692647,10775.720548,11586.512903,10880.416438
대구,14047.738356,12880.939726,12850.471233,12501.946875,12840.345205
대전,14875.08,9907.880597,10220.958904,9077.566667,10271.408219
부산,13377.115068,12032.206849,12442.446575,12440.954795,12495.065753
서울,25179.717391,24900.443836,24164.363014,27958.549315,24260.334247
세종,10509.022388,10155.13125,10311.004687,10329.876562,10345.352239


# 데이터 결합

## 데이터 확인

In [25]:
df_last.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6205 entries, 0 to 6204
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6205 non-null   object 
 1   규모구분        6205 non-null   object 
 2   연도          6205 non-null   int64  
 3   월           6205 non-null   int64  
 4   분양가격(제곱미터)  5703 non-null   float64
 5   분양가격        5703 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 291.0+ KB


## 불필요한 데이터 삭제

In [26]:
df_last = df_last.drop("분양가격(제곱미터)", axis=1)

In [27]:
df_last

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,모든면적,2015,10,19275.3
1,서울,60제곱미터,2015,10,18651.6
2,서울,60제곱미터~85제곱미터,2015,10,19410.6
3,서울,85제곱미터~102제곱미터,2015,10,18879.3
4,서울,102제곱미터초과,2015,10,19400.7
...,...,...,...,...,...
6200,제주,모든면적,2021,10,22638.0
6201,제주,60제곱미터,2021,10,
6202,제주,60제곱미터~85제곱미터,2021,10,22397.1
6203,제주,85제곱미터~102제곱미터,2021,10,19549.2


## 데이터 변경

In [28]:
df_first_melt = df_first.melt(id_vars="지역", var_name="기간", value_name="분양가격")

## 추가 데이터(apply)

In [29]:
df_first_melt["기간"]

0      2013년12월
1      2013년12월
2      2013년12월
3      2013년12월
4      2013년12월
         ...   
352     2015년8월
353     2015년8월
354     2015년8월
355     2015년8월
356     2015년8월
Name: 기간, Length: 357, dtype: object

In [30]:
def parse_year(date):
    year = date.split("년")[0]
    year = int(year)
    return year

In [31]:
def parse_month(date):
    month = date.split("년")[-1].replace("월", "")
    month = int(month)
    return month

In [32]:
df_first_melt["연도"] = df_first_melt["기간"].apply(parse_year)
df_first_melt["월"] = df_first_melt["기간"].apply(parse_month)

In [33]:
df_first_melt = df_first_melt.drop("기간", axis=1)

In [34]:
df_first_melt = df_first_melt.rename(columns={"지역": "지역명"})

In [35]:
df_first_melt

Unnamed: 0,지역명,분양가격,연도,월
0,서울,18189,2013,12
1,부산,8111,2013,12
2,대구,8080,2013,12
3,인천,10204,2013,12
4,광주,6098,2013,12
...,...,...,...,...
352,전북,6580,2015,8
353,전남,6289,2015,8
354,경북,7037,2015,8
355,경남,7665,2015,8


In [36]:
cols = ["지역명", "연도", "월", "분양가격"]

In [37]:
df_last_prepare = df_last.loc[df_last["규모구분"] == "모든면적", cols]

In [38]:
df_last_prepare

Unnamed: 0,지역명,연도,월,분양가격
0,서울,2015,10,19275.3
5,인천,2015,10,10437.9
10,경기,2015,10,10355.4
15,부산,2015,10,10269.6
20,대구,2015,10,8850.6
...,...,...,...,...
6180,전북,2021,10,8860.5
6185,전남,2021,10,9886.8
6190,경북,2021,10,10332.3
6195,경남,2021,10,10969.2


In [39]:
df = pd.concat([df_first_melt, df_last_prepare])

In [40]:
df

Unnamed: 0,지역명,분양가격,연도,월
0,서울,18189.0,2013,12
1,부산,8111.0,2013,12
2,대구,8080.0,2013,12
3,인천,10204.0,2013,12
4,광주,6098.0,2013,12
...,...,...,...,...
6180,전북,8860.5,2021,10
6185,전남,9886.8,2021,10
6190,경북,10332.3,2021,10
6195,경남,10969.2,2021,10


In [41]:
df["연도"].value_counts()

2014    204
2016    204
2017    204
2018    204
2019    204
2020    204
2015    187
2021    170
2013     17
Name: 연도, dtype: int64