# 공공데이터 분석 연습(전국 신규 민간 아파트 분양가격 동향 분석)

* 자료1. 전국 평균 분양가격(13년 9월 ~ 15년 8월)
* 자료2. 주택도시보증공사 전국 평균 분양가격(19년 12월)

## 데이터 가져오기

In [39]:
# 라이브러리 가져오기
import pandas as pd

# 경로설정
path = '/Users/parkjinwoo/Desktop/public_data_analysis/open-data-analysis-basic-master/'
# 자료1 가져오기
df_latest = pd.read_csv(path + '주택도시보증공사_전국 평균 분양가격(2019년 12월).csv', encoding = 'cp949')
# 자료2 가져오기
df_former = pd.read_csv(path + '전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv', encoding = 'cp949')

## 데이터 구성 확인하기

In [4]:
# df_latest # 전체 데이터 확인
# df_latest.head() #데이터의 상위 5개 확인
# df_latest.shape #행,열 갯수 확인

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4330,제주,전체,2019,12,3882
4331,제주,전용면적 60㎡이하,2019,12,
4332,제주,전용면적 60㎡초과 85㎡이하,2019,12,3898
4333,제주,전용면적 85㎡초과 102㎡이하,2019,12,


In [3]:
df_latest.info() # 분양가격에 결측지가 있음을 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4335 entries, 0 to 4334
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4335 non-null   object
 1   규모구분     4335 non-null   object
 2   연도       4335 non-null   int64 
 3   월        4335 non-null   int64 
 4   분양가격(㎡)  4058 non-null   object
dtypes: int64(2), object(3)
memory usage: 169.5+ KB


In [5]:
df_former.info() # 결측치 없음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 22 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   지역        17 non-null     object
 1   2013년12월  17 non-null     int64 
 2   2014년1월   17 non-null     int64 
 3   2014년2월   17 non-null     int64 
 4   2014년3월   17 non-null     int64 
 5   2014년4월   17 non-null     int64 
 6   2014년5월   17 non-null     int64 
 7   2014년6월   17 non-null     int64 
 8   2014년7월   17 non-null     int64 
 9   2014년8월   17 non-null     int64 
 10  2014년9월   17 non-null     int64 
 11  2014년10월  17 non-null     int64 
 12  2014년11월  17 non-null     int64 
 13  2014년12월  17 non-null     int64 
 14  2015년1월   17 non-null     int64 
 15  2015년2월   17 non-null     int64 
 16  2015년3월   17 non-null     int64 
 17  2015년4월   17 non-null     int64 
 18  2015년5월   17 non-null     int64 
 19  2015년6월   17 non-null     int64 
 20  2015년7월   17 non-null     int64 
 21  2015년8월   17 non-n

## 결측치 제거

In [6]:
# 결측치 확인
df_latest.isnull().sum()

지역명          0
규모구분         0
연도           0
월            0
분양가격(㎡)    277
dtype: int64

In [19]:
# 결측치를 다른 값으로 바꾸기1(fillna 이용)
df_latest['분양가격(㎡)'].fillna(0)

In [23]:
df_latest['분양가격(㎡)'].astype('int64') # 공백으로 처리된 부분은 0으로 바뀌지 않았음. 다른 방법 사용

ValueError: invalid literal for int() with base 10: '  '

In [40]:
# 결측지 바꾸기2 (pd.to_numeric이용. 수로 바꾸는 함수)
df_latest['분양가격(㎡)'] = pd.to_numeric(df_latest['분양가격(㎡)'], errors = 'coerce') # coerce : 오류값들은 NaN으로 대체

In [25]:
df_latest.info() # NaN은 자료형이 float

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4335 entries, 0 to 4334
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   지역명      4335 non-null   object 
 1   규모구분     4335 non-null   object 
 2   연도       4335 non-null   int64  
 3   월        4335 non-null   int64  
 4   분양가격(㎡)  4234 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 169.5+ KB


## 데이터 전처리
* 규모구분 -> 전용면적 
* 분양가격(㎡) -> 분양가격(평)

In [41]:
# 단위를 통일시키기(㎡당 가격 -> 평당 가격)
df_latest['분양가격(평)'] = df_latest['분양가격(㎡)'] * 3.3

In [46]:
# 규모구분 -> 전용면적으로 변환
# 필요없는 단어들은 삭제함으로써 용량을 줄일 수 있다

df_latest['전용면적'] = df_latest['규모구분'].str.replace('전용면적','')
df_latest['전용면적'] = df_latest['전용면적'].str.replace('초과','~')
df_latest['전용면적'] = df_latest['전용면적'].str.replace('이하','')
df_latest['전용면적'] = df_latest['전용면적'].str.strip()

In [51]:
df_latest = df_latest.drop(columns = ['규모구분'])

In [52]:
df_latest.head()

Unnamed: 0,지역명,연도,월,분양가격(㎡),분양가격(평),전용면적
0,서울,2015,10,5841.0,19275.3,전체
1,서울,2015,10,5652.0,18651.6,60㎡
2,서울,2015,10,5882.0,19410.6,60㎡~ 85㎡
3,서울,2015,10,5721.0,18879.3,85㎡~ 102㎡
4,서울,2015,10,5879.0,19400.7,102㎡~


## 평균분양가격 구하기

### 지역별 평균분양가격 구하기

In [53]:
df_latest.groupby(['지역명'])['분양가격(평)'].mean()

지역명
강원     7890.750000
경기    13356.895200
경남     9268.778138
경북     8376.536515
광주     9951.535821
대구    11980.895455
대전    10253.333333
부산    12087.121200
서울    23599.976400
세종     9796.516456
울산    10014.902013
인천    11915.320732
전남     7565.316532
전북     7724.235484
제주    11241.276712
충남     8233.651883
충북     7634.655600
Name: 분양가격(평), dtype: float64

### 전용면적별 평균분양가격 구하기

In [54]:
df_latest.groupby('전용면적')['분양가격(평)'].mean()

전용면적
102㎡~        11517.705634
60㎡          10375.137421
60㎡~ 85㎡     10271.040071
85㎡~ 102㎡    11097.599573
전체           10276.086207
Name: 분양가격(평), dtype: float64

### 지역별 전용면적의 평균분양가격 구하기

In [55]:
df_latest.groupby(['지역명','전용면적'])['분양가격(평)'].mean()

지역명  전용면적     
강원   102㎡~        8311.380000
     60㎡          7567.098000
     60㎡~ 85㎡     7485.588000
     85㎡~ 102㎡    8749.557143
     전체           7477.536000
                     ...     
충북   102㎡~        8195.352000
     60㎡          7103.118000
     60㎡~ 85㎡     7264.488000
     85㎡~ 102㎡    8391.306000
     전체           7219.014000
Name: 분양가격(평), Length: 85, dtype: float64

### 연도별, 지역별 평균분양가격 구하기