In [1]:
import pandas as pd
df = pd.read_csv('../주택도시보증공사_전국 신규 민간 아파트 분양가격 동향_20200331.csv', encoding='ms949')

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4590 entries, 0 to 4589
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4590 non-null   object
 1   규모구분     4590 non-null   object
 2   연도       4590 non-null   int64 
 3   월        4590 non-null   int64 
 4   분양가격(㎡)  4276 non-null   object
dtypes: int64(2), object(3)
memory usage: 179.4+ KB


In [4]:
df = df.rename(columns={'분양가격(㎡)': '분양가격'})

In [5]:
df.columns

Index(['지역명', '규모구분', '연도', '월', '분양가격'], dtype='object')

In [6]:
# 결측치 확인
df.isnull().sum()

지역명       0
규모구분      0
연도        0
월         0
분양가격    314
dtype: int64

In [8]:
# 분양가격 결측치 0으로 치환
df['분양가격'] = df['분양가격'].fillna(0)

In [9]:
df.isnull().sum()

지역명     0
규모구분    0
연도      0
월       0
분양가격    0
dtype: int64

In [10]:
df.describe()

Unnamed: 0,연도,월
count,4590.0,4590.0
mean,2017.5,6.5
std,1.343856,3.594368
min,2015.0,1.0
25%,2016.0,3.0
50%,2017.5,6.5
75%,2019.0,10.0
max,2020.0,12.0


In [11]:
df['분양가격'].astype(int) # '  ' 때문에 에러

ValueError: invalid literal for int() with base 10: '  '

In [14]:
df[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [16]:
# 좌, 우 공백 제거
df['분양가격'] = df['분양가격'].str.strip()

In [19]:
df['분양가격'].astype(int) # '' 때문에 에러

ValueError: invalid literal for int() with base 10: ''

In [20]:
# '' -> 0
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [21]:
df['분양가격'].astype(int) # NaN 때문에 에러

ValueError: cannot convert float NaN to integer

In [22]:
# NaN -> 0
df['분양가격'] = df['분양가격'].fillna(0)

In [24]:
df['분양가격']= df['분양가격'].astype(int)

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4590 entries, 0 to 4589
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4590 non-null   object
 1   규모구분    4590 non-null   object
 2   연도      4590 non-null   int64 
 3   월       4590 non-null   int64 
 4   분양가격    4590 non-null   int32 
dtypes: int32(1), int64(2), object(2)
memory usage: 161.5+ KB


In [28]:
# 5. 규모구분에 '전용면적 ' 문자열 제거
df['규모구분'] = df['규모구분'].str.replace('전용면적 ', '')

In [29]:
df['규모구분']

0                 전체
1              60㎡이하
2        60㎡초과 85㎡이하
3       85㎡초과 102㎡이하
4             102㎡초과
            ...     
4585              전체
4586           60㎡이하
4587     60㎡초과 85㎡이하
4588    85㎡초과 102㎡이하
4589          102㎡초과
Name: 규모구분, Length: 4590, dtype: object

In [34]:
# 6. 분양가격이 없는 데이터(0) 삭제
df = df.drop(df.loc[df['분양가격']==0].index)

In [35]:
df.loc[df['분양가격']==0]

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [36]:
# 7. 지역별 평균 분양가격 확인
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2419.072797
경기    4087.385185
경남    2817.060606
경북    2548.451362
광주    3066.281106
대구    3679.222222
대전    3132.873239
부산    3687.429630
서울    7268.218519
세종    2993.287402
울산    3046.746914
인천    3645.875940
전남    2316.270677
전북    2352.917603
제주    3440.598291
충남    2506.089147
충북    2320.633333
Name: 분양가격, dtype: float64

In [37]:
# 8. 지역별 가장 비싼 분양가격 확인
df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3692
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int32

In [38]:
# 9. 연도별 평균 분양가격 확인
df.groupby('연도')['분양가격'].mean()

연도
2015    2788.707819
2016    2934.250000
2017    3143.311795
2018    3326.951034
2019    3693.422149
2020    3856.074890
Name: 분양가격, dtype: float64

In [40]:
# 10. 연도별 규모구분별 평균 분양가격 확인
pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.977778
2015,60㎡이하,2712.583333
2015,60㎡초과 85㎡이하,2694.490196
2015,85㎡초과 102㎡이하,2884.395833
2015,전체,2694.862745
2016,102㎡초과,3148.099476
2016,60㎡이하,2848.144279
2016,60㎡초과 85㎡이하,2816.965686
2016,85㎡초과 102㎡이하,3067.380435
2016,전체,2816.073529
