# 1. 데이터 전처리
- 특정 분석에 적합하게 데이터를 가공하는 작업
- 업무에서 사용하는 데이터 분석, 머신러닝(딥러닝)에 적합하지 않은 경우가 많기 때문에 이를 방지하기위한 작업을 함

In [34]:
import pandas as pd

In [35]:
df = pd.read_csv('https://bit.ly/ds-house-price')

In [36]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4505 non-null   object
 1   규모구분     4505 non-null   object
 2   연도       4505 non-null   int64 
 3   월        4505 non-null   int64 
 4   분양가격(㎡)  4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [38]:
# 컬럼명 수정
df = df.rename(columns = {'분양가격(㎡)' : '분양가격'})

In [39]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [40]:
# 분양 가격의 dtype을 int64로 변경
df['분양가격'].astype(int) # 공백이 들어가 있어서 int로 발꿀수 없다.

ValueError: invalid literal for int() with base 10: '  '

In [41]:
# strip()을 사용하여 공백이 있는 데이터의 공백을 삭제
df['분양가격'] = df['분양가격'].str.strip()

In [42]:
# '   '공백이 존재하는 데이터가 있는지 확인
df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [43]:
df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [44]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: ''

In [45]:
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [46]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [47]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

In [48]:
# NaN을 0으로 변환
df['분양가격'] = df['분양가격'].fillna(0)

In [49]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: '6,657'

In [50]:
df['분양가격'] = df['분양가격'].str.replace(',', '')

In [51]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

In [52]:
df['분양가격'] = df['분양가격'].fillna(0)

In [53]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: '-'

In [54]:
df['분양가격'] = df['분양가격'].str.replace('-', '')

In [55]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

In [56]:
df['분양가격'] = df['분양가격'].fillna(0)

In [57]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: ''

In [58]:
df.loc[df['분양가격']=='', '분양가격'] = 0

In [59]:
df.loc[df['분양가격']=='']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [61]:
df['분양가격'] = df['분양가격'].astype(int)

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [63]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,0


In [64]:
df['규모구분'] = df['규모구분'].str.replace('전용면적', '')

In [66]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [67]:
df['규모구분'].value_counts()

규모구분
전체               901
 60㎡이하           901
 60㎡초과 85㎡이하     901
 85㎡초과 102㎡이하    901
 102㎡초과          901
Name: count, dtype: int64

In [68]:
# 지역명 별로 평균 분양가격을 확인
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

In [69]:
df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

In [71]:
df.groupby('연도')['분양가격'].mean()

연도
2015    2657.474510
2016    2830.688235
2017    3004.636275
2018    2997.517647
2019    3302.353922
2020    3445.894118
Name: 분양가격, dtype: float64