# 1. 데이터 전처리(Data Preprocessing)

* 특정 분석에 적합하게 데이터를 가공하는 작업

* 업무에서 사용하는 데이터는 분석 머신러닝(딥러닝)에 적합하지 않은 경우가 많기 때문에 이를 머신러닝(딥러닝) 모델에 맞게 처리하는 작업을 함

# 2. 공공 데이터

* [공공 데이터](http://www.data.go.kr) 에서 제공하는 데이터를 활용

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('https://bit.ly/ds-house-price')
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [4]:
# 데이터 프레임의 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4505 non-null   object
 1   규모구분     4505 non-null   object
 2   연도       4505 non-null   int64 
 3   월        4505 non-null   int64 
 4   분양가격(㎡)  4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [6]:
# 컬럼명 수정
df = df.rename(columns={'분양가격(㎡)':'분양가격'})
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [8]:
# 분양 가격의 dtype을 int로 변경하기

df['분양가격'].astype(int)  # 에러 확인 # invalid literal for int() with base 10: '  '

ValueError: ignored

In [9]:
# '  ' 공백이 존재하는 데이터가 실제로 있는지 확인

df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [10]:
# strip()를 사용해서 공백이 있는 데이터의 해당 앞뒤 공백을 삭제

df['분양가격'] = df['분양가격'].str.strip()

In [11]:
df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [12]:
df['분양가격'].astype(int) # 에러 확인

ValueError: ignored

In [13]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [15]:
# 데이터가 없는 경우는 0으로 변경

df.loc[df['분양가격'] == '', '분양가격'] = 0

In [16]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [18]:
df['분양가격'].astype(int) # ValueError: cannot convert float NaN to integer

ValueError: ignored

In [19]:
# Nan을 0으로 변환

df['분양가격'] = df['분양가격'].fillna(0)

In [20]:
df['분양가격'].astype(int) # 에러 확인 # ValueError: invalid literal for int() with base 10: '6,657'

ValueError: ignored

In [21]:
# 콤마를 제거

df['분양가격'] = df['분양가격'].str.replace(',', '')

In [23]:
df['분양가격'].astype(int) # 에러확인 # ValueError: cannot convert float NaN to integer

ValueError: ignored

In [24]:
# Nan을 0으로 변환

df['분양가격'] = df['분양가격'].fillna(0)

In [25]:
df['분양가격'].astype(int) # 에러 확인 # ValueError: invalid literal for int() with base 10: '-'

ValueError: ignored

In [26]:
# 하이픈을 제거

df['분양가격'] = df['분양가격'].str.replace('-', '')

In [28]:
df['분양가격'].astype(int) # 에러 확인 # ValueError: cannot convert float NaN to integer

ValueError: ignored

In [29]:
# Nan을 0으로 변환

df['분양가격'] = df['분양가격'].fillna(0)

In [30]:
df['분양가격'].astype(int) # 에러 확인 # ValueError: invalid literal for int() with base 10: ''

ValueError: ignored

In [31]:
# 데이터가 없는 경우를 0으로 변경

df.loc[df['분양가격'] == '', '분양가격'] = 0

In [32]:
df['분양가격'].astype(int)

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
4500    3955
4501    4039
4502    3962
4503       0
4504    3601
Name: 분양가격, Length: 4505, dtype: int64

In [33]:
df['분양가격'] = df['분양가격'].astype(int)

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [36]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [37]:
# 규모 구분 column에 불필요한 '전용 면적' 글자를 삭제

df['규모 구분'] = df['규모구분'].str.replace('전용면적 ', '')

In [38]:
df['규모구분']

0                      전체
1              전용면적 60㎡이하
2        전용면적 60㎡초과 85㎡이하
3       전용면적 85㎡초과 102㎡이하
4             전용면적 102㎡초과
              ...        
4500                   전체
4501           전용면적 60㎡이하
4502     전용면적 60㎡초과 85㎡이하
4503    전용면적 85㎡초과 102㎡이하
4504          전용면적 102㎡초과
Name: 규모구분, Length: 4505, dtype: object

In [39]:
df['규모구분'].value_counts()

전체                   901
전용면적 60㎡이하           901
전용면적 60㎡초과 85㎡이하     901
전용면적 85㎡초과 102㎡이하    901
전용면적 102㎡초과          901
Name: 규모구분, dtype: int64

In [40]:
# 지역명 별로 평균 분양 가격을 출력

df.groupby('지역명')['분양가격'].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

In [43]:
# 지역명 별로 최고 비싼 분양가

df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

In [46]:
# 연도별 분양 가격의 평균

df.groupby('연도')['분양가격'].mean()

연도
2015    2657.474510
2016    2830.688235
2017    3004.636275
2018    2997.517647
2019    3302.353922
2020    3445.894118
Name: 분양가격, dtype: float64

In [48]:
# 작업 파일 저장하기

df.to_csv('ds-house-price-clean.csv', index=False)