<a href="https://colab.research.google.com/github/JunYoung07/Python_AI_Project/blob/main/3_Data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 데이터 전처리(Data Preprocessing)
* 특정 분석에 적합하게 데이터를 가공하는 작업
* 업무에서 사용하는 데이터는 분석, 머신러닝(딥러닝)에 적합하지 않은 경우가 많기 때문에 이를 방지하기 위한 작업을 함

# 2. 공공데이터
* 공공데이터에서 제공하는 데이터를 활용
* 민간 아파트 가격동향

In [1]:
# import library
import pandas as pd

In [2]:
# read data
df = pd.read_csv('https://bit.ly/ds-house-price')
df.head() 

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [3]:
# check data information
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4505 non-null   object
 1   규모구분     4505 non-null   object
 2   연도       4505 non-null   int64 
 3   월        4505 non-null   int64 
 4   분양가격(㎡)  4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [4]:
# change column name
df = df.rename(columns = {'분양가격(㎡)': '분양가격'})
df.columns

Index(['지역명', '규모구분', '연도', '월', '분양가격'], dtype='object')

In [5]:
# change dtype (object to int)
df['분양가격'] = df['분양가격'].str.strip()
df.loc[df['분양가격']=='']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [6]:
df.loc[df['분양가격']=='', '분양가격'] = 0
df.loc[df['분양가격']==0]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,0
29,광주,전용면적 102㎡초과,2015,10,0
34,대전,전용면적 102㎡초과,2015,10,0
81,제주,전용면적 60㎡이하,2015,10,0
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,0
114,광주,전용면적 102㎡초과,2015,11,0
119,대전,전용면적 102㎡초과,2015,11,0
166,제주,전용면적 60㎡이하,2015,11,0
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,0
199,광주,전용면적 102㎡초과,2015,12,0


In [17]:
df['분양가격'] = df['분양가격'].str.replace(',', '')
df['분양가격'] = df['분양가격'].str.replace('-', '')
df['분양가격'] = df['분양가격'].fillna(0)
df.loc[df['분양가격'] == '', '분양가격'] = 0
df['분양가격'] = df['분양가격'].astype(int)

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [11]:
df['규모구분'].head()

0                   전체
1           전용면적 60㎡이하
2     전용면적 60㎡초과 85㎡이하
3    전용면적 85㎡초과 102㎡이하
4          전용면적 102㎡초과
Name: 규모구분, dtype: object

In [12]:
df['규모구분'].value_counts()

전체                   901
전용면적 60㎡이하           901
전용면적 60㎡초과 85㎡이하     901
전용면적 85㎡초과 102㎡이하    901
전용면적 102㎡초과          901
Name: 규모구분, dtype: int64

In [13]:
df['규모구분'] = df['규모구분'].str.replace('전용면적 ', '')
df['규모구분'].value_counts()

전체              901
60㎡이하           901
60㎡초과 85㎡이하     901
85㎡초과 102㎡이하    901
102㎡초과          901
Name: 규모구분, dtype: int64

In [19]:
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

In [20]:
df.groupby('지역명')['분양가격'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
지역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강원,265.0,2339.807547,535.75194,0.0,2171.0,2309.0,2522.0,3906.0
경기,265.0,4072.667925,608.968585,3079.0,3561.0,4037.0,4441.0,5670.0
경남,265.0,2761.275472,554.527628,0.0,2495.0,2784.0,2954.0,4303.0
경북,265.0,2432.128302,590.326578,0.0,2315.0,2525.0,2667.0,3457.0
광주,265.0,2450.728302,1287.951334,0.0,2453.0,2817.0,3226.0,4881.0
대구,265.0,3538.920755,902.056765,0.0,3147.0,3608.0,4067.0,5158.0
대전,265.0,2479.135849,1407.897332,0.0,2454.0,2690.0,3369.0,4877.0
부산,265.0,3679.920755,435.785347,2930.0,3273.0,3778.0,3933.0,4623.0
서울,265.0,7225.762264,1303.947088,5061.0,6477.0,6842.0,7725.0,13835.0
세종,265.0,2815.098113,767.443062,0.0,2687.0,2779.0,3148.0,3931.0


In [21]:
df.groupby('연도')['분양가격'].mean()

연도
2015    2657.474510
2016    2830.688235
2017    3004.636275
2018    2997.517647
2019    3302.353922
2020    3445.894118
Name: 분양가격, dtype: float64

In [22]:
df.to_csv('ds-house-price-clean.csv', index=False)