* [공공데이터](http://www.data.go.kr/)에서 제공하는 데이터를 활용
* [민간 아파트 가격 동향](https://bit.ly/ds-house-price)

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("https://bit.ly/ds-house-price")
df.shape

(4505, 5)

In [3]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [4]:
# 데이터 프레임의 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4505 non-null   object
 1   규모구분     4505 non-null   object
 2   연도       4505 non-null   int64 
 3   월        4505 non-null   int64 
 4   분양가격(㎡)  4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [5]:
# rename columns
df = df.rename(columns={"분양가격(㎡)":"분양가격"})
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [6]:
df.describe()

Unnamed: 0,연도,월
count,4505.0,4505.0
mean,2017.45283,6.566038
std,1.311432,3.595519
min,2015.0,1.0
25%,2016.0,3.0
50%,2017.0,7.0
75%,2019.0,10.0
max,2020.0,12.0


In [7]:
# 문제: "분양가격"이 object인데 이것을 int로 바꾸기
# df["분양가격"].astype("int") #ValueError: invalid literal for int() with base 10: '  '
# df.loc() 아님 df.loc[] 임
df.loc[df["분양가격"] == '  ', ["분양가격"]]

Unnamed: 0,분양가격
28,
29,
34,
81,
113,
114,
119,
166,
198,
199,


In [8]:
# strip() 활용하여 데이터의 공백을 삭제
df["분양가격"] = df["분양가격"].str.strip()
df.loc[df["분양가격"] == "  "]

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [9]:
# df["분양가격"].astype("int") # ValueError: invalid literal for int() with base 10: ''

In [10]:
# 데이터가 없는 경우는 0으로 채움
df.loc[df["분양가격"] == ""] = 0
df.loc[df["분양가격"] == ""]

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [11]:
# df["분양가격"].astype("int") # ValueError: cannot convert float NaN to integer

In [12]:
df["분양가격"] = df["분양가격"].fillna(0)

In [13]:
# df["분양가격"].astype("int") # ValueError: invalid literal for int() with base 10: '6,657'

In [14]:
# 콤마 제거
df["분양가격"] = df["분양가격"].str.replace(",", "")

In [15]:
# df["분양가격"].astype("int") #ValueError: cannot convert float NaN to integer

In [16]:
df["분양가격"] = df["분양가격"].fillna(0)

In [17]:
# df["분양가격"].astype("int") # ValueError: invalid literal for int() with base 10: '-'

In [18]:
# '-'을 제거
df["분양가격"] = df["분양가격"].str.replace("-", "")

In [19]:
# df["분양가격"].astype("int") # ValueError: cannot convert float NaN to integer

In [20]:
df["분양가격"] = df["분양가격"].fillna(0)

In [21]:
# df["분양가격"].astype("int") # ValueError: invalid literal for int() with base 10: ''

In [22]:
# 데이터가 없는 경우는 0으로 채움
df.loc[df["분양가격"] == "", ["분양가격"]] = 0

In [23]:
df["분양가격"] = df["분양가격"].astype(int)

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [25]:
df["규모구분"] = df["규모구분"].str.replace("전용면적", '')
df["규모구분"]

0                  전체
1               60㎡이하
2         60㎡초과 85㎡이하
3        85㎡초과 102㎡이하
4              102㎡초과
            ...      
4500               전체
4501            60㎡이하
4502      60㎡초과 85㎡이하
4503     85㎡초과 102㎡이하
4504           102㎡초과
Name: 규모구분, Length: 4505, dtype: object

In [26]:
df["규모구분"].value_counts()

전체               901
 60㎡초과 85㎡이하     901
 60㎡이하           897
 85㎡초과 102㎡이하    897
 102㎡초과          893
Name: 규모구분, dtype: int64

In [27]:
# 지역별로 평균 분양가격을 확인
# 지역별 최고 비싼 분양가
# 연도별 분양가격의 평균

In [33]:
# 지역별로 평균 분양가격을 확인
df.groupby("지역명")["분양가격"].mean()

지역명
0        0.000000
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2527.015564
대구    3538.920755
대전    2517.130268
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    3025.068966
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

In [34]:
# 지역별 최고 비싼 분양가
df.groupby("지역명")["분양가격"].max()

지역명
0         0
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

In [35]:
# 연도별 분양가격의 평균
df.groupby("연도")["분양가격"].mean()

연도
0          0.000000
2015    2788.707819
2016    2841.832677
2017    3004.636275
2018    2997.517647
2019    3302.353922
2020    3445.894118
Name: 분양가격, dtype: float64

In [36]:
# 작업파일 저장
df.to_csv("ds-house-price_clean.csv", index=False)