In [1]:
import pandas as pd

## 샘플데이터

[민간 아파트 가격동향](https://bit.ly/ds-house-price)

https://www.data.go.kr/ 에서 제공하는 공공데이터를 활용합니다

## 데이터프레임 로드

In [2]:
df = pd.read_csv('https://bit.ly/ds-house-price')

In [3]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


## 1. column 재정의 (rename)

이전 시간까지는 df.columns 를 통해 전체 column의 이름을 재정의했지만, 한 개의 column만 이름을 바꾸고 싶을 때는 다음과 같이 실행합니다.

분양가격 column의 이름을 재정의

In [4]:
df = df.rename(columns={'분양가격(㎡)': '분양가격'})
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


## 2. 데이터 Overview


### 2-1. 빈 값과 Data Type 확인하기

In [5]:
## 코드
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


### 2-2. 통계값 확인

In [6]:
## 코드
df.describe()

Unnamed: 0,연도,월
count,4505.0,4505.0
mean,2017.45283,6.566038
std,1.311432,3.595519
min,2015.0,1.0
25%,2016.0,3.0
50%,2017.0,7.0
75%,2019.0,10.0
max,2020.0,12.0


## 3. 분양가격 column을 int 타입으로 변환 (실전 전처리)

아래 셀을 실행하면 error가 납니다. error가 나지 않도록 전처리를 해나가 보겠습니다.

In [7]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: '  '

실제로 이렇게 처리된 데이터들이 많습니다.. 휴우...

### strip()을 활용하여 공백이 있는 데이터 공백없애기

[tip] column의 문자열에 strip을 실행하고자 할 때는 str.strip()를 실행해줘야 합니다

[예시] df['분양가격'].str.strip()

In [8]:
df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [9]:
## 코드
df['분양가격'] = df['분양가격'].str.strip()

In [10]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


### 빈 공백이 있는 데이터는 0을 넣어주도록 하겠습니다.

[tip] loc


In [11]:
## 코드 
df.loc[ df['분양가격'] == '', '분양가격'] = 0

In [12]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

이번에는 NaN 값이 말썽이네요...ㅠㅠ

### NaN 값은 fillna로 채워 주도록 합시다!

In [13]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [14]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: '6,657'

세상에나.. ','가 들어간 데이터도 있습니다 ㅠㅠ

In [15]:
df.loc[df['분양가격'] == '6,657']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
2125,서울,전체,2017,11,6657


2125 행에 ,가 들어간 것이 보이시죠?

### 콤마를 제거해 봅시다

In [16]:
## 코드
df['분양가격'] = df['분양가격'].str.replace(',', '')

In [17]:
df.iloc[2125]

지역명       서울
규모구분      전체
연도      2017
월         11
분양가격    6657
Name: 2125, dtype: object

6,657 -> 6657로 변환된 것을 보실 수 있네요!

In [18]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

다시 NaN 값이 생겼습니다. 그렇다면 fillna로 다시 처리를 해줘야 합니다.

In [19]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [20]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: '-'

이번에는 '-' 가 말썽이네요 ㅠㅠㅠ

### - 제거하기

In [21]:
## 코드
df['분양가격'] = df['분양가격'].str.replace('-', '')

In [22]:
df['분양가격'].astype(int)

ValueError: cannot convert float NaN to integer

다시 NaN 값이 생겼습니다..

### NaN 값은 0으로 채워 줍시다

In [23]:
## 코드
df['분양가격'] = df['분양가격'].fillna(0)

In [24]:
df['분양가격'].astype(int)

ValueError: invalid literal for int() with base 10: ''

빈 값이 다시 생겼습니다.

In [25]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
3683,광주,전용면적 85㎡초과 102㎡이하,2019,5,
3686,대전,전용면적 60㎡이하,2019,5,
3688,대전,전용면적 85㎡초과 102㎡이하,2019,5,
3690,울산,전체,2019,5,
3691,울산,전용면적 60㎡이하,2019,5,
3692,울산,전용면적 60㎡초과 85㎡이하,2019,5,
3693,울산,전용면적 85㎡초과 102㎡이하,2019,5,
3694,울산,전용면적 102㎡초과,2019,5,
3696,세종,전용면적 60㎡이하,2019,5,


## 빈 값은 0으로 채워주기

In [26]:
## 코드
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [27]:
df['분양가격'] = df['분양가격'].astype(int)

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


## 규모구분 column에 불필요한 '전용면적' 제거

In [None]:
## 코드
df['규모구분'] = df['규모구분'].str.replace('전용면적', '')

In [None]:
df['규모구분'].value_counts()

 85㎡초과 102㎡이하    901
 60㎡이하           901
 102㎡초과          901
전체               901
 60㎡초과 85㎡이하     901
Name: 규모구분, dtype: int64

## 4. 전처리 내용을 복습해 봅시다

제거한 값들을 복습해 봅시다

In [29]:
df2 = pd.read_csv('https://bit.ly/ds-house-price')

In [30]:
# 콤마가 있는 경우
df2.iloc[2125]

지역명           서울
규모구분          전체
연도          2017
월             11
분양가격(㎡)    6,657
Name: 2125, dtype: object

In [31]:
# -가 있는 경우
df2.loc[df2['분양가격(㎡)']=='-']

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
3683,광주,전용면적 85㎡초과 102㎡이하,2019,5,-
3686,대전,전용면적 60㎡이하,2019,5,-
3688,대전,전용면적 85㎡초과 102㎡이하,2019,5,-
3690,울산,전체,2019,5,-
3691,울산,전용면적 60㎡이하,2019,5,-
3692,울산,전용면적 60㎡초과 85㎡이하,2019,5,-
3693,울산,전용면적 85㎡초과 102㎡이하,2019,5,-
3694,울산,전용면적 102㎡초과,2019,5,-
3696,세종,전용면적 60㎡이하,2019,5,-


In [32]:
# 공백이 2개 들어간 경우
df2.loc[df2['분양가격(㎡)']=='  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


## 5. 분양가격이 잘 바뀌었나요?

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


## 6. 지역명 별로 평균 분양가격을 확인해 봅시다

In [None]:
## 코드
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

### 이번에는 분양가격이 100보다 작은 행은 제거해보겠습니다.

In [None]:
df.loc[ df['분양가격'] < 100]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,85㎡초과 102㎡이하,2015,10,0
29,광주,102㎡초과,2015,10,0
34,대전,102㎡초과,2015,10,0
81,제주,60㎡이하,2015,10,0
113,광주,85㎡초과 102㎡이하,2015,11,0
...,...,...,...,...,...
4461,세종,60㎡이하,2020,2,0
4488,전남,85㎡초과 102㎡이하,2020,2,0
4493,경북,85㎡초과 102㎡이하,2020,2,0
4499,경남,102㎡초과,2020,2,0


[tip] 특정 조건에 만족하는 행을 제거하고자 할 때는

1. index를 list로 가져온다
2. drop을 활용하여 행을 제거한다

In [None]:
## 코드 (index 가져오기)
idx = df.loc[ df['분양가격'] < 100].index

In [None]:
idx

Int64Index([  28,   29,   34,   81,  113,  114,  119,  166,  198,  199,
            ...
            4418, 4448, 4453, 4458, 4459, 4461, 4488, 4493, 4499, 4503],
           dtype='int64', length=320)

In [None]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [None]:
## 코드 (index를 행 기준으로 drop)
df = df.drop(idx, axis=0)

In [None]:
df.count()

지역명     4185
규모구분    4185
연도      4185
월       4185
분양가격    4185
dtype: int64

df의 행의 갯수가 줄어든것이 보이시나요?
* df.count() 값이 4185개가 출력이 되어야 합니다!

다시 한 번 지역명으로 group을 묶어 분양가격을 확인해 보겠습니다.

In [None]:
## 코드
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2412.642023
경기    4072.667925
경남    2814.376923
경북    2547.486166
광주    3049.028169
대구    3663.335938
대전    3128.433333
부산    3679.920755
서울    7225.762264
세종    2984.004000
울산    3043.503145
인천    3633.275862
전남    2304.969349
전북    2348.648855
제주    3432.795652
충남    2501.604743
충북    2316.871698
Name: 분양가격, dtype: float64

count()로 데이터의 갯수도 확인해 볼까요?

In [None]:
## 코드
df.groupby('지역명')['분양가격'].count()

지역명
강원    257
경기    265
경남    260
경북    253
광주    213
대구    256
대전    210
부산    265
서울    265
세종    250
울산    159
인천    261
전남    261
전북    262
제주    230
충남    253
충북    265
Name: 분양가격, dtype: int64

지역 별 최고로 비싼 분양가는 어떻게 될까요?

In [None]:
## 코드
df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

## 7. 이번에는 연도별로 분양가격을 확인해 봅시다.

In [None]:
## 코드
df.groupby('연도')['분양가격'].mean()

연도
2015    2788.707819
2016    2934.250000
2017    3143.311795
2018    3326.951034
2019    3693.422149
2020    3853.960526
Name: 분양가격, dtype: float64

## 8. 피벗 테이블을 활용해서 볼까요?

* 행인덱스: 연도
* 열인덱스: 규모구분
* 값: 분양가격

In [None]:
## 코드
pd.pivot_table(df, index='연도', columns='규모구분', values='분양가격')

규모구분,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2980.977778,2712.583333,2694.490196,2884.395833,2694.862745
2016,3148.099476,2848.144279,2816.965686,3067.380435,2816.073529
2017,3427.649746,3112.538071,2981.95098,3204.075145,3008.279412
2018,3468.355932,3286.184783,3227.458128,3467.184211,3235.098522
2019,4039.854839,3486.910112,3538.545918,3933.538462,3515.97449
2020,4187.566667,3615.96875,3594.852941,4532.090909,3603.911765


## 9. 연도별, 규모별 가격을 알아볼까요? (multi-index)

In [None]:
## 코드
df.groupby(['연도', '규모구분'])['분양가격'].mean()

연도    규모구분         
2015   102㎡초과          2980.977778
       60㎡이하           2712.583333
       60㎡초과 85㎡이하     2694.490196
       85㎡초과 102㎡이하    2884.395833
      전체               2694.862745
2016   102㎡초과          3148.099476
       60㎡이하           2848.144279
       60㎡초과 85㎡이하     2816.965686
       85㎡초과 102㎡이하    3067.380435
      전체               2816.073529
2017   102㎡초과          3427.649746
       60㎡이하           3112.538071
       60㎡초과 85㎡이하     2981.950980
       85㎡초과 102㎡이하    3204.075145
      전체               3008.279412
2018   102㎡초과          3468.355932
       60㎡이하           3286.184783
       60㎡초과 85㎡이하     3227.458128
       85㎡초과 102㎡이하    3467.184211
      전체               3235.098522
2019   102㎡초과          4039.854839
       60㎡이하           3486.910112
       60㎡초과 85㎡이하     3538.545918
       85㎡초과 102㎡이하    3933.538462
      전체               3515.974490
2020   102㎡초과          4187.566667
       60㎡이하           3615.968750
       60㎡초과 85㎡이하     3594.852941


예쁘게 출력이 안되어서 보기가 힘들때는 pd.DataFrame()으로 한 번 더 감싸주면 됩니다.

In [None]:
## 코드
pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.977778
2015,60㎡이하,2712.583333
2015,60㎡초과 85㎡이하,2694.490196
2015,85㎡초과 102㎡이하,2884.395833
2015,전체,2694.862745
2016,102㎡초과,3148.099476
2016,60㎡이하,2848.144279
2016,60㎡초과 85㎡이하,2816.965686
2016,85㎡초과 102㎡이하,3067.380435
2016,전체,2816.073529
