In [1]:
import warnings
warnings.filterwarnings('ignore')

# pandas 모듈 import

In [2]:
import pandas as pd
import numpy as np

## csv파일을 불러오기

In [3]:
df = pd.read_csv('./data/01_house_price_2019_03.csv')

## 살펴보기

In [4]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [5]:
df['test'] = True

In [6]:
df.tail()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡),test
3565,제주,전체,2019,3,3424,True
3566,제주,전용면적 60㎡이하,2019,3,3804,True
3567,제주,전용면적 60㎡초과 85㎡이하,2019,3,3504,True
3568,제주,전용면적 85㎡초과 102㎡이하,2019,3,3226,True
3569,제주,전용면적 102㎡초과,2019,3,2952,True


## 열의 이름 바꾸기

In [7]:
df=df.rename(columns={'분양가격(㎡)':'분양가'})

In [8]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


## data type 보기

In [9]:
df.dtypes

지역명     object
규모구분    object
연도       int64
월        int64
분양가     object
test      bool
dtype: object

In [10]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


In [11]:
df['분양가'] = df['분양가'].convert_objects(convert_numeric=True)

In [12]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
dtype: object

In [13]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


## numpy array로 변환하기

In [14]:
arr = df.to_numpy()

In [15]:
arr

array([['서울', '전체', 2015, 10, 5841.0, True],
       ['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True],
       ['서울', '전용면적 60㎡초과 85㎡이하', 2015, 10, 5882.0, True],
       ...,
       ['제주', '전용면적 60㎡초과 85㎡이하', 2019, 3, 3504.0, True],
       ['제주', '전용면적 85㎡초과 102㎡이하', 2019, 3, 3226.0, True],
       ['제주', '전용면적 102㎡초과', 2019, 3, 2952.0, True]], dtype=object)

In [16]:
len(arr)

3570

In [17]:
arr[0], arr[1]

(array(['서울', '전체', 2015, 10, 5841.0, True], dtype=object),
 array(['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True], dtype=object))

## 간단한 통계 보기

In [18]:
df.describe()

Unnamed: 0,연도,월,분양가
count,3570.0,3570.0,3273.0
mean,2017.0,6.5,3130.001833
std,1.069195,3.634017,1141.740958
min,2015.0,1.0,1868.0
25%,2016.0,3.0,2387.0
50%,2017.0,6.5,2787.0
75%,2018.0,10.0,3383.0
max,2019.0,12.0,8191.0


## Transposing 하기 (축 변환하기)

In [19]:
# 갯수를 지정하여 출력
df.head(3)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True


In [20]:
df.T.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3560,3561,3562,3563,3564,3565,3566,3567,3568,3569
지역명,서울,서울,서울,서울,서울,인천,인천,인천,인천,인천,...,경남,경남,경남,경남,경남,제주,제주,제주,제주,제주
규모구분,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,...,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과
연도,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,...,2019,2019,2019,2019,2019,2019,2019,2019,2019,2019
월,10,10,10,10,10,10,10,10,10,10,...,3,3,3,3,3,3,3,3,3,3
분양가,5841,5652,5882,5721,5879,3163,3488,3119,3545,3408,...,2877,2776,2855,3173,4303,3424,3804,3504,3226,2952


## 정렬

In [21]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


### 1. Index 정렬

In [22]:
# 내림차순 정렬
df.sort_index(axis=0, ascending=False)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3569,제주,전용면적 102㎡초과,2019,3,2952.0,True
3568,제주,전용면적 85㎡초과 102㎡이하,2019,3,3226.0,True
3567,제주,전용면적 60㎡초과 85㎡이하,2019,3,3504.0,True
3566,제주,전용면적 60㎡이하,2019,3,3804.0,True
3565,제주,전체,2019,3,3424.0,True


In [23]:
# 오름차순 정렬
df.sort_index(axis=0, ascending=True)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


### 2. Value 정렬

In [24]:
# 지역명 별로 정렬
df.sort_values(by='지역명')[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
1831,강원,전용면적 60㎡이하,2017,7,2167.0,True
896,강원,전용면적 60㎡이하,2016,8,2073.0,True
895,강원,전체,2016,8,2098.0,True
215,강원,전체,2015,12,2171.0,True
216,강원,전용면적 60㎡이하,2015,12,2292.0,True


In [25]:
# 연도 별로 정렬
df.sort_values(by='연도')[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
162,경남,전용면적 60㎡초과 85㎡이하,2015,11,2322.0,True
163,경남,전용면적 85㎡초과 102㎡이하,2015,11,2980.0,True
164,경남,전용면적 102㎡초과,2015,11,3043.0,True
165,제주,전체,2015,11,2232.0,True


## 선택 (Selection)

### 1. Column 이름으로 선택

In [26]:
df['지역명'][:5]

0    서울
1    서울
2    서울
3    서울
4    서울
Name: 지역명, dtype: object

In [27]:
df['연도'][:5]

0    2015
1    2015
2    2015
3    2015
4    2015
Name: 연도, dtype: int64

### 2. Index 선택

In [28]:
# index 0 부터 5 미만까지 선택
# index 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df[0:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [29]:
# 끝에 5개 출력
df[-5:]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3565,제주,전체,2019,3,3424.0,True
3566,제주,전용면적 60㎡이하,2019,3,3804.0,True
3567,제주,전용면적 60㎡초과 85㎡이하,2019,3,3504.0,True
3568,제주,전용면적 85㎡초과 102㎡이하,2019,3,3226.0,True
3569,제주,전용면적 102㎡초과,2019,3,2952.0,True


### 3. label로 선택

In [30]:
df.loc[:, ['지역명', '연도']][:5]

Unnamed: 0,지역명,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,서울,2015


In [31]:
# (주의) 여기서는 :를 기준으로 우측에 있는 범위인 6을 포함하여 출력
df.loc[:6,['지역명', '연도']]

Unnamed: 0,지역명,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,서울,2015
5,인천,2015
6,인천,2015


In [32]:
# 조건을 삽입 가능
df.loc[df.index > 5, ['지역명', '연도']][:10]

Unnamed: 0,지역명,연도
6,인천,2015
7,인천,2015
8,인천,2015
9,인천,2015
10,경기,2015
11,경기,2015
12,경기,2015
13,경기,2015
14,경기,2015
15,부산,2015


In [33]:
# 지역명 column의 값이 '인천'인 행의 '지역명', '연도' 출력
df.loc[df['지역명']=='인천',['지역명', '연도']][:10]

Unnamed: 0,지역명,연도
5,인천,2015
6,인천,2015
7,인천,2015
8,인천,2015
9,인천,2015
90,인천,2015
91,인천,2015
92,인천,2015
93,인천,2015
94,인천,2015


### 4. iloc을 활용한 인덱스 지정 선택

In [34]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [35]:
df.iloc[2, 1]

'전용면적 60㎡초과 85㎡이하'

In [36]:
# df.iloc과 동작방식은 동일하지만, 범위 지정은 불가
df.iat[2, 1]

'전용면적 60㎡초과 85㎡이하'

In [37]:
df.iloc[2, :]

지역명                   서울
규모구분    전용면적 60㎡초과 85㎡이하
연도                  2015
월                     10
분양가                 5882
test                True
Name: 2, dtype: object

In [38]:
df.iloc[:5, 1]

0                   전체
1           전용면적 60㎡이하
2     전용면적 60㎡초과 85㎡이하
3    전용면적 85㎡초과 102㎡이하
4          전용면적 102㎡초과
Name: 규모구분, dtype: object

In [39]:
# iloc으로 인덱스 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df.iloc[:5, 1:3]

Unnamed: 0,규모구분,연도
0,전체,2015
1,전용면적 60㎡이하,2015
2,전용면적 60㎡초과 85㎡이하,2015
3,전용면적 85㎡초과 102㎡이하,2015
4,전용면적 102㎡초과,2015


### 5. 범위 조건 지정 선택

In [40]:
df[df.index > 3565]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3566,제주,전용면적 60㎡이하,2019,3,3804.0,True
3567,제주,전용면적 60㎡초과 85㎡이하,2019,3,3504.0,True
3568,제주,전용면적 85㎡초과 102㎡이하,2019,3,3226.0,True
3569,제주,전용면적 102㎡초과,2019,3,2952.0,True


### 5-a. df.연도  와  df['연도'] 의 column 지정방식은 동일하다

In [41]:
df[df.연도 == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


In [42]:
df[df['연도'] == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


## Copy로 복사

In [43]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [44]:
copy = df.copy()

In [45]:
copy.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


## 값 지정

In [46]:
# 지역명 == 서울 인 지역만 선택
df.loc[df['지역명']=='서울','지역명'][:10]

0     서울
1     서울
2     서울
3     서울
4     서울
85    서울
86    서울
87    서울
88    서울
89    서울
Name: 지역명, dtype: object

In [47]:
# 지역명 == 서울 인 지역을 Seoul로 변경(값을 set)
df.loc[df['지역명']=='서울','지역명'] = 'Seoul'

In [48]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


## reindex를 통한 지정 행과 새로운 열을 추가하여 새로운 dataframe으로 생성

In [49]:
df1 = df.reindex(index=df.index[:7], columns=list(df.columns) + ['extra'])

In [50]:
df1

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [51]:
df1.loc[:4, 'extra'] = False

In [52]:
df1

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


## 빈 데이터 처리

In [53]:
df2 = df1.copy()

In [54]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


### 1. NaN 값이 있는 행을 제거

In [55]:
df2.dropna(how='any')

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False


#### 1-a 하지만 원본 데이터에는 반영이 안되어 있음

In [56]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


#### 1-b 원본 데이터에 반영을 시키기 위해서는 inplace=True를 적용

In [57]:
df2.dropna(how='any', inplace=True)

In [58]:
# NaN 값이 있는 행이 제거됨
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False


### 2. NaN 값이 있는 행에 값을 채움

In [59]:
df2 = df1.copy()

In [60]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [61]:
df2.fillna(value=True)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,True


### 3. NaN 값이 있는 데이터를 Boolean 값으로 출력

In [62]:
pd.isna(df2)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


## 연산 (Operation)

In [63]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


#### 열(column) 기준 평균

In [64]:
df.mean()

연도      2017.000000
월          6.500000
분양가     3130.001833
test       1.000000
dtype: float64

#### 행(row) 기준 평균

In [65]:
df.mean(1)[:5]

0    1966.75
1    1919.50
2    1977.00
3    1936.75
4    1976.25
dtype: float64

In [66]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


#### 행을 2칸 뒤로 밀기

In [67]:
df.shift(2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,,,,,,
1,,,,,,
2,Seoul,전체,2015.0,10.0,5841.0,True
3,Seoul,전용면적 60㎡이하,2015.0,10.0,5652.0,True
4,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True


#### 행을 2칸 당기기

In [68]:
df.shift(-2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True
1,Seoul,전용면적 85㎡초과 102㎡이하,2015.0,10.0,5721.0,True
2,Seoul,전용면적 102㎡초과,2015.0,10.0,5879.0,True
3,인천,전체,2015.0,10.0,3163.0,True
4,인천,전용면적 60㎡이하,2015.0,10.0,3488.0,True


### Broadcasting을 이용한 subtract (빼기)

In [69]:
df1 = df[['연도', '월']]

In [70]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [71]:
df1.shape

(3570, 2)

In [72]:
s = np.ones(df.shape[0])

In [73]:
s.shape

(3570,)

In [74]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [75]:
s

array([1., 1., 1., ..., 1., 1., 1.])

In [76]:
df1.sub(s, axis=0).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


In [77]:
s = np.ones(df1.shape[1])

In [78]:
s

array([1., 1.])

In [79]:
df1.sub(s, axis=1).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


### Apply

np.cumsum : cumulative sum의 함수형으로 누적 합을 구하는 함수

In [80]:
df1.apply(np.cumsum)[:10]

Unnamed: 0,연도,월
0,2015,10
1,4030,20
2,6045,30
3,8060,40
4,10075,50
5,12090,60
6,14105,70
7,16120,80
8,18135,90
9,20150,100


#### 연도 column
x.max() 는 최대값인 2019년도의 2019
x.min() 은 최소값인 2015년도의 2015
2019 - 2015 = 4가 출력

#### 월 column
x.max() 는 최대값인 12
x.min() 은 최소값인 1
12 - 1 = 11이 출력

In [81]:
df1.apply(lambda x: x.max() - x.min())

연도     4
월     11
dtype: int64

In [82]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


## 값들의 종류별 출력

In [83]:
df1['연도'].value_counts()

2017    1020
2018    1020
2016    1020
2019     255
2015     255
Name: 연도, dtype: int64

## 데이터 합치기 (Data Merge)

In [84]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [85]:
left = df[['연도', '월']]

In [86]:
left.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [87]:
right = df[['지역명']]

In [88]:
right.head()

Unnamed: 0,지역명
0,Seoul
1,Seoul
2,Seoul
3,Seoul
4,Seoul


### 1. Concat

In [89]:
part_1 = pd.DataFrame(np.random.randn(3, 4))
part_2 = pd.DataFrame(np.random.randn(4, 4))
part_3 = pd.DataFrame(np.random.randn(5, 4))

In [90]:
part_1

Unnamed: 0,0,1,2,3
0,1.725924,1.841674,0.660353,-2.383965
1,-1.950517,0.604445,1.899723,1.510485
2,0.253384,-1.023495,1.177039,1.07581


In [91]:
part_2

Unnamed: 0,0,1,2,3
0,-0.000298,-0.876631,-0.536867,0.793464
1,-2.087293,-2.380273,0.328481,0.19608
2,-0.92758,0.052453,-1.163826,0.440285
3,-0.028867,0.104983,0.371043,-0.985374


In [92]:
part_3

Unnamed: 0,0,1,2,3
0,0.132537,1.236222,3.393376,1.125493
1,1.257455,-0.106632,0.278487,-0.535576
2,0.36171,-0.542086,0.380133,-1.838153
3,1.566501,1.465961,1.459668,0.623596
4,0.907765,0.529168,0.536374,0.347229


In [93]:
part = [part_1, part_2, part_3]

In [94]:
part

[          0         1         2         3
 0  1.725924  1.841674  0.660353 -2.383965
 1 -1.950517  0.604445  1.899723  1.510485
 2  0.253384 -1.023495  1.177039  1.075810,
           0         1         2         3
 0 -0.000298 -0.876631 -0.536867  0.793464
 1 -2.087293 -2.380273  0.328481  0.196080
 2 -0.927580  0.052453 -1.163826  0.440285
 3 -0.028867  0.104983  0.371043 -0.985374,
           0         1         2         3
 0  0.132537  1.236222  3.393376  1.125493
 1  1.257455 -0.106632  0.278487 -0.535576
 2  0.361710 -0.542086  0.380133 -1.838153
 3  1.566501  1.465961  1.459668  0.623596
 4  0.907765  0.529168  0.536374  0.347229]

In [95]:
pd.concat(part)

Unnamed: 0,0,1,2,3
0,1.725924,1.841674,0.660353,-2.383965
1,-1.950517,0.604445,1.899723,1.510485
2,0.253384,-1.023495,1.177039,1.07581
0,-0.000298,-0.876631,-0.536867,0.793464
1,-2.087293,-2.380273,0.328481,0.19608
2,-0.92758,0.052453,-1.163826,0.440285
3,-0.028867,0.104983,0.371043,-0.985374
0,0.132537,1.236222,3.393376,1.125493
1,1.257455,-0.106632,0.278487,-0.535576
2,0.36171,-0.542086,0.380133,-1.838153


### 2. Join

Join을 Column(열)을 기준으로 합칠 경우에 on='합치고자하는 열의 이름'를 자주 사용하게 되는데, 값이 고유하지 않다면, 매우 혼란스러울 수 있다

#### 예시1: key가 고유한 경우

In [96]:
left = pd.DataFrame({'연도': ['2015', '2016', '2017', '2018', '2019'], '월': ['1', '2', '3', '4', '5']})
left

Unnamed: 0,연도,월
0,2015,1
1,2016,2
2,2017,3
3,2018,4
4,2019,5


In [97]:
right = pd.DataFrame({'이름': ['홍길동', '김영희', '이철수', '방탄소년단', 'QUEEN'], '월': ['1', '2', '3', '4', '5']})
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,2
2,이철수,3
3,방탄소년단,4
4,QUEEN,5


In [98]:
left.shape, right.shape

((5, 2), (5, 2))

#### 매우 깔끔하게 합쳐진 것을 볼 수 있다

In [99]:
pd.merge(left, right, on='월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2016,2,김영희
2,2017,3,이철수
3,2018,4,방탄소년단
4,2019,5,QUEEN


#### 예시2: 중복되는 key가 있을 때 합치려는 경우 (1월을 중복으로 넣어놨음)

In [100]:
left = pd.DataFrame({'연도': ['2015', '2016', '2017', '2018', '2019'], '월': ['1', '1', '3', '4', '5']})
left

Unnamed: 0,연도,월
0,2015,1
1,2016,1
2,2017,3
3,2018,4
4,2019,5


In [101]:
right = pd.DataFrame({'이름': ['홍길동', '김영희', '이철수', '방탄소년단', 'QUEEN'], '월': ['1', '1', '3', '4', '5']})
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,1
2,이철수,3
3,방탄소년단,4
4,QUEEN,5


#### 행이 2개가 더 추가로 합쳐진 모습이다.

In [102]:
pd.merge(left, right, on='월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2015,1,김영희
2,2016,1,홍길동
3,2016,1,김영희
4,2017,3,이철수
5,2018,4,방탄소년단
6,2019,5,QUEEN


### 3. Append

In [103]:
test = np.arange(0, 50)
test

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])

In [104]:
# 1d -> 2d로 변환
test = test.reshape(10, 5)

In [105]:
test

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [106]:
test_1 = test[:3]

In [107]:
test_1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [108]:
test_2 = test[3:7]

In [109]:
test_2

array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34]])

In [110]:
test_3 = test[7:10]

In [111]:
test_3

array([[35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [112]:
df1 = pd.DataFrame(test_1)
df1

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14


In [113]:
df2 = pd.DataFrame(test_2)
df2

Unnamed: 0,0,1,2,3,4
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


In [114]:
df3 = pd.DataFrame(test_3)
df3

Unnamed: 0,0,1,2,3,4
0,35,36,37,38,39
1,40,41,42,43,44
2,45,46,47,48,49


In [115]:
df1.append(df2)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


#### index가 이상하게 출력되는 부분은 ignore_index=True로 해결할 수 있다

In [116]:
df1.append(df2, ignore_index=True)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24
5,25,26,27,28,29
6,30,31,32,33,34


## 그룹화 (Grouping)

In [117]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [118]:
df.shape

(3570, 6)

In [119]:
df.groupby(['지역명', '연도', '월'])['분양가'].agg('sum')

지역명    연도    월 
Seoul  2015  10    28975.0
             11    31977.0
             12    31392.0
       2016  1     31635.0
             2     31559.0
             3     32400.0
             4     33504.0
             5     33185.0
             6     33085.0
             7     33369.0
             8     33174.0
             9     33246.0
             10    34239.0
             11    32672.0
             12    33449.0
       2017  1     33413.0
             2     33202.0
             3     32526.0
             4     32519.0
             5     32536.0
             6     33637.0
             7     33285.0
             8     31812.0
             9     33788.0
             10    33160.0
             11        0.0
             12    33973.0
       2018  1     33772.0
             2     34315.0
             3     35647.0
                    ...   
충북     2016  10    11276.0
             11    11283.0
             12    11497.0
       2017  1     11588.0
             2     11367.0
            

#### 분양가 column이 현재 int 타입이 아닌 object 타입으로 되어 있기 때문에 연산이 잘 이뤄지지 않음. 따라서 int 타입으로 변경

In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3570 entries, 0 to 3569
Data columns (total 6 columns):
지역명     3570 non-null object
규모구분    3570 non-null object
연도      3570 non-null int64
월       3570 non-null int64
분양가     3273 non-null float64
test    3570 non-null bool
dtypes: bool(1), float64(1), int64(2), object(2)
memory usage: 143.0+ KB


In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3570 entries, 0 to 3569
Data columns (total 6 columns):
지역명     3570 non-null object
규모구분    3570 non-null object
연도      3570 non-null int64
월       3570 non-null int64
분양가     3273 non-null float64
test    3570 non-null bool
dtypes: bool(1), float64(1), int64(2), object(2)
memory usage: 143.0+ KB


In [122]:
grouped = df.groupby(['지역명', '연도', '월']).sum()
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,분양가,test
지역명,연도,월,Unnamed: 3_level_1,Unnamed: 4_level_1
Seoul,2015,10,28975.0,5.0
Seoul,2015,11,31977.0,5.0
Seoul,2015,12,31392.0,5.0
Seoul,2016,1,31635.0,5.0
Seoul,2016,2,31559.0,5.0
Seoul,2016,3,32400.0,5.0
Seoul,2016,4,33504.0,5.0
Seoul,2016,5,33185.0,5.0
Seoul,2016,6,33085.0,5.0
Seoul,2016,7,33369.0,5.0


In [123]:
grouped.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,분양가,test
지역명,연도,월,Unnamed: 3_level_1,Unnamed: 4_level_1
Seoul,2015,10,28975.0,5.0
Seoul,2015,11,31977.0,5.0
Seoul,2015,12,31392.0,5.0
Seoul,2016,1,31635.0,5.0
Seoul,2016,2,31559.0,5.0


In [124]:
grouped.stack()

지역명    연도    월       
Seoul  2015  10  분양가     28975.0
                 test        5.0
             11  분양가     31977.0
                 test        5.0
             12  분양가     31392.0
                 test        5.0
       2016  1   분양가     31635.0
                 test        5.0
             2   분양가     31559.0
                 test        5.0
             3   분양가     32400.0
                 test        5.0
             4   분양가     33504.0
                 test        5.0
             5   분양가     33185.0
                 test        5.0
             6   분양가     33085.0
                 test        5.0
             7   분양가     33369.0
                 test        5.0
             8   분양가     33174.0
                 test        5.0
             9   분양가     33246.0
                 test        5.0
             10  분양가     34239.0
                 test        5.0
             11  분양가     32672.0
                 test        5.0
             12  분양가     33449.0
                 test

**group이 되어 있는 DataFrame을 unstack의 '레벨'을 조정하여 보여줄 수 있다.**
위의 grouped에서 '도시' = level 1, '연도' = level 2, '월'

In [125]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True
5,인천,전체,2015,10,3163.0,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True
9,인천,전용면적 102㎡초과,2015,10,3408.0,True


### stack & unstack을 활용한 column별 데이터 그룹핑

In [126]:
# level0: 열을 도시별로 출력
grouped.unstack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,...,test,test,test,test,test,test,test,test,test,test
Unnamed: 0_level_1,지역명,Seoul,강원,경기,경남,경북,광주,대구,대전,부산,세종,...,대전,부산,세종,울산,인천,전남,전북,제주,충남,충북
연도,월,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
2015,10,28975.0,10897.0,16679.0,12739.0,11027.0,7112.0,13147.0,9928.0,15518.0,13207.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2015,11,31977.0,10888.0,16494.0,12843.0,11472.0,7119.0,13358.0,9928.0,15846.0,13279.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2015,12,31392.0,10888.0,17104.0,12869.0,11429.0,7360.0,14490.0,9928.0,15806.0,13355.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,1,31635.0,10894.0,17104.0,12698.0,11406.0,7546.0,14805.0,9928.0,15929.0,13355.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,2,31559.0,9013.0,16831.0,12692.0,11420.0,7546.0,14759.0,9928.0,15982.0,13355.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,3,32400.0,9014.0,16958.0,12839.0,11532.0,7661.0,14896.0,9928.0,15915.0,13374.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,4,33504.0,8816.0,16848.0,13029.0,11526.0,14268.0,14923.0,7403.0,15886.0,13403.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,5,33185.0,8669.0,17932.0,13203.0,11534.0,14284.0,14965.0,7474.0,15828.0,13403.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,6,33085.0,8678.0,18269.0,13026.0,11828.0,14319.0,15266.0,7757.0,16167.0,13372.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
2016,7,33369.0,8648.0,18315.0,12969.0,11828.0,14329.0,15295.0,7757.0,16409.0,13368.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0


In [127]:
# level1: 열을 연도별로 출력
grouped.unstack(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,test,test,test,test,test
Unnamed: 0_level_1,연도,2015,2016,2017,2018,2019,2015,2016,2017,2018,2019
지역명,월,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
Seoul,1,,31635.0,33413.0,33772.0,37734.0,,5.0,5.0,5.0,5.0
Seoul,2,,31559.0,33202.0,34315.0,37592.0,,5.0,5.0,5.0,5.0
Seoul,3,,32400.0,32526.0,35647.0,37761.0,,5.0,5.0,5.0,5.0
Seoul,4,,33504.0,32519.0,35662.0,,,5.0,5.0,5.0,
Seoul,5,,33185.0,32536.0,36217.0,,,5.0,5.0,5.0,
Seoul,6,,33085.0,33637.0,35161.0,,,5.0,5.0,5.0,
Seoul,7,,33369.0,33285.0,35595.0,,,5.0,5.0,5.0,
Seoul,8,,33174.0,31812.0,33783.0,,,5.0,5.0,5.0,
Seoul,9,,33246.0,33788.0,32407.0,,,5.0,5.0,5.0,
Seoul,10,28975.0,34239.0,33160.0,36028.0,,5.0,5.0,5.0,5.0,


In [128]:
# level2: 열을 연도별로 출력
grouped.unstack(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,...,test,test,test,test,test,test,test,test,test,test
Unnamed: 0_level_1,월,1,2,3,4,5,6,7,8,9,10,...,3,4,5,6,7,8,9,10,11,12
지역명,연도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Seoul,2015,,,,,,,,,,28975.0,...,,,,,,,,5.0,5.0,5.0
Seoul,2016,31635.0,31559.0,32400.0,33504.0,33185.0,33085.0,33369.0,33174.0,33246.0,34239.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2017,33413.0,33202.0,32526.0,32519.0,32536.0,33637.0,33285.0,31812.0,33788.0,33160.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2018,33772.0,34315.0,35647.0,35662.0,36217.0,35161.0,35595.0,33783.0,32407.0,36028.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2019,37734.0,37592.0,37761.0,,,,,,,,...,5.0,,,,,,,,,
강원,2015,,,,,,,,,,10897.0,...,,,,,,,,5.0,5.0,5.0
강원,2016,10894.0,9013.0,9014.0,8816.0,8669.0,8678.0,8648.0,8705.0,8690.0,10608.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
강원,2017,10711.0,10734.0,10682.0,10682.0,10767.0,11026.0,11076.0,11401.0,11237.0,11174.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
강원,2018,12157.0,12346.0,12800.0,12260.0,12333.0,12317.0,12434.0,12577.0,12590.0,12667.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
강원,2019,12618.0,12618.0,12706.0,,,,,,,,...,5.0,,,,,,,,,


## Pivot Table

#### Pivot Table이란?
다시 말해 피벗 테이블이란 여러 데이터 중에서 자신이 원하는 데이터만을 가지고 원하는 행과 열에 데이터를 배치하여 새로운 보고서를 만드는 기능이다.

In [129]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True
5,인천,전체,2015,10,3163.0,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True
9,인천,전용면적 102㎡초과,2015,10,3408.0,True


In [130]:
pd.pivot_table(df, values='분양가', index=['연도','지역명'], columns=['월'])

Unnamed: 0_level_0,월,1,2,3,4,5,6,7,8,9,10,11,12
연도,지역명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2015,Seoul,,,,,,,,,,5795.000000,6395.40,6278.400000
2015,강원,,,,,,,,,,2179.400000,2177.60,2177.600000
2015,경기,,,,,,,,,,3335.800000,3298.80,3420.800000
2015,경남,,,,,,,,,,2547.800000,2568.60,2573.800000
2015,경북,,,,,,,,,,2205.400000,2294.40,2285.800000
2015,광주,,,,,,,,,,2370.666667,2373.00,2453.333333
2015,대구,,,,,,,,,,2629.400000,2671.60,2898.000000
2015,대전,,,,,,,,,,2482.000000,2482.00,2482.000000
2015,부산,,,,,,,,,,3103.600000,3169.20,3161.200000
2015,세종,,,,,,,,,,2641.400000,2655.80,2671.000000


## Categoricals

In [131]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True
5,인천,전체,2015,10,3163.0,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True
9,인천,전용면적 102㎡초과,2015,10,3408.0,True


In [132]:
df['분양가'].describe()

count    3273.000000
mean     3130.001833
std      1141.740958
min      1868.000000
25%      2387.000000
50%      2787.000000
75%      3383.000000
max      8191.000000
Name: 분양가, dtype: float64

In [133]:
df['평가'] = 0

In [134]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,0
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,0
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,0
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,0
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,0
5,인천,전체,2015,10,3163.0,True,0
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,0
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,0
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,0
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,0


**가격대 별 평가**

low: 25% = 2387 보다 싼 분양가 

mid: 50% = 2387 ~ 3130 

high: 75% = 3130 ~ 3383

very high: 75% ~ 100% = 3383 보다 비싼 분양가 

### np.select를 활용하여 조건에 맞는 값을 대입하기

In [135]:
conditions = [
    (df['분양가'] < 2387),
    (df['분양가'] >= 2387) & (df['분양가'] < 3130),
    (df['분양가'] >= 3130) & (df['분양가'] < 3383),
    (df['분양가'] >= 3383),
    (df['분양가'] == np.nan)
]
choices = ['저렴', '보통', '비쌈', '매우 비쌈', '-']
df['평가'] = np.select(conditions, choices, default=0)

In [136]:
df.head(20)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,매우 비쌈
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,매우 비쌈
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,매우 비쌈
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,매우 비쌈
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,매우 비쌈
5,인천,전체,2015,10,3163.0,True,비쌈
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,매우 비쌈
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,보통
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,매우 비쌈
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,매우 비쌈


In [137]:
df.groupby(by='평가').count()

Unnamed: 0_level_0,지역명,규모구분,연도,월,분양가,test
평가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,297,297,297,297,0,297
매우 비쌈,819,819,819,819,819,819
보통,1285,1285,1285,1285,1285,1285
비쌈,352,352,352,352,352,352
저렴,817,817,817,817,817,817


In [138]:
df.sort_values(by='분양가', ascending=False)[:10]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
3487,Seoul,전용면적 60㎡초과 85㎡이하,2019,3,8191.0,True,매우 비쌈
3402,Seoul,전용면적 60㎡초과 85㎡이하,2019,2,8141.0,True,매우 비쌈
3317,Seoul,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True,매우 비쌈
2638,Seoul,전용면적 85㎡초과 102㎡이하,2018,5,8098.0,True,매우 비쌈
513,Seoul,전용면적 85㎡초과 102㎡이하,2016,4,8096.0,True,매우 비쌈
3232,Seoul,전용면적 60㎡초과 85㎡이하,2018,12,7890.0,True,매우 비쌈
1958,Seoul,전용면적 85㎡초과 102㎡이하,2017,9,7887.0,True,매우 비쌈
2553,Seoul,전용면적 85㎡초과 102㎡이하,2018,4,7823.0,True,매우 비쌈
2468,Seoul,전용면적 85㎡초과 102㎡이하,2018,3,7823.0,True,매우 비쌈
3319,Seoul,전용면적 102㎡초과,2019,1,7787.0,True,매우 비쌈


In [139]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
평가       object
dtype: object

In [140]:
df['평가'] = df['평가'].astype('category')

In [141]:
df.dtypes

지역명       object
규모구분      object
연도         int64
월          int64
분양가      float64
test        bool
평가      category
dtype: object

In [142]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,매우 비쌈
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,매우 비쌈
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,매우 비쌈
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,매우 비쌈
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,매우 비쌈
5,인천,전체,2015,10,3163.0,True,비쌈
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,매우 비쌈
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,보통
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,매우 비쌈
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,매우 비쌈


In [143]:
df['평가'].head()

0    매우 비쌈
1    매우 비쌈
2    매우 비쌈
3    매우 비쌈
4    매우 비쌈
Name: 평가, dtype: category
Categories (5, object): [0, 매우 비쌈, 보통, 비쌈, 저렴]

In [144]:
df['평가'].cat.categories = ['해당없음', '개비쌈', '평균', '쫌비쌈', '쌈']

In [145]:
df['평가'].head()

0    개비쌈
1    개비쌈
2    개비쌈
3    개비쌈
4    개비쌈
Name: 평가, dtype: category
Categories (5, object): [해당없음, 개비쌈, 평균, 쫌비쌈, 쌈]