지금까지 GroupBy abstraction으로 dataset 내의 relationships을 explore하는 방법을 알아봤다. pivot table은 tabular의 data로 작업하는 spreadsheet와 다른 program에서 볼 수 있는 유사한 operation이다. pivot table은 input으로 간단한 column-wise data를 취하고 그 data에 대한 multidimensional summarization을 provide하는 two-dimensional table로 entries를 group한다. pivot table과 GroupBy의 difference가 때때로 confusion(혼란)을 일으킬 수도 있다. pivot table은 essentially(근본적으로) GroupBy aggregation의 mutidimensional version이라고 생각하면 도움이 된다. 다시 말해 split-apply-combine 작업을 하면 split과 combine 작업이 one-dimensional index에서 발생하는 것이 아니라, two-dimensional grid에서 발생한다.


# 1. Motivating Pivot Tables

this section의 example에서는 Seaborn library(360쪽 'Visualization With Seaborn')에서 제공하는 passenger on the Titanic의 database를 사용할 것이다.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

  'Matplotlib is building the font cache using fc-list. '


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


이 data에는 불행하게 끝났던 여행(ill-fated voyage)의 각 passenger에 대한 gender, age, class, fare paid 등 다양한 information이 담겨 있다.



# 2. Pivot Tables by Hand

this data에 대해 더 알아보기 위해 gender나 survival status, 또는 그 몇 가지 조합(sum combination thereof)에 따라 grouping하는 일부터 해보자.  previous section을 읽은 사람이라면 GroupBy operation을 apply하고 싶을 수도 있다. 예를 들어 gender에 따른 survival rate을 알아보자.

In [2]:
titanic.groupby('sex')[['survived']].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


이 결과는 some insight를 알려준다. 전반적으로 승선하고 있던 female의 네 명 중 세 명이 survive한 반면, male은 다섯 명 중 한 명만 survive했다.

이 information도 유용하지만, one step 더 들어가서 gender와 class별 survival을 보고 싶을 수도 있다. GroupBy를 이용해 다음과 같이 진행할 수도 있다. class와 gender 단위로 group을 나누고 survival을 선택하고 mean aggregate를 apply하고 resulting group을 combine한 후 hidden multidimensionality를 reveal하기 위해 hierarchical index를 unstack한다. 그 code는 다음과 같다.

In [3]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


이 code는 gender와 class가 survival에 얼마나 영향을 미치는제 더 잘 이해할 수 있게 해주지만 약간 복잡해지기 시작했다. this pipeline의 each step이 앞에서 논의했던 tool 관점에서는 makes sense(타당해 보이지만)해 보이지만, 이렇게 긴 code를 읽거나 사용하기는 쉽지 않다. 이 two-dimensional GroupBy는 아주 보편적으로 사용되고 있어서 Pandas는 이러한 type의 multi-dimensional aggregation을 succinctly(간결하게)하게 처리할 수 있도록 pivot_table이라는 routine을 제공한다. 


# 3. Pivot Table Syntax

이번에는 DataFrame의 povot_table method를 사용해 앞의 operation을 동일하게 구현해보자.

In [4]:
titanic.pivot_table('survived', index = 'sex', columns = 'class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


this code는 GroupBy approach를 사용한 code보다 훨씬 더 읽기 쉬우면서도 똑같은 result를 produce한다. 20th-century transatlantic cruise(20세기 초 대서양 횡단 크루즈)를 떠올리면 expect할 수 있는 것처럼 women이면서 higher classes일수록 생존률이 높아지는 경향이 있다.(the survival gradient favors both women and higher classes.) first-class women은 near certainty survived했지만, third-class men은 10명 중 1명만 survived했다.

## 1) Multi-level pivot tables

GroupBy에서와 마찬가지로 pivot table의 grouping은 multiple levels로 여러 가지 option을 통해 지정할 수 있다. 예를 들어, third dimension으로 age를 보고 싶을 수 있다. pd.cut fuction을 사용해 age를 추가하자.(we'll bin the age using the pd.cut function)

In [5]:
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived', ['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


columns 기준으로 working할 때도 이와 같은 strategy를 apply할 수 있다. automatically compute quantiles하기 위해 pd.qcut를 사용해 지불된 비용에 대한 info를 add하자.

In [6]:
fare = pd.qcut(titanic['fare'], 2)
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

fare            (-0.001, 14.454]                     (14.454, 512.329]  \
class                      First    Second     Third             First   
sex    age                                                               
female (0, 18]               NaN  1.000000  0.714286          0.909091   
       (18, 80]              NaN  0.880000  0.444444          0.972973   
male   (0, 18]               NaN  0.000000  0.260870          0.800000   
       (18, 80]              0.0  0.098039  0.125000          0.391304   

fare                                 
class              Second     Third  
sex    age                           
female (0, 18]   1.000000  0.318182  
       (18, 80]  0.914286  0.391304  
male   (0, 18]   0.818182  0.178571  
       (18, 80]  0.030303  0.192308  

result는 value 사이의 relationship을 보여주는 grid에 나타난 hierarchical index(147쪽 'Hierarchical indexing 참조)를 가진 four-dimensional aggregation이다.


## 2) Additional pivot table options

DataFrame의 pivot_table method의 full call signature는 다음과 같다.

In [None]:
# pandas 0.19 version call signature
DataFrame.pivot_table(data, values=None, index=None, columns=None,
                     aggfunc = 'mean', fill_value = None, margins = False,
                     dropna = True, margins_name = 'All')

이미 first three arguments에 대해서는 살펴봤다. 여기서는 나머지 arguments에 대해 간단히 살펴보겠다.  fill_