In [1]:
import pandas as pd
import seaborn as sns

In [2]:
# Ipython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10)        # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)       # 출력할 열의 너비

In [3]:
# titanic 데이터 셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','sex','class','fare','survived']]
print(df.head())
print('\n')

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0




In [5]:
# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균 집계
pdf1 = pd.pivot_table(df,                   # 피벗할 데이터프레임
                      index='class',        # 행 위치에 들어갈 열
                      columns='sex',        # 열 위치에 들어갈 열
                      values='age',         # 데이터로 사용할 열
                      aggfunc='mean')       # 데이터 집계 함수

print(pdf1.head())

sex        female       male
class                       
First   34.611765  41.281386
Second  28.722973  30.740707
Third   21.750000  26.507589


In [6]:
# 값에 적용하는 집계 함수 2개 이상 지정 가능 - 생존율, 생존자 수 집계
pdf2 = pd.pivot_table(df,                                   # 피벗할 데이터프레임
                      index='class',                        # 행 위치에 들어갈 열
                      columns='sex',                        # 열 위치에 들어갈 열
                      values='survived',                    # 데이터로 사용할 열
                      aggfunc=['mean','sum'])               # 데이터 집계 함수

print(pdf2.head())

            mean              sum     
sex       female      male female male
class                                 
First   0.968085  0.368852     91   45
Second  0.921053  0.157407     70   17
Third   0.500000  0.135447     72   47


In [7]:
# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균 나이, 최대 요금 집계
pdf3 = pd.pivot_table(df,                               # 피벗할 데이터 프레임
                      index=['class','sex'],            # 행 위치에 들어갈 열
                      columns='survived',               # 열 위치에 들어갈 열
                      values=['age','fare'],            # 데이터로 사용할 열
                      aggfunc=['mean','max'])           # 데이터 집계 함수

In [8]:
# Ipython Console 디스플레이 옵션 설정
pd.set_option('display.max_columns', 10)
print(pdf3.head())
print('\n')

                    mean                                      max        \
                     age                   fare               age         
survived               0          1           0           1     0     1   
class  sex                                                                
First  female  25.666667  34.939024  110.604167  105.978159  50.0  63.0   
       male    44.581967  36.248000   62.894910   74.637320  71.0  80.0   
Second female  36.000000  28.080882   18.250000   22.288989  57.0  55.0   
       male    33.369048  16.022000   19.488965   21.095100  70.0  62.0   
Third  female  23.818182  19.329787   19.773093   12.464526  48.0  63.0   

                                 
                 fare            
survived            0         1  
class  sex                       
First  female  151.55  512.3292  
       male    263.00  512.3292  
Second female   26.00   65.0000  
       male     73.50   39.0000  
Third  female   69.55   31.3875  




In [9]:
# 행, 열 구조 살펴보기
print(pdf3.index)
print(pdf3.columns)

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])
MultiIndex([('mean',  'age', 0),
            ('mean',  'age', 1),
            ('mean', 'fare', 0),
            ('mean', 'fare', 1),
            ( 'max',  'age', 0),
            ( 'max',  'age', 1),
            ( 'max', 'fare', 0),
            ( 'max', 'fare', 1)],
           names=[None, None, 'survived'])


In [10]:
# xs 인덱서 사용 - 행 선택(default: axis = 0)
print(pdf3.xs('First'))         # 행 인덱스가 First인 행을 선택

               mean                                      max                \
                age                   fare               age          fare   
survived          0          1           0           1     0     1       0   
sex                                                                          
female    25.666667  34.939024  110.604167  105.978159  50.0  63.0  151.55   
male      44.581967  36.248000   62.894910   74.637320  71.0  80.0  263.00   

                    
                    
survived         1  
sex                 
female    512.3292  
male      512.3292  


In [11]:
print(pdf3.xs(('First', 'female')))     # 행 인덱스가('First', 'female') 인 행을 선택

            survived
mean  age   0            25.666667
            1            34.939024
      fare  0           110.604167
            1           105.978159
max   age   0            50.000000
            1            63.000000
      fare  0           151.550000
            1           512.329200
Name: (First, female), dtype: float64


In [12]:
print(pdf3.xs('male', level='sex'))     # 행 인덱스와 sex 레벨이 male인 행을 선택

               mean                                    max                \
                age                  fare              age          fare   
survived          0          1          0          1     0     1       0   
class                                                                      
First     44.581967  36.248000  62.894910  74.637320  71.0  80.0  263.00   
Second    33.369048  16.022000  19.488965  21.095100  70.0  62.0   73.50   
Third     27.255814  22.274211  12.204469  15.579696  74.0  45.0   69.55   

                    
                    
survived         1  
class               
First     512.3292  
Second     39.0000  
Third      56.4958  


In [13]:
print(pdf3.xs(('Second', 'male'), level=[0,'sex']))     # Second, male인 행을 선택

                  mean                               max                  
                   age               fare            age        fare      
survived             0       1          0        1     0     1     0     1
class  sex                                                                
Second male  33.369048  16.022  19.488965  21.0951  70.0  62.0  73.5  39.0


In [14]:
# xs 인덱서 사용 - 열 선택(axis=1 설정)
print(pdf3.xs('mean', axis=1))      # 열 인덱스가 mean인 데이터를 선택

                     age                   fare            
survived               0          1           0           1
class  sex                                                 
First  female  25.666667  34.939024  110.604167  105.978159
       male    44.581967  36.248000   62.894910   74.637320
Second female  36.000000  28.080882   18.250000   22.288989
       male    33.369048  16.022000   19.488965   21.095100
Third  female  23.818182  19.329787   19.773093   12.464526
       male    27.255814  22.274211   12.204469   15.579696


In [15]:
print(pdf3.xs(('mean', 'age'), axis=1))     # 열 인덱스가 ('mean', 'age') 인 데이터 선택

survived               0          1
class  sex                         
First  female  25.666667  34.939024
       male    44.581967  36.248000
Second female  36.000000  28.080882
       male    33.369048  16.022000
Third  female  23.818182  19.329787
       male    27.255814  22.274211


In [16]:
print(pdf3.xs(1, level='survived', axis=1))     # survived 레벨이 1인 데이터 선택

                    mean               max          
                     age        fare   age      fare
class  sex                                          
First  female  34.939024  105.978159  63.0  512.3292
       male    36.248000   74.637320  80.0  512.3292
Second female  28.080882   22.288989  55.0   65.0000
       male    16.022000   21.095100  62.0   39.0000
Third  female  19.329787   12.464526  63.0   31.3875
       male    22.274211   15.579696  45.0   56.4958


In [17]:
print(pdf3.xs(('max', 'fare', 0), level=[0,1,2], axis=1))       # max, fare, survived=0 인 데이터 선택

                  max
                 fare
survived            0
class  sex           
First  female  151.55
       male    263.00
Second female   26.00
       male     73.50
Third  female   69.55
       male     69.55
