## 계층적 인덱싱

Pandas는 고차원의 데이터를 처리하는 객체를 제공하지만 주로 단일 인덱스 내에 여러 인덱스 레벨을 포함하는 계층적 인덱싱(hierarchical indexing, 다중 인덱싱(multi-indexing))을 활용한다. 이 방식으로 고차원 데이터를 익숙한 1차원 Series와 2차원 DataFrame 객체로 간결하게 표현할 수 있다.

### 다중 인덱스된 Series

다음과 같은 2차원의 데이터프레임이 있다. 이것을 1차원의 시리즈로 표현한다면?

In [80]:
import pandas as pd
import numpy as np

In [81]:
pop = pd.DataFrame([{"2000" : 33871648, "2010" : 37253956}, 
                    {"2000" : 18976457, "2010" : 19378102},
                    {"2000" : 20851820, "2010" : 25145561}], 
                   index=['California', 'New York','Taxas'])

In [82]:
pop

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Taxas,20851820,25145561


In [83]:
index = [('California', 2000), ('California', 2010),
        ('New York', 2000), ('New York', 2010),
        ('Taxas', 2000), ('Taxas', 2010)]

In [84]:
index

[('California', 2000),
 ('California', 2010),
 ('New York', 2000),
 ('New York', 2010),
 ('Taxas', 2000),
 ('Taxas', 2010)]

In [85]:
population = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]

In [86]:
pop2 = pd.Series(population, index=index)

In [87]:
pop2

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Taxas, 2000)         20851820
(Taxas, 2010)         25145561
dtype: int64

In [88]:
pop2[[i for i in pop2.index if i[1] == 2000]]

(California, 2000)    33871648
(New York, 2000)      18976457
(Taxas, 2000)         20851820
dtype: int64

### Pandas MultiIndex

Pandas는 MultiIndex를 활용하여 다중 레벨의 인덱스를 만들 수 있다.

In [89]:
index

[('California', 2000),
 ('California', 2010),
 ('New York', 2000),
 ('New York', 2010),
 ('Taxas', 2000),
 ('Taxas', 2010)]

In [90]:
# A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))
index2 = pd.MultiIndex.from_tuples(index)
index2

MultiIndex(levels=[['California', 'New York', 'Taxas'], [2000, 2010]],
           codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

새로 구성한 인덱스를 적용할 때 reindex() 매서드를 활용

In [91]:
pop3 = pop2.reindex(index2)

In [92]:
pop3

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Taxas       2000    20851820
            2010    25145561
dtype: int64

In [93]:
pop2

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Taxas, 2000)         20851820
(Taxas, 2010)         25145561
dtype: int64

In [94]:
pop3[:, 2010]

California    37253956
New York      19378102
Taxas         25145561
dtype: int64

unstack() 함수는 다중 인덱스를 가진 Series를 전형적인 인덱스의 DataFrame으로 빠르게 변환해 준다. stack() 함수는 반대 연산을 제공한다.

In [95]:
pop4 = pop3.unstack()

In [96]:
pop4

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Taxas,20851820,25145561


In [97]:
pop5 = pop4.stack()

In [98]:
pop5

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Taxas       2000    20851820
            2010    25145561
dtype: int64

다중인덱스 방식으로 레벨을 구성함으로써 데이터 구조에 유연성을 제공할 수 있다.

In [99]:
pop_df = pd.DataFrame({'total': pop5,
                      'under18' : [9267089, 9284094,
                                  4687374, 4318033,
                                  5906301, 6879014]})

In [100]:
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Taxas,2000,20851820,5906301
Taxas,2010,25145561,6879014


In [101]:
f_u18 = pop_df['under18'] / pop_df['total']

In [102]:
f_u18

California  2000    0.273594
            2010    0.249211
New York    2000    0.247010
            2010    0.222831
Taxas       2000    0.283251
            2010    0.273568
dtype: float64

##### Quiz
멀티 인덱스를 만들어 보자

In [103]:
quiz = pd.DataFrame([{1,11},{5,1}],columns=list("AB"))

In [104]:
quiz

Unnamed: 0,A,B
0,1,11
1,1,5


In [105]:
# quiz.stack()

In [106]:
quiz

Unnamed: 0,A,B
0,1,11
1,1,5


In [107]:
my_index = [(0,'A'), (0,'B'), (1,'A'), (1,'B')]

In [108]:
my_index

[(0, 'A'), (0, 'B'), (1, 'A'), (1, 'B')]

In [109]:
my_index2 = pd.MultiIndex.from_tuples(my_index)

In [110]:
my_index2

MultiIndex(levels=[[0, 1], ['A', 'B']],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

### MultiIndex 생성 메서드

다중인덱스를 생성하는 가장 간편한 방식은 2개 이상의 인덱스 배열 리스트를 전달하는 것

In [111]:
df = pd.DataFrame(np.random.rand(4,2),
                 index=[['a','a','b','b'],[1,2,1,2]],
                 columns=['data1','data2'])

In [112]:
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.673409,0.991188
a,2,0.878231,0.611009
b,1,0.342055,0.956525
b,2,0.788706,0.959526


### 명시적 MultiIndex 생성자

In [113]:
pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]]) # 배열

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [114]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)]) # 튜플

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [115]:
pd.MultiIndex.from_product([['a','b'],[1,2]]) # 데카르트 곱

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [116]:
pd.MultiIndex(levels=[['a','b'],[1,2]], labels=[[0,0,1,1],[0,1,0,1]])

  """Entry point for launching an IPython kernel.


MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

### MultiIndex 레벨 이름


MultiIndex의 레벨에 이름을 지정할 수 있다. MultiIndex 생성자에 names 인수를 전달하거나 생성 후에 인덱스의 names 속성을 성정해 이름을 지정 가능

In [117]:
pop5

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Taxas       2000    20851820
            2010    25145561
dtype: int64

In [118]:
pop5.index.names = ['state','year']
pop5

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Taxas       2000    20851820
            2010    25145561
dtype: int64

In [128]:
index = pd.MultiIndex.from_product([[2013,2014],[1,2]], 
                                   names=['year','visit'])

In [129]:
columns = pd.MultiIndex.from_product([
    ['Bob','Guido','Sue'],['HR','Temp']], 
    names=['subject', 'type'])

In [130]:
# 임의의 데이터 만드는 과정
data = np.round(np.random.randn(4,6),1)
data[:, ::2] *= 10
data += 37

In [126]:
health_data = pd.DataFrame(data, index=index, columns=columns)

In [127]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,33.0,35.7,46.0,35.8,52.0,38.1
2013,2,40.0,37.2,48.0,39.5,47.0,35.8
2014,1,51.0,35.0,33.0,37.3,57.0,37.3
2014,2,31.0,37.8,26.0,36.7,45.0,35.9
