In [1]:
import numpy as np
import pandas as pd

# 계층적 색인(Hierarchical Index)

In [2]:
s = pd.Series(data = np.arange(10, 70, 10),
              index = [['a', 'a', 'b', 'b', 'c', 'c'],
                 [1, 2, 3, 1, 2, 3]])
s

a  1    10
   2    20
b  3    30
   1    40
c  2    50
   3    60
dtype: int32

In [3]:
s.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 3),
            ('b', 1),
            ('c', 2),
            ('c', 3)],
           )

In [4]:
s.index.levels

FrozenList([['a', 'b', 'c'], [1, 2, 3]])

## multilevel(nlevels>=2)인 경우 loc 사용법
* 첫번째 레벨의 인덱스만 가지고 인덱싱 가능
* **두번째 레벨의 인덱스만으로는 인덱싱 불가**
* 다중 레벨 인덱스는 **튜플 형태로 인덱싱 사용**

In [5]:
s.loc['a']

1    10
2    20
dtype: int32

In [6]:
s.loc[('a', 1)]

10

In [7]:
s

a  1    10
   2    20
b  3    30
   1    40
c  2    50
   3    60
dtype: int32

## multilevel index slicing

In [8]:
s.loc['a':'b']

a  1    10
   2    20
b  3    30
   1    40
dtype: int32

In [9]:
s.loc['b':'c']

b  3    30
   1    40
c  2    50
   3    60
dtype: int32

In [15]:
s.loc[[('a', 1),('b', 1)]] #> fancy indexing으로 리스트를 이용한 인덱싱은 가능하다.

a  1    10
b  1    40
dtype: int32

## swaplevel() 메서드 : 인덱스 레벨 전환
* 인덱스의 레벨을 바꾸어 줌

In [16]:
s

a  1    10
   2    20
b  3    30
   1    40
c  2    50
   3    60
dtype: int32

In [17]:
s.swaplevel()

1  a    10
2  a    20
3  b    30
1  b    40
2  c    50
3  c    60
dtype: int32

In [18]:
s.swaplevel().loc[1]

a    10
b    40
dtype: int32

## sort_index() 메서드 : 인덱스 정렬

In [19]:
s.swaplevel().sort_index()

1  a    10
   b    40
2  a    20
   c    50
3  b    30
   c    60
dtype: int32

In [20]:
# chain call(연쇄 호출)
s.swaplevel().sort_index().loc[1:2]

1  a    10
   b    40
2  a    20
   c    50
dtype: int32

# DataFrame의 Multi-Index
* row multi-index

In [21]:
df = pd.DataFrame(data = np.arange(1, 19).reshape((6, 3)),
                  columns = ['A', 'B', 'C'],
                  index = [['a', 'a', 'b', 'b', 'c', 'c'],
                          ['a1', 'a2', 'b1', 'b2', 'c1', 'c2']])
df

Unnamed: 0,Unnamed: 1,A,B,C
a,a1,1,2,3
a,a2,4,5,6
b,b1,7,8,9
b,b2,10,11,12
c,c1,13,14,15
c,c2,16,17,18


In [22]:
# pd.Dataframe객체의 index 속성 : row index
df.index

MultiIndex([('a', 'a1'),
            ('a', 'a2'),
            ('b', 'b1'),
            ('b', 'b2'),
            ('c', 'c1'),
            ('c', 'c2')],
           )

In [23]:
# pd.DataFrame 객체의 columns 속성 : column index
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [24]:
# pd.index 객체의 nlevels 속성 : 인덱스 레벨의 개수
df.index.nlevels

2

In [25]:
df.columns.nlevels

1

In [26]:
# indexing : row 선택
df.loc['a']

Unnamed: 0,A,B,C
a1,1,2,3
a2,4,5,6


In [27]:
# slicing
df.loc['a':'b']

Unnamed: 0,Unnamed: 1,A,B,C
a,a1,1,2,3
a,a2,4,5,6
b,b1,7,8,9
b,b2,10,11,12


In [28]:
df.loc[('a', 'a1')]

A    1
B    2
C    3
Name: (a, a1), dtype: int32

In [29]:
df.swaplevel()

Unnamed: 0,Unnamed: 1,A,B,C
a1,a,1,2,3
a2,a,4,5,6
b1,b,7,8,9
b2,b,10,11,12
c1,c,13,14,15
c2,c,16,17,18


In [30]:
# swaplevel + slicing
df.swaplevel().loc['a1':'b1']

Unnamed: 0,Unnamed: 1,A,B,C
a1,a,1,2,3
a2,a,4,5,6
b1,b,7,8,9


In [31]:
#list indexing - fancy indexing
df.loc[['a', 'c']]

Unnamed: 0,Unnamed: 1,A,B,C
a,a1,1,2,3
a,a2,4,5,6
c,c1,13,14,15
c,c2,16,17,18


In [32]:
df.swaplevel().loc[['a1', 'b1']]

Unnamed: 0,Unnamed: 1,A,B,C
a1,a,1,2,3
b1,b,7,8,9


# DataFrame의 row/column Multi-Index

In [33]:
df = pd.DataFrame(data = np.arange(1, 19).reshape((6, 3)),
                  columns = [['a', 'a', 'b'], ['v1', 'v2', 'v1']],
                  index = [['A', 'A', 'B', 'B', 'C', 'C'],
                           ['a1', 'a2'] * 3])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,v1,v2,v1
A,a1,1,2,3
A,a2,4,5,6
B,a1,7,8,9
B,a2,10,11,12
C,a1,13,14,15
C,a2,16,17,18


In [34]:
df.index

MultiIndex([('A', 'a1'),
            ('A', 'a2'),
            ('B', 'a1'),
            ('B', 'a2'),
            ('C', 'a1'),
            ('C', 'a2')],
           )

In [35]:
df.columns

MultiIndex([('a', 'v1'),
            ('a', 'v2'),
            ('b', 'v1')],
           )

In [36]:
df.index.nlevels

2

In [37]:
df.columns.nlevels

2

In [38]:
df.loc['A']

Unnamed: 0_level_0,a,a,b
Unnamed: 0_level_1,v1,v2,v1
a1,1,2,3
a2,4,5,6


In [39]:
df.swaplevel().loc['a1']

Unnamed: 0_level_0,a,a,b
Unnamed: 0_level_1,v1,v2,v1
A,1,2,3
B,7,8,9
C,13,14,15


In [40]:
# DataFrame에서 컬럼 선택
df['a']

Unnamed: 0,Unnamed: 1,v1,v2
A,a1,1,2
A,a2,4,5
B,a1,7,8
B,a2,10,11
C,a1,13,14
C,a2,16,17


In [41]:
# 두번째 레벨의 컬럼이름으로는 index 할 수 없으므로, swaplevel(axis=1)을 사용해야 한다.
df.swaplevel(axis = 1)['v1']

Unnamed: 0,Unnamed: 1,a,b
A,a1,1,3
A,a2,4,6
B,a1,7,9
B,a2,10,12
C,a1,13,15
C,a2,16,18
