In [3]:
import pandas as pd
import numpy as np

### 다중 인덱스
데이터프레임에 여러 계층을 가지는 인덱스를 지정할 수 있음  
데이터프레임 생성시 `columns` 인수로 다차원 리스트 형태를 지정하면 다중 인덱스로 지정할  
수 있음 

In [4]:
df = pd.DataFrame(np.random.randn(5, 4).round(2), columns = [['A','A','B','B'], ['C1','C2','C1','C2']])

df

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,-0.63,-1.36,1.52,-0.54
1,-1.02,-0.44,0.69,0.11
2,-1.77,-0.6,1.19,0.7
3,1.04,0.88,0.5,0.41
4,0.32,0.11,0.91,1.37


데이터프레임의 `columns` 속성의 `names` 속성으로 각 열 인덱스에 대한 이름을 부여할 수 있음

In [5]:
df.columns.names = ['Cidx', 'Cidx2']
df

Cidx,A,A,B,B
Cidx2,C1,C2,C1,C2
0,-0.63,-1.36,1.52,-0.54
1,-1.02,-0.44,0.69,0.11
2,-1.77,-0.6,1.19,0.7
3,1.04,0.88,0.5,0.41
4,0.32,0.11,0.91,1.37


데이터프레임 생성 시 `index` 인수로 다차원 리스트를 지정하면 다차원 형태의 행  
인덱스를 지정할 수 있음  
행 인덱스의 이름은 데이터프레임 인스턴스의 `index` 속성의 `names` 속성으로 지정할 수 있음

In [None]:
df2 = pd.DataFrame(np.random.randn(6, 4).round(2), 
columns = [['A','A','B','B'], ['C1','C2','C1','C2']],
index = [['M', 'M', 'M', 'F', 'F', 'F'], ['id_1', 'id_2', 'id_3', 'id_1', 'id_2', 'id_3']])
df2

In [10]:
df2.index.names =  ['Ridx1', 'Ridx2']
df2.columns.names = ['Cidx1','Cidx2']
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-0.46,-0.62,-1.0,1.86
M,id_2,-0.13,-1.95,0.77,1.91
M,id_3,-0.91,0.16,0.7,-1.73
F,id_1,-0.28,-1.09,1.83,1.35
F,id_2,0.73,0.86,2.67,-0.15
F,id_3,-1.5,1.9,0.49,0.47


### 열 인덱스와 행 인덱스 교환
`stack` , `unstack` 메서드로 열 인덱스를 행 인덱스로 또는 행 인덱스를 열 인덱스로 바꿀 수 있음
`stack()` 메서드 : 열 인덱스를 행 인덱스로 변경
`unstack()` 메서드 : 행 인덱스를 열 인덱스로 변경

In [None]:
df2.stack('Cidx1')

In [None]:
df2.stack(1)

In [None]:
df3 = df2.stack(1)
df3

In [None]:
df3 = df3.stack(0)
df3

In [17]:
df3 = df2.stack(1)
df3

  df3 = df2.stack(1)


Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C1,-0.46,-1.0
M,id_1,C2,-0.62,1.86
M,id_2,C1,-0.13,0.77
M,id_2,C2,-1.95,1.91
M,id_3,C1,-0.91,0.7
M,id_3,C2,0.16,-1.73
F,id_1,C1,-0.28,1.83
F,id_1,C2,-1.09,1.35
F,id_2,C1,0.73,2.67
F,id_2,C2,0.86,-0.15


In [21]:
df4 = df2.unstack(1)
df4


Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C1,C1,C1,C2,C2,C2,C1,C1,C1,C2,C2,C2
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,-0.28,0.73,-1.5,-1.09,0.86,1.9,1.83,2.67,0.49,1.35,-0.15,0.47
M,-0.46,-0.13,-0.91,-0.62,-1.95,0.16,-1.0,0.77,0.7,1.86,1.91,-1.73


### 다중 인덱스의 인덱싱
다중 인덱스를 가지고 있는 데이터프레임의 경우 하나의 인덱스가 아니라 `()`로 둘러쌓인 튜플이어야함

In [22]:
df

Cidx,A,A,B,B
Cidx2,C1,C2,C1,C2
0,-0.63,-1.36,1.52,-0.54
1,-1.02,-0.44,0.69,0.11
2,-1.77,-0.6,1.19,0.7
3,1.04,0.88,0.5,0.41
4,0.32,0.11,0.91,1.37


In [26]:
df[('A', 'C1')]

0   -0.63
1   -1.02
2   -1.77
3    1.04
4    0.32
Name: (A, C1), dtype: float64

In [25]:
df[('A', 'C2')]

0   -1.36
1   -0.44
2   -0.60
3    0.88
4    0.11
Name: (A, C2), dtype: float64

In [27]:
df.loc[0, ('A', 'C1')]

-0.63

만약 튜플로 지정하지 않고 단일 값으로 지정하면 제일 최상단의 인덱스를 지정한 것으로 봄

In [28]:
df['A']

Cidx2,C1,C2
0,-0.63,-1.36
1,-1.02,-0.44
2,-1.77,-0.6
3,1.04,0.88
4,0.32,0.11


단, `iloc` 인덱서를 사용할 때는 다중인덱스로 접근을 할 수 없음

In [29]:
df2.loc[('M', 'id_2')]

Cidx1  Cidx2
A      C1      -0.13
       C2      -1.95
B      C1       0.77
       C2       1.91
Name: (M, id_2), dtype: float64

In [30]:
df2.loc[('M', 'id_2'), ('B','C1')]

0.77

In [31]:
df2.loc[:, ('A','C2')]

Ridx1  Ridx2
M      id_1    -0.62
       id_2    -1.95
       id_3     0.16
F      id_1    -1.09
       id_2     0.86
       id_3     1.90
Name: (A, C2), dtype: float64

In [None]:
df2.loc[('All','All'), :] =df2.sum()
df2

In [36]:
df2.loc['M']

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,-0.46,-0.62,-1.0,1.86
id_2,-0.13,-1.95,0.77,1.91
id_3,-0.91,0.16,0.7,-1.73


다중 인덱스 인덱싱의 튜플 내에서 슬라이싱을 하고 싶다면 `:` 대신 `slice()`  
메서드를 사용해야함  
`slice(마지막인덱스)`, `slice(시작인덱스, 마지막인덱스)`, `slice(시작인덱스, 마지막인덱스, 스텝)` 

In [37]:
df2.loc[('M', slice(None)), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-0.46,-0.62,-1.0,1.86
M,id_2,-0.13,-1.95,0.77,1.91
M,id_3,-0.91,0.16,0.7,-1.73


In [38]:
df2.loc[:, ('A', slice(None))]

Unnamed: 0_level_0,Cidx1,A,A
Unnamed: 0_level_1,Cidx2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2
M,id_1,-0.46,-0.62
M,id_2,-0.13,-1.95
M,id_3,-0.91,0.16
F,id_1,-0.28,-1.09
F,id_2,0.73,0.86
F,id_3,-1.5,1.9
All,All,-5.1,-1.48


### 다중 인덱스의 인덱스 순서 변경
다중 인덱스의 순서를 변경하고 싶으면 `swaplevel(i, j, axis)` 메서드를 사용함  
`i`, `j` 인자 : 순서를 변경할 인덱스의 이름 혹은 번호 
`axis` 인자 : 0일 경우 행 인덱스, 1일 경우 열 인덱스

In [None]:
df2.swaplevel('Ridx1', 'Ridx2', 0)

In [None]:
df2.swaplevel('Cidx1', 'Cidx2', 1)

### 다중 인덱스의 정렬
다중 인덱스를 가지고 있는 데이터프레임에서 `sort_index`로 정렬할 때 `level`  
인수를 사용하여 어떤 인덱스 기준으로 정렬할지 지정해야함

In [42]:
df2.sort_index(level = 0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,-5.1,-1.48,10.92,7.42
F,id_1,-0.28,-1.09,1.83,1.35
F,id_2,0.73,0.86,2.67,-0.15
F,id_3,-1.5,1.9,0.49,0.47
M,id_1,-0.46,-0.62,-1.0,1.86
M,id_2,-0.13,-1.95,0.77,1.91
M,id_3,-0.91,0.16,0.7,-1.73


In [43]:
df2.sort_index(level = 1)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,-5.1,-1.48,10.92,7.42
F,id_1,-0.28,-1.09,1.83,1.35
F,id_2,0.73,0.86,2.67,-0.15
F,id_3,-1.5,1.9,0.49,0.47
M,id_1,-0.46,-0.62,-1.0,1.86
M,id_2,-0.13,-1.95,0.77,1.91
M,id_3,-0.91,0.16,0.7,-1.73


In [None]:
df2.sort_index(level = (1,0))