In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

### 다중 인덱스
데이터프레임에 여러 계층을 가지는 인덱스를 지정할 수 있음  
  
데이터프레임 생성 시 `columns` 인수로 다차원 리스트 형태를 지정하면 다중 인덱스로 지정할 수 있음

In [None]:
df = pd.DataFrame(np.random.randn(5,4).round(2),columns=[['A','A','B','B'],['C1','C2','C1','C2']])
df

데이터프레임의 `columns` 속성의 `names` 속성으로 각 열 인덱스에 대한 이름을 부여할 수 있음

In [None]:
df.columns.names = ['Cidx1','Cidx2']
df

데이터프레임 생성 시 `index` 인수로 다차원 리스트를 지정하면 다차원 형태의 행 인덱스를 지정할 수 있음  

행 인덱스의 이름은 데이터프레임 인스턴스의 `index` 속성의 `names` 속성으로 지정할 수 있음

In [None]:
df2 = pd.DataFrame(np.random.randn(6,4).round(2),
                  columns=[['A','A','B','B'],['C1','C2','C1','C2']],
                  index=[['M','M','M','F','F','F'],['id_1','id_2','id_3','id_1','id_2','id_3']]
                  )
df2

In [None]:
df2.index.names = ['Ridx1','Ridx2']
df2.columns.names = ['Cidx1','Cidx2']
df2

### 열 인덱스와 행 인덱스 교환
`stack`, `unstack` 메서드로 열 인덱스를 행 인덱스로 또는 행 인덱스를 열 인덱스로 바꿀 수 있음

`stack` 메서드 : 열 인덱스를 행 인덱스로 변경
`unstack` 메서드 : 행 인덱스를 열 인덱스로 변경

In [None]:
df2.stack('Cidx1')

In [None]:
df3 = df2.stack(1)
df3

In [None]:
df4 = df2.unstack(1)
df4

### 다중 인덱스의 인덱싱
다중 인덱스를 가지고 있는 데이터프레임의 경우 하나의 인덱스가 아니라 `()` 로 둘러쌓인 튜플이어야 함

In [None]:
df

In [None]:
df[('A','C2')]

In [None]:
df.loc[0,('A','C1')]

만약 튜플로 지정하지 않고 단일 값으로 지정하면 제일 최상단의 인덱스를 지정한 것으로 봄

In [None]:
df['A']

단, `iloc` 인덱서를 사용할 때는 다중인덱스로 접근을 할 수 없음.

In [None]:
df2

In [None]:
df2.loc[('M','id_2')]

In [None]:
df2.loc[('M','id_2'),('B','C1')]

In [None]:
df2.loc[:,('A','C2')]

In [None]:
df2.loc[('All','All'),:] = df2.sum()
df2

In [None]:
df2.loc['M']

다중인덱스 인덱싱의 튜플 내에서 슬라이싱을 하고 싶다면 `:` 또는 `slice()` 메서드를 사용해야 함  

`slice(마지막인덱스)`, `slice(시작인덱스, 마지막인덱스)`, `slice(시작인덱스, 마지막인덱, 스텝)`

In [None]:
df2.loc[('M',slice(None)),:]

In [None]:
df2.loc[:,('A',slice(None))]

### 다중 인덱스의 인덱스 순서 변경
다중 인덱스의 순서를 변경하고 싶으면 `swaplevel(i,j,axis)` 메서드를 사용함  

`i`, `j` 인자 : 순서를 변경할 인덱스의 이름 혹은 번호  
`axis` 인자 : 0일 경우 행 인덱스, 1일 경우 열 인덱스

In [63]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-0.45,-0.14,-0.58,1.16
M,id_2,-0.1,-1.62,-0.36,-1.01
M,id_3,1.0,1.1,1.33,-0.92
F,id_1,0.17,0.04,0.46,0.38
F,id_2,-0.34,-0.03,-0.59,-0.46
F,id_3,-0.94,-0.02,-0.19,1.35
All,All,-1.32,-1.34,0.14,1.0


In [65]:
df2.swaplevel('Ridx1','Ridx2',0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,-0.45,-0.14,-0.58,1.16
id_2,M,-0.1,-1.62,-0.36,-1.01
id_3,M,1.0,1.1,1.33,-0.92
id_1,F,0.17,0.04,0.46,0.38
id_2,F,-0.34,-0.03,-0.59,-0.46
id_3,F,-0.94,-0.02,-0.19,1.35
All,All,-1.32,-1.34,0.14,1.0


In [66]:
df2.swaplevel('Cidx1','Cidx2',1)

Unnamed: 0_level_0,Cidx2,C1,C2,C1,C2
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-0.45,-0.14,-0.58,1.16
M,id_2,-0.1,-1.62,-0.36,-1.01
M,id_3,1.0,1.1,1.33,-0.92
F,id_1,0.17,0.04,0.46,0.38
F,id_2,-0.34,-0.03,-0.59,-0.46
F,id_3,-0.94,-0.02,-0.19,1.35
All,All,-1.32,-1.34,0.14,1.0


### 다중 인덱스의 정렬
다중 인덱스를 가지고 있는 데이터프레임에서 `sort_index`로 정렬할 때,  
`level` 인수를 사용하여 어떤 인덱스 기준으로 정렬할지 지정해야 함.

In [68]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-0.45,-0.14,-0.58,1.16
M,id_2,-0.1,-1.62,-0.36,-1.01
M,id_3,1.0,1.1,1.33,-0.92
F,id_1,0.17,0.04,0.46,0.38
F,id_2,-0.34,-0.03,-0.59,-0.46
F,id_3,-0.94,-0.02,-0.19,1.35
All,All,-1.32,-1.34,0.14,1.0


In [None]:
df2.sort_index(level=0)

In [None]:
df2.sort_index(level=1)

In [76]:
df.sort_index(level=1,axis=1)

Cidx1,A,B,A,B
Cidx2,C1,C1,C2,C2
0,0.48,1.67,0.35,-0.94
1,-0.07,0.34,0.08,-0.46
2,-1.24,-0.52,-0.22,-0.23
3,1.0,-0.07,0.75,1.08
4,-1.02,-2.07,-0.84,0.36


In [148]:
score = {
    "반" : [1, 1, 1, 2, 2, 2],
    "번호" : [1, 2, 3, 1, 2, 3],
    "국어": [60, 80, 90, 70, 100, 50],
    "영어": [70, 50, 90, 60, 100, 80],
    "수학": [80, 70, 50, 90, 60, 100],
}
score_columns = ["반", "번호", "국어", "영어", "수학"]
df_score3 = pd.DataFrame(score, columns=score_columns)
df_score3

# df_score3 = pd.DataFrame({
#    "반" : [1, 1, 1, 2, 2, 2],
#    "번호" : [1, 2, 3, 1, 2, 3],
#    "국어": [60, 80, 90, 70, 100, 50],
#    "영어": [70, 50, 90, 60, 100, 80],
#    "수학": [80, 70, 50, 90, 60, 100],
# })
# df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,1,1,60,70,80
1,1,2,80,50,70
2,1,3,90,90,50
3,2,1,70,60,90
4,2,2,100,100,60
5,2,3,50,80,100


In [150]:
df_score4 = df_score3.set_index(['반','번호'])

df_score4['평균'] = df_score4.mean(axis=1).round(2)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,60,70,80,70.0
1,2,80,50,70,66.67
1,3,90,90,50,76.67
2,1,70,60,90,73.33
2,2,100,100,60,86.67
2,3,50,80,100,76.67


In [164]:
df_score5 = df_score3.set_index(['반','번호']).unstack('반')

df_score5.loc['평균'] = df_score5.mean().round(2)
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,1,2,1,2,1,2
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,60.0,70.0,70.0,60.0,80.0,90.0
2,80.0,100.0,50.0,100.0,70.0,60.0
3,90.0,50.0,90.0,80.0,50.0,100.0
평균,76.67,73.33,70.0,80.0,66.67,83.33
