In [2]:
import pandas as pd
import numpy as np

### 다중 인덱스
데이터프레임에 여러 계층을 가지는 인덱스를 지정할 수 있음  
데이터프레임 생성시 `columns` 인수로 다차원 리스트 형태를 지정하면 다중 인덱스로 지정할 수 있음 

In [3]:
df = pd.DataFrame(np.random.randn(5, 4).round(2), columns=[['A', 'A', 'B', 'B'], ['C1', 'C2', 'C1', 'C2']])

df

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,-0.49,-0.43,0.92,1.07
1,-0.72,0.08,-1.19,1.11
2,-0.78,-1.21,-0.98,-0.88
3,0.39,0.28,-0.5,-0.15
4,1.19,-0.14,1.14,-0.44


데이터프레임의 `columns` 속성의 `names` 속성으로 각 열 인덱스에 대한 이름을 부여할 수 있음

In [4]:
df.columns.names = ['Cidx1', 'Cidx2']
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,-0.49,-0.43,0.92,1.07
1,-0.72,0.08,-1.19,1.11
2,-0.78,-1.21,-0.98,-0.88
3,0.39,0.28,-0.5,-0.15
4,1.19,-0.14,1.14,-0.44


데이터프레임 생성 시 `index` 인수로 다차원 리스트를 지정하면 다차원 형태의 행 인덱스를 지정할 수 있음  
행 인덱스의 이름은 데이터프레임 인스턴스의 `index` 속성의 `names` 속성으로 지정할 수 있음

In [5]:
df2 = pd.DataFrame(np.random.randn(6, 4).round(2), 
            columns=[['A', 'A', 'B', 'B'], ['C1', 'C2', 'C1', 'C2']],
            index=[['M', 'M', 'M', 'F', 'F', 'F'], ['id_1', 'id_2', 'id_3', 'id_1', 'id_2', 'id_3']])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,C1,C2,C1,C2
M,id_1,-1.72,1.54,-1.16,-0.28
M,id_2,-1.18,-2.17,1.7,0.4
M,id_3,-1.77,-1.72,-1.08,-0.97
F,id_1,-1.77,-0.57,-1.31,-0.02
F,id_2,1.62,1.35,2.3,-1.76
F,id_3,0.49,0.98,-0.2,0.58


In [6]:
df2.index.names = ['Ridx1', 'Ridx2']
df2.columns.names = ['Cidx1', 'Cidx2']
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-1.72,1.54,-1.16,-0.28
M,id_2,-1.18,-2.17,1.7,0.4
M,id_3,-1.77,-1.72,-1.08,-0.97
F,id_1,-1.77,-0.57,-1.31,-0.02
F,id_2,1.62,1.35,2.3,-1.76
F,id_3,0.49,0.98,-0.2,0.58


### 열 인덱스와 행 인덱스 교환
`stack`, `unstack` 메서드로 열 인덱스를 행 인덱스로 또는 행 인덱스를 열 인덱스로 바꿀 수 있음  
`stack()` 메서드 : 열 인덱스를 행 인덱스로 변경  
`unstack()` 메서드 : 행 인덱스를 열 인덱스로 변경 

In [7]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-1.72,1.54,-1.16,-0.28
M,id_2,-1.18,-2.17,1.7,0.4
M,id_3,-1.77,-1.72,-1.08,-0.97
F,id_1,-1.77,-0.57,-1.31,-0.02
F,id_2,1.62,1.35,2.3,-1.76
F,id_3,0.49,0.98,-0.2,0.58


In [8]:
df2.stack('Cidx1')

  df2.stack('Cidx1')


Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C1,C2
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,-1.72,1.54
M,id_1,B,-1.16,-0.28
M,id_2,A,-1.18,-2.17
M,id_2,B,1.7,0.4
M,id_3,A,-1.77,-1.72
M,id_3,B,-1.08,-0.97
F,id_1,A,-1.77,-0.57
F,id_1,B,-1.31,-0.02
F,id_2,A,1.62,1.35
F,id_2,B,2.3,-1.76


In [9]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-1.72,1.54,-1.16,-0.28
M,id_2,-1.18,-2.17,1.7,0.4
M,id_3,-1.77,-1.72,-1.08,-0.97
F,id_1,-1.77,-0.57,-1.31,-0.02
F,id_2,1.62,1.35,2.3,-1.76
F,id_3,0.49,0.98,-0.2,0.58


In [10]:
df3 = df2.stack(1)
df3

  df3 = df2.stack(1)


Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C1,-1.72,-1.16
M,id_1,C2,1.54,-0.28
M,id_2,C1,-1.18,1.7
M,id_2,C2,-2.17,0.4
M,id_3,C1,-1.77,-1.08
M,id_3,C2,-1.72,-0.97
F,id_1,C1,-1.77,-1.31
F,id_1,C2,-0.57,-0.02
F,id_2,C1,1.62,2.3
F,id_2,C2,1.35,-1.76


In [11]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C1,C2
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,-1.72,1.54,-1.16,-0.28
M,id_2,-1.18,-2.17,1.7,0.4
M,id_3,-1.77,-1.72,-1.08,-0.97
F,id_1,-1.77,-0.57,-1.31,-0.02
F,id_2,1.62,1.35,2.3,-1.76
F,id_3,0.49,0.98,-0.2,0.58


In [12]:
df4 = df2.unstack(1)
df4

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C1,C1,C1,C2,C2,C2,C1,C1,C1,C2,C2,C2
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,-1.77,1.62,0.49,-0.57,1.35,0.98,-1.31,2.3,-0.2,-0.02,-1.76,0.58
M,-1.72,-1.18,-1.77,1.54,-2.17,-1.72,-1.16,1.7,-1.08,-0.28,0.4,-0.97


In [13]:
df5=df4.unstack(0)
df5

Cidx1  Cidx2  Ridx2  Ridx1
A      C1     id_1   F       -1.77
                     M       -1.72
              id_2   F        1.62
                     M       -1.18
              id_3   F        0.49
                     M       -1.77
       C2     id_1   F       -0.57
                     M        1.54
              id_2   F        1.35
                     M       -2.17
              id_3   F        0.98
                     M       -1.72
B      C1     id_1   F       -1.31
                     M       -1.16
              id_2   F        2.30
                     M        1.70
              id_3   F       -0.20
                     M       -1.08
       C2     id_1   F       -0.02
                     M       -0.28
              id_2   F       -1.76
                     M        0.40
              id_3   F        0.58
                     M       -0.97
dtype: float64

### 다중 인덱스의 인덱싱
다중 인덱스를 가지고 있는 데이터프레임의 경우 하나의 인덱스가 아니라 `()`로 둘러쌓인 튜플이어야 함

In [14]:
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,-0.49,-0.43,0.92,1.07
1,-0.72,0.08,-1.19,1.11
2,-0.78,-1.21,-0.98,-0.88
3,0.39,0.28,-0.5,-0.15
4,1.19,-0.14,1.14,-0.44


In [15]:
df[('A', 'C2')]

0   -0.43
1    0.08
2   -1.21
3    0.28
4   -0.14
Name: (A, C2), dtype: float64

In [1]:
df.loc[0, ('A', 'C1')]
#2차복습완료

NameError: name 'df' is not defined

만약 튜플로 지정하지 않고 단일 값으로 지정하면 제일 최상단의 인덱스를 지정한 것으로 봄

In [19]:
df['C1']

KeyError: 'C1'

단, `iloc`인덱서를 사용할 때는 다중인덱스로 접근을 할 수 없음

In [None]:
df2

In [None]:
df2.loc[('M', 'id_2')]

In [None]:
df2.loc[('M', 'id_2'), ('B', 'C1')]

In [None]:
df2.loc[:, ('A', 'C2')]

In [None]:
df2.loc[('All', 'All'), :] = df2.sum()
df2

In [None]:
df2.loc['M']

다중인덱스 인덱싱의 튜플 내에서 슬라이싱을 하고 싶다면 `:` 대신 `slice()` 메서드를 사용해야함  
`slice(마지막인덱스)`, `slice(시작인덱스, 마지막인덱스)`, `slice(시작인덱스, 마지막인덱스, 스텝)`

In [None]:
df2.loc[('M', slice(None)), :]

In [None]:
df2.loc[:, ('A', slice(None))]

### 다중 인덱스의 인덱스 순서 변경
다중 인덱스의 순서를 변경하고 싶으면 `swaplevel(i, j, axis)` 메서드를 사용함  
`i`, `j` 인자 : 순서를 변경할 인덱스의 이름 혹은 번호  
`axis`  인자 : 0 일 경우 행 인덱스, 1일 경우 열 인덱스  

In [None]:
df2

In [None]:
df2.swaplevel('Ridx1', 'Ridx2', 0)

In [None]:
df2.swaplevel('Cidx1', 'Cidx2', 1)

### 다중 인덱스의 정렬
다중 인덱스를 가지고 있는 데이터프레임에서 `sort_index`로 정렬할 때 `level` 인수를 사용하여 어떤 인덱스 기준으로 정렬할지 지정해야함

In [None]:
df2

In [None]:
df2.sort_index(level=0)

In [None]:
df2.sort_index(level=(1, 0))

In [None]:
df2.sort_index(level=1, axis=1)

##### 파이썬으로 다음 연산을 수행한다.
A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.  
1. “반”, “번호”, “국어”, “영어”, “수학” 을 열로 가지는 데이터프레임 `df_score3`을 만든다.
2. `df_score3`을 변형하여 1차 행 인덱스로 “반”을 2차 행 인덱스로 “번호”을 가지는 데이터프레임 `df_score4`을 만든다.
3. 데이터 프레임 `df_score4`에 각 학생의 평균을 나타내는 열을 오른쪽에 추가한다.
4. `df_score3`을 변형하여 행 인덱스로 “번호”를, 1차 열 인덱스로 “국어”, “영어”, “수학”을, 2차 열 인덱스로 “반”을 가지는 데이터프레임 `df_score5`을 만든다.
5. 데이터 프레임 `df_score5`에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

In [None]:
df_score3 = pd.DataFrame({
    '반': [1, 1, 1, 2, 2, 2],
    '번호': [1, 2, 3, 1, 2, 3],
    '국어': [60, 80, 90, 70, 100, 50],
    '영어': [70, 50, 90, 60, 100, 80],
    '수학': [80, 70, 50, 90, 60, 100]
})
df_score3

In [None]:
df_score4 = df_score3.set_index(['반', '번호'])
df_score4

In [None]:
df_score4['평균'] = df_score4.mean(axis=1).round(2)
df_score4

In [None]:
df_score5 = df_score3.set_index(['반', '번호']).unstack('반')
df_score5

In [None]:
df_score5.loc['평균', :] = df_score5.mean().round(2)
df_score5