In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 계층 색인 (다중 색인)

### 2개 이상의 색인(인덱스)를 지정할 수 있다.

### 차원이 높은 (고차원)데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능
--> 3차원 이상을 2차원인 DataFrame을 이용하여 계층 색인 빌드

계층 색인 : 여러 개의 인덱스가 계층을 이루고 있기 때문에 계층 색인 혹은 다중 색인이라고 함

In [12]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2019, 2019, 2019, 2020, 2020, 2020], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2020, '과학')] = np.nan

In [13]:
df # 로우 인덱스가 학생명, 컬럼 인덱스가 년도와 과목(계층 색인)

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


In [14]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object', name='학생명')

In [15]:
df.columns # MultiIndex

MultiIndex([(2019, '영어'),
            (2019, '수학'),
            (2019, '과학'),
            (2020, '영어'),
            (2020, '수학'),
            (2020, '과학')],
           names=['년도', '과목'])

## 1) 인덱싱

In [16]:
# 1) 2016년 데이터만 선택
df[2020] # 상위 인덱스 선택

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,53,53,89.0
Park,86,73,56.0
Lee,51,88,89.0
Jung,67,87,75.0
Moon,70,66,


In [18]:
# 2) 2016년 영어 성적만 선택
df[2020]['영어'] # 상위 인덱스, 그다음 하위 인덱스
# df[(2020, '영어')] 도 같은 결과 (튜플 사용)
# df[2020, '영어'] 도 같은 결과 --> df[[2020, '영어']]와는 다름 [[]]는 두 개의 컬럼 인덱스 값들을 반환한다는 의미이기 때문
# --> 두개 이상의 색인을 할 때 리스트로 담아서 색인을 하게 되면 두 개의 컬럼을 각각 찾으라고 하는 의미
# ! 리스트는 각각 색인, 튜플은 계층 색인

학생명
Kim     53
Park    86
Lee     51
Jung    67
Moon    70
Name: 영어, dtype: int32

In [19]:
# 3) Kim의 성적만 선택
df.loc["Kim"] # 로우 인덱스는 .loc[]

년도    과목
2019  영어    94.0
      수학    97.0
      과학    50.0
2020  영어    53.0
      수학    53.0
      과학    89.0
Name: Kim, dtype: float64

In [22]:
# 4) Kim, Park, Lee의 성적만 선택
#df.loc['Kim':'Lee']
# df['Kim':'Lee'] # 슬라이싱의 경우 iloc나 loc 생략 가능했던 것 기억
df.iloc[:3]

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


In [25]:
# 5) Park과 Jung의 2019년 성적 선택
df.loc[['Park', 'Jung'], 2019]

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,59,69,71
Jung,73,96,74


In [26]:
# 6) Park과 Jung의 2019년 영어 성적 선택
df.loc[['Park', 'Jung'], 2019]['영어'] # 내 답
# df.loc[['Park', 'Jung'], (2020, '영어')]

학생명
Park    59
Jung    73
Name: 영어, dtype: int32

### 최상위 인덱스가 아닌 다른 인덱스를 찾는 방법 :
        xs(색인하고자 하는 인덱스 이름, axis, level)

In [30]:
# 7) 2019, 2020 영어 성적만 선택 
# df[(2019, '영어'), (2020, '영어')]
df.xs('영어', axis = 1, level = 1) # 최상위 레벨은 0임. 영어가 두번째 레벨이기에 1임.

년도,2019,2020
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


## 2) 인덱스에 이름 부여하기 (set_names())

In [33]:
# 1) 로우 인덱스의 이름을 '학생명'이라고 정의하기
df.index.set_names('학생명', inplace = True)
df

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


In [34]:
# 2) 컬럼들의 이름을 각각 year와 subject로 정의하기
df.columns.set_names(['년도', '과목'], inplace = True)
df

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


## 3) 인덱스 재구성하기 swaplevel(), stack(), unstack(),..

* reset_index() : 로우 인덱스를 하나의 컬럼으로 변경

In [35]:
df.reset_index() # 하나의 컬럼으로 바뀜 0,1,2,3,4 일캐

년도,학생명,2019,2019,2019,2020,2020,2020
과목,Unnamed: 1_level_1,영어,수학,과학,영어,수학,과학
0,Kim,94,97,50,53,53,89.0
1,Park,59,69,71,86,73,56.0
2,Lee,74,74,62,51,88,89.0
3,Jung,73,96,74,67,87,75.0
4,Moon,63,58,59,70,66,


* set_index() : 인자로 받은 컬럼의 값들을 로우 인덱스로 변경

In [36]:
df.reset_index().set_index('학생명') # 학생명이 로우 인덱스 컬럼으로 바뀜

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


* swaplevel(index1, index2, axis)
 - index1과 index2의 위치를 변경함. 
 - index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [37]:
# 년도와 과목의 위치를 변경
df.swaplevel('년도', '과목', axis = 1)

과목,영어,수학,과학,영어,수학,과학
년도,2019,2019,2019,2020,2020,2020
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50,53,53,89.0
Park,59,69,71,86,73,56.0
Lee,74,74,62,51,88,89.0
Jung,73,96,74,67,87,75.0
Moon,63,58,59,70,66,


In [38]:
df.swaplevel('년도', '과목', axis = 1).sort_index(axis = 1) # sort_index를 이용하면 인덱스 정렬 가능
# df.swaplevel(0, 1, axis = 1) # 레벨로 바로 지정도 가능함. 하지만 가독성을 위하여 인덱스 이름으로 사용하는 것이 유용!

과목,과학,과학,수학,수학,영어,영어
년도,2019,2020,2019,2020,2019,2020
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,50,89.0,97,53,94,53
Park,71,56.0,69,73,59,86
Lee,62,89.0,74,88,74,51
Jung,74,75.0,96,87,73,67
Moon,59,,58,66,63,70


* stack(), unstack() 함수
 - stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
 - unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
 - level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
 -  level은 최상위가 0이고, 1씩 증가함

In [39]:
# 1) 컬럼 인덱스 과목을 로우 인덱스로 변경
df.stack(1) # 과목이 레벨 1이니까 과목과 로우 인덱스를 변경
# df.stack('과목')
# df.stack() # 아무런 인자 없이 실행시, 기본 값은 최하위 인덱스임!

Unnamed: 0_level_0,년도,2019,2020
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50,89.0
Kim,수학,97,53.0
Kim,영어,94,53.0
Park,과학,71,56.0
Park,수학,69,73.0
Park,영어,59,86.0
Lee,과학,62,89.0
Lee,수학,74,88.0
Lee,영어,74,51.0
Jung,과학,74,75.0


In [40]:
# 2) 컬럼 인덱스 년도를 로우 인덱스로 변경
df.stack('년도')

Unnamed: 0_level_0,과목,과학,수학,영어
학생명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,2019,50.0,97,94
Kim,2020,89.0,53,53
Park,2019,71.0,69,59
Park,2020,56.0,73,86
Lee,2019,62.0,74,74
Lee,2020,89.0,88,51
Jung,2019,74.0,96,73
Jung,2020,75.0,87,67
Moon,2019,59.0,58,63
Moon,2020,,66,70


In [41]:
# 실습을 위해 df2 생성
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2019,2020
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50,89.0
Kim,수학,97,53.0
Kim,영어,94,53.0
Park,과학,71,56.0
Park,수학,69,73.0
Park,영어,59,86.0
Lee,과학,62,89.0
Lee,수학,74,88.0
Lee,영어,74,51.0
Jung,과학,74,75.0


In [42]:
# 실습 #1. Kim의 성적만 선택
df2.loc['Kim']

년도,2019,2020
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
과학,50,89.0
수학,97,53.0
영어,94,53.0


In [47]:
# 실습 #2. Park의 수학 성적만 선택
df2.loc[('Park','수학')]

년도
2019    69.0
2020    73.0
Name: (Park, 수학), dtype: float64

In [48]:
# 실습 #3. 모든 학생들의 영어 성적만 선택 
df2.xs('영어', axis = 0, level = 1)

년도,2019,2020
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,53.0
Park,59,86.0
Lee,74,51.0
Jung,73,67.0
Moon,63,70.0


In [49]:
# 실습 #4. Park 학생의 2016년 영어 성적만 출력
df2.loc[('Park', '영어'), 2020]

86.0

In [None]:
# 실습 #5. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df.mean(axis = 1) # 로우가 아닌 컬럼으로 평균을 내고 싶기 때문에 axis = 1로 지정.

In [50]:
# 실습 #6. 연도별 과목 평균 구하여 출력하기.

# 연도와 과목이 같은 컬럼 인덱스에 있는 df를 사용하는 것이 편리
df.mean().unstack() # .unstack()은 보기 좋게 하려고

과목,과학,수학,영어
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,63.2,78.8,72.6
2020,77.25,73.4,65.4


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [None]:
NC = pd.read_excel('data/NC Dinos.xlsx', sheet_name = None)
NC13, NC14, NC15 = NC.values()

In [None]:
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015

In [None]:
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]

In [None]:
NCAll = pd.concat([NC13, NC14, NC15])

In [None]:
NCAll

In [None]:
NCAll.set_index(['년도', '선수명']).unstack(0).fillna('-')

In [None]:
NCAll.unstack(0)