In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 6. 계층 색인 (다중 색인)
### 2개 이상의 색인(인덱스)를 지정할 수 있다. 
### 차원이 높은 (고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [156]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)), 
                  columns=[[2016, 2016, 2017, 2017], ['영어','수학','영어','수학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])

In [157]:
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [158]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object')

In [159]:
df.columns

MultiIndex(levels=[[2016, 2017], ['수학', '영어']],
           codes=[[0, 0, 1, 1], [1, 0, 1, 0]])

## 6-1. 인덱싱

In [160]:
#2016년 영어, 수학 성적 조회
df[2016]

Unnamed: 0,영어,수학
Kim,94,97
Park,53,89
Lee,71,86
Jung,74,74
Moon,88,89


In [161]:
#2016년 영어 성적만 조회
#최상위 인덱스부터 명시하며, 인덱싱하고자하는 색인들을 튜플 형태로 정의
df[(2016,"영어")]

Kim     94
Park    53
Lee     71
Jung    74
Moon    88
Name: (2016, 영어), dtype: int64

In [162]:
df[2016]["영어"] # 위와 같은 방식임

Kim     94
Park    53
Lee     71
Jung    74
Moon    88
Name: 영어, dtype: int64

In [163]:
# Kim의 성적만 선택
#특정 row를 선택
df.loc['Kim']

2016  영어    94
      수학    97
2017  영어    50
      수학    53
Name: Kim, dtype: int64

In [164]:
# 실습. Kim, Park, Lee의 성적만 선택
df.loc[['Kim','Park','Lee']]

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56


In [165]:
df['Kim':'Lee']

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56


In [166]:
# 최상위 색인이 아닌 색인으로만 인덱싱하고 싶은 경우에는 xs() 함수를 사용.
# 2016, 2017년도 영어 성적만 선택
df[[(2016,"영어"),(2017,"영어")]]

Unnamed: 0_level_0,2016,2017
Unnamed: 0_level_1,영어,영어
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


In [167]:
# 최상위가 아니기 때문에 별도의 함수를 적용
df.xs('영어',axis=1,level=1) # level은 0부터 최상위임

Unnamed: 0,2016,2017
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


## 6-2. 메타데이터 설정 (set_names)

In [168]:
# 인덱스에 이름 부여하기 (set_names)
# 로우 인덱스의 이름을 '학생명'이라고 정의하기
df.index.set_names('학생명',inplace=True)
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [169]:
# 실습. 컬럼들의 이름을 각각 년도와 과목으로 정의하기
df.columns.set_names(['연도','과목'],inplace=True)
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 6-3. 몇 가지 주요 함수들
### 1) swaplevel(index1, index2, axis)
**index1과 index2의 위치를 변경**함.   
**index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)**

In [170]:
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [171]:
df.swaplevel('연도','과목',axis=1)

과목,영어,수학,영어,수학
연도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [172]:
df.swaplevel(0,1,axis=1) # 0이 최상위 레벨, 가독성이 떨어지므로 좋은 코드는 아니라고 할 수 있음

과목,영어,수학,영어,수학
연도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [173]:
# 년도와 과목의 위치를 변경
df.swaplevel('연도','과목',axis=1).sort_index(axis=1)

과목,수학,수학,영어,영어
연도,2016,2017,2016,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,97,53,94,50
Park,89,69,53,59
Lee,86,56,71,73
Jung,74,51,74,62
Moon,89,96,88,73


## 2) stack(), unstack() 함수
### stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
### unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
### level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
### level은 최상위가 0이고, 1씩 증가함

In [174]:
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [175]:
# 컬럼 인덱스 과목을 로우 인덱스로 변경하고 df2에 저장
# df.stack(0)
df.stack('연도')

Unnamed: 0_level_0,과목,수학,영어
학생명,연도,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,2016,97,94
Kim,2017,53,50
Park,2016,89,53
Park,2017,69,59
Lee,2016,86,71
Lee,2017,56,73
Jung,2016,74,74
Jung,2017,51,62
Moon,2016,89,88
Moon,2017,96,73


In [176]:
# df.stack(1)
df2 = df.stack('과목')
df2

Unnamed: 0_level_0,연도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


### df2를 대상으로 아래 실습 문제 수행

In [177]:
# 실습. Kim의 성적만 선택
df2.loc['Kim']

연도,2016,2017
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,97,53
영어,94,50


In [178]:
# 실습. Park의 수학 성적만 선택
df2.loc[('Park','수학')]

연도
2016    89
2017    69
Name: (Park, 수학), dtype: int64

In [179]:
# 실습. 모든 학생들의 영어 성적만 선택 
# df2.loc[[('Kim','영어'),('Park','영어'),('Lee','영어'),('Jung','영어'),('Moon','영어')]]
df2.xs('영어',axis=0,level=1)

연도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


In [70]:
# 실습. Park 학생의 2016년 영어 성적만 출력
df2.loc[('Park','영어')][2016]

53

In [181]:
# 실습. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df2['평균'] = (df2[2016] + df2[2017]) / 2
df2

Unnamed: 0_level_0,연도,2016,2017,평균
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,수학,97,53,75.0
Kim,영어,94,50,72.0
Park,수학,89,69,79.0
Park,영어,53,59,56.0
Lee,수학,86,56,71.0
Lee,영어,71,73,72.0
Jung,수학,74,51,62.5
Jung,영어,74,62,68.0
Moon,수학,89,96,92.5
Moon,영어,88,73,80.5


In [82]:
df2.columns

Int64Index([2016, 2017], dtype='int64', name='연도')

In [183]:
df2['평균2'] = df2.mean(axis=1)
df2

Unnamed: 0_level_0,연도,2016,2017,평균,평균2
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Kim,수학,97,53,75.0,75.0
Kim,영어,94,50,72.0,72.0
Park,수학,89,69,79.0,79.0
Park,영어,53,59,56.0,56.0
Lee,수학,86,56,71.0,71.0
Lee,영어,71,73,72.0,72.0
Jung,수학,74,51,62.5,62.5
Jung,영어,74,62,68.0,68.0
Moon,수학,89,96,92.5,92.5
Moon,영어,88,73,80.5,80.5


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [219]:
data = pd.read_excel('data/NC Dinos.xlsx',sheet_name=None)
nc13,nc14,nc15 = data.values()

In [220]:
nc13['연도'] = 2013
nc14['연도'] = 2014
nc15['연도'] = 2015

In [221]:
nc13 = nc13[['선수명','안타','홈런','연도']]
nc14 = nc14[['선수명','안타','홈런','연도']]
nc15 = nc15[['선수명','안타','홈런','연도']]

In [222]:
ncall = pd.concat([nc13,nc14,nc15],axis=0)

In [223]:
ncall.set_index(['선수명','연도'],inplace=True)

In [224]:
ncall = ncall.unstack('연도') #.fillna('-')

In [225]:
ncall.info()

<class 'pandas.core.frame.DataFrame'>
Index: 34 entries, 강구성 to 허준
Data columns (total 6 columns):
(안타, 2013)    20 non-null float64
(안타, 2014)    20 non-null float64
(안타, 2015)    20 non-null float64
(홈런, 2013)    20 non-null float64
(홈런, 2014)    20 non-null float64
(홈런, 2015)    20 non-null float64
dtypes: float64(6)
memory usage: 1.9+ KB


In [226]:
ncall[('안타','평균')] = ncall['안타'].mean(axis=1)
ncall[('홈런','평균')] = ncall['홈런'].mean(axis=1)

In [229]:
ncall = ncall.sort_index(axis=1)
ncall.fillna('-')

Unnamed: 0_level_0,안타,안타,안타,안타,홈런,홈런,홈런,홈런
연도,2013,2014,2015,평균,2013,2014,2015,평균
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
강구성,0,-,1,0.5,0,-,0,0.0
강민국,-,0,0,0.0,-,0,0,0.0
강진성,1,-,-,1.0,0,-,-,0.0
권희동,-,63,-,63.0,-,7,-,7.0
김동건,2,-,-,2.0,1,-,-,1.0
김성욱,1,4,-,2.5,0,1,-,0.5
김종찬,1,-,-,1.0,0,-,-,0.0
김종호,129,-,125,127.0,0,-,4,2.0
김준완,-,2,10,6.0,-,0,0,0.0
김태군,-,-,107,107.0,-,-,6,6.0
