In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 6. 계층 색인 (다중 색인)
### 2개 이상의 색인(인덱스)를 지정할 수 있다. 
### 차원이 높은 (고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [2]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)), 
                  columns=[[2016, 2016, 2017, 2017], ['영어','수학','영어','수학']], index = ['Kim','Park','Lee','Jung','Moon'])


In [3]:
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [4]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object')

In [5]:
df.columns

MultiIndex([(2016, '영어'),
            (2016, '수학'),
            (2017, '영어'),
            (2017, '수학')],
           )

## 6-1. 인덱싱

In [6]:
#2016년 영어, 수학 성적 조회
df[2016]

Unnamed: 0,영어,수학
Kim,94,97
Park,53,89
Lee,71,86
Jung,74,74
Moon,88,89


In [8]:
#2016년 영어 성적만 조회
#최상위 인덱스부터 명시하며, 인덱싱하고자하는 색인들을 튜플 형태로 정의

#df[2016]["영어"]
df[(2016, "영어")]

Kim     94
Park    53
Lee     71
Jung    74
Moon    88
Name: (2016, 영어), dtype: int32

In [10]:
# Kim의 성적만 선택
#특정 row를 선택

df.loc["Kim"]

2016  영어    94
      수학    97
2017  영어    50
      수학    53
Name: Kim, dtype: int32

In [14]:
# 실습) Kim, Park, Lee의 성적만 선택
df.loc[["Kim", "Park", "Lee"]]

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56


In [24]:
# 최상위 색인이 아닌 색인으로만 인덱싱하고 싶은 경우에는 xs() 함수를 사용.
# 2016, 2017년도 영어 성적만 선택

df.xs('영어', axis = 1, level = 1)
# "영어" : 색인하고자 하는 인덱스명
# axis
# level

Unnamed: 0,2016,2017
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


## 6-2. 메타데이터 설정 (set_names)

In [25]:
# 인덱스에 이름 부여하기 (set_names)
# 로우 인덱스의 이름을 '학생명'이라고 정의하기
df.index.set_names('학생명', inplace = True)
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [29]:
# 실습. 컬럼들의 이름을 각각 년도와 과목으로 정의하기

# df에 할당 X, 데이터 타입, 내용이 다름

df.columns.set_names(["년도","과목"], inplace = True)
df

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 6-3. 몇 가지 주요 함수들
### 1) swaplevel(index1, index2, axis)
##### index1과 index2의 위치를 변경함. 
##### index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [30]:
df

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [31]:
# 년도와 과목의 위치를 변경
df.swaplevel('년도','과목', axis = 1)

과목,영어,수학,영어,수학
년도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [32]:
df.swaplevel(0, 1, axis = 1)

과목,영어,수학,영어,수학
년도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [33]:
df.swaplevel(0, 1, axis = 1).sort_index(axis=1)

과목,수학,수학,영어,영어
년도,2016,2017,2016,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,97,53,94,50
Park,89,69,53,59
Lee,86,56,71,73
Jung,74,51,74,62
Moon,89,96,88,73


## 2) stack(), unstack() 함수
### stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
### unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
### level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
### level은 최상위가 0이고, 1씩 증가함

In [34]:
df

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [35]:
df.stack(1)   
# df.stack("과목")
# df.stack()           # 최하위인 경우 가능

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [36]:
# 컬럼 인덱스 과목을 로우 인덱스로 변경하고 df2에 저장
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [37]:
df2.index

MultiIndex([( 'Kim', '수학'),
            ( 'Kim', '영어'),
            ('Park', '수학'),
            ('Park', '영어'),
            ( 'Lee', '수학'),
            ( 'Lee', '영어'),
            ('Jung', '수학'),
            ('Jung', '영어'),
            ('Moon', '수학'),
            ('Moon', '영어')],
           names=['학생명', '과목'])

### df2를 대상으로 아래 실습 문제 수행

In [40]:
# 실습. Kim의 성적만 선택
df2.loc["Kim"]

년도,2016,2017
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,97,53
영어,94,50


In [41]:
# 실습. Park의 수학 성적만 선택
df2.loc[("Park", "수학")]

년도
2016    89
2017    69
Name: (Park, 수학), dtype: int32

In [53]:
# 실습. 모든 학생들의 영어 성적만 선택 
df2.xs('영어', axis = 0, level = 1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


In [48]:
# 실습. Park 학생의 2016년 영어 성적만 출력
df2.loc[("Park","영어"),2016]

53

In [61]:
# 실습. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df2.mean(axis = 1)
df2["평균"] = df2.mean(axis = 1)
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,수학,97,53,75.0
Kim,영어,94,50,72.0
Park,수학,89,69,79.0
Park,영어,53,59,56.0
Lee,수학,86,56,71.0
Lee,영어,71,73,72.0
Jung,수학,74,51,62.5
Jung,영어,74,62,68.0
Moon,수학,89,96,92.5
Moon,영어,88,73,80.5


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [138]:
import pandas
NCALL = pd.read_excel("data/NC Dinos.xlsx", sheet_name = None)
NC13, NC14, NC15 = NCALL.values()

In [139]:
NC13 = NC13[["안타","홈런", "선수명"]].set_index("선수명")
NC14 = NC14[["안타","홈런", "선수명"]].set_index("선수명")
NC15 = NC15[["안타","홈런", "선수명"]].set_index("선수명")

In [140]:
temp = pd.concat([NC13, NC14, NC15], axis=1, sort=True).fillna('-')

In [141]:
temp.columns = [["2013","2013","2014","2014","2015","2015"],['안타', '홈런', '안타', '홈런', '안타', '홈런']]

In [142]:
temp.columns.set_names(["년도",""], inplace = True)

In [143]:
temp.index.set_names(["선수명"], inplace = True)

In [144]:
result = temp.swaplevel(0, 1, axis = 1).sort_index(axis=1)

In [145]:
result.head()

Unnamed: 0_level_0,안타,안타,안타,홈런,홈런,홈런
년도,2013,2014,2015,2013,2014,2015
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
강구성,0,-,1,0,-,0
강민국,-,0,0,-,0,0
강진성,1,-,-,0,-,-
권희동,-,63,-,-,7,-
김동건,2,-,-,1,-,-


In [127]:
##########################################################################################
# 풀이

In [146]:
# 1. 데이터 적재 
import pandas
data = pd.read_excel("data/NC Dinos.xlsx", sheet_name = None)
NC13, NC14, NC15 = data.values()

In [147]:
# 2. 년도 컬럼추가
NC13["년도"] = 2013
NC14["년도"] = 2014
NC15["년도"] = 2015

In [148]:
# 3. 하나의 데이터프레임으로 합치기
NCAll = pd.concat([NC13, NC14, NC15])

In [149]:
# 4. 필요한 컬럼만 선택
# 선수명, 안타, 홈련, 년도
NCAll = NCAll[["선수명", "안타", "홈런","년도"]]

In [151]:
#  unstack()인자값이 없으면 최하위가 이동 -> 명시적으로 하자

NCAll.set_index(['선수명', '년도']).unstack("년도").fillna('-').head()

Unnamed: 0_level_0,안타,안타,안타,홈런,홈런,홈런
년도,2013,2014,2015,2013,2014,2015
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
강구성,0,-,1,0,-,0
강민국,-,0,0,-,0,0
강진성,1,-,-,0,-,-
권희동,-,63,-,-,7,-
김동건,2,-,-,1,-,-
