In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 6. 계층 색인 (다중 색인)
### 2개 이상의 색인(인덱스)를 지정할 수 있다. 
### 차원이 높은 (고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [2]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)), 
                  columns=[[2016, 2016, 2017, 2017], ['영어','수학','영어','수학']], index = ['Kim','Park','Lee','Jung','Moon'])


In [3]:
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [4]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object')

In [6]:
df.columns

MultiIndex(levels=[[2016, 2017], ['수학', '영어']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]])

## 6-1. 인덱싱

In [7]:
#2016년 영어, 수학 성적 조회
df[2016]


Unnamed: 0,영어,수학
Kim,94,97
Park,53,89
Lee,71,86
Jung,74,74
Moon,88,89


In [8]:
#2016년 영어 성적만 조회
df[(2016,'영어')]

Kim     94
Park    53
Lee     71
Jung    74
Moon    88
Name: (2016, 영어), dtype: int32

In [10]:
# Kim의 성적만 선택
df.loc['Kim']


2016  영어    94
      수학    97
2017  영어    50
      수학    53
Name: Kim, dtype: int32

In [11]:
# 실습. Kim, Park, Lee의 성적만 선택
df.loc[['Kim','Park','Lee']]

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56


In [15]:
# 최상위 색인이 아닌 색인으로만 인덱싱하고 싶은 경우에는 xs() 함수를 사용.
# 2016, 2017년도 영어 성적만 선택
df.xs('영어',axis = 1,level=1)
#'영어' : 인덱싱하고자 하는 인덱스명
#axis : 인덱스명이 있는 축
#level : 인덱스명이 있는 위치 (최상위 : 0, 하위계층으로 갈수록 1씩 증가)

Unnamed: 0,2016,2017
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


## 6-2. 메타데이터 설정 (set_names)

In [17]:
# 인덱스에 이름 부여하기 (set_names)
# 로우 인덱스의 이름을 '학생명'이라고 정의하기
df.index.set_names('학생명', inplace = True) #inplace는 df에 바로 적용할지 여부
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [18]:
# 실습. 컬럼들의 이름을 각각 year와 subject로 정의하기
df.columns.set_names(['년도','과목명'], inplace = True)
df

년도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 6-3. 몇 가지 주요 함수들
### 1) swaplevel(index1, index2, axis)
##### index1과 index2의 위치를 변경함. 
##### index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [23]:
# 년도과 과목명의 위치를 변경
df.swaplevel('년도','과목명',axis=1) #axis 필수

과목명,영어,수학,영어,수학
년도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 2) stack(), unstack() 함수
### stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
### unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
### level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
### level은 최상위가 0이고, 1씩 증가함

In [24]:
df

년도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [29]:
df.stack(1) #level 인자 : 기본값 = 최하위

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [30]:
# 컬럼 인덱스 과목을 로우 인덱스로 변경하고 df2에 저장
df.unstack()

년도    과목명  학생명 
2016  영어   Kim     94
           Park    53
           Lee     71
           Jung    74
           Moon    88
      수학   Kim     97
           Park    89
           Lee     86
           Jung    74
           Moon    89
2017  영어   Kim     50
           Park    59
           Lee     73
           Jung    62
           Moon    73
      수학   Kim     53
           Park    69
           Lee     56
           Jung    51
           Moon    96
dtype: int32

In [None]:
# 컬럼 인덱스 '년도'를 로우 인덱스로 변경


In [45]:
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


### df2를 대상으로 아래 실습 문제 수행

In [32]:
# 실습. Kim의 성적만 선택
df2.loc['Kim']

년도,2016,2017
과목명,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,97,53
영어,94,50


In [33]:
# 실습. Park의 수학 성적만 선택
df2.loc[('Park','수학')]

년도
2016    89
2017    69
Name: (Park, 수학), dtype: int32

In [68]:
# 실습. 모든 학생들의 영어 성적만 선택 
df2.xs('영어',axis=0,level=1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


In [71]:
# 실습. Park 학생의 2016년 영어 성적만 출력
df2.loc[('Park','영어'),2016]       #loc[row,col]

53

In [74]:
# 실습. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df2['평균'] = df2.apply(np.mean, axis =1)
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,수학,97,53,75.0
Kim,영어,94,50,72.0
Park,수학,89,69,79.0
Park,영어,53,59,56.0
Lee,수학,86,56,71.0
Lee,영어,71,73,72.0
Jung,수학,74,51,62.5
Jung,영어,74,62,68.0
Moon,수학,89,96,92.5
Moon,영어,88,73,80.5


In [77]:
# NC Dinos 선수 기록 적재
NC = pd.read_excel('data/NC Dinos.xlsx', sheetname = None)
NC13, NC14, NC15 = NC.values()
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]
NCAll = pd.concat([NC13, NC14, NC15])
NCAll.head()

Unnamed: 0,선수명,년도,안타,홈런
0,모창민,2013,109,12
1,이호준,2013,123,20
2,김종호,2013,129,0
3,나성범,2013,98,14
4,조영훈,2013,107,6


In [84]:
# NCAll을 아래 결과처럼 나오도록 변경
NCAll.set_index(['선수명','년도']).sta

Unnamed: 0_level_0,Unnamed: 1_level_0,안타,홈런
선수명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1
모창민,2013,109,12
이호준,2013,123,20
김종호,2013,129,0
나성범,2013,98,14
조영훈,2013,107,6
이현곤,2013,38,0
이상호,2013,31,0
강진성,2013,1,0
조평호,2013,21,2
박민우,2013,11,0
