In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 6. 계층 색인 (다중 색인)
### 2개 이상의 색인(인덱스)를 지정할 수 있다. 
### 차원이 높은 (고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [2]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)), 
                  columns=[[2016, 2016, 2017, 2017], ['영어','수학','영어','수학']], index = ['Kim','Park','Lee','Jung','Moon'])


In [3]:
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 6-1. 인덱싱

In [4]:
#2016년 영어, 수학 성적 조회
df[2016]

Unnamed: 0,영어,수학
Kim,94,97
Park,53,89
Lee,71,86
Jung,74,74
Moon,88,89


In [7]:
#2016년 영어 성적만 조회
df[(2016,'영어')]

Kim     94
Park    53
Lee     71
Jung    74
Moon    88
Name: (2016, 영어), dtype: int32

In [8]:
# Kim의 성적만 선택
df.loc['Kim']

2016  영어    94
      수학    97
2017  영어    50
      수학    53
Name: Kim, dtype: int32

In [14]:
# 실습. Kim, Park, Lee의 성적만 선택
df.loc[['Kim','Park','Lee']]
df.loc['Kim':'Lee']
df['Kim':'Lee']
df.iloc[0:3]
df[0:3]

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56


In [16]:
# 최상위 색인이 아닌 색인으로만 인덱싱하고 싶은 경우에는 xs() 함수를 사용.
# 2016, 2017년도 영어 성적만 선택
# level :계층 (최상위:0, 1, 2,...)
# axis (row: 0, col: 1)
df.xs('영어',axis=1, level = 1)

Unnamed: 0,2016,2017
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


## 6-2. 메타데이터 설정 (set_names)

In [21]:
# 인덱스에 이름 부여하기 (set_names)
# 로우 인덱스의 이름을 '학생명'이라고 정의하기
# inplace : True 시 로우 인덱스로 올라감 
df.index.set_names('학생명', inplace = True)
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [24]:
# 실습. 컬럼들의 이름을 각각 year와 subject로 정의하기
df.columns.set_names(['년도','과목명'], inplace= True)
df

년도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 6-3. 몇 가지 주요 함수들
### 1) swaplevel(index1, index2, axis)
##### index1과 index2의 위치를 변경함. 
##### index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [27]:
# year과 subject의 위치를 변경
df.swaplevel('년도','과목명', axis = 1)

과목명,영어,수학,영어,수학
년도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [28]:
df.swaplevel(0,1, axis=1)

과목명,영어,수학,영어,수학
년도,2016,2016,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


## 2) stack(), unstack() 함수
### stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
### unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
### level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
### level은 최상위가 0이고, 1씩 증가함

In [31]:
df

년도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [32]:
df.stack() # level 인자 : 기본값 = 최하위

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [33]:
df.stack(1)

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [29]:
# 컬럼 인덱스 과목을 로우 인덱스로 변경하고 df2에 저장
df.stack()

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [39]:
# 컬럼 인덱스 '년도'를 로우 인덱스로 변경
df.stack(0)

Unnamed: 0_level_0,과목명,수학,영어
학생명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,2016,97,94
Kim,2017,53,50
Park,2016,89,53
Park,2017,69,59
Lee,2016,86,71
Lee,2017,56,73
Jung,2016,74,74
Jung,2017,51,62
Moon,2016,89,88
Moon,2017,96,73


### df2를 대상으로 아래 실습 문제 수행

In [36]:
df2= df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,수학,97,53
Kim,영어,94,50
Park,수학,89,69
Park,영어,53,59
Lee,수학,86,56
Lee,영어,71,73
Jung,수학,74,51
Jung,영어,74,62
Moon,수학,89,96
Moon,영어,88,73


In [40]:
# 실습. Kim의 성적만 선택
df2.loc['Kim']

년도,2016,2017
과목명,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,97,53
영어,94,50


In [57]:
# 실습. Park의 수학 성적만 선택
# 튜플 형태로
df2.loc[('Park','수학')]
DataFrame(df2.loc[('Park','수학')])

Unnamed: 0_level_0,Park
Unnamed: 0_level_1,수학
년도,Unnamed: 1_level_2
2016,89
2017,69


In [46]:
# 실습. 모든 학생들의 영어 성적만 선택 
df2.xs('영어',axis =0, level=1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,50
Park,53,59
Lee,71,73
Jung,74,62
Moon,88,73


In [58]:
# 실습. Park 학생의 2016년 영어 성적만 출력
df2[2016][('Park','영어')]
df2.loc[['Park','영어'],2016]

학생명   과목명
Park  수학     89
      영어     53
Name: 2016, dtype: int32

In [59]:
# 실습. 학생들의 과목별 평균 

df2['평균']=df2.apply(np.mean, axis = 1)
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,수학,97,53,75.0
Kim,영어,94,50,72.0
Park,수학,89,69,79.0
Park,영어,53,59,56.0
Lee,수학,86,56,71.0
Lee,영어,71,73,72.0
Jung,수학,74,51,62.5
Jung,영어,74,62,68.0
Moon,수학,89,96,92.5
Moon,영어,88,73,80.5


NameError: name 'mean' is not defined

In [60]:
# NC Dinos 선수 기록 적재
NC = pd.read_excel('data/NC Dinos.xlsx', sheet_name = None)
NC13, NC14, NC15 = NC.values()
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]
NCAll = pd.concat([NC13, NC14, NC15])
NCAll.head()

Unnamed: 0,선수명,년도,안타,홈런
0,모창민,2013,109,12
1,이호준,2013,123,20
2,김종호,2013,129,0
3,나성범,2013,98,14
4,조영훈,2013,107,6


In [62]:
NCAll

Unnamed: 0,선수명,년도,안타,홈런
0,모창민,2013,109,12
1,이호준,2013,123,20
2,김종호,2013,129,0
3,나성범,2013,98,14
4,조영훈,2013,107,6
5,이현곤,2013,38,0
6,이상호,2013,31,0
7,강진성,2013,1,0
8,조평호,2013,21,2
9,박민우,2013,11,0


In [66]:
NCAll.set_index(['선수명','년도']).unstack()

Unnamed: 0_level_0,안타,안타,안타,홈런,홈런,홈런
년도,2013,2014,2015,2013,2014,2015
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
강구성,0.0,,1.0,0.0,,0.0
강민국,,0.0,0.0,,0.0,0.0
강진성,1.0,,,0.0,,
권희동,,63.0,,,7.0,
김동건,2.0,,,1.0,,
김성욱,1.0,4.0,,0.0,1.0,
김종찬,1.0,,,0.0,,
김종호,129.0,,125.0,0.0,,4.0
김준완,,2.0,10.0,,0.0,0.0
김태군,,,107.0,,,6.0


In [67]:
# NCAll을 아래 결과처럼 나오도록 변경
NCAll.set_index(['선수명','년도']).unstack()

Unnamed: 0_level_0,안타,안타,안타,홈런,홈런,홈런
년도,2013,2014,2015,2013,2014,2015
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
강구성,0.0,,1.0,0.0,,0.0
강민국,,0.0,0.0,,0.0,0.0
강진성,1.0,,,0.0,,
권희동,,63.0,,,7.0,
김동건,2.0,,,1.0,,
김성욱,1.0,4.0,,0.0,1.0,
김종찬,1.0,,,0.0,,
김종호,129.0,,125.0,0.0,,4.0
김준완,,2.0,10.0,,0.0,0.0
김태군,,,107.0,,,6.0
