In [8]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 계층 색인 (다중 색인)

In [9]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2016, 2016, 2016, 2017, 2017, 2017], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2016, '과학')] = np.nan

In [10]:
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [11]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object', name='학생명')

In [12]:
df.columns

MultiIndex([(2016, '영어'),
            (2016, '수학'),
            (2016, '과학'),
            (2017, '영어'),
            (2017, '수학'),
            (2017, '과학')],
           names=['년도', '과목'])

## 1) 인덱싱

In [15]:
# 1) 2016년 데이터만 선택
df[2016]['영어']

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: 영어, dtype: int32

In [16]:
# 2) 2016년 영어 성적만 선택
df[(2016,'영어')]

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: (2016, 영어), dtype: int32

In [17]:
df[2016,'영어']

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: (2016, 영어), dtype: int32

In [19]:
# 3) Kim의 성적만 선택
df.loc['Kim']

년도    과목
2016  영어    94.0
      수학    97.0
      과학    50.0
2017  영어    53.0
      수학    53.0
      과학    89.0
Name: Kim, dtype: float64

In [21]:
# 4) Kim, Park, Lee의 성적만 선택
df['Kim':'Lee']

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [22]:
df[:3]

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [23]:
# 5) Park과 Jung의 2016년 성적 선택
df.loc[['Park','Jung'],2017]

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,86,73,56
Jung,67,87,75


In [24]:
# 6) Park과 Jung의 2016년 영어 성적 선택
df.loc[['Park','Jung'],(2016,'영어')]

학생명
Park    59
Jung    73
Name: (2016, 영어), dtype: int32

In [25]:
# 7) 2016, 2017 영어 성적만 선택 
df[[(2016,'영어'),(2017,'영어')]]

년도,2016,2017
과목,영어,영어
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


In [26]:
df.xs('영어',axis=1, level=1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


## 2) 인덱스에 이름 부여하기 (set_names())

In [28]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2016, 2016, 2016, 2017, 2017, 2017], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.loc['Moon', (2016, '과학')] = np.nan

In [31]:
df

Unnamed: 0_level_0,2016,2016,2016,2017,2017,2017
Unnamed: 0_level_1,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [34]:
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [None]:
# 1) 로우 인덱스의 이름을 '학생명'이라고 정의하기


In [30]:
df.index.set_names('학생명',inplace=True)

In [None]:
# 2) 컬럼들의 이름을 각각 year와 subject로 정의하기


In [33]:
df.columns.set_names(['년도','과목'],inplace=True)

## 3) 인덱스 재구성하기 swaplevel(), stack(), unstack(),..

* reset_index() : 로우 인덱스를 하나의 컬럼으로 변경

In [36]:
df.reset_index()

년도,학생명,2016,2016,2016,2017,2017,2017
과목,Unnamed: 1_level_1,영어,수학,과학,영어,수학,과학
0,Kim,94,97,50.0,53,53,89
1,Park,59,69,71.0,86,73,56
2,Lee,74,74,62.0,51,88,89
3,Jung,73,96,74.0,67,87,75
4,Moon,63,58,,70,66,55


* set_index() : 인자로 받은 컬럼의 값들을 로우 인덱스로 변경

In [37]:
df.reset_index().set_index('학생명')

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


* swaplevel(index1, index2, axis)
 - index1과 index2의 위치를 변경함. 
 - index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [39]:
# 년도와 과목의 위치를 변경
df.swaplevel('년도','과목', axis=1).sort_index(axis=1)

과목,과학,과학,수학,수학,영어,영어
년도,2016,2017,2016,2017,2016,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,50.0,89,97,53,94,53
Park,71.0,56,69,73,59,86
Lee,62.0,89,74,88,74,51
Jung,74.0,75,96,87,73,67
Moon,,55,58,66,63,70


In [40]:
df.swaplevel(0,1,axis=1)

과목,영어,수학,과학,영어,수학,과학
년도,2016,2016,2016,2017,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


* stack(), unstack() 함수
 - stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
 - unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
 - level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
 -  level은 최상위가 0이고, 1씩 증가함

In [42]:
# 1) 컬럼 인덱스 과목을 로우 인덱스로 변경
df.stack('과목')

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [43]:
df.stack()

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [44]:
df.stack('년도')

Unnamed: 0_level_0,과목,과학,수학,영어
학생명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,2016,50.0,97,94
Kim,2017,89.0,53,53
Park,2016,71.0,69,59
Park,2017,56.0,73,86
Lee,2016,62.0,74,74
Lee,2017,89.0,88,51
Jung,2016,74.0,96,73
Jung,2017,75.0,87,67
Moon,2016,,58,63
Moon,2017,55.0,66,70


In [None]:
# 2) 컬럼 인덱스 년도를 로우 인덱스로 변경


In [45]:
# 실습을 위해 df2 생성
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [46]:
# 실습 #1. Kim의 성적만 선택
df2.loc['Kim']

년도,2016,2017
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
과학,50.0,89
수학,97.0,53
영어,94.0,53


In [48]:
# 실습 #2. Park의 수학 성적만 선택
df2.loc[('Park','수학')]

년도
2016    69.0
2017    73.0
Name: (Park, 수학), dtype: float64

In [49]:
# 실습 #3. 모든 학생들의 영어 성적만 선택 
df2.xs('영어', axis=0, level=1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94.0,53
Park,59.0,86
Lee,74.0,51
Jung,73.0,67
Moon,63.0,70


In [52]:
# 실습 #4. Park 학생의 2016년 영어 성적만 출력
df2.loc[('Park','영어'),2017]

86.0

In [55]:
# 실습 #5. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df2['평균']= df2.mean(axis=1)

In [56]:
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,과학,50.0,89,69.5
Kim,수학,97.0,53,75.0
Kim,영어,94.0,53,73.5
Park,과학,71.0,56,63.5
Park,수학,69.0,73,71.0
Park,영어,59.0,86,72.5
Lee,과학,62.0,89,75.5
Lee,수학,74.0,88,81.0
Lee,영어,74.0,51,62.5
Jung,과학,74.0,75,74.5


In [58]:
# 실습 #6. 연도별 과목 평균 구하여 출력하기.
df.mean().unstack()

과목,과학,수학,영어
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,64.25,78.8,72.6
2017,72.8,73.4,65.4


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [None]:
NC = pd.read_excel('data/NC Dinos.xlsx', sheet_name = None)
NC13, NC14, NC15 = NC.values()

In [None]:
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015

In [None]:
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]

In [None]:
NCAll = pd.concat([NC13, NC14, NC15])

In [None]:
NCAll

In [None]:
NCAll.set_index(['년도', '선수명']).unstack(0).fillna('-')

In [None]:
NCAll.unstack(0)