In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 계층 색인 (다중 색인)

In [4]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2016, 2016, 2016, 2017, 2017, 2017], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
#df.index.set_names('학생명', inplace = True)
#df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2016, '과학')] = np.nan

In [5]:
df

Unnamed: 0_level_0,2016,2016,2016,2017,2017,2017
Unnamed: 0_level_1,영어,수학,과학,영어,수학,과학
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [6]:
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object')

In [7]:
df.columns

MultiIndex([(2016, '영어'),
            (2016, '수학'),
            (2016, '과학'),
            (2017, '영어'),
            (2017, '수학'),
            (2017, '과학')],
           )

## 1) 인덱싱

In [9]:
# 1) 2016년 데이터만 선택
df[2016]

Unnamed: 0,영어,수학,과학
Kim,94,97,50.0
Park,59,69,71.0
Lee,74,74,62.0
Jung,73,96,74.0
Moon,63,58,


In [11]:
# 2) 2016년 영어 성적만 선택
df[2016]['영어']

Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: 영어, dtype: int32

In [12]:
df[(2016,'영어')]

Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: (2016, 영어), dtype: int32

In [14]:
# 3) Kim의 성적만 선택
df.loc['Kim']

2016  영어    94.0
      수학    97.0
      과학    50.0
2017  영어    53.0
      수학    53.0
      과학    89.0
Name: Kim, dtype: float64

In [20]:
# 4) Kim, Park, Lee의 성적만 선택
# df.iloc[:3]
# df.loc[['Kim','Park','Lee']]
df['Kim':'Lee']

Unnamed: 0_level_0,2016,2016,2016,2017,2017,2017
Unnamed: 0_level_1,영어,수학,과학,영어,수학,과학
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [39]:
# 5) Park과 Jung의 2016년 성적 선택
# df.iloc[:2][2016]
# df.loc[['Park','Jung']][2016]
df.loc[['Park','Jung'],2016]

Unnamed: 0,영어,수학,과학
Park,59,69,71.0
Jung,73,96,74.0


In [27]:
# 6) Park과 Jung의 2016년 영어 성적 선택
df.loc[['Park','Jung']][2016]['영어']

Park    59
Jung    73
Name: 영어, dtype: int32

In [47]:
# 7) 2016, 2017 영어 성적만 선택 
# df[2016]['영어'],df[2017]['영어']
# df[[(2016,'영어'),(2017,'영어')]]
# 모든 년도의 영어 성적
df.xs('영어',axis=1,level=1)

Unnamed: 0,2016,2017
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


## 2) 인덱스에 이름 부여하기 (set_names())

In [48]:
df

Unnamed: 0_level_0,2016,2016,2016,2017,2017,2017
Unnamed: 0_level_1,영어,수학,과학,영어,수학,과학
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [50]:
# 1) 로우 인덱스의 이름을 '학생명'이라고 정의하기
df.index.set_names('학생명',inplace=True)
df

Unnamed: 0_level_0,2016,2016,2016,2017,2017,2017
Unnamed: 0_level_1,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [53]:
# 2) 컬럼들의 이름을 각각 year와 subject로 정의하기
df.columns.set_names(['년도','과목'],inplace=True)
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


## 3) 인덱스 재구성하기 swaplevel(), stack(), unstack(),..

* reset_index() : 로우 인덱스를 하나의 컬럼으로 변경

In [55]:
df.reset_index()

년도,학생명,2016,2016,2016,2017,2017,2017
과목,Unnamed: 1_level_1,영어,수학,과학,영어,수학,과학
0,Kim,94,97,50.0,53,53,89
1,Park,59,69,71.0,86,73,56
2,Lee,74,74,62.0,51,88,89
3,Jung,73,96,74.0,67,87,75
4,Moon,63,58,,70,66,55


* set_index() : 인자로 받은 컬럼의 값들을 로우 인덱스로 변경

In [58]:
df.reset_index().set_index('학생명')

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


* swaplevel(index1, index2, axis)
 - index1과 index2의 위치를 변경함. 
 - index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [65]:
# 년도와 과목의 위치를 변경
# df.swaplevel('년도','과목',axis=1)
df.swaplevel(0,1,axis=1).sort_index(axis=1)

과목,과학,과학,수학,수학,영어,영어
년도,2016,2017,2016,2017,2016,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,50.0,89,97,53,94,53
Park,71.0,56,69,73,59,86
Lee,62.0,89,74,88,74,51
Jung,74.0,75,96,87,73,67
Moon,,55,58,66,63,70


* stack(), unstack() 함수
 - stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
 - unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
 - level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
 -  level은 최상위가 0이고, 1씩 증가함

In [68]:
# 1) 컬럼 인덱스 과목을 로우 인덱스로 변경
# df.stack('과목')
df.stack(1)

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [70]:
# 2) 컬럼 인덱스 년도를 로우 인덱스로 변경
# df.stack(0)
df.stack('년도')

Unnamed: 0_level_0,과목,과학,수학,영어
학생명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,2016,50.0,97,94
Kim,2017,89.0,53,53
Park,2016,71.0,69,59
Park,2017,56.0,73,86
Lee,2016,62.0,74,74
Lee,2017,89.0,88,51
Jung,2016,74.0,96,73
Jung,2017,75.0,87,67
Moon,2016,,58,63
Moon,2017,55.0,66,70


In [71]:
# 실습을 위해 df2 생성
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [72]:
# 실습 #1. Kim의 성적만 선택
df2.loc['Kim']

년도,2016,2017
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
과학,50.0,89
수학,97.0,53
영어,94.0,53


In [140]:
# 실습 #2. Park의 수학 성적만 선택
# df2.loc['Park'].loc['수학']
df2.loc[('Park','수학')]

년도
2016    69.0
2017    73.0
Name: (Park, 수학), dtype: float64

In [86]:
# 실습 #3. 모든 학생들의 영어 성적만 선택 
df2.xs('영어',axis=0,level=1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94.0,53
Park,59.0,86
Lee,74.0,51
Jung,73.0,67
Moon,63.0,70


In [141]:
# 실습 #4. Park 학생의 2016년 영어 성적만 출력
# df2.loc['Park'][2016]['영어']
df2.loc[('Park','영어'),2016]

59.0

In [143]:
# 실습 #5. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
df2['평균']=df2.mean(axis=1)
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,과학,50.0,89,69.5
Kim,수학,97.0,53,75.0
Kim,영어,94.0,53,73.5
Park,과학,71.0,56,63.5
Park,수학,69.0,73,71.0
Park,영어,59.0,86,72.5
Lee,과학,62.0,89,75.5
Lee,수학,74.0,88,81.0
Lee,영어,74.0,51,62.5
Jung,과학,74.0,75,74.5


In [148]:
# nan을 포함하여 평균을 매기는 경우
df2.mean(axis=1,skipna=False)

학생명   과목
Kim   과학    69.5
      수학    75.0
      영어    73.5
Park  과학    63.5
      수학    71.0
      영어    72.5
Lee   과학    75.5
      수학    81.0
      영어    62.5
Jung  과학    74.5
      수학    91.5
      영어    70.0
Moon  과학     NaN
      수학    62.0
      영어    66.5
dtype: float64

In [151]:
# 실습 #6. 연도별 과목 평균 구하여 출력하기.
# df2.groupby('과목').mean()
df2.unstack('과목').mean().unstack('과목')

과목,과학,수학,영어
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,64.25,78.8,72.6
2017,72.8,73.4,65.4
평균,67.6,76.1,69.0


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [152]:
NC = pd.read_excel('data/NC Dinos.xlsx', sheet_name = None)
NC13, NC14, NC15 = NC.values()

In [153]:
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015

In [154]:
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]

In [155]:
NCAll = pd.concat([NC13, NC14, NC15])

In [156]:
NCAll

Unnamed: 0,선수명,년도,안타,홈런
0,모창민,2013,109,12
1,이호준,2013,123,20
2,김종호,2013,129,0
3,나성범,2013,98,14
4,조영훈,2013,107,6
5,이현곤,2013,38,0
6,이상호,2013,31,0
7,강진성,2013,1,0
8,조평호,2013,21,2
9,박민우,2013,11,0


In [157]:
NCAll.set_index(['년도', '선수명']).unstack(0).fillna('-')

Unnamed: 0_level_0,안타,안타,안타,홈런,홈런,홈런
년도,2013,2014,2015,2013,2014,2015
선수명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
강구성,0.0,-,1.0,0.0,-,0.0
강민국,-,0.0,0.0,-,0.0,0.0
강진성,1.0,-,-,0.0,-,-
권희동,-,63.0,-,-,7.0,-
김동건,2.0,-,-,1.0,-,-
김성욱,1.0,4.0,-,0.0,1.0,-
김종찬,1.0,-,-,0.0,-,-
김종호,129.0,-,125.0,0.0,-,4.0
김준완,-,2.0,10.0,-,0.0,0.0
김태군,-,-,107.0,-,-,6.0


In [158]:
NCAll.unstack(0)

선수명  0     모창민
     1     이호준
     2     김종호
     3     나성범
     4     조영훈
          ... 
홈런   15      0
     16      0
     17      0
     18      0
     19      0
Length: 240, dtype: object