In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [None]:
# 고차원 데이터 다루기
# 01.고차원 데이터 소개
# 02.계층 색인(다중 색인) 소개 및 실습

## 계층 색인 (다중 색인)

In [2]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2016, 2016, 2016, 2017, 2017, 2017], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2016, '과학')] = np.nan

In [3]:
# 계층 색인(다중 색인)
# 여러 개의 인덱스가 계층을 이루고 있기 때문에 계층 색인 혹은 다중 색인이라고 함
# 계층 색인(다중 색인)을 데이터프레임에 적용하여 3차원 이상의 고차원 데이터를 처리 가능
# 2,3,4,5계층...확장해서 늘어갈 수 있어 고차원 데이터도 데이터프레임으로 처리 가능
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [4]:
# 3차원 형태의 데이터
# 로우 인덱스는 학생들에 대한 정보를 담고 있는 단순 1차원 인덱스
df.index

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object', name='학생명')

In [5]:
# 컬럼 인덱스는 다중 색인(계층 색인)
df.columns

MultiIndex([(2016, '영어'),
            (2016, '수학'),
            (2016, '과학'),
            (2017, '영어'),
            (2017, '수학'),
            (2017, '과학')],
           names=['년도', '과목'])

## 1) 인덱싱

In [6]:
# 1) 2016년 데이터만 선택
# 색인 기호에 컬럼 인덱스에 대한 정보 기입
df[2016]

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,94,97,50.0
Park,59,69,71.0
Lee,74,74,62.0
Jung,73,96,74.0
Moon,63,58,


In [7]:
# 2) 2016년 영어 성적만 선택
# 01.색인 기호에 컬럼 인덱스에 대한 정보 기입
# 1. 해당 년도(2016)와 해당 과목(영어) 지정
df[2016]['영어']

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: 영어, dtype: int32

In [8]:
# 02.계층 색인의 경우, 튜플의 형태로 인덱스 지정
# 2. 해당 년도와 과목(2016,'영어') 지정
# 상위 인덱스에는 2016, 두 번째 인덱스에서는 영어를 찾아 데이터를 색인할 수 있음
df[(2016, '영어')]

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: (2016, 영어), dtype: int32

In [9]:
# 03.색인 기호에 리스트로 담아 인덱스 지정하기
# df[[2016, '영어']]
# 두 개 이상의 색인을 할 때 리스트로 담아서 색인을 하게 되면 두 개의 컬럼을 각각 찾으라고 하는 의미
df[2016, '영어'] # 튜플로 인지

학생명
Kim     94
Park    59
Lee     74
Jung    73
Moon    63
Name: (2016, 영어), dtype: int32

In [10]:
# 3) Kim의 성적만 선택
# 로우 인덱스 - 데이터 프레임의 색인과 동일
# loc, iloc에 색인 기호를 넣고, 해당 정보 기입
# 시리즈 : 하얀 형태에 텍스트로만 출력 됨
# 데이터 프레임 : 인덱스는 볼드, 배경색은 구분되어 표현
# 성적 - 밸류
# 연도, 과목 - 계층 색인
# 로우 인덱스나 컬럼 인덱스가 계층 색인이 될 수 있고, 시리즈에서도 계층 색인이 사용될 수 있음
df.loc['Kim'] # 시리즈

년도    과목
2016  영어    94.0
      수학    97.0
      과학    50.0
2017  영어    53.0
      수학    53.0
      과학    89.0
Name: Kim, dtype: float64

In [11]:
# 4) Kim, Park, Lee의 성적만 선택
# 슬라이싱
# 01.loc에 색인 기호를 넣고 'Kim':'Lee'로 표현
df.loc['Kim':'Lee']

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [12]:
# 02. loc, iloc 생략 가능
df['Kim':'Lee']

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [13]:
# 03. iloc에 색인 기호를 넣고, :3 입력
df.iloc[:3]

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [14]:
# 04. iloc 생략 가능
df[:3]

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89


In [21]:
# 5) Park과 Jung의 2016년 성적 선택
# 특정 로우와 특정 컬럼을 지칭할 때 주로 loc 사용
df.loc[['Park', 'Jung'], 2016]

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,59,69,71.0
Jung,73,96,74.0


In [24]:
# 6) Park과 Jung의 2016년 영어 성적 선택
# 특정 로우와 특정 컬럼을 지칭할 때 주로 loc 사용
# 리스트 : Park이랑 Jung을 각각 색인
# 튜플 : 계층 색인을 색인
df.loc[['Park', 'Jung'], (2016, '영어')]

학생명
Park    59
Jung    73
Name: (2016, 영어), dtype: int32

In [27]:
# 7) 2016, 2017 영어 성적만 선택 
# 따로 떨어져 있는 두 개의 영어 성적 가지고 오기
# 01. 각각의 색인은 계층 색인이므로 튜플의 형태로 하고, 년도 구분은 리스트 형태로 지정
df[[(2016, '영어'), (2017, '영어')]]

년도,2016,2017
과목,영어,영어
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


In [28]:
# 연도가 많아지면 일일이 다 색인을 하기가 어려움
# df['영어'] 키 에러 발생
# 기본적으로 최상위 인덱스를 탐색하기 때문에 최상위 인덱스에 '영어'가 없으면 키 에러가 발생
# 최상위 인덱스가 아닌 다른 인덱스를 찾는 방법
# xs(색인하고자 하는 인덱스 이름, axis, level)
# 최상위 레벨은 0임
df.xs('영어', axis = 1, level = 1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,53
Park,59,86
Lee,74,51
Jung,73,67
Moon,63,70


## 2) 인덱스에 이름 부여하기 (set_names())

In [None]:
# set_names 함수는 데이터 프레임을 생성을 하면서 이름을 부여한 것
# 로우 인덱스의 이름이 적혀져 있지 않은 경우에 인덱스의 이름을 부여해 줌
# set_names() 함수는 인덱스의 함수임(데이터 프레임의 함수가 아님)
# 데이터 프레임의 인덱스에 이름을 부여하는 것

In [29]:
# 1) 로우 인덱스의 이름을 '학생명'이라고 정의하기
# 파이썬에서는 출력된 내용이 실제 원본에 반영이 되지 않음
df.index.set_names('학생명')

Index(['Kim', 'Park', 'Lee', 'Jung', 'Moon'], dtype='object', name='학생명')

In [30]:
# inplace를 True로 지정해야 반영
df.index.set_names('학생명', inplace = True)

In [31]:
# 2) 컬럼들의 이름을 각각 년도와 과목으로 정의하기
df.columns.set_names(['년도', '과목'], inplace = True)

In [32]:
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


## 3) 인덱스 재구성하기 swaplevel(), stack(), unstack(),..

* reset_index() : 로우 인덱스를 하나의 컬럼으로 변경
- 로우 인덱스를 컬럼 인덱스로 변경
- 로우 인덱스를 없애고 컬럼으로 추가
- 로우 인덱스를 컬럼 인덱스로 맞바꿈

In [33]:
# 로우 인덱스가 리셋되어 학생명이 하나의 컬럼으로 바뀜
# 로우 인덱스는 기본 숫자 인덱스로 변경
df.reset_index()

년도,학생명,2016,2016,2016,2017,2017,2017
과목,Unnamed: 1_level_1,영어,수학,과학,영어,수학,과학
0,Kim,94,97,50.0,53,53,89
1,Park,59,69,71.0,86,73,56
2,Lee,74,74,62.0,51,88,89
3,Jung,73,96,74.0,67,87,75
4,Moon,63,58,,70,66,55


* set_index() : 인자로 받은 컬럼의 값들을 로우 인덱스로 변경

In [35]:
# 어떤 컬럼을 로우 인덱스로 바꿀 것인지 인자값 필요
df.reset_index().set_index('학생명')

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


* swaplevel(index1, index2, axis)
 - index1과 index2의 위치를 변경함. 
 - index1과 index2가 로우 인덱스인 경우, axis = 0, 컬럼인덱스면 1 (기본값은 0)

In [36]:
# 년도와 과목의 위치를 변경
# 바꾸고자 하는 인덱스 : index1, index2
# index1, 2가 로우 인덱스인 경우 axis = 0, 컬럼 인덱스인 경우 axis = 1
df.swaplevel('년도', '과목', axis = 1)

과목,영어,수학,과학,영어,수학,과학
년도,2016,2016,2016,2017,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [37]:
# 깔끔하게 데이터가 나오지 않는다면 sort_index(axis = 1) 을 사용하여 인덱스를 정렬
df.swaplevel('년도', '과목', axis = 1).sort_index(axis = 1)

과목,과학,과학,수학,수학,영어,영어
년도,2016,2017,2016,2017,2016,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,50.0,89,97,53,94,53
Park,71.0,56,69,73,59,86
Lee,62.0,89,74,88,74,51
Jung,74.0,75,96,87,73,67
Moon,,55,58,66,63,70


In [38]:
# 레벨로 지정 가능
# 가독성을 위해서는 인덱스의 이름을 부여하고, 인덱스의 이름으로 함수를 사용하는 것이 유용함
df.swaplevel(0, 1, axis = 1)

과목,영어,수학,과학,영어,수학,과학
년도,2016,2016,2016,2017,2017,2017
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


* stack(), unstack() 함수
 - stack(level) : 컬럼 인덱스를 로우 인덱스로 옮길 때 사용.
 - unstack(level): 로우 인덱스를 컬럼 인덱스로 옮길 때 사용.
 - level 인자는 옮기고자 하는 인덱스의 위치를 표기함. 명시하지 않은 경우, 최하단의 인덱스를 이동시킴.
 -  level은 최상위가 0이고, 1씩 증가함

In [40]:
# 1) 컬럼 인덱스 과목을 로우 인덱스로 변경
# 과목이라고 하는 정보가 로우 인덱스로 변경이 되어 로우 인덱스가 계층 색인이 되고, 컬럼 인덱스는 단순히 단일 색인이 됨
# 인자값은 레벨이나 인덱스의 이름을 지정
df.stack(1)
df.stack('과목')

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [41]:
# 데이터프레임에서 stack() 실행 시, 기본값은 최하위 인덱스임
df.stack()

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [45]:
# 2) 컬럼 인덱스 년도를 로우 인덱스로 변경
# stack() 사용, 인자값 0
df.stack(0)
df.stack('년도')

Unnamed: 0_level_0,과목,과학,수학,영어
학생명,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,2016,50.0,97,94
Kim,2017,89.0,53,53
Park,2016,71.0,69,59
Park,2017,56.0,73,86
Lee,2016,62.0,74,74
Lee,2017,89.0,88,51
Jung,2016,74.0,96,73
Jung,2017,75.0,87,67
Moon,2016,,58,63
Moon,2017,55.0,66,70


In [46]:
# 실습을 위해 df2 생성
# 로우 인덱스 : 학생, 과목
# 컬럼 인덱스 : 년도
df2 = df.stack(1)
df2

Unnamed: 0_level_0,년도,2016,2017
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,과학,50.0,89
Kim,수학,97.0,53
Kim,영어,94.0,53
Park,과학,71.0,56
Park,수학,69.0,73
Park,영어,59.0,86
Lee,과학,62.0,89
Lee,수학,74.0,88
Lee,영어,74.0,51
Jung,과학,74.0,75


In [48]:
# 실습 #1. Kim의 성적만 선택
df2.loc['Kim']

년도,2016,2017
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
과학,50.0,89
수학,97.0,53
영어,94.0,53


In [49]:
# 실습 #2. Park의 수학 성적만 선택
# 계층 색인이므로 튜플로 지정하여 색인
df2.loc[('Park', '수학')]

년도
2016    69.0
2017    73.0
Name: (Park, 수학), dtype: float64

In [51]:
# 실습 #3. 모든 학생들의 영어 성적만 선택 
# 두 번째 인덱스에 있으므로 xs 함수 사용
# 로우 인덱스(axis = 0), level = 1
df2.xs('영어', axis = 0, level = 1)

년도,2016,2017
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94.0,53
Park,59.0,86
Lee,74.0,51
Jung,73.0,67
Moon,63.0,70


In [52]:
# 실습 #4. Park 학생의 2016년 영어 성적만 출력
df2.loc[('Park', '영어'), 2016]

59.0

In [56]:
# 실습 #5. 학생들의 과목별 성적의 평균을 구해서, 새로운 컬럼 '평균'으로 저장
# mean : 평균을 구하는 함수
# 2016, 2017 컬럼의 평균을 구함
# 컬럼이 아닌 로우 단위로 평균을 내고 싶은 것
# 컬럼 방향 : axis = 1
# 구해진 데이터를 df2의 평균으로 새로운 컬럼 추가
df2['평균'] = df2.mean(axis = 1)
df2

Unnamed: 0_level_0,년도,2016,2017,평균
학생명,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kim,과학,50.0,89,69.5
Kim,수학,97.0,53,75.0
Kim,영어,94.0,53,73.5
Park,과학,71.0,56,63.5
Park,수학,69.0,73,71.0
Park,영어,59.0,86,72.5
Lee,과학,62.0,89,75.5
Lee,수학,74.0,88,81.0
Lee,영어,74.0,51,62.5
Jung,과학,74.0,75,74.5


In [58]:
# 실습 #6. 연도별 과목 평균 구하여 출력하기.
# 연도 : 컬럼 인덱스
# 과목 : 로우 인덱스
# 연도별, 과목별 평균을 구하는 거니까 두 데이터가 로우 인덱스에 있든 컬럼 인덱스에 있든 한 군데에 있으면 쉽게 작업할 수 있다.
# 연도별, 과목별 평균이 없었다면 unstack 함수를 사용하여 형태를 바꿔줄 수 있음
# 평균 함수를 사용하면 컬럼 단위로 평균을 구함
df.mean()

년도    과목
2016  영어    72.60
      수학    78.80
      과학    64.25
2017  영어    65.40
      수학    73.40
      과학    72.80
dtype: float64

In [61]:
# unstack() 을 활용하여 더 보기 좋게 출력 모양을 변경
df.mean().unstack()
df.mean().unstack(1)

과목,과학,수학,영어
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,64.25,78.8,72.6
2017,72.8,73.4,65.4


# 실습
## data/NC Dinos.xlsx 파일을 읽어서, 아래 결과처럼 나오도록 하시오. 
<img src="img/6강/NC계층색인예제.jpg" alt="NC계층색인예제" style="width: 350px;"/>

In [None]:
NC = pd.read_excel('data/NC Dinos.xlsx', sheet_name = None)
NC13, NC14, NC15 = NC.values()

In [None]:
NC13['년도'] = 2013
NC14['년도'] = 2014
NC15['년도'] = 2015

In [None]:
NC13 = NC13[['선수명', '년도', '안타','홈런']]
NC14 = NC14[['선수명', '년도', '안타','홈런']]
NC15 = NC15[['선수명', '년도', '안타','홈런']]

In [None]:
NCAll = pd.concat([NC13, NC14, NC15])

In [None]:
NCAll

In [None]:
NCAll.set_index(['년도', '선수명']).unstack(0).fillna('-')

In [None]:
NCAll.unstack(0)