In [2]:
# 라이브러리 가져오기
import pandas as pd # Series, DataFrame 사용
import numpy as np # 값을 생성하는데 사용

### 계층 색인

- 행, 열의 각 축에 대해 다중 단계(계층)를 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용
- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

In [3]:
# Series
# 인덱스에 다차원 리스트(아이템 2개)를 전달
# 다차원리스트[0] 상위계층
# 상위계층 작성 시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
# 상위 계층 리스트 개수 = 하위 계층 리스트 개수
# 다차원리스트[1] : 하위 계층
# 실습 --->
# 로우 인덱스 - 상위 계층 : a, b, c, d
# 하위계층 : a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)
s1 = pd.Series(np.arange(10), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'd'],
                                   [1, 2, 3, 1, 2, 1, 2, 3, 4, 1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [4]:
# 인덱스 확인
s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [5]:
# 상위계층에 접근 
# 계층 색인이 적용된 객체에 상위 인덱스에 접근 : 일반적인 Series 인덱싱으로 접근
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [6]:
# 계층색인에 대한 슬라이싱 : 마지막 인덱스도 포함('b':'d'로 입력시 b, c, d로 조회)
s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [7]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [8]:
# 하위 계층에 접근
# a, b, c, d에서 하위계층 라벨번호 2인 데이터만 조회
# 데이터(상위계층명, 하위계층번호)
s1[:, 2]

a    1
b    4
c    6
dtype: int32

In [10]:
# 하위 계층에 슬라이싱 : loc메서드를 이용해서 슬라이싱
# 상위계층이 c이고 하위계층을 2~4까지 슬라이싱(.loc는 마지막 번호도 포함)
s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [11]:
# unstack() : 최하위(기본동작) 에 있는 로우 계층을 컬럼으로 적용하여 위로 올림
# Series 객체를 DataFrame화 할 수 있음
# NaN : 기존에 없던 로우 계층에 대한 값
s1.unstack()

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [12]:
# stack() 메서드 : 컬럼에 있던 값을 가장 하위 인덱스로 내려서 재배열
# DataFrame을 다시 Series화 할 때 사용
s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [None]:
# DataFrame 생성
# 구조 : 4 * 5
# 로우 인덱스 : 상위 (2017, 2018) / 하위(모든 상위 인덱스에 대해 동일하게 a, b)
# 컬럼 인덱스 : 상위 (서울, 경기) / 하위(서울-강남, 잠실 / 경기-안양, 수원, 판교)
# 값 : 1씩 증가하는 20개

In [None]:
df = pd.DataFrame(np.arange(20).reshape(4, 5), index=list[2017, 2018])