지금까지는 주로 Pandas Series와 DataFrame object에 저장되는 1차원(dimensional)과 2차원 data에 초점을 맞춰 알아봤다. 하지만 종종 한두 개보다 많은 key를 index로 가지는 고차원 data를 저장하는 것이 유용할 때가 있다. Pandas는 기본적으로 3차원과 4차원 data를 처리할 수 있는 Panel과 Panel4D objdect를 제공하지만, 실제로 더 일반적으로 사용되는 pattern은 single index 내에 multiple index level을 포함하는 계층적 인덱싱(hierarchical indexing, 다중 인덱싱(multi-indexing)이다. 이 방식으로 고차원 데이터를 익숙한 1차원 Series와 2차원 DataFrame object로 간결하게 표현할 수 있다.

이번 절에서는 MultiIndex object를 직접 생성하고 Multiply indexed data에서 indexing, slicing, computing statistics를 수행하는 것과 함께 data에 대한 simple indexed represetation과 hierarchically indexed representation 간 전환(converting)을 위해 사용되는 routine을 알아보겠다.

먼저 표준(standard) import로 시작해 보자.

In [1]:
import pandas as pd
import numpy as np

# 1. 다중 인덱스된 Series(A Multiply Indexed Series)

먼저 어떻게 하면 two-dinmensional data를 one-dimensional Series로 표현할 수 있을 지 생각해 보자. 구체적으로 각 점(point)이 문자(character)와 숫자(numerical)로 이뤄진 키(key)를 갖는 일련의 data를 생각해 보자.


## 1) 나쁜 방식(The bad way)

두 연도에 대해 미국 주의 data를 추적(track)한다고 가정해 보자. 앞에서 다룬 Pandas tool을 사용해 간단하게 파이썬 tuple을 key value로 사용하려고 할 수도 있다.

In [2]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
        ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
              18976457, 19378102,
              20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

이 indexing scheme(방식, 도식)을 사용하면 간단하게 이 multiple index를 기반으로 series를 indexing하거나 slicing할 수 있다.

In [3]:
pop[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

그러나 편리함은 거기까지다. 가령 2010년의 모든 value를 선택해야 한다면 다소 지저분하고 느리기까지한 data munging을 해야 할 것이다.

In [4]:
pop[[i for i in pop.index if i[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

이 produce(방식)가 원하는 결과를 내주기는 하지만, 지금까지 습득해온(we've grown) Pandas의 slicing syntax(구문) 만큼 깔끔(clean)하지도 않고 large dataset의 경우에는 효율적(efficient)이지도 않다.


## 2) 더 나은 방식(The Better Way) : Pandas MultiIndex

다행히도 Pandas는 더 나은 방식을 제공한다. tuple을 기반으로 한 indexing은 근본적으로 가장 기초적인 multi-index고, Pandas의 MultiIndex Type이 원하는 유형의 operation을 제공한다. 다음과 같이 tuple로부터 multi-index를 생성할 수 있다.

In [5]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

MultiIndex는 multiple(다중) level의 indexing을 포함하고 있음을 알아두자. 이 경우에는 state 이름과 연도는 물론이고 이 level을 incoding하는 각 data point에 대한 여러(multiple) labels를 갖고 있다.

이 MultiIndex를 series로 다시 indexing하면 data의 계층적(hierarchical) 표현을 볼 수 있다.

In [6]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

여기서 Series 표현의 첫 두 column은 multiple index value를 보여주고, 세 번째 column은 그 data를 보여준다. 첫번째 column의 항목 몇개가 누락돼 있다는 점에 주목하자. 이 multi-index 표현에서 빈 항목은 윗줄과 같은 value를 가리킨다.

이제 두번째 index가 2010인 모든 data에 접근하려면 간단히 Pandas slicing natation(표기법)을 사용하면 된다.

In [7]:
pop[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

결과는 관심 있는 key value 하나로 index가 구성된다. 이 syntax는 앞에서 알아본 home-spun tuple-based multi-indexing solution보다 훨씬 더 편리하며 operation도 훨씬 효율적이다. hierarchically indexed data에 대해 이러한 종류의 indexing operation을 하는 법을 좀 더 알아보자.


## 3) MultiIndex : 추가지원(extra dimension)

여기서 아마 다른 점도 눈치챌 수 있을 것이다. 바로 index와 column lable을 가진 간단한 DataFrame을 사용해 동일한 data를 쉽게 저장할 수 있다는 점이다. 실제로 Pandas는 이런 유사성을 염두에 두고 만들어졌다. unstack() method는 multi-index를 가진 Series를 전형적인 index를 가진 DataFrame으로 빠르게 변환해준다.

In [8]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


당연히 stack() method는 이와 반대되는 operation을 제공한다.

In [9]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

이것을 보면 hierarchical indexing을 왜 알아야 하는지 궁금할 것이다. 이유는 간단하다. two-dimensional data를 one-dimensional Series에 표현하기 위해 multi-indexing을 사용할 수 있는 것처럼 data of three or more dimesions를 Series나 DataFrame에 표현할 때도 사용할 수 있기 때문이다. multi-index에서 각 추가 label은 data의 추가적인 dimension을 표현한다. 이 속성을 활용하면 표현할 수 있는 data type에 훨씬 더 많은 유연성(flexibility)을 제공한다. 구체적으로 연도별 각 주의 인구통계 data(예를 들어 18세 이하 인구수)를 별도의 column으로 추가하고 싶을 수도 있다. MultiIndex를 이용하면 이 방식이 DataFrame에 열을 하나 추가하는 것만큼 쉽다.

In [10]:
pop_df = pd.DataFrame({'total' : pop, 
                       'under18' : [9267089, 9284094,
                                    4687374, 4318033,
                                    5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


게다가 131쪽 'Pandas에서 data operation하기'에서 논의했던 모든 universal fucntion과 다른 기능들도 hierarchical index와 잘 동작한다. 여기서는 위 data를 활용해 연도별로 18세 이하의 인구 비율을 계산한다.

In [11]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


이렇게 하면 high-dimensional data도 빠르고 쉽게 가공(manipulate)하고 탐색(explore)할 수 있다.


# 2. MultiIndex 생성 Method

multiply indexed Series나 DataFrame을 생성하는 가장 간단한 방식(pass)은 생성자(constructor)에 2개 이상의 인덱스 배열 리스트(a list of two or more index arrays)를 전달하는 것이다. 예를 들면 다음과 같다.

In [12]:
df = pd.DataFrame(np.random.rand(4, 2),
                 index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                 columns = ['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.132216,0.684757
a,2,0.445559,0.469862
b,1,0.064423,0.442041
b,2,0.599698,0.318844


MultiIndex를 생성하는 작업은 background에서 일어난다.

이와 비슷하게 적당한 tuple을 key로 갖는 dictionary를 전달하면 Pandas는 자동으로 이것을 인식해 기본(default) MultiIndex를 사용한다.

In [13]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

그렇지만 때로는 명시적으로 MultiIndex를 생성하는 것이 유용할 때가 있다. 이제부터 이 method 몇 가지를 알아보겠다.

## 1) 명시적(explicit) MultiIndex 생성자(constructor)

index가 생성되는 방법에 더 많은 flexibility를 제공하기 위해 pd.MultiIndex의 class method constructor를 사용할 수 있다. 예를 들어, 앞에서 했던 것처럼 각 level 내에 index value를 제공하는 simple array list로부터 MultiIndex를 생성할 수 있다.

In [14]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

그것은 각 point의 multiple index value를 제공하는 tuple list로 부터 생성할 수 있다.

In [15]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

심지어 single index의 데카르트 곱(Cartesian product)으로부터 MultiIndex를 생성할 수도 있다.

In [16]:
pd. MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

비슷한 방법으로, levels(각 level에서 사용할 수 있는 index value를 담고 있는 list의 list)와 labels(이 lable을 참조하는 list의 list)를 전달함으로써 그 내부(indernal) encoding을 사용해 직접 MultiIndex를 생성할 수도 있다.

In [17]:
pd.MultiIndex(levels = [['a', 'b'], [1, 2]],
             labels = [[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

Series나 DataFrame을 생성할 때 index argument(인수)로 이 object를 기존 Series나 DataFrame의 reindex method에 전달할 수 있다.

## 2) MultiIndex 레벨 이름(label names)

MultiIndex의 레벨에 이름을 지정하는 것이 편리할 때가 있다. 위의 MultiIndex constructors에 names argument를 전달하거나 생성 후에 index의 names 속성을 설정해 이름을 지정할 수 있다.

In [18]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

관련(involved) datasets가 많으면 이것이 다양한 index value의 의미를 파악할 수 있는 유용한 방식이 될 수 있다.

## 3) 열(column)의 MultiIndex

DataFrame에서 raw와 column은 완전히 대칭적이며 raw가 index의 여러 level을 가질 수 있듯이 열도 여러 level을 가질 수 있다. 다음의 가상 의료 data를 생각해보자.

In [19]:
# hierarchical index and column

index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                  names = ['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                    names = ['subject', 'type'])

# mock some data

data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37


# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,39.0,37.0,53.0,36.2,41.0,36.3
2013,2,40.0,35.4,28.0,37.6,18.0,37.0
2014,1,26.0,36.7,31.0,37.5,29.0,35.7
2014,2,20.0,36.5,28.0,35.1,23.0,37.1


이 code를 통해 row와 column 모두에 대한 multi-indexing이 어떤 경우에 매우 유용하게 쓰이는지 알 수 있다. 이것은 기본적으로 four-dimensional data로, 여기서 dimensions는 대상(object), 측정 유형(type), 연도(year), 방문 횟수(visit)다. 이것이 있으면 예를 들어 사람 이름으로 최상위 raw의 index를 지정하고 그 사람의 정보를 포함하는 전체 DataFrame을 가져올 수 있다.

In [20]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,53.0,36.2
2013,2,28.0,37.6
2014,1,31.0,37.5
2014,2,28.0,35.1


많은 대상(many subjects, 사람, 국가, 도시 등)에 대해 여러 회에 걸쳐 multiple label이 지정된 측정치(measurements)를 포함하는 복잡한 record의 경우, hierarchical raw와 column을 사용하는 것이 매우 편리할 수 있다.


# 3. MultiIndex Indexing 및 Slicing

MultiIndex의 indexing과 slicing은 직관적으로 설계됐으며, index를 추가된 dimension으로 생각하면 이해하기가 쉽다. 먼저 indexing multiply indexed Series를 살펴본 다음, multiply-indexed DataFrame을 살펴보자. 


## 1) 다중 인덱스를 가진(Multiply indexed) Series

앞에서 본 multiply index를 가진 미국 주별 인구수 Series를 생각해 보자.

In [21]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

여러 용어(terms)로 indexing해서 single 요소에 접근할 수 있다.

In [22]:
pop['California', 2000]

33871648

MultiIndex는 부분 인덱싱(partial indexing)이나 index label 중 하나만 indexing하는 것도 지원한다. 그 결과 더 낮은 수준의 index를 유지하는 다른 Series를 얻게 된다.

In [23]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

MultiIndex가 sorted 돼 있다면 partial slicing도 가능하다.

In [24]:
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

index가 sorted 돼 있다면 첫 번째 index에 empty slice를 전달함으로써 더 낮은 level에서 partial indexing을 수행할 수 있다.

In [25]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

123쪽 'data indexing과 selection'에서 논의했던 다른 유형의 data indexing과 selection 역시 적용할 수 있다. 예를 들면, boolean mask를 이용해 data를 selection할 수 있다. 

In [26]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

fancy Indexing을 이용한 selection도 가능하다.

In [27]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

## 2) Multiply indexed DataFrame

multiply indexed DataFrame도 비슷한 방식(manner)으로 동작한다. 앞에서 만든 의료 DataFrame을 생각해보자.

In [28]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,39.0,37.0,53.0,36.2,41.0,36.3
2013,2,40.0,35.4,28.0,37.6,18.0,37.0
2014,1,26.0,36.7,31.0,37.5,29.0,35.7
2014,2,20.0,36.5,28.0,35.1,23.0,37.1


column은 DataFrame의 기본요소이며, multiply indexed Series에서 사용된 syntax에 columns이 apply된다는 사실을 기억하라. 예를 들어 Guido의 심장박동 수 data를 간단한 operation으로 가져올 수 있다.

In [29]:
health_data['Guido', 'HR']

year  visit
2013  1        53.0
      2        28.0
2014  1        31.0
      2        28.0
Name: (Guido, HR), dtype: float64

또한 single-index의 경우와 마찬가지로 123쪽 'data indexing과 selection'에서 소개했던 loc, iloc, ix indexer를 사용할 수도 있다. 예를 들면 다음과 같다.

In [30]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,39.0,37.0
2013,2,40.0,35.4


이 indexer는 기반이 되는 two-dimensional data를 array처럼 보여주지만 loc이나 iloc에서 개별 index는 multiple index의 tuple로 전달될 수 있다. 예를 들면 다음과 같다.

In [31]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        39.0
      2        40.0
2014  1        26.0
      2        20.0
Name: (Bob, HR), dtype: float64

이 index tuple 내에서 slice로 작업하는 것은 그다지 편리하지 않다. tuple 내에 slice를 create하려고 하면 syntax error가 발생할 것이다. 

In [32]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: invalid syntax (<ipython-input-32-8e3cc151e316>, line 1)

python built-in 함수인 slice()를 사용해 원하는 slice를 명시적으로 만들면 이러한 error를 피할 수 있지만 Pandas가 정확히 이러한 상황을 고려해 제공하는 IndexSlice object를 사용하는 것이 더 낫다. 예를 들면 다음과 같다.

In [33]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,39.0,53.0,41.0
2014,1,26.0,31.0,29.0


mutiply indexed Series와 DataFrame의 data와 interact하는 방법은 많이 있으며 이 책에서 다루는 많은 도구처럼 그것들을 실제로 사용해보면서 익숙해지는 것이 가장 좋다.


# 4. Rearranging Multi-Indiced(다중 인덱스 재정렬하기)

multiply indexed data를 사용할 때 가장 중요한 점의 하나는 data를 효과적으로 transform(변환) 하는 방법을 아는 것이다. datasets의 모든 정보를 보존하지만 다양한 operation의 목적에 따라 그 정보를 rearrange 하는 operation이 많이 있다. 이에 대한 간단한 예제로 이미 stack()과 unstack() method를 살펴봤지만 그것 말고도 hierarchical index와 columns 사이에서 data를 rearrangement를 세밀하게 조정할 수 있는 방법은 많이 있으며, 지금부터 그 이야기를 하려고 한다.


## 1) Sorted and unsorted indices

앞에서 간략하게 경고했지만 여기서 한 번 더 강조하건대, 대부분의 MultiIndex slicing operation은 index가 sort되어 있지 않으면 실패한다. 이제 좀 더 자세하게 살펴보자.

우선 index가 사전적으로(lexicographically) sort돼 있지 않은 simple multiply indexed data를 create 해보자.

In [35]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index = index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.898025
      2      0.694400
c     1      0.315477
      2      0.193304
b     1      0.774020
      2      0.678067
dtype: float64

이 index를 partial slice 하려고 하면 error가 발생한다.

In [37]:
try : 
    data['a' : 'b']
except KeyError as e :
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


error massasge에서 명확하게 드러나지는 않지만, 이것은 MultiIndex가 sort되지 않아서 나타나는 결과다. 여러 가지 이유로 partial slice와 그와 유사한 다른 operation을 수행하려면 MultiIndex의 level이 sort된(즉, 사전적(lexicographical)) order(순서)를 가져야 한다. Pandas는 이러한 유형의 sorting을 수행하는 다수의 편리한 routine을 제공한다. DataFrame의 sort_index ()와 sortlevel() method를 예로 들 수 있다. 여기서는 가장 간단한 sort_index()를 사용한다.

In [39]:
data = data.sort_index()
data

char  int
a     1      0.898025
      2      0.694400
b     1      0.774020
      2      0.678067
c     1      0.315477
      2      0.193304
dtype: float64

이 방식으로 sort된 index를 사용하면 partial slicing은 예상대로 동작한다. 

In [41]:
data['a' : 'b']

char  int
a     1      0.898025
      2      0.694400
b     1      0.774020
      2      0.678067
dtype: float64

## 2. Stacking and unstacking indices(인덱스 스태킹 및 언스태킹)

앞에서 간단히 살펴봤듯이 data를 sort된 multi-index에서 가장 simple한 two-dimensional representation(표현)으로 변경할 수 있으며, 이때 optionally(선택적으로) 사용할 level을 지정할 수 있다.

In [42]:
pop.unstack(level = 0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [43]:
pop.unstack(level = 1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [45]:
pop.unstack(level = 0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


unstack()의 opposite는 stack()으로, 원래 series로 recover하는 데 사용할 수 있다.

In [47]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

## 3) Index setting and resetting(인덱스 설정 및 재설정)

hirearchical data를 rearrange하는 또 다른 방법은 index label을 column으로 바꾸는 것으로, reset_index method로 수행할 수 있다. 인구 dictionary pop에서 이 method를 호출하면 전에 index에 있던 정보를 그대로 유지하는 state와 year column을 가진 DataFrame을 얻게 된다. 명확성을 위해 optionally(선택적으로) column에 representation할 data의 이름을 지정할 수 있다. 

In [48]:
pop_flat = pop.reset_index(name = 'population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


종종 실제 data로 작업하다 보면 위와 같은 raw input data(원시입력데이터)를 만나기도 하는데, 이때 column value로부터 MultiIndex를 build(만드는)하는 것이 유용하다. 이 작업은 multiply indexed DataFrame를 반환하는 DataFrame의 set_index method로 할 수 있다.

In [49]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


실제로 이러한 type(유형)의 reindexing은 현실세계의 datasets를 만났을 때 매우 유용한 활용 pattern의 하나다.


# 5. Data Aggregations on Multi-Indices(다중 인덱스에서 데이터 집계)

앞에서 Pandas가 기본적으로 mean(), sum(), max()와 같은 data aggregation method를 제공하는 것을 봤다. hierarchical indexed data의 경우, data의 어느 subset(부분집합)에 대해 aggregate를 수행할 것인지 제어하는 level parameter를 aggregation method에 전달할 수 있다.

앞에서 다룬 의료 data로 돌아가 보자.

In [50]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,39.0,37.0,53.0,36.2,41.0,36.3
2013,2,40.0,35.4,28.0,37.6,18.0,37.0
2014,1,26.0,36.7,31.0,37.5,29.0,35.7
2014,2,20.0,36.5,28.0,35.1,23.0,37.1


해마다 두번의 방문에서 얻은 measurement(측정치)의 average(평균)을 구하려고 한다. 이 작업은 explore(탐색)하고자 하는 index level의 name을 지정해서 할 수 있는데, 이 경우에는 연도다.

In [51]:
data_mean = health_data.mean(level = 'year')
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,39.5,36.2,40.5,36.9,29.5,36.65
2014,23.0,36.6,29.5,36.3,26.0,36.4


더 나아가 axis keyword를 사용해 column의 level간 average를 취할 수도 있다.

In [52]:
data_mean.mean(axis = 1, level = 'type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,36.5,36.583333
2014,26.166667,36.433333


이처럼 code 두 줄로 모든 대상이 매년 모든 방문에서 measured(측정한) 평균 심박 수와 체온을 알아낼 수 있었다. 이 구문은 사실상 185쪽 'Aggregation and Grouping'(집계와 분류)에서 다룰 GroupBy 기능을 손쉽게 구현한 것이다. 이것은 예제에 불과하지만, 많은 현실 세계의 dataset도 유사한 hierarchical structure(계층적 구조)를 가진다.


# 6. Aside : Panel Data

Pandas에는 아직 논의하지 않은 몇 가지 다른 fundamental data structure가 있다. pd.Panel과 pd.Panel4D object가 여기에 해당한다. 이것들은 각각 one-dimensional Series와 two-dimensional DataFrame structure를 three-dimensional과 four-dimensional으로 generalization(일반화)한 structure라고 생각하면 된다. Series와 DataFrame의 indexing과 manipulation(가공방식)에 익숙해지면, Panel과 Panel4D는 비교적 사용하기 쉽다.(relatively straightforward to use.) 특히 123쪽 'data indexing과 selection'에서 논의했던 ix, loc, iloc indexer는 이 higher-dimensional structure로 쉽게 확장될 수 있다.

대체로 higher-dimensional data를 representation할 때는 multi-indexing이 더 유용하고 개념적으로 더 간단하기 때문에 여기서 panel structure에 대해 더 다루지는 않겠다. 게다가 근본적으로 panel data는 dense(조밀한) data를 표현하지만 multi-indexing은 대부분의 현실 세계 datasets에는 매우 비효율적일 수 있다. 하지만 간혹 특수한 application에서 이 structure가 유용할 수도 있다. Panel과 Panel4D structure에 대해 더 알고 싶으면 252쪽 'Furtuer Resources'(추가자료)에 나열된 references(참고자료)를 참고한다.