In [1]:
import numpy as np
import pandas as pd

# 层次化索引

层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。抽象点说，它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子：创建一个Series，并用一个由列表或数组组成的列表作为索引：

In [2]:
data = pd.Series(np.random.randn(9),
                  index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                           [1, 2, 3, 1, 3, 1, 2, 2, 3]])
data

a  1    0.637071
   2   -0.711103
   3    1.191503
b  1    0.589184
   3   -0.626080
c  1    0.753602
   2   -1.908328
d  2   -1.326805
   3   -0.991645
dtype: float64

看到的结果是经过美化的带有MultiIndex索引的Series的格式。索引之间的“间隔”表示“直接使用上面的标签”：

In [3]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

对一个层次化索引的对象，可以使用部分索引

In [4]:
data['b']

1    0.589184
3   -0.626080
dtype: float64

In [5]:
data['b':'c']

b  1    0.589184
   3   -0.626080
c  1    0.753602
   2   -1.908328
dtype: float64

In [6]:
data.loc[['b', 'd']]

b  1    0.589184
   3   -0.626080
d  2   -1.326805
   3   -0.991645
dtype: float64

有时甚至还可以在“内层”中进行选取：

In [7]:
data.loc[:, 2]

a   -0.711103
c   -1.908328
d   -1.326805
dtype: float64

层次化索引在数据重塑和基于分组的操作（如透视表生成）中扮演着重要的角色。例如，可以通过unstack方法将这段数据重新安排到一个DataFrame中：

In [8]:
data.unstack()

Unnamed: 0,1,2,3
a,0.637071,-0.711103,1.191503
b,0.589184,,-0.62608
c,0.753602,-1.908328,
d,,-1.326805,-0.991645
