#  数据规整：聚合、合并和重塑

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。

## 层次化索引

层次化索引（hierarchical indexing）是 pandas 的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 3, 1, 2, 2, 3]])

In [3]:
data

a  1   -0.146282
   2    1.016400
   3    0.118590
b  1    0.602999
   3   -0.746775
c  1   -1.061281
   2   -0.874007
d  2   -1.769279
   3   -0.240776
dtype: float64

对于一个层次化索引的对象，可以使用所谓的部分索引，使用它选取数据子集的操作更简单。

In [4]:
data['a']

1   -0.146282
2    1.016400
3    0.118590
dtype: float64

In [5]:
data['a':'c']

a  1   -0.146282
   2    1.016400
   3    0.118590
b  1    0.602999
   3   -0.746775
c  1   -1.061281
   2   -0.874007
dtype: float64

层次化索引在数据重塑和基于分组的操作（如透视表生成）中扮演着重要的角色。例如，可以通过unstack方法将这段数据重新安排到一个DataFrame中。

In [6]:
data

a  1   -0.146282
   2    1.016400
   3    0.118590
b  1    0.602999
   3   -0.746775
c  1   -1.061281
   2   -0.874007
d  2   -1.769279
   3   -0.240776
dtype: float64

In [7]:
data.unstack()

Unnamed: 0,1,2,3
a,-0.146282,1.0164,0.11859
b,0.602999,,-0.746775
c,-1.061281,-0.874007,
d,,-1.769279,-0.240776


对于一个DataFrame，每条轴都可以有分层索引。

In [8]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])

In [9]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11
