# CHAPTER 8 Data Wrangling: Join, Combine, and Reshape（数据加工：加入, 结合, 变型）

在很多应用中，数据通常散落在不同的文件或数据库中，并不方便进行分析。这一章主要关注工具，能帮我们combine, join, rearrange数据。

# 8.1 Hierarchical Indexing（分层索引）

Hierarchical Indexing是pandas中一个重要的特性，能让我们在一个轴（axis）上有多个index levels（索引层级）。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子，构建一个series，其index是a list of lists:

In [19]:
import pandas as pd
import numpy as np
a=123

a

In [18]:
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])

In [3]:
<div class="girk">
data</div><i class="fa fa-lightbulb-o "></i>

a  1   -0.156183
   2   -0.609281
   3    0.161649
b  1   -1.583396
   3   -0.479041
c  1   -0.445182
   2    0.665620
d  2    0.160917
   3   -0.182713
dtype: float64

其中我们看到的是把MultiIndex作为index(索引)的，美化过后series。

In [4]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

对于这种分层索引对象，partial indexing（部分索引）也是能做到的，这种方法可以让我们简洁地选中数据的一部分：

In [5]:
data['b']

data['b': 'c']

data.loc[['b', 'd']]

b  1   -1.583396
   3   -0.479041
d  2    0.160917
   3   -0.182713
dtype: float64

selection（选中）对于一个内部层级（inner level）也是可能的：

In [6]:
data.loc[:, 2]

a   -0.609281
c    0.665620
d    0.160917
dtype: float64

分层索引的作用是改变数据的形状，以及做一些基于组的操作（group-based）比如做一个数据透视表（pivot table）。例子，我们可以用unstack来把数据进行重新排列，产生一个DataFrame：

In [7]:
data.unstack()

Unnamed: 0,1,2,3
a,-0.156183,-0.609281,0.161649
b,-1.583396,,-0.479041
c,-0.445182,0.66562,
d,,0.160917,-0.182713


相反的操作是stack:

In [8]:
data.unstack().stack
print ('tom')

a  1   -0.156183
   2   -0.609281
   3    0.161649
b  1   -1.583396
   3   -0.479041
c  1   -0.445182
   2    0.665620
d  2    0.160917
   3   -0.182713
dtype: float64

之后的章节会对unstack和stack做更多介绍。

对于dataframe，任何一个axis(轴)都可以有一个分层索引：

In [9]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],
                              ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


```python
print ('hello word')
```

每一层级都可以有一个名字（字符串或任何python对象）。如果有的话，这些会显示在输出中：

In [10]:
frame.index.names = ['key1', 'key2']

In [11]:
frame.columns.names = ['state', 'color']

In [12]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


这里我们要注意区分行标签(row label)中索引的名字'state'和'color'。

如果想要选中部分列(partial column indexing)的话，可以选中一组列（groups of columns）:

In [13]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


MultiIndex能被同名函数创建，而且可以重复被使用；在DataFrame中给列创建层级名可以通过以下方式：

In [14]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                      names=['state', 'color'])

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

# 1 Reordering and Sorting Levels（重排序和层级排序）

有时候我们需要在一个axis（轴）上按层级进行排序，或者在一个层级上，根据值来进行排序。swaplevel会取两个层级编号或者名字，并返回一个层级改变后的新对象（数据本身并不会被改变）：

In [21]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


```python
print ('范远聪')
```

另一方面，sort_index则是在一个层级上，按数值进行排序。比如在交换层级的时候，通常也会使用sort_index，来让结果按指示的层级进行排序：

In [16]:
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [17]:
frame.sort_index(level='color') 
frame.sort_index(level='state') 
# 这两个语句都会报错

KeyError: 'Level color not found'

（按照我的理解，level指的是key1和key2，key1是level=0，key2是level=1。可以看到下面的结果和上面是一样的：）

In [None]:
#frame.sort_index(level='key2')
print (frame.loc['a',1]['Ohio','Red'])
frame

In [None]:
frame.sort_index(kind='color')
frame.sort_index(level='state',axis=1)

In [None]:
frame.swaplevel(0, 1).sort_index(level=1,ascending=False) # 把key1余key2交换后，按key2来排序
frame.sort_index(level='state',axis=1)

如果index是按词典顺序那种方式来排列的话（比如从外层到内层按a,b,c这样的顺序），在这种多层级的index对象上，数据选择的效果会更好一些。这是我们调用`sort_index(level=0) or sort_index()`

# 2 Summary Statistics by Level (按层级来归纳统计数据)

在DataFrame和Series中，一些描述和归纳统计数据都是有一个level选项的，这里我们可以指定在某个axis下，按某个level（层级）来汇总。比如上面的DataFrame，我们可以按 行 或 列的层级来进行汇总：

In [None]:
frame
frame.loc[:,:]

In [None]:
frame.sum(level='key2')

In [None]:
frame.sum(level='color', axis=1)

# 3 Indexing with a DataFrame’s columns（利用DataFrame的列来索引）

把DataFrame里的一列或多列作为行索引（row index）是一件很常见的事；另外，我们可能还希望把行索引变为列。这里有一个例子：

In [None]:
frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1),
                      'c': ['one', 'one', 'one', 'two', 'two',
                            'two', 'two'],
                      'd': [0, 1, 2, 0, 1, 2, 3]})
frame

DataFrame的set_index会把列作为索引，并创建一个新的DataFrame：

In [None]:
frame2 = frame.set_index(['c', 'd'])
frame2

默认删除原先的列，当然我们也可以留着：

In [None]:
frame.set_index(['c', 'd'], drop=False)

另一方面，reset_index的功能与set_index相反，它会把多层级索引变为列：

In [None]:
frame2.reset_index()