In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

In [6]:
def print_err(e):
    import re
    m = re.search(r"'(.+)'", str(e.__class__))
    print("{}: {}".format(m.group(1), e))

# Pandas私房手册：MultiIndex对象和层级索引

## 创建`MultiIndex`对象

### 手动创建`MultiIndex`对象

主要的创建函数有`pd.MultiIndex.from_array`，`pd.MultiIndex.from_tuple`，`pd.MultiIndex.from_product`（使用笛卡儿积的方式创建`MultiIndex`），`pd.MultiIndex.from_frame`，举个例子：

In [5]:
iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']]
idx = pd.MultiIndex.from_product(iterables, names=['first', 'second'])
idx

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

仔细观察上面的`MultiIndex`，发现`MultiIndex`和`Categorical`对象类似，都有`codes`属性，但是`Index`对象是没有的。`code`属性其实就是将标签（这里就是'bar','baz'等字符串，只要是任何不可变类型均可）映射为整数，这样可以加快计算速度和减少内存。  
接下来创建一个`DataFrame`对象：

In [6]:
df = pd.DataFrame(np.random.randn(3, 8), index=['A', 'B', 'C'], columns=idx)
df

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,-1.228816,0.212074,-0.65338,0.91151,0.046988,0.501156,2.613334,0.74567
B,1.247466,-0.401179,0.919551,0.813612,-0.618763,0.324954,-1.515741,-1.344798
C,-2.219617,-1.795244,-0.1201,1.341115,-1.321647,0.196264,0.594684,-0.101247


除了4个常用的创建函数，还可以通过传递`levels`和`codes`参数，使用`pd.MultiIndex`类本身来创建对象，如下：

In [125]:
idx = pd.MultiIndex(
    levels=[['A', 'B'], ['x', 'y']], codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
DataFrame(np.random.randn(4, 2), index=idx, columns=['col1', 'col2'])

Unnamed: 0,Unnamed: 1,col1,col2
A,x,-1.278159,0.190228
A,y,-1.33511,0.046975
B,x,-1.083874,-1.037287
B,y,-1.061071,-0.02665


### 层级之间的对应关系

有个重要的概念要记在心里就是，层级之间的标签是一一对应的，虽然从显示上看起来每个*first*的标签对应2个*second*的标签，这只是为了看起来更舒服而已，可以通过调整`option`来改变显示，牢记这个概念可以更容易的理解多重索引的选取：

In [126]:
with pd.option_context('display.multi_sparse', False):
    df

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,-1.047095,0.480078,1.417165,-0.569475,0.792182,0.068511,-0.061936,0.782415
B,0.85783,-0.159043,-1.830082,0.263085,-0.548024,0.919636,0.339932,0.090621
C,0.420583,0.218198,-0.956771,-0.369091,-0.16222,-1.614977,0.377788,-2.169142


通过将`MultiIndex`对象转换成`numpy.array`可以清楚的看到这种对应关系：

In [127]:
arr = df.columns.to_numpy()
arr

array([('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'),
       ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')],
      dtype=object)

### 获取指定层级的索引值

有时候我们想获取层级索引指定某一层的所有索引值，可以通过`levels`属性或者`get_value_levels`方法：

In [28]:
df.columns.get_level_values('first')

Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='first')

但是，有时候我们想获取索引中不重复的值，有两种方法，第二种更好，一方面它可以使用索引的名称，第二它不会把索引的值全部读入内存重新扫描，因此更高效：

In [35]:
df.columns.levels[0]
# 0.23版本以后可以使用
df.columns.unique(level='first')

Index(['bar', 'baz', 'foo', 'qux'], dtype='object', name='first')

Index(['bar', 'baz', 'foo', 'qux'], dtype='object', name='first')

### 深入理解`MultiIndex`对象

要把`MultiIndex`对象看成一个整体，定义了以后不会轻易的改变，哪怕是某些标签并没有用到，如下：

In [128]:
df.columns
df[['bar', 'foo']].columns

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           codes=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           codes=[[0, 0, 2, 2], [0, 1, 0, 1]],
           names=['first', 'second'])

这样做是为了避免重新计算级别，从而让切片具有很高的性能。如果只查看使用的级别，用`MultiIndex`对象的`get_level_values`函数，要删除没有使用的级别，用`remove_unsed_levels`函数。

In [129]:
partial_df = df[['bar', 'foo']]
partial_df.columns.get_level_values(0)

Index(['bar', 'bar', 'foo', 'foo'], dtype='object', name='first')

In [130]:
partial_cols = partial_df.columns.remove_unused_levels() # 注意返回一个新的MultiIndex对象，原partial_df的列索引并未发生改变
partial_df.columns = partial_cols # 因此要将新的MultiIndex对象重新赋值给partial_df
partial_df.columns.levels

FrozenList([['bar', 'foo'], ['one', 'two']])

这里要注意的是，只有使用`[]`将标签包括起来，结果的索引才是多层`MutiIndex`索引，否则索引就变成了普通的单层`index`索引：

In [131]:
df['bar'].columns
df[['bar']].columns

Index(['one', 'two'], dtype='object', name='second')

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           codes=[[0, 0], [0, 1]],
           names=['first', 'second'])

## 层级索引的选取

### 层级索引的基本选取

默认可以直接通过多重索引的标签选取数据，和普通的选取类似，可以通过逗号选取不同层级的标签，要注意的是，此时逗号分隔的不是维度，而是同一维度上不同的层级，另外要注意一点，如果索引中包含数字，基本选取这种方式会报`KeyError`错误：

In [132]:
df['bar', 'one']
df[('bar', 'one')]

A   -1.047095
B    0.857830
C    0.420583
Name: (bar, one), dtype: float64

A   -1.047095
B    0.857830
C    0.420583
Name: (bar, one), dtype: float64

注意和列表的区别，元组选取的是不同的层级的标签，而列表选择的是统一层级的标签：

In [133]:
df[['bar', 'baz']]

first,bar,bar,baz,baz
second,one,two,one,two
A,-1.047095,0.480078,1.417165,-0.569475
B,0.85783,-0.159043,-1.830082,0.263085
C,0.420583,0.218198,-0.956771,-0.369091


可以通过嵌套列表和元组实现复杂一些的选取，但是注意，逗号两边的层级要一致，否则会报错：

In [134]:
df[[('bar', 'one'), ('baz', 'two')]]

first,bar,baz
second,one,two
A,-1.047095,-0.569475
B,0.85783,0.263085
C,0.420583,-0.369091


In [135]:
try:
    df[[('bar', 'one'), 'foo']]
except Exception as e:
    print_err(e)

TypeError: Expected tuple, got str


也可以通过链式索引选取数据：

In [136]:
df['bar']['one']

A   -1.047095
B    0.857830
C    0.420583
Name: one, dtype: float64

### 层级索引的选取技巧

#### 层级索引的基本选取

主要使用`loc`和`iloc`进行选取，和单层索引选取类似，只是使用元组对多层级的索引进行选取。如下：

In [137]:
df = df.T
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583
bar,two,0.480078,-0.159043,0.218198
baz,one,1.417165,-1.830082,-0.956771
baz,two,-0.569475,0.263085,-0.369091
foo,one,0.792182,-0.548024,-0.16222
foo,two,0.068511,0.919636,-1.614977
qux,one,-0.061936,0.339932,0.377788
qux,two,0.782415,0.090621,-2.169142


如果是只选取第一层层级的话，可以不加括号，也是一种简写方式，如下：

In [138]:
df.loc['bar']

Unnamed: 0_level_0,A,B,C
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-1.047095,0.85783,0.420583
two,0.480078,-0.159043,0.218198


使用小括号表示选取不同层级的标签：

In [139]:
df.loc[('bar', 'two')]

A    0.480078
B   -0.159043
C    0.218198
Name: (bar, two), dtype: float64

注意：上面的例子的元组可以不加括号，`df.loc['bar', 'two']`也行，另外，逗号后面也可以是不同维度而不是层级，如`df.loc[('bar', 'A')]`，这些都是简化的写法，但是强烈建议不这么使用，多个标签选取的时候，特别容易出错。

In [140]:
df.loc[('bar', 'A')]
df.loc['bar', 'two']
df.loc['bar', 'A']

second
one   -1.047095
two    0.480078
Name: A, dtype: float64

A    0.480078
B   -0.159043
C    0.218198
Name: (bar, two), dtype: float64

second
one   -1.047095
two    0.480078
Name: A, dtype: float64

当一次要选取多个索引，小括号和中括号混用的时候，特别容易出错。看下面的例子，仔细分辨`[]`和`()`的区别：

In [141]:
df.loc[[('bar', 'one'), ('foo', 'two')]]
df.loc[(['bar', 'foo'], ['one']), ] # 或者df.loc[(['bar', 'foo'], ['one']), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583
foo,two,0.068511,0.919636,-1.614977


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583
foo,one,0.792182,-0.548024,-0.16222


在`pandas`的索引选取中，两种括号代表的意义是不同的，有个小技巧可以帮助记忆：`[]`里包含的一定是同级别标签，`()`里包含的一定是不同级别的标签。可以想象`[]`中每一个元素是沿着水平方向选取的，`()`中每一个元素是沿着垂直方向选取的，因此第一个例子的意义是：选取标签是`('bar', 'one')`和`('foo', 'two')`的所有列，第二个例子的意义是，选取`level0`标签是`bar`和`foo`，`level1`标签是`one`的所有列。
  
注意：第二个例子，一定要在小括号外面加逗号或者如注释的那样写，表明小括号里面的第二个元素代表的是层级而不是维度，还记得前面说过小括号第二个元素可以是其它维度标签吗（这里就是列的标签，如'A','B'）？如果不加逗号，pandas会认为`one`是列标签，而不是`level1`层级，因此会报错。
  
官方的教程举了个`Series`的例子，由于`Series`不存在列，所以会认为是层级而不是维度，因此不用加逗号：

In [142]:
s = pd.Series([1, 2, 3, 4, 5, 6], index=pd.MultiIndex.from_product([["A", "B"], ["c", "d", "e"]]))
s
s.loc[(['A', 'B'], ['c', 'd'])]

A  c    1
   d    2
   e    3
B  c    4
   d    5
   e    6
dtype: int64

A  c    1
   d    2
B  c    4
   d    5
dtype: int64

对于切片，如果还记得前面说的多层索引实际上每一层之间的标签是一一对应，那么多层索引的切片就很好理解了：

In [143]:
df.loc[('baz', 'one'):('foo', 'one')]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,one,1.417165,-1.830082,-0.956771
baz,two,-0.569475,0.263085,-0.369091
foo,one,0.792182,-0.548024,-0.16222


#### 利用`Slice`和`IndexSlice`对象进行选取

使用上面的方式进行选取的时候，会有一个小的不便就是当你要选取某一个层级的所有标签的时候，得把所有的标签都列出来，不能直接使用`:`表示全部选取，此时只能利用`slice`对象，使用`slice(None)`表示全部选取，如下：

In [144]:
df.loc[(slice(None), 'two'), :]
# df.loc[(:, 'two'), :] Wrong!此时会报语法错误

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,two,0.480078,-0.159043,0.218198
baz,two,-0.569475,0.263085,-0.369091
foo,two,0.068511,0.919636,-1.614977
qux,two,0.782415,0.090621,-2.169142


`Pandas`提供了一个`IndexSlice`的顶层对象，类似于内置的`slice`对象，但是可以用更加自然的语法进行选取。如下：

In [145]:
idx = pd.IndexSlice
row_idx = idx[['baz', 'foo'], 'two']
col_idx = idx['A', 'B'] # 或者col_idx = idx[['A', 'B']]
df.loc[row_idx, col_idx]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
baz,two,-0.569475,0.263085
foo,two,0.068511,0.919636


`IndexSlice`对象还可以使用布尔型索引进行选取，如下：

In [146]:
mask = df['A'] > 0
row_idx = idx[mask, ['two']]
df.loc[row_idx, :]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,two,0.480078,-0.159043,0.218198
foo,two,0.068511,0.919636,-1.614977
qux,two,0.782415,0.090621,-2.169142


注意：和前面提到的层级维度如果出现混淆的情况下，`IndexSlice`也会报错，如下面的例子，`pandas`无法确定`'two'`到底是属于行索引的层级标签，还是属于列索引的标签，因此出现`KeyError`错误，解决的方法和之前提到的一样，加一个逗号或者明确指定行和列的索引，所以，不管什么情况，都指定行和列的索引吧，这样会避免很多莫名其妙的错误。

In [147]:
idx = pd.IndexSlice
row_idx = idx[['baz', 'foo'], 'two']
try:
    df.loc[row_idx] # df.loc[row_idx, ]或者df.loc[row_dix, :]
except Exception as e:
    print_err(e)

KeyError: 'two'


#### 交叉选取（Cross-section）

`DataFrame`还提供一个`xs`方法，该方法需要一个`level`参数，以便更容易地选择多索引特定级别的数据。就像标题写的，`xs`方法只能交叉选取，即通过`key`和`level`参数提供的标签画十字选取数据，也意味着无法同时选取同一级别的多个标签。如下面的例子，`key`参数只接受字符串和元组，元组必须是不同级别的标签，`level`与`key`要一一对应。如下：

In [148]:
df.xs(('bar', 'one'), level=[0, 1]) # 或者 df.xs(('bor', 'one'), level=('first', 'second'))

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583


另外，`xs`方法还有一个`drop_level`参数表示是否保留选择的级别，默认为`False`，如下，仔细比较不同：

In [149]:
df.xs('bar', level='first', drop_level=False)
df.xs('bar', level='first', drop_level=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583
bar,two,0.480078,-0.159043,0.218198


Unnamed: 0_level_0,A,B,C
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-1.047095,0.85783,0.420583
two,0.480078,-0.159043,0.218198


## `MultiIndex`的排序

使用`sort_index`方法加`level`参数就可以对层级索引进行排序，`level`可以是索引名称，整数（代表层级），列表（包含多个索引层级）。

In [153]:
df.sort_index(level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,-1.047095,0.85783,0.420583
baz,one,1.417165,-1.830082,-0.956771
foo,one,0.792182,-0.548024,-0.16222
qux,one,-0.061936,0.339932,0.377788
bar,two,0.480078,-0.159043,0.218198
baz,two,-0.569475,0.263085,-0.369091
foo,two,0.068511,0.919636,-1.614977
qux,two,0.782415,0.090621,-2.169142


非常重要的一点是，当索引没有排序的时候，也可以工作（即可以通过索引进行选取），但是性能相当低，会显示性能告警，而且此时返回的是数据的副本而不是视图，看如下的例子：

In [155]:
dfm = pd.DataFrame({
    'jim': [0, 0, 1, 1],
    'joe': ['x', 'x', 'z', 'y'],
    'jolie': np.random.rand(4)
})
dfm = dfm.set_index(['jim', 'joe'])
dfm.index
dfm

MultiIndex(levels=[[0, 1], ['x', 'y', 'z']],
           codes=[[0, 0, 1, 1], [0, 0, 2, 1]],
           names=['jim', 'joe'])

Unnamed: 0_level_0,Unnamed: 1_level_0,jolie
jim,joe,Unnamed: 2_level_1
0,x,0.716249
0,x,0.147242
1,z,0.898685
1,y,0.157442


In [156]:
dfm.loc[(1, 'z')]

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,jolie
jim,joe,Unnamed: 2_level_1
1,z,0.898685


由于索引没有排序，出现了性能告警。但是这里可能会有疑问，如上的df的索引是：
```Python
MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           codes=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])
```
其`level1`也是`[0, 1, 0, 1...]`的数组，看起来也没有排序，为什么没有告警呢？层级索引是否排序需要结合所有层级来看，比如标签`one`对应的`code`是`0, 1`的上级标签是`bar`，所有是有序的。而上面的`dfm`的标签`z, y`上级标签都是`1`，对应的`code`是`2, 1`，所以是无序的。可以这样理解：`pandas`是一层一层索引的查找，因此只需要查看每一层的索引是否有序即可，比如针对`dfm.loc[(1, 'z')]`，先在第一层索引查找1，再在返回的标签`z, y`中查找`z`,因此只要每一层的查找范围是有序的即可。

判断索引是否有序很麻烦，因此`pandas`提供了`is_lexsorted()`方法快速判断索引是否是有序的，`lexsort_depth`属性查看有几层级别是有序的，如下：

In [159]:
dfm.index.is_lexsorted()
dfm.index.lexsort_depth

False

1

In [164]:
dfm = dfm.sort_index(level=1)
dfm
dfm.index.is_lexsorted()
dfm.index.lexsort_depth

Unnamed: 0_level_0,Unnamed: 1_level_0,jolie
jim,joe,Unnamed: 2_level_1
0,x,0.716249
0,x,0.147242
1,y,0.157442
1,z,0.898685


True

2

## `MultiIndex`其它需要知道的

### `reindex`和`align`以及聚合函数中的`level`参数

`DataFrame`对象的`reindex`和`align`函数都有一个`level`参数，其对跨级别的广播非常有用，字面上比较难理解，还是看例子：

In [34]:
midx = pd.MultiIndex(
    levels=[['zero', 'one'], ['x', 'y']], codes=[[1, 1, 0, 0], [1, 0, 1, 0]])
df1 = pd.DataFrame(np.random.randn(4, 2), index=midx)
df1

Unnamed: 0,Unnamed: 1,0,1
one,y,0.923391,-1.244713
one,x,0.548283,-0.771356
zero,y,0.556933,-0.361727
zero,x,-1.300191,0.921433


首先直接通过聚合函数中的`level`参数进行聚合，此时就相当于对指定的`level`进行`groupby`聚合：

In [35]:
df2 = df1.mean(level=0)
df2
df3 = df1.groupby(level=0).mean()
df3

Unnamed: 0,0,1
one,0.735837,-1.008034
zero,-0.371629,0.279853


Unnamed: 0,0,1
one,0.735837,-1.008034
zero,-0.371629,0.279853


接下来观察`reindex`中`level`参数的含义，指定`labels`标签为`df1.index`，由于`df1.index`是层级索引，和原来的`index`无法匹配，因此都是`NaN`，此时可以通过指定`level`参数进行匹配，`df2`的`index`会去匹配`df1.index`的`level0`级别的索引，如果匹配到了，值会在`level1`级别的索引上进行广播：

In [36]:
df2.reindex(df1.index)

Unnamed: 0,Unnamed: 1,0,1
one,y,,
one,x,,
zero,y,,
zero,x,,


In [37]:
df2.reindex(df1.index, level=0)

Unnamed: 0,Unnamed: 1,0,1
one,y,0.735837,-1.008034
one,x,0.735837,-1.008034
zero,y,-0.371629,0.279853
zero,x,-0.371629,0.279853


再看`align`方法，其中`level`含义和`reindex`是一样的，关于`align`方法用法参考官方文档，简单来说就是将两个`DataFrame`对象的轴对齐，返回对齐后的结果，在此例中，`df2_align`与`reindex`的结果一致：

In [40]:
df1_align, df2_align = df1.align(df2, level=0)
df2_align

Unnamed: 0,Unnamed: 1,0,1
one,y,0.735837,-1.008034
one,x,0.735837,-1.008034
zero,y,-0.371629,0.279853
zero,x,-0.371629,0.279853


### 使用`swaplevel`交换层级

从字面上就很好理解，即交换索引的层级：

In [56]:
df1.swaplevel(0, 1, axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,0.923391,-1.244713
x,one,0.548283,-0.771356
y,zero,0.556933,-0.361727
x,zero,-1.300191,0.921433


还有一个`reorder_levels`方法，该方法泛化了`swaplevel`方法，可以在一步之内排列层次索引级别：

In [57]:
df1.reorder_levels([1, 0], axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,0.923391,-1.244713
x,one,0.548283,-0.771356
y,zero,0.556933,-0.361727
x,zero,-1.300191,0.921433


这里会有一个疑问，它和`swaplevel`有啥区别呢，泛化是啥意思？如果索引只有2层的话，他们之间没啥区别，但是多层的话，`reorder_levels`会更简单：

In [78]:
idx = pd.MultiIndex.from_arrays([[1, 1, 2], [1, 2, 2], [3, 3, 3], [1, 1, 1]])
midf = pd.DataFrame(columns=idx, index=[1, 2])
midf

Unnamed: 0_level_0,1,1,2
Unnamed: 0_level_1,1,2,2
Unnamed: 0_level_2,3,3,3
Unnamed: 0_level_3,1,1,1
1,,,
2,,,


现在要按3,2,1,0的顺序重新排列索引层级，如果用`swaplevel`的话，得这样：

In [79]:
midf.swaplevel(2, 1, axis=1).swaplevel(3, 0, axis=1)

Unnamed: 0_level_0,1,1,1
Unnamed: 0_level_1,3,3,3
Unnamed: 0_level_2,1,2,2
Unnamed: 0_level_3,1,1,2
1,,,
2,,,


用`reorder_levels`就简单多了，可以一步到位：

In [80]:
midf.reorder_levels([3, 2, 1, 0], axis=1)

Unnamed: 0_level_0,1,1,1
Unnamed: 0_level_1,3,3,3
Unnamed: 0_level_2,1,2,2
Unnamed: 0_level_3,1,1,2
1,,,
2,,,


### 重命名多层索引的名称

向`rename`方法中传递字典就可以重命名多层索引的标签：

In [60]:
df1.rename(index={'x': 'z'})

Unnamed: 0,Unnamed: 1,0,1
one,y,0.923391,-1.244713
one,z,0.548283,-0.771356
zero,y,0.556933,-0.361727
zero,z,-1.300191,0.921433


重命名标签使用`rename`，那么重命名层级的名称自然就是`rename_axis`了，如下：

In [61]:
df1.rename_axis(['idx1', 'idx2'], axis=0) # 另一种写法：df1.rename_axis(index=['idx1', 'idx2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
idx1,idx2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,y,0.923391,-1.244713
one,x,0.548283,-0.771356
zero,y,0.556933,-0.361727
zero,x,-1.300191,0.921433
