# 多层索引的创建

## Series多层索引

In [18]:
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
s

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64

In [19]:
# 从图中数据可以看出：
# 张三那一列是数据的第一层索引，
# 期中那一列是数据的第二层索引，而第二层索引值是和数据一一对应的。

## DataFrame多层索引

In [None]:
现在，我们将数据增加几个科目的成绩，演示DataFrame多层索引的创建方法。

由于成绩的数据比较多，我们将使用`numpy`的随机数方法构建成绩数据。

In [20]:
import numpy as np
data = np.random.randint(0,100,size=(6,3))
# `np.random.randint(0,100,size=(6,3))`是使用`numpy`中的随机模块`random`中，生成随机整数方法`randint`，
# 里面的参数size是指定生成6行3列的数据，并且每个数字的范围在0到100之间。

data

array([[19, 24, 61],
       [12, 12,  9],
       [91, 59, 27],
       [93, 61,  4],
       [39, 95,  1],
       [30, 63, 87]])

In [None]:
我们知道了实验数据如何创建，下面我们根据Series的创建方法创建多层索引的DataFrame。

In [21]:
import pandas as pd
data = np.random.randint(0,100,size=(6,3))
df = pd.DataFrame(data,index=[['张三','张三','李四','李四','王五','王五'],
                             ['期中','期末','期中','期末','期中','期末']],
                      columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
张三,期中,41,16,88
张三,期末,34,44,19
李四,期中,61,97,45
李四,期末,76,45,88
王五,期中,47,27,81
王五,期末,99,1,76


Pandas为了解决这个问题，提供了一个创建多层索引的构造方法。

`pd.MultiIndex.from_product()`构建索引的方式，对我们这些平凡的人来说会好理解一些。

In [22]:
import pandas as pd
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
张三,期中,58,19,90
张三,期末,49,34,90
李四,期中,31,29,59
李四,期末,5,89,43
王五,期中,42,97,12
王五,期末,98,68,15


我们成功创建了DataFrame的多层索引，而且你会发现，我们只需要关注每层索引的值都有哪些就可以了。

：`[names,exam]`列表中的位置不同，产生的索引也会不同。

In [23]:
import pandas as pd
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([exam,names])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
期中,张三,72,91,63
期中,李四,73,97,60
期中,王五,63,16,46
期末,张三,95,43,65
期末,李四,7,25,62
期末,王五,11,64,91


# 多层索引的取值

## 多层级Series的取值

In [24]:
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
s

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64

In [25]:
# 可以直接使用[]行索引值  的方式取最外面的一个层级

s['张三']

期中    1
期末    2
dtype: int64

**注意**：[]取值方式，不可直接使用最外层以外的其他层级，例如：s['期末']

In [26]:
s['张三','期末']  # **注意**：['张三','期末']他们的顺序不能变。剥洋葱原则，从外到内一层一层的剥。

2

In [27]:
# 使用[]的切片，获取数据

s[:,'期中']

张三    1
李四    3
王五    5
dtype: int64

大家是否还记得`loc`和`iloc`的使用呢？
```
loc[]行标签索引筛选
iloc[]航位置索引筛选
```

`loc`使用的是标签索引，`iloc`使用的是位置索引。

`loc`的使用方式和[]的方式基本一样：

In [29]:
# s.loc['张三']
# s.loc['张三','期中']
s.loc[:,'期中']

张三    1
李四    3
王五    5
dtype: int64

In [30]:
# 但是，`iloc`的取值并不会受多层索引印象，只会根据数据的位置索引进行取值。

import pandas as pd
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([exam,names])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
期中,张三,46,53,7
期中,李四,39,52,4
期中,王五,3,90,97
期末,张三,36,86,39
期末,李四,59,8,13
期末,王五,68,41,37


In [31]:
# 如上图所示，0~5分别为数据的位置索引
s.iloc[0]

1

## DataFrame的取值

In [32]:
import pandas as pd
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
张三,期中,71,90,9
张三,期末,22,48,40
李四,期中,6,42,86
李四,期末,4,16,59
王五,期中,81,11,41
王五,期末,63,75,68


In [None]:
在对多层索引DataFrame的取值是，我们推荐使用loc()函数。

同时对一二级索引进行检索:

In [33]:
df.loc['张三','期中']
df.loc['张三'].loc['期中']
df.loc[('张三','期中'),:]

Java      71
Web       90
Python     9
Name: (张三, 期中), dtype: int64

**注意**：DataFrame中对行索引的时候和Series有一个同样的注意点，
就是无法直接对二级索引直接进行索引，必须让二级索引变成一级索引后才能对其进行索引！

## 多层索引的排序

In [None]:
有时候，我们需要将分组或创建出来的多层索引数据，根据索引值进行排序。

现在我们就需要明确默认是如何排序的？还有就是如何指定某一个索引列进行排序？

为方便大家理解，我们先创建一个简单的多层索引数据：

In [36]:
import pandas as pd
data = np.random.randint(0,100,size=(9,3))
key1 = ['b','c','a']
key2 = [2,1,3]
index = pd.MultiIndex.from_product([key1,key2])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
df

Unnamed: 0,Unnamed: 1,Java,Web,Python
b,2,40,52,67
b,1,86,85,80
b,3,78,30,47
c,2,30,69,61
c,1,2,41,84
c,3,66,14,71
a,2,39,64,48
a,1,4,70,7
a,3,24,41,48


DataFrame按行索引排序的方法是`sort_index()`，接下来我们看一下`sort_index()`是如何对多层索引进行排序。

In [37]:
df.sort_index()   # 每一层都会根据索引值进行相应的升序排列

Unnamed: 0,Unnamed: 1,Java,Web,Python
a,1,4,70,7
a,2,39,64,48
a,3,24,41,48
b,1,86,85,80
b,2,40,52,67
b,3,78,30,47
c,1,2,41,84
c,2,30,69,61
c,3,66,14,71


每一层都会根据索引值进行相应的升序排列

`df.sort_index()`中的`level`参数可以指定是否按照指定的层级进行排列，第一层级索引值为0，第二层级索引值为1。

当`level=0`时，会根据第一层索引值进行降序排序：

In [38]:
df.sort_index(level=0,ascending=False)

Unnamed: 0,Unnamed: 1,Java,Web,Python
c,3,66,14,71
c,2,30,69,61
c,1,2,41,84
b,3,78,30,47
b,2,40,52,67
b,1,86,85,80
a,3,24,41,48
a,2,39,64,48
a,1,4,70,7


每一层都会根据第一层索引值进行相应的降序排列。

当`level=1`时，会根据第二层索引值进行降序排序：

In [40]:
df.sort_index(level=1,ascending=False)

Unnamed: 0,Unnamed: 1,Java,Web,Python
c,3,66,14,71
b,3,78,30,47
a,3,24,41,48
c,2,30,69,61
b,2,40,52,67
a,2,39,64,48
c,1,2,41,84
b,1,86,85,80
a,1,4,70,7


通过结果可以看出数据会根据第二层索引值进行相应的降序排列，如果索引值相同时会根据其他层索引值排列。

通过上面的几个排序发现，可以通过level设置排序的索引层级，其他层索引也会根据其排序规则进行排序。