# 课程介绍    
  多层索引是Pandas中一个比较核心的概念，允许你在一个轴向上拥有多个索引层级，许多同学不能处理复杂的数据，最大的问题在于没法灵活的处理多层索引。
![多层pandas](./picture/7-1.png)
看到这两个图的时候，我们不由自主的发出一声感叹：“这不就是对数据进行多列分组的结果吗？”。没错，groupby方法就可以生成带有多层级索引的结果。

本节我们将一起学习多层索引的相关内容
![本节知识点](./picture/7-2.png)
我们根据下图学生期中和期末的成绩，演示Series多层索引的创建方法。
![本节知识点](./picture/7-3.png)

In [1]:
'''
多层索引的创建方法
'''
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
print(s)

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64


从图中数据可以看出，张三那一列是数据的第一层索引，期中那一列是数据的第二层索引，而第二层索引值是和数据一一对应的。  
但是，我们在创建的时候发现，也需要将名字和考试阶段一一对应，才可以。  
![](./picture/7-4.png)
现在，我们将数据增加几个科目的成绩，演示DataFrame多层索引的创建方法。  
![](./picture/7-5.png)
由于成绩的数据比较多，我们将使用numpy的随机数方法构建成绩数据。  
numpy会在后续的课程中讲解，现在大家先体验一下，如何使用numpy构建实验数据：  
import numpy as np是导入numpy并改名为np。  
np.random.randint(0,100,size=(6,3))是使用numpy中的随机模块random中，生成随机整数方法randint，里面的参数size是指定生成6行3列的数据，并且每个数字的范围在0到100之间。  
现在，我们知道了实验数据如何创建，下面我们根据Series的创建方法创建多层索引的DataFrame。  

In [2]:
import numpy as np
data = np.random.randint(0, 100, size=(6, 3))
print(type(data))
print(data)

<class 'numpy.ndarray'>
[[46 58 91]
 [23 75 78]
 [58 49 32]
 [42  2 15]
 [67 20 56]
 [38 32 14]]


In [3]:
#根据series的创建爱你方法创建多层索引的dataframe
import pandas as pd
import numpy as np

data = np.random.randint(0, 100, size=(6, 3))
df = pd.DataFrame(data, index=[['张三','张三','李四','李四','王五','王五'],
                             ['期中','期末','期中','期末','期中','期末']],
                      columns=['Java','Web','Python'])
print(df)

       Java  Web  Python
张三 期中     6   23      65
   期末    94    2      99
李四 期中    42   26      72
   期末    44   62      92
王五 期中    91   28       7
   期末    51   52      66


我们虽然成功的创建了DataFrame的多层索引，但是有一个问题，在设置索引的时候会有很多重复的索引值，如何才能简化索引的写法呢？  
Pandas为了解决这个问题，提供了一个创建多层索引的构造方法。  
pd.MultiIndex.from_product()构建索引的方式，对我们这些平凡的人来说会好理解一些。  
首先，确定每一层索引的值什么，然后以列表的形势传给from_product()方法即可  
我们成功创建了DataFrame的多层索引，而且你会发现，我们只需要关注每层索引的值都有哪些就可以了。  
【混世宝典】[names,exam]列表中的位置不同，产生的索引也会不同。  

In [5]:
import numpy as np

data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)

       Java  Web  Python
张三 期中    88   38      98
   期末    65   74      42
李四 期中    78   35      51
   期末     6    5      73
王五 期中     6   70      36
   期末    60   21      88


In [6]:
import pandas as pd
import numpy as np

data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([exam,names])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)

       Java  Web  Python
期中 张三    19   34      88
   李四    52   41      48
   王五    73   21      76
期末 张三    25   92      54
   李四    86    0      78
   王五    97   54      36


经过上面的两段代码，你是否已经找到了规律，下面我们一起总结一下：
第一：from_product([exam,names])会将列表中第一个元素作为最外层索引，依次类推；  
第二：列表中元素值的对应关系，如下图：  
![picture](./picture/7-6.png)
## 多层索引的取值
创建不是我们的目的，我们的目的是如何从多层索引中获取到我们想要的数据。 
可以直接使用[]的方式取最外面的一个层级s['张三']  
注意：[]取值方式，不可直接使用最外层以外的其他层级，例如：s['期末']  
使用[]的方式,获取某个数据:s['张三','期末']  
还有什么需要注意的吗？  
注意：['张三','期末']他们的顺序不能变。剥洋葱原则，从外到内一层一层的剥。  
使用[]的切片，获取数据s[:,'期中']  
分别复制上面的代码到代码框内运行，观察结果：  
大家是否还记得loc和iloc的使用呢？  
loc使用的是标签索引，iloc使用的是位置索引。  
loc的使用方式和[]的方式基本一样：  
但是，iloc的取值并不会受多层索引影响，只会根据数据的位置索引进行取值  

In [7]:
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
print(s)
print(s["张三", "期中"])
print(s[:,"期中"])
print("-------------------------------")
print(s.loc['张三'])
print(s.loc['张三','期中'])
print(s.loc[:,'期中'])
print(s.iloc[0])

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64
1
张三    1
李四    3
王五    5
dtype: int64
-------------------------------
期中    1
期末    2
dtype: int64
1
张三    1
李四    3
王五    5
dtype: int64
1


但是，iloc的取值并不会受多层索引影响，只会根据数据的位置索引进行取值。  
![](./picture/7-7.png)
下面的三种方式都可以获取张三期中各科成绩。  
注意：DataFrame中对行索引的时候和Series有一个同样的注意点，就是无法直接对二级索引直接进行索引，必须让二级索引变成一级索引后才能对其进行索引！  

In [25]:
import pandas as pd
import numpy as np
#size参数是指定生成6行3列的数组
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)
print(df.loc["张三", "期中"])
print(df.loc["张三"].loc["期中"])
print(df.loc[("张三", "期中")])

       Java  Web  Python
张三 期中    22   97      57
   期末    12   27       9
李四 期中    99   47      56
   期末    93   52      77
王五 期中    42   22      18
   期末    75    0      21
Java      22
Web       97
Python    57
Name: (张三, 期中), dtype: int32
Java      22
Web       97
Python    57
Name: 期中, dtype: int32
Java      22
Web       97
Python    57
Name: (张三, 期中), dtype: int32


# 多层索引的排序
有时候，我们需要将分组或创建出来的多层索引数据，根据索引值进行排序。  
现在我们就需要明确默认是如何排序的？还有就是如何指定某一个索引列进行排序？  
为方便大家理解，我们先创建一个简单的多层索引数据  
创建的数据效果如下图：  
![](./picture/7-8.png)
DataFrame按行索引排序的方法是sort_index()，接下来我们看一下sort_index()是如何对多层索引进行排序。  
默认状态下的排序：  
代码片段 
df.sort_index()  
为了方便大家理解，默认状态下的排序结果图如下：  
![](./picture/7-9.png)
通过结果可以看出每一层都会根据索引值进行相应的升序排列。  
df.sort_index()中的level参数可以指定是否按照指定的层级进行排列，第一层级索引值为0，第二层级索引值为1。  
当level=0时，会根据第一层索引值进行降序排序：  
```
df.sort_index(level=0,ascending=False)
```
![](./picture/7-10.png)
通过结果可以看出每一层都会根据第一层索引值进行相应的降序排列。  
当level=1时，会根据第二层索引值进行降序排序：  
代码片段  
```
df.sort_index(level=1,ascending=False)
```
![](./picture/7-11.png)
通过结果可以看出数据会根据第二层索引值进行相应的降序排列，如果索引值相同时会根据其他层索引值排列。  
通过上面的几个排序发现，可以通过level设置排序的索引层级，其他层索引也会根据其排序规则进行排序。  

In [8]:
import pandas as pd
data = np.random.randint(0,100,size=(9,3))
key1 = ['b','c','a']
key2 = [2,1,3]
index = pd.MultiIndex.from_product([key1,key2])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)
print("多层索引排序")
'''
DataFrame按行索引排序的方法是sort_index()，接下来我们看一下sort_index()是如何对多层索引进行排序。
df.sort_index()
'''
print(df.sort_index())
print("-----------------")
'''
df.sort_index()中的level参数可以指定是否按照指定的层级进行排列，第一层级索引值为0，第二层级索引值为1。
当level=0时，会根据第一层索引值进行降序排序
'''
df.sort_index(level=1,ascending=True)

     Java  Web  Python
b 2    68    9       6
  1    94   81      40
  3    18   85      35
c 2     2   54      66
  1    84   48      28
  3     2   69      84
a 2    13   80      98
  1     3   70      80
  3    21   80      74
多层索引排序
     Java  Web  Python
a 1     3   70      80
  2    13   80      98
  3    21   80      74
b 1    94   81      40
  2    68    9       6
  3    18   85      35
c 1    84   48      28
  2     2   54      66
  3     2   69      84
-----------------


Unnamed: 0,Unnamed: 1,Java,Web,Python
a,1,3,70,80
b,1,94,81,40
c,1,84,48,28
a,2,13,80,98
b,2,68,9,6
c,2,2,54,66
a,3,21,80,74
b,3,18,85,35
c,3,2,69,84


# 本章总结
今天的内容就告一段落了，本节课我们学习了多层索引的创建、多层索引的取值（重点）以及多层索引的排序。  
最后，我们来总结一下绘制这些图像的知识点：  
![本章总结](./picture/7-12.png)

# 练习
## 题目要求
本次练习我们使用2017中国城市分级名单数据，共有300多条电影数据，每条数据包含7列信息，文件的路径为/data/china_city_list.xlsx，

## 数据详情

City: 城市中文名称缩写
City_FullName: 城市中文全称
City_EN: 城市英文名称
Province: 省中文名
Province_EN：省英文名
Region：区域划分（西、南、东、北
Tier：城市等级（一线、二线、三线、四线、五线）
题目讲解
根据上面的数据，计算出我国南部所有城市中一线城市的占比是多少？
## 书写代码

In [13]:
import pandas as pd
data = pd.read_excel('./data/china_city_list.xlsx')

# 根据区域和等级分组
groups = data.groupby(by=['Region','Tier'])

# 计算出所有区域内各个等级城市的数量
groups_count = groups.count()

# 计算出南部所有等级城市的总数量
south_all_count = groups_count.loc['South']['City'].sum()

# 南部所有城市中一线城市的数量
south_t1_count = groups_count.loc['South','Tier 1']['City']

# 计算一线城市的占比
accounted = south_t1_count/south_all_count

print('南部所有城市中一线城市的占比是{}'.format("%.2f%%" % (accounted * 100)))

南部所有城市中一线城市的占比是6.35%


# 练习
## 题目要求
本次练习我们继续使用2017中国城市分级名单数据，路径为/data/china_city_list.xlsx
## 题目讲解
计算出我国各个区域内不同等级城市的占比是多少？
## 书写代码

In [11]:
import pandas as pd
data = pd.read_excel('./data/china_city_list.xlsx')
groups = data.groupby(by=['Region','Tier'])

# 计算出所有区域内各个等级城市的数量
groups_count = groups.count()
# 获取分组后的索引
index_list = groups_count.index.tolist()

for value_tuple in index_list:
    # 区域内所有等级城市的总数量
    all_count = groups_count.loc[value_tuple[0]]['City'].sum()

    # 区域内各个城市等级的数量
    t_count = groups_count.loc[value_tuple[0],value_tuple[1]]['City']
    
    accounted = "%.2f%%" % (t_count/all_count * 100)
    
    print('{}所有城市中{}城市的占比是{}'.format(value_tuple[0],value_tuple[1],accounted))

East所有城市中 Tier 1城市的占比是9.80%
East所有城市中 Tier 2城市的占比是23.53%
East所有城市中 Tier 3城市的占比是35.29%
East所有城市中 Tier 5城市的占比是31.37%
North所有城市中 Tier 1城市的占比是4.72%
North所有城市中 Tier 2城市的占比是5.66%
North所有城市中 Tier 3城市的占比是23.58%
North所有城市中 Tier 5城市的占比是66.04%
South所有城市中 Tier 1城市的占比是6.35%
South所有城市中 Tier 2城市的占比是11.11%
South所有城市中 Tier 3城市的占比是23.81%
South所有城市中 Tier 5城市的占比是58.73%
West所有城市中 Tier 1城市的占比是2.40%
West所有城市中 Tier 2城市的占比是3.20%
West所有城市中 Tier 3城市的占比是8.00%
West所有城市中 Tier 5城市的占比是86.40%
