# 课程介绍    
  多层索引是Pandas中一个比较核心的概念，允许你在一个轴向上拥有多个索引层级，许多同学不能处理复杂的数据，最大的问题在于没法灵活的处理多层索引。
![多层pandas](./picture/1.png)   
看到这两个图的时候，我们不由自主的发出一声感叹：“这不就是对数据进行多列分组的结果吗？”。没错，groupby方法就可以生成带有多层级索引的结果。

本节我们将一起学习多层索引的相关内容
![本节知识点](./picture/7-2.png)
我们根据下图学生期中和期末的成绩，演示Series多层索引的创建方法。
![本节知识点](./picture/7-3.png)

In [37]:
'''
多层索引的创建方法
'''
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
print(s)

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64


In [6]:
'''
由于成绩的数据比较多，我们将使用numpy的随机数方法构建成绩数据。
numpy会在后续的课程中讲解，现在大家先体验一下，如何使用numpy构建实验数据
np.random.randint(0,100,size=(6,3))是使用numpy中的随机模块random中，
生成随机整数方法randint，里面的参数size是指定生成6行3列的数据，并且每个数字的范围在0到100之间。
'''
import numpy as np
data = np.random.randint(0, 100, size=(6, 3))
print(type(data))
print(data)

<class 'numpy.ndarray'>
[[ 2  7 55]
 [88 35 12]
 [36 66 91]
 [57 56  6]
 [47 22 75]
 [10 75 30]]


In [9]:
#根据series的创建爱你方法创建多层索引的dataframe
import pandas as pd
import numpy as np

data = np.random.randint(0, 100, size=(6, 3))
df = pd.DataFrame(data, index=[['张三','张三','李四','李四','王五','王五'],
                             ['期中','期末','期中','期末','期中','期末']],
                      columns=['Java','Web','Python'])
print(df)

       Java  Web  Python
张三 期中    68   49       5
   期末    61    0      13
李四 期中    29   55      59
   期末    96   77      60
王五 期中    80   67      25
   期末    10   10      73


In [15]:
'''
我们虽然成功的创建了DataFrame的多层索引，但是有一个问题，在设置索引的时候会有很多重复的索引值，如何才能简化索引的写法呢？
Pandas为了解决这个问题，提供了一个创建多层索引的构造方法。
pd.MultiIndex.from_product()构建索引的方式，对我们这些平凡的人来说会好理解一些。
首先，确定每一层索引的值什么，然后以列表的形势传给from_product()方法即可
'''
import numpy as np

data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)
print("-----------------------------------------------")
'''
我们成功创建了DataFrame的多层索引，而且你会发现，我们只需要关注每层索引的值都有哪些就可以了。
【混世宝典】[names,exam]列表中的位置不同，产生的索引也会不同。
第一：from_product([exam,names])会将列表中第一个元素作为最外层索引，依次类推；
第二：列表中元素值的对应关系，如下图
'''
index = pd.MultiIndex.from_product([exam,names])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)


       Java  Web  Python
张三 期中    27   32      49
   期末    67   42      17
李四 期中    28   58       9
   期末    69   68      75
王五 期中    79   82      65
   期末    22   58      23
-----------------------------------------------
       Java  Web  Python
期中 张三    27   32      49
   李四    67   42      17
   王五    28   58       9
期末 张三    69   68      75
   李四    79   82      65
   王五    22   58      23


![picture](./picture/7.2.png)

In [22]:
'''
可以直接使用[]的方式取最外面的一个层级s['张三']
注意：[]取值方式，不可直接使用最外层以外的其他层级，例如：s['期末']
使用[]的方式,获取某个数据:s['张三','期末']
还有什么需要注意的吗？
注意：['张三','期末']他们的顺序不能变。剥洋葱原则，从外到内一层一层的剥。
使用[]的切片，获取数据s[:,'期中']
分别复制上面的代码到代码框内运行，观察结果：
'''
import pandas as pd
s = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],
                                   ['期中','期末','期中','期末','期中','期末']])
print(s)
print(s["张三", "期中"])
print(s[:,"期中"])
'''
大家是否还记得loc和iloc的使用呢？
loc使用的是标签索引，iloc使用的是位置索引。
loc的使用方式和[]的方式基本一样：
但是，iloc的取值并不会受多层索引影响，只会根据数据的位置索引进行取值
'''
print(s.loc['张三'])
print(s.loc['张三','期中'])
print(s.loc[:,'期中'])
print(s.iloc[0])

张三  期中    1
    期末    2
李四  期中    3
    期末    4
王五  期中    5
    期末    6
dtype: int64
1
张三    1
李四    3
王五    5
dtype: int64
期中    1
期末    2
dtype: int64
1
张三    1
李四    3
王五    5
dtype: int64
1


In [25]:
import pandas as pd
import numpy as np
#size参数是指定生成6行3列的数组
data = np.random.randint(0,100,size=(6,3))
names = ['张三','李四','王五']
exam = ['期中','期末']
index = pd.MultiIndex.from_product([names,exam])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)
print(df.loc["张三", "期中"])
print(df.loc["张三"].loc["期中"])
print(df.loc[("张三", "期中")])

       Java  Web  Python
张三 期中    22   97      57
   期末    12   27       9
李四 期中    99   47      56
   期末    93   52      77
王五 期中    42   22      18
   期末    75    0      21
Java      22
Web       97
Python    57
Name: (张三, 期中), dtype: int32
Java      22
Web       97
Python    57
Name: 期中, dtype: int32
Java      22
Web       97
Python    57
Name: (张三, 期中), dtype: int32


# 多层索引的排序

In [35]:
'''
有时候，我们需要将分组或创建出来的多层索引数据，根据索引值进行排序。
现在我们就需要明确默认是如何排序的？还有就是如何指定某一个索引列进行排序？
为方便大家理解，我们先创建一个简单的多层索引数据
'''
import pandas as pd
data = np.random.randint(0,100,size=(9,3))
key1 = ['b','c','a']
key2 = [2,1,3]
index = pd.MultiIndex.from_product([key1,key2])
df = pd.DataFrame(data,index=index,columns=['Java','Web','Python'])
print(df)
print("多层索引排序")
'''
DataFrame按行索引排序的方法是sort_index()，接下来我们看一下sort_index()是如何对多层索引进行排序。
df.sort_index()
'''
print(df.sort_index())
print("-----------------")
'''
df.sort_index()中的level参数可以指定是否按照指定的层级进行排列，第一层级索引值为0，第二层级索引值为1。
当level=0时，会根据第一层索引值进行降序排序
'''
df.sort_index(level=1,ascending=True)

     Java  Web  Python
b 2    71   40      62
  1    73   78      22
  3    76   66      18
c 2    39   44       7
  1    56   52      26
  3    61   45      81
a 2    66   45       8
  1    11   39      83
  3    19   74      46
多层索引排序
     Java  Web  Python
a 1    11   39      83
  2    66   45       8
  3    19   74      46
b 1    73   78      22
  2    71   40      62
  3    76   66      18
c 1    56   52      26
  2    39   44       7
  3    61   45      81
-----------------


Unnamed: 0,Unnamed: 1,Java,Web,Python
a,1,11,39,83
b,1,73,78,22
c,1,56,52,26
a,2,66,45,8
b,2,71,40,62
c,2,39,44,7
a,3,19,74,46
b,3,76,66,18
c,3,61,45,81


# 本章总结
![本章总结](./picture/12.png)

# 练习
## 题目要求
本次练习我们使用2017中国城市分级名单数据，共有300多条电影数据，每条数据包含7列信息，文件的路径为/data/course_data/data_analysis/china_city_list.xlsx，

## 数据详情

City: 城市中文名称缩写
City_FullName: 城市中文全称
City_EN: 城市英文名称
Province: 省中文名
Province_EN：省英文名
Region：区域划分（西、南、东、北
Tier：城市等级（一线、二线、三线、四线、五线）
题目讲解
根据上面的数据，计算出我国南部所有城市中一线城市的占比是多少？
## 书写代码

In [40]:
import pandas as pd
data = pd.read_excel('/data/course_data/data_analysis/china_city_list.xlsx')

# 根据区域和等级分组
groups = data.groupby(by=['Region','Tier'])

# 计算出所有区域内各个等级城市的数量
groups_count = groups.count()

# 计算出南部所有等级城市的总数量
south_all_count = groups_count.loc['South']['City'].sum()

# 南部所有城市中一线城市的数量
south_t1_count = groups_count.loc['South','Tier 1']['City']

# 计算一线城市的占比
accounted = south_t1_count/south_all_count

print('南部所有城市中一线城市的占比是{}'.format("%.2f%%" % (accounted * 100)))

FileNotFoundError: [Errno 2] No such file or directory: '/data/course_data/data_analysis/china_city_list.xlsx'

# 练习
## 题目要求
本次练习我们继续使用2017中国城市分级名单数据，路径为/data/course_data/data_analysis/china_city_list.xlsx
## 题目讲解
计算出我国各个区域内不同等级城市的占比是多少？
## 书写代码

In [41]:
import pandas as pd
data = pd.read_excel('/data/course_data/data_analysis/china_city_list.xlsx')
groups = data.groupby(by=['Region','Tier'])

# 计算出所有区域内各个等级城市的数量
groups_count = groups.count()
# 获取分组后的索引
index_list = groups_count.index.tolist()

for value_tuple in index_list:
    # 区域内所有等级城市的总数量
    all_count = groups_count.loc[value_tuple[0]]['City'].sum()

    # 区域内各个城市等级的数量
    t_count = groups_count.loc[value_tuple[0],value_tuple[1]]['City']
    
    accounted = "%.2f%%" % (t_count/all_count * 100)
    
    print('{}所有城市中{}城市的占比是{}'.format(value_tuple[0],value_tuple[1],accounted))

FileNotFoundError: [Errno 2] No such file or directory: '/data/course_data/data_analysis/china_city_list.xlsx'