# pandas层次化索引

In [21]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [22]:
s = Series([11,12,13,14],
           index=[["a","a","b","b"],
                  ["期中","期末","期中","期末"],
                  ["A","B","C","D"]])
s

a  期中  A    11
   期末  B    12
b  期中  C    13
   期末  D    14
dtype: int64

In [23]:
df = DataFrame([20,30,40,50],index=[["a","a","b","b"],["期中","期末","期中","期末"]],
                  columns=[["python"],["大蟒蛇"]]
              )
df

Unnamed: 0_level_0,Unnamed: 1_level_0,python
Unnamed: 0_level_1,Unnamed: 1_level_1,大蟒蛇
a,期中,20
a,期末,30
b,期中,40
b,期末,50


In [14]:
df.index

MultiIndex(levels=[['a', 'b'], ['期中', '期末']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [15]:
s.index

MultiIndex(levels=[['a', 'b'], ['期中', '期末'], ['A', 'B', 'C', 'D']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1], [0, 1, 2, 3]])

### 2) 显示构造pd.MultiIndex

- 使用数组

In [16]:
# 创建一个MultiIndex对象
ind = pd.MultiIndex.from_arrays([["浙江","浙江","江苏","江苏","安徽","安徽","河南","河南"],
                           ["杭州","宁波","南京","苏州","合肥","芜湖","郑州","洛阳"],
                           ["Jack Ma","Mr Wang","王健林","刘强东","马化腾","雷军",
                            "MrFan","MrZhang"]])
ind

MultiIndex(levels=[['安徽', '江苏', '河南', '浙江'], ['南京', '合肥', '宁波', '杭州', '洛阳', '芜湖', '苏州', '郑州'], ['Jack Ma', 'Mr Wang', 'MrFan', 'MrZhang', '刘强东', '王健林', '雷军', '马化腾']],
           labels=[[3, 3, 1, 1, 0, 0, 2, 2], [3, 2, 0, 6, 1, 5, 7, 4], [0, 1, 5, 4, 7, 6, 2, 3]])

In [18]:
df = DataFrame(np.random.randint(0,150,size=(8,2)),columns=["财富","颜值"])
df.index = ind # 把层次化的索引添加给df
df 

Unnamed: 0,Unnamed: 1,Unnamed: 2,财富,颜值
浙江,杭州,Jack Ma,139,126
浙江,宁波,Mr Wang,110,10
江苏,南京,王健林,64,90
江苏,苏州,刘强东,144,67
安徽,合肥,马化腾,124,141
安徽,芜湖,雷军,17,139
河南,郑州,MrFan,63,148
河南,洛阳,MrZhang,24,31


- 使用tuple

In [24]:
ind = pd.MultiIndex.from_tuples([("浙江","杭州"),("浙江","温州"),("广东","东莞"),
                                 ("上海","浦东"),("北京","海淀")])
ind

MultiIndex(levels=[['上海', '北京', '广东', '浙江'], ['东莞', '杭州', '浦东', '海淀', '温州']],
           labels=[[3, 3, 2, 0, 1], [1, 4, 0, 2, 3]])

In [26]:
df1 = DataFrame(np.random.randint(0,150,size=(5,2)),columns=["GDP","温度"])
df1.index = ind
df1

Unnamed: 0,Unnamed: 1,GDP,温度
浙江,杭州,77,131
浙江,温州,144,63
广东,东莞,30,22
上海,浦东,142,96
北京,海淀,101,117


- 使用product

    最简单，推荐使用

In [29]:
ind = pd.MultiIndex.from_product([list("abcd"),["A","B","C"],["老王","小王"]])
ind

MultiIndex(levels=[['a', 'b', 'c', 'd'], ['A', 'B', 'C'], ['小王', '老王']],
           labels=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], [0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2], [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]])

In [30]:
df2 = DataFrame(np.random.randint(0,100,size=24),columns=["距离"],index=ind)
df2

Unnamed: 0,Unnamed: 1,Unnamed: 2,距离
a,A,老王,27
a,A,小王,27
a,B,老王,97
a,B,小王,30
a,C,老王,93
a,C,小王,65
b,A,老王,95
b,A,小王,65
b,B,老王,85
b,B,小王,75


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [31]:
ind

MultiIndex(levels=[['a', 'b', 'c', 'd'], ['A', 'B', 'C'], ['小王', '老王']],
           labels=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], [0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2, 0, 0, 1, 1, 2, 2], [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]])

In [36]:
df3 = DataFrame(np.random.randint(0,100,size=(10,24)),index=list("abcdefghij"),
                columns=ind)
df3

Unnamed: 0_level_0,a,a,a,a,a,a,b,b,b,b,...,c,c,c,c,d,d,d,d,d,d
Unnamed: 0_level_1,A,A,B,B,C,C,A,A,B,B,...,B,B,C,C,A,A,B,B,C,C
Unnamed: 0_level_2,老王,小王,老王,小王,老王,小王,老王,小王,老王,小王,...,老王,小王,老王,小王,老王,小王,老王,小王,老王,小王
a,92,22,72,66,56,93,56,13,19,1,...,78,77,4,22,58,15,41,90,28,40
b,22,76,86,46,78,57,75,14,38,64,...,68,82,62,43,72,39,4,33,36,38
c,54,78,37,28,1,60,42,0,73,45,...,69,44,28,92,49,82,2,63,13,30
d,6,89,62,93,94,74,29,22,57,53,...,64,44,13,23,37,69,39,53,58,72
e,43,23,15,6,0,30,7,33,94,9,...,7,89,28,39,89,6,96,13,84,64
f,74,48,49,69,53,66,42,21,82,39,...,28,25,28,21,91,57,35,6,8,66
g,17,63,28,0,62,14,5,85,21,57,...,38,54,94,37,93,4,90,46,76,94
h,93,35,42,71,67,44,50,72,32,50,...,73,31,33,3,71,66,78,43,43,61
i,66,84,94,20,7,51,46,98,3,97,...,5,94,51,43,24,50,88,83,79,32
j,99,56,73,71,32,32,12,8,16,76,...,75,45,75,74,43,19,2,49,0,27


## 3、多层次索引的查找与切片

### 1）对Series

In [37]:
s

a  期中  A    11
   期末  B    12
b  期中  C    13
   期末  D    14
dtype: int64

In [40]:
s.loc["a","期中","A"]

11

In [41]:
s.loc["B"] # B没有被暴露在最外层

KeyError: 'the label [B] is not in the [index]'

对于多层索引，在查找的时候必须一层一层的向里找，不能直接查找内层索引

In [45]:
s.loc["a":"b","期中":"期末","A":"B"]

a  期中  A    11
   期末  B    12
dtype: int64

In [51]:
s.iloc[0:3] # index无论设置多少层对隐式索引没有影响

a  期中  A    11
   期末  B    12
b  期中  C    13
dtype: int64

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

In [53]:
df1

Unnamed: 0,Unnamed: 1,GDP,温度
浙江,杭州,77,131
浙江,温州,144,63
广东,东莞,30,22
上海,浦东,142,96
北京,海淀,101,117


In [60]:
df1.loc[["浙江",""]]

UnsortedIndexError: 'MultiIndex Slicing requires the index to be fully lexsorted tuple len (1), lexsort depth (0)'

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================