# pandas层次化索引

## 1. 创建多层行索引

In [3]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [10]:
# Series创建多层索引
index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'],[1,2,3,4,5,1,2,3,4,5]]
s = Series(data=np.random.randint(0,150,size=10),index=index)
s

一班  1    130
    2    129
    3     35
    4      1
    5     68
二班  1    122
    2    129
    3    138
    4     74
    5    138
dtype: int32

In [7]:
# DataFrame创建多层索引
data = np.random.randint(0,150,size=(10,6))
columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
df = DataFrame(data=data,columns=columns)
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
0,13,16,146,6,76,100
1,86,4,129,82,84,115
2,82,148,5,11,148,131
3,118,102,39,109,97,62
4,149,15,33,65,69,124
5,58,50,27,136,107,101
6,25,46,126,130,116,88
7,138,22,108,11,89,47
8,84,98,13,87,90,4
9,20,135,37,17,18,76


In [9]:
data = np.random.randint(0,150,size=(10,6))
columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'],[1,2,3,4,5,1,2,3,4,5]]
df = DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,104,14,48,119,143,23
一班,2,111,75,100,62,33,112
一班,3,32,81,106,141,115,143
一班,4,114,21,34,1,4,18
一班,5,110,5,128,47,24,109
二班,1,54,32,25,114,142,14
二班,2,41,36,145,131,15,97
二班,3,4,117,107,19,117,144
二班,4,90,94,117,84,53,108
二班,5,49,136,51,57,50,111


### 2) 显示构造pd.MultiIndex

- 使用数组

In [11]:
data = np.random.randint(0,150,size=(10,6))
#  pd.MultiIndex.from_arrays里面也放一个数组
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'],[1,2,3,4,5,1,2,3,4,5]]
df = DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,148,4,17,79,13,59
一班,2,26,14,85,142,89,143
一班,3,121,21,4,33,137,37
一班,4,69,21,134,24,1,148
一班,5,144,0,87,120,99,136
二班,1,82,127,143,7,31,75
二班,2,73,32,91,47,51,146
二班,3,27,7,142,58,30,77
二班,4,36,93,130,148,137,67
二班,5,126,75,70,123,38,38


- 使用tuple

In [12]:
data = np.random.randint(0,150,size=(10,6))
#  pd.MultiIndex.from_arrays里面也放一个数组
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
# index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'],[1,2,3,4,5,1,2,3,4,5]]
# pd.MultiIndex.from_tuples里面放一个列表包含元组
index = pd.MultiIndex.from_tuples([('一班',1),('一班',2),('一班',3),('一班',4),('一班',5),('二班',1),('二班',2),('二班',3),('二班',4),('二班',5)])
df = DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,27,68,70,121,0,47
一班,2,93,102,103,140,30,59
一班,3,22,118,72,7,14,77
一班,4,56,56,84,61,74,126
一班,5,19,59,24,58,75,117
二班,1,19,7,26,88,55,127
二班,2,82,78,54,134,82,124
二班,3,47,122,104,73,124,32
二班,4,96,97,142,15,11,128
二班,5,133,52,108,138,14,146


- 使用product

    最简单，推荐使用

In [19]:
data = np.random.randint(0,150,size=(10,6))
# pd.MultiIndex.from_product里面放2个列表
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
index = pd.MultiIndex.from_product([['一班','二班'],np.arange(1,6)])
df = DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,17,75,135,100,117,123
一班,2,102,15,95,131,43,128
一班,3,148,140,115,141,128,141
一班,4,0,102,74,69,94,117
一班,5,15,23,91,1,76,92
二班,1,3,36,31,67,43,60
二班,2,129,68,82,2,36,11
二班,3,37,114,54,56,119,99
二班,4,46,108,110,149,57,119
二班,5,121,58,11,105,63,149


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

In [16]:
# pd.MultiIndex.from_product 方法创建
data = np.random.randint(0,150,size=(2,6))
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
index = ['张三','李四']
soc = DataFrame(data=data,columns=columns,index=index)
soc

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,6,65,23,125,13,74
李四,146,0,102,126,39,6


In [17]:
# pd.MultiIndex.from_arrays 方法创建多列索引
# pd.MultiIndex.from_tuples 方法创建多行索引
data = np.random.randint(0,150,size=(6,6))
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
index = pd.MultiIndex.from_tuples([('一班','张三'),('一班','李四'),('一班','王五'),('二班','赵六'),('二班','钱七'),('二班','王八')])
soc = DataFrame(data=data,columns=columns,index=index)
soc

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,39,49,17,146,116,111
一班,李四,43,138,31,122,35,135
一班,王五,2,64,114,32,119,38
二班,赵六,3,117,66,100,138,6
二班,钱七,120,69,54,107,12,60
二班,王八,94,15,136,99,54,142


In [18]:
# 隐式创建,其实就是多层列表
data = np.random.randint(0,150,size=(6,6))
columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
index = [['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','钱七','王八']]
soc = DataFrame(data=data,columns=columns,index=index)
soc

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,131,71,45,87,52,103
一班,李四,129,64,133,140,96,143
一班,王五,15,5,100,56,60,77
二班,赵六,23,125,134,35,112,56
二班,钱七,47,75,36,35,111,103
二班,王八,40,49,105,39,106,114


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

In [20]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,17,75,135,100,117,123
一班,2,102,15,95,131,43,128
一班,3,148,140,115,141,128,141
一班,4,0,102,74,69,94,117
一班,5,15,23,91,1,76,92
二班,1,3,36,31,67,43,60
二班,2,129,68,82,2,36,11
二班,3,37,114,54,56,119,99
二班,4,46,108,110,149,57,119
二班,5,121,58,11,105,63,149


In [21]:
s

一班  1    130
    2    129
    3     35
    4      1
    5     68
二班  1    122
    2    129
    3    138
    4     74
    5    138
dtype: int32

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用.loc中括号索引和切片。

(1) 索引

In [22]:
s['一班']

1    130
2    129
3     35
4      1
5     68
dtype: int32

In [23]:
s.loc['一班']

1    130
2    129
3     35
4      1
5     68
dtype: int32

In [24]:
s.loc['一班',2]

129

In [25]:
s.loc['一班'].loc[2]

129

In [26]:
s.loc['一班'][2]

129

(2) 切片

In [27]:
s.loc['一班',2:4]

一班  2    129
    3     35
    4      1
dtype: int32

In [28]:
s.loc['一班'][2:4]

3    35
4     1
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [29]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,17,75,135,100,117,123
一班,2,102,15,95,131,43,128
一班,3,148,140,115,141,128,141
一班,4,0,102,74,69,94,117
一班,5,15,23,91,1,76,92
二班,1,3,36,31,67,43,60
二班,2,129,68,82,2,36,11
二班,3,37,114,54,56,119,99
二班,4,46,108,110,149,57,119
二班,5,121,58,11,105,63,149


行多级索引的索引和切片操作

In [30]:
# 列 切片
df['期中']

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,1,17,75,135
一班,2,102,15,95
一班,3,148,140,115
一班,4,0,102,74
一班,5,15,23,91
二班,1,3,36,31
二班,2,129,68,82
二班,3,37,114,54
二班,4,46,108,110
二班,5,121,58,11


In [34]:
# 列  切片
df['期中','语文']

一班  2    102
    3    148
Name: (期中, 语文), dtype: int32

列多级索引的索引和切片操作

In [33]:
# 行
df.loc['一班'].loc[1:3]

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
1,17,75,135,100,117,123
2,102,15,95,131,43,128
3,148,140,115,141,128,141


(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [35]:
soc

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,131,71,45,87,52,103
一班,李四,129,64,133,140,96,143
一班,王五,15,5,100,56,60,77
二班,赵六,23,125,134,35,112,56
二班,钱七,47,75,36,35,111,103
二班,王八,40,49,105,39,106,114


In [40]:
soc['期中','英语'].loc['一班'].loc['张三'] = 0
soc

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,131,71,0,87,52,103
一班,李四,129,64,133,140,96,143
一班,王五,15,5,100,56,60,77
二班,赵六,23,125,134,35,112,56
二班,钱七,47,75,36,35,111,103
二班,王八,40,49,105,39,106,114


## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [41]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,17,75,135,100,117,123
一班,2,102,15,95,131,43,128
一班,3,148,140,115,141,128,141
一班,4,0,102,74,69,94,117
一班,5,15,23,91,1,76,92
二班,1,3,36,31,67,43,60
二班,2,129,68,82,2,36,11
二班,3,37,114,54,56,119,99
二班,4,46,108,110,149,57,119
二班,5,121,58,11,105,63,149


In [44]:
# stack 改变列   0 ,1,2,3...为列的索引
df.stack(level=0)

Unnamed: 0,Unnamed: 1,Unnamed: 2,数学,英语,语文
一班,1,期中,75,135,17
一班,1,期末,117,123,100
一班,2,期中,15,95,102
一班,2,期末,43,128,131
一班,3,期中,140,115,148
一班,3,期末,128,141,141
一班,4,期中,102,74,0
一班,4,期末,94,117,69
一班,5,期中,23,91,15
一班,5,期末,76,92,1


In [45]:
df.stack(level=1)

Unnamed: 0,Unnamed: 1,Unnamed: 2,期中,期末
一班,1,数学,75,117
一班,1,英语,135,123
一班,1,语文,17,100
一班,2,数学,15,43
一班,2,英语,95,128
一班,2,语文,102,131
一班,3,数学,140,128
一班,3,英语,115,141
一班,3,语文,148,141
一班,4,数学,102,94


小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

In [47]:
# unstack  改变行
df.unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,数学,数学,英语,英语,语文,语文,数学,数学,英语,英语
Unnamed: 0_level_2,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班
1,17,3,75,36,135,31,100,67,117,43,123,60
2,102,129,15,68,95,82,131,2,43,36,128,11
3,148,37,140,114,115,54,141,56,128,119,141,99
4,0,46,102,108,74,110,69,149,94,57,117,119
5,15,121,23,58,91,11,1,105,76,63,92,149


In [48]:
df.unstack(level=1)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语
Unnamed: 0_level_2,1,2,3,4,5,1,2,3,4,5,1,2,3,4,5,1,2,3,4,5,1,2,3,4,5,1,2,3,4,5
一班,17,102,148,0,15,75,15,140,102,23,135,95,115,74,91,100,131,141,69,1,117,43,128,94,76,123,128,141,117,92
二班,3,129,37,46,121,36,68,114,108,58,31,82,54,110,11,67,2,56,149,105,43,36,119,57,63,60,11,99,119,149


============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [49]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,17,75,135,100,117,123
一班,2,102,15,95,131,43,128
一班,3,148,140,115,141,128,141
一班,4,0,102,74,69,94,117
一班,5,15,23,91,1,76,92
二班,1,3,36,31,67,43,60
二班,2,129,68,82,2,36,11
二班,3,37,114,54,56,119,99
二班,4,46,108,110,149,57,119
二班,5,121,58,11,105,63,149


所谓的聚合操作：平均数，方差，最大值，最小值……

In [53]:
df.sum(axis=0)  # 把每一行的都加起来了

期中  语文     618
    数学     739
    英语     798
期末  语文     821
    数学     776
    英语    1039
dtype: int64

In [54]:
df.sum(axis=0,level=1)   # 把二班的成绩和一班的成绩以行相加

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
1,20,111,166,167,160,183
2,231,83,177,133,79,139
3,185,254,169,197,247,240
4,46,210,184,218,151,236
5,136,81,102,106,139,241


============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================