# pandas层次化索引

## 1. 创建多层行索引

In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [4]:
columns = [['期中', '期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
data = np.random.randint(0,150,size=(10,6))
# index = [['一班', 1],['一班', 1],['一班', 1],['一班', 1],['一班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1]]
index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)]
df = DataFrame(data=data,columns=columns, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,83,23,23,41,85,16
一班,1,82,143,63,69,51,12
一班,2,142,21,4,19,52,124
一班,3,63,99,89,106,30,8
一班,4,142,126,51,111,42,83
二班,5,89,47,139,131,133,115
二班,6,76,34,30,67,15,38
二班,7,116,93,81,45,74,76
二班,8,83,21,64,83,40,1
二班,9,99,79,83,48,42,68


- Series也可以创建多层索引

In [5]:
index = [['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)]
s = Series(data=np.random.randint(150,size=10),index=index)
s

一班  0    127
    1    129
    2     15
    3    148
    4    112
二班  5     91
    6     59
    7     80
    8    130
    9    140
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [7]:
columns = pd.MultiIndex.from_arrays([['期中', '期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
data = np.random.randint(0,150,size=(10,6))
# index = [['一班', 1],['一班', 1],['一班', 1],['一班', 1],['一班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1]]
index = pd.MultiIndex.from_arrays([['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)])
df = DataFrame(data=data,columns=columns, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,119,8,81,109,117,30
一班,1,5,35,149,47,114,31
一班,2,128,60,148,55,96,101
一班,3,65,92,94,147,145,72
一班,4,48,108,74,50,48,86
二班,5,81,85,93,92,57,10
二班,6,52,67,83,76,104,59
二班,7,125,23,57,103,27,22
二班,8,7,39,79,114,12,90
二班,9,30,140,20,71,0,42


- 使用tuple

In [10]:
columns = [['期中', '期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
data = np.random.randint(0,150,size=(10,6))
# index = [['一班', 1],['一班', 1],['一班', 1],['一班', 1],['一班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1]]
# index = pd.MultiIndex.from_arrays([['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)])
index = pd.MultiIndex.from_tuples([('一班', 1),('一班', 2),('一班', 3),('一班', 4),('一班', 5),('二班', 6),('二班', 7),('二班', 8),('二班', 9),('二班', 10)])
df = DataFrame(data=data,columns=columns, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,1,147,10,49,41,120,45
一班,2,35,134,120,125,90,31
一班,3,133,93,80,49,56,68
一班,4,65,137,147,1,134,33
一班,5,2,5,111,16,51,108
二班,6,89,90,81,90,66,79
二班,7,87,125,124,88,32,49
二班,8,120,15,124,47,46,6
二班,9,45,12,35,103,108,87
二班,10,95,21,92,14,72,46


- 使用product

    最简单，推荐使用

In [30]:
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
data = np.random.randint(0,150,size=(10,6))
# index = [['一班', 1],['一班', 1],['一班', 1],['一班', 1],['一班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1]]
# index = pd.MultiIndex.from_arrays([['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)])
index = pd.MultiIndex.from_product([['一班','二班'],np.arange(5)])
df = DataFrame(data=data,columns=columns, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,92,46,64,56,130,38
一班,1,62,137,48,107,2,111
一班,2,96,0,117,2,83,16
一班,3,109,21,28,135,67,111
一班,4,86,123,118,0,108,105
二班,0,52,118,38,140,119,82
二班,1,101,75,75,69,43,87
二班,2,61,25,65,68,106,63
二班,3,63,83,106,81,34,113
二班,4,25,97,53,118,35,137


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

In [19]:
index = ['张三', '李四']
data = np.random.randint(0,150,size=(2,6))
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,37,129,112,116,19,1
李四,84,102,148,125,52,73


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用.loc中括号索引和切片。

(1) 索引

In [20]:
s

一班  0    127
    1    129
    2     15
    3    148
    4    112
二班  5     91
    6     59
    7     80
    8    130
    9    140
dtype: int32

In [21]:
s['一班']

0    127
1    129
2     15
3    148
4    112
dtype: int32

In [22]:
s[0]

127

In [24]:
s.loc['一班']

0    127
1    129
2     15
3    148
4    112
dtype: int32

In [25]:
s.iloc[0]

127

(2) 切片

In [26]:
s[2]

15

In [27]:
s[2:6]

一班  2     15
    3    148
    4    112
二班  5     91
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [28]:
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,37,129,112,116,19,1
李四,84,102,148,125,52,73


In [31]:
df['期中']

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,0,92,46,64
一班,1,62,137,48
一班,2,96,0,117
一班,3,109,21,28
一班,4,86,123,118
二班,0,52,118,38
二班,1,101,75,75
二班,2,61,25,65
二班,3,63,83,106
二班,4,25,97,53


行多级索引的索引和切片操作

In [40]:
df.loc['一班', 0][0]

92

In [42]:
df.loc['一班'][0:3]

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
0,92,46,64,56,130,38
1,62,137,48,107,2,111
2,96,0,117,2,83,16


KeyError: '一班'

KeyError: 'the label [0] is not in the [columns]'

列多级索引的索引和切片操作

In [50]:
df['期中','语文'][0:3]

一班  0    92
    1    62
    2    96
Name: (期中, 语文), dtype: int32

In [57]:
df.iloc[0]

期中  语文     92
    数学     46
    英语     64
期末  语文     56
    数学    130
    英语     38
Name: (一班, 0), dtype: int32

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [58]:
populations = [33871648,37253956,
              18976457,19378102,
              20851820,25145561]
Mindex = pd.MultiIndex.from_product([['California','New York','Texas'],[2000,2010]])
pop = DataFrame(populations,index=Mindex,columns=['population'])
pop

Unnamed: 0,Unnamed: 1,population
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


In [59]:
pop.unstack(level=0)

Unnamed: 0_level_0,population,population,population
Unnamed: 0_level_1,California,New York,Texas
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [60]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,92,46,64,56,130,38
一班,1,62,137,48,107,2,111
一班,2,96,0,117,2,83,16
一班,3,109,21,28,135,67,111
一班,4,86,123,118,0,108,105
二班,0,52,118,38,140,119,82
二班,1,101,75,75,69,43,87
二班,2,61,25,65,68,106,63
二班,3,63,83,106,81,34,113
二班,4,25,97,53,118,35,137


In [61]:
df.unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,数学,数学,英语,英语,语文,语文,数学,数学,英语,英语
Unnamed: 0_level_2,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班
0,92,52,46,118,64,38,56,140,130,119,38,82
1,62,101,137,75,48,75,107,69,2,43,111,87
2,96,61,0,25,117,65,2,68,83,106,16,63
3,109,63,21,83,28,106,135,81,67,34,111,113
4,86,25,123,97,118,53,0,118,108,35,105,137


In [68]:
df1 = df.unstack(level=1)
df1

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语
Unnamed: 0_level_2,0,1,2,3,4,0,1,2,3,4,0,1,2,3,4,0,1,2,3,4,0,1,2,3,4,0,1,2,3,4
一班,92,62,96,109,86,46,137,0,21,123,64,48,117,28,118,56,107,2,135,0,130,2,83,67,108,38,111,16,111,105
二班,52,101,61,63,25,118,75,25,83,97,38,75,65,106,53,140,69,68,81,118,119,43,106,34,35,82,87,63,113,137


In [66]:
df2 = df1.stack(level=1)

In [67]:
df2`

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,0,1,2,3,4,0,1,2,3,4
一班,数学,46,137,0,21,123,130,2,83,67,108
一班,英语,64,48,117,28,118,38,111,16,111,105
一班,语文,92,62,96,109,86,56,107,2,135,0
二班,数学,118,75,25,83,97,119,43,106,34,35
二班,英语,38,75,65,106,53,82,87,63,113,137
二班,语文,52,101,61,63,25,140,69,68,81,118


In [69]:
df3 = df2.stack(level=1)
df3

Unnamed: 0,Unnamed: 1,Unnamed: 2,期中,期末
一班,数学,0,46,130
一班,数学,1,137,2
一班,数学,2,0,83
一班,数学,3,21,67
一班,数学,4,123,108
一班,英语,0,64,38
一班,英语,1,48,111
一班,英语,2,117,16
一班,英语,3,28,111
一班,英语,4,118,105


【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [70]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,92,46,64,56,130,38
一班,1,62,137,48,107,2,111
一班,2,96,0,117,2,83,16
一班,3,109,21,28,135,67,111
一班,4,86,123,118,0,108,105
二班,0,52,118,38,140,119,82
二班,1,101,75,75,69,43,87
二班,2,61,25,65,68,106,63
二班,3,63,83,106,81,34,113
二班,4,25,97,53,118,35,137


In [71]:
# 按行的总体来算平均值
df.mean(level=1)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
0,72.0,82.0,51.0,98.0,124.5,60.0
1,81.5,106.0,61.5,88.0,22.5,99.0
2,78.5,12.5,91.0,35.0,94.5,39.5
3,86.0,52.0,67.0,108.0,50.5,112.0
4,55.5,110.0,85.5,59.0,71.5,121.0


In [73]:
# 按列来算,分别计算不同的行
df.mean(axis=1,level=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,0,74.0,88.0,51.0
一班,1,84.5,69.5,79.5
一班,2,49.0,41.5,66.5
一班,3,122.0,44.0,69.5
一班,4,43.0,115.5,111.5
二班,0,96.0,118.5,60.0
二班,1,85.0,59.0,81.0
二班,2,64.5,65.5,64.0
二班,3,72.0,58.5,109.5
二班,4,71.5,66.0,95.0


In [76]:
df.mean(axis=0)

期中  语文    74.7
    数学    72.5
    英语    71.2
期末  语文    77.6
    数学    72.7
    英语    86.3
dtype: float64

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================

In [77]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,0,92,46,64,56,130,38
一班,1,62,137,48,107,2,111
一班,2,96,0,117,2,83,16
一班,3,109,21,28,135,67,111
一班,4,86,123,118,0,108,105
二班,0,52,118,38,140,119,82
二班,1,101,75,75,69,43,87
二班,2,61,25,65,68,106,63
二班,3,63,83,106,81,34,113
二班,4,25,97,53,118,35,137


In [78]:
df.mean(level=1)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
0,72.0,82.0,51.0,98.0,124.5,60.0
1,81.5,106.0,61.5,88.0,22.5,99.0
2,78.5,12.5,91.0,35.0,94.5,39.5
3,86.0,52.0,67.0,108.0,50.5,112.0
4,55.5,110.0,85.5,59.0,71.5,121.0


In [80]:
df.mean(axis=0,level=1)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
0,72.0,82.0,51.0,98.0,124.5,60.0
1,81.5,106.0,61.5,88.0,22.5,99.0
2,78.5,12.5,91.0,35.0,94.5,39.5
3,86.0,52.0,67.0,108.0,50.5,112.0
4,55.5,110.0,85.5,59.0,71.5,121.0


In [81]:
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
data = np.random.randint(0,150,size=(10,6))
# index = [['一班', 1],['一班', 1],['一班', 1],['一班', 1],['一班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1],['二班', 1]]
# index = pd.MultiIndex.from_arrays([['一班','一班','一班','一班','一班','二班','二班','二班','二班','二班'], np.arange(10)])
index = pd.MultiIndex.from_product([['一班','二班'],['张三','李四','王五','赵六','王二麻子']])
df = DataFrame(data=data,columns=columns, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,123,37,127,106,66,18
一班,李四,79,49,113,129,94,66
一班,王五,107,10,27,53,23,55
一班,赵六,9,100,23,79,109,5
一班,王二麻子,145,121,57,34,63,141
二班,张三,118,129,83,6,114,7
二班,李四,121,67,6,74,82,112
二班,王五,17,130,74,49,129,106
二班,赵六,133,125,62,147,51,109
二班,王二麻子,2,19,59,9,57,53


In [85]:
df.loc['一班','张三'].max()

127