# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [2]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']]
columns = [['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']]
data = np.random.randint(0, 150, size=(6,6))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,19,124,39,9,139,96
一班,李四,1,148,82,85,91,77
一班,王五,3,73,51,6,66,23
二班,赵六,16,95,3,62,71,123
二班,田七,12,109,124,39,41,68
二班,孙八,69,145,34,84,46,147


- Series也可以创建多层索引

In [3]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']]
data = np.random.randint(0, 150,size=6)
s = Series(data=data, index=index)
s

一班  张三    131
    李四     53
    王五    132
二班  赵六      0
    田七      8
    孙八    128
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [62]:
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']])
columns = pd.MultiIndex.from_arrays([['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']])
data = np.random.randint(0, 150, size=(6,6))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,63,76,107,127,54,139
一班,李四,147,92,25,104,149,112
一班,王五,46,23,83,128,25,81
二班,赵六,16,31,138,137,56,69
二班,田七,101,17,109,127,84,86
二班,孙八,76,66,119,102,76,149


- 使用tuple

In [61]:
index = pd.MultiIndex.from_tuples([('一班', '张三'),('一班', '李四'), ('一班', '王五'), ('二班', '张三'),('二班', '李四'), ('二班', '王五')])
columns = [['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']]
data = np.random.randint(0, 150, size=(6,6))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,110,88,12,44,34,47
一班,李四,99,125,61,2,24,103
一班,王五,115,7,70,74,74,95
二班,张三,33,132,72,56,144,28
二班,李四,31,142,94,57,67,36
二班,王五,13,113,141,56,115,96


- 使用product

    最简单，推荐使用

In [6]:
index = pd.MultiIndex.from_product([['一班', '二班'], ['张三', '李四', '王五']])
columns = [['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']]
data = np.random.randint(0, 150, size=(6,6))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,88,71,23,28
一班,李四,132,113,56,90,76,118
一班,王五,72,96,95,12,107,62
二班,张三,139,114,54,107,71,61
二班,李四,111,33,66,2,147,145
二班,王五,96,134,10,93,78,7


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用中括号索引和切片。

In [7]:
s

一班  张三    131
    李四     53
    王五    132
二班  赵六      0
    田七      8
    孙八    128
dtype: int32

(1) 索引

In [11]:
# 多层索引的索引原则: 一定要从最外层索引开始查找.
s.loc[['一班'], ['张三']]

一班  张三    131
dtype: int32

In [13]:
# 隐式索引不用管多层索引.
s.iloc[[0]]

一班  张三    131
dtype: int32

(2) 切片

In [15]:
# 显示索引的切片
s.loc['一班','张三': '二班', '赵六']

IndexError: list index out of range

In [16]:
# 从最外层索引切
s.loc['一班': '二班']

一班  张三    131
    李四     53
    王五    132
二班  赵六      0
    田七      8
    孙八    128
dtype: int32

In [20]:
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班', '三班', '三班', '三班'], ['张三', '李四', '王五', '赵六', '田七', '孙八', '郑九', '王石', '双十一']])
data = np.random.randint(0, 150,size=9)
s = Series(data=data, index=index)
s

一班  张三      77
    李四       4
    王五     134
二班  赵六     130
    田七      27
    孙八     107
三班  郑九      22
    王石     135
    双十一     28
dtype: int32

In [21]:
s.loc['一班': '二班']

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [22]:
# 隐式切片, 推荐写法
s.iloc[0:4]

一班  张三     77
    李四      4
    王五    134
二班  赵六    130
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [23]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,88,71,23,28
一班,李四,132,113,56,90,76,118
一班,王五,72,96,95,12,107,62
二班,张三,139,114,54,107,71,61
二班,李四,111,33,66,2,147,145
二班,王五,96,134,10,93,78,7


In [27]:
# 列索引
# 期中的语文成绩
df['期中', '语文']
# 推荐写法
df.loc[:, ('期中', '语文')]

一班  张三     93
    李四    132
    王五     72
二班  张三    139
    李四    111
    王五     96
Name: (期中, 语文), dtype: int32

In [32]:
# 列的隐式索引
df.iloc[:, 0]

一班  张三     93
    李四    132
    王五     72
二班  张三    139
    李四    111
    王五     96
Name: (期中, 语文), dtype: int32

行多级索引的索引和切片操作

In [31]:
# 一班的李四
df.loc[('一班', '李四')]

期中  语文    132
    数学    113
    英语     56
期末  语文     90
    数学     76
    英语    118
Name: (一班, 李四), dtype: int32

In [33]:
df.iloc[1]

期中  语文    132
    数学    113
    英语     56
期末  语文     90
    数学     76
    英语    118
Name: (一班, 李四), dtype: int32

列多级索引的索引和切片操作

In [37]:
# 列切片, 切片的时候不能加括号, 不支持的语法.
df.loc[:, '期中': '期末']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,88,71,23,28
一班,李四,132,113,56,90,76,118
一班,王五,72,96,95,12,107,62
二班,张三,139,114,54,107,71,61
二班,李四,111,33,66,2,147,145
二班,王五,96,134,10,93,78,7


In [38]:
df.iloc[:, 0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文
一班,张三,93,40,88,71
一班,李四,132,113,56,90
一班,王五,72,96,95,12
二班,张三,139,114,54,107
二班,李四,111,33,66,2
二班,王五,96,134,10,93


In [39]:
df.loc['一班': '二班']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,88,71,23,28
一班,李四,132,113,56,90,76,118
一班,王五,72,96,95,12,107,62
二班,张三,139,114,54,107,71,61
二班,李四,111,33,66,2,147,145
二班,王五,96,134,10,93,78,7


In [40]:
df.iloc[0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,88,71,23,28
一班,李四,132,113,56,90,76,118
一班,王五,72,96,95,12,107,62
二班,张三,139,114,54,107,71,61


(2) 使用行索引需要用loc()函数

【极其重要】推荐使用loc()函数

In [43]:
# 元素的索引
#  一班张三的期中数学成绩 , 推荐写法.
df.loc[('一班', '张三'), ('期中', '数学')]

40

In [44]:
df.iloc[0, 1]

40

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设一班张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [46]:
df.loc[('一班', '张三'), ('期中', '英语')] = np.nan
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,,71,23,28
一班,李四,132,113,56.0,90,76,118
一班,王五,72,96,95.0,12,107,62
二班,张三,139,114,54.0,107,71,61
二班,李四,111,33,66.0,2,147,145
二班,王五,96,134,10.0,93,78,7


## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [47]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,,71,23,28
一班,李四,132,113,56.0,90,76,118
一班,王五,72,96,95.0,12,107,62
二班,张三,139,114,54.0,107,71,61
二班,李四,111,33,66.0,2,147,145
二班,王五,96,134,10.0,93,78,7


In [48]:
df.index

MultiIndex([('一班', '张三'),
            ('一班', '李四'),
            ('一班', '王五'),
            ('二班', '张三'),
            ('二班', '李四'),
            ('二班', '王五')],
           )

In [49]:
df.columns

MultiIndex([('期中', '语文'),
            ('期中', '数学'),
            ('期中', '英语'),
            ('期末', '语文'),
            ('期末', '数学'),
            ('期末', '英语')],
           )

In [None]:
stack就是把列索引变成行索引. unstack就是把行索引变成列索引

In [50]:
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,期中,期末
一班,张三,数学,40.0,23
一班,张三,英语,,28
一班,张三,语文,93.0,71
一班,李四,数学,113.0,76
一班,李四,英语,56.0,118
一班,李四,语文,132.0,90
一班,王五,数学,96.0,107
一班,王五,英语,95.0,62
一班,王五,语文,72.0,12
二班,张三,数学,114.0,71


In [51]:
df.unstack()

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,数学,数学,数学,英语,英语,英语,语文,语文,语文,数学,数学,数学,英语,英语,英语
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
一班,93,132,72,40,113,96,,56.0,95.0,71,90,12,23,76,107,28,118,62
二班,139,111,96,114,33,134,54.0,66.0,10.0,107,2,93,71,147,78,61,145,7


In [None]:
df.stack()

In [None]:
df.unstack()

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

In [52]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,,71,23,28
一班,李四,132,113,56.0,90,76,118
一班,王五,72,96,95.0,12,107,62
二班,张三,139,114,54.0,107,71,61
二班,李四,111,33,66.0,2,147,145
二班,王五,96,134,10.0,93,78,7


In [55]:
df.stack(level=0).unstack(level=0).unstack(level=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
期中,40,113,96,114,33,134,,56.0,95.0,54.0,66.0,10.0,93,132,72,139,111,96
期末,23,76,107,71,147,78,28.0,118.0,62.0,61.0,145.0,7.0,71,90,12,107,2,93


In [56]:
df.stack(level=0).unstack(level=(0,1))

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
期中,40,113,96,114,33,134,,56.0,95.0,54.0,66.0,10.0,93,132,72,139,111,96
期末,23,76,107,71,147,78,28.0,118.0,62.0,61.0,145.0,7.0,71,90,12,107,2,93


In [57]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,93,40,,71,23,28
一班,李四,132,113,56.0,90,76,118
一班,王五,72,96,95.0,12,107,62
二班,张三,139,114,54.0,107,71,61
二班,李四,111,33,66.0,2,147,145
二班,王五,96,134,10.0,93,78,7


In [58]:
df.stack().unstack(level=(0,1))

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
数学,40.0,113.0,96.0,114.0,33.0,134.0,23,76,107,71,147,78
英语,,56.0,95.0,54.0,66.0,10.0,28,118,62,61,145,7
语文,93.0,132.0,72.0,139.0,111.0,96.0,71,90,12,107,2,93


In [65]:
df.unstack(level=0, fill_value=0) # fill_value用来填充空值的.

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,数学,数学,英语,英语,语文,语文,数学,数学,英语,英语
Unnamed: 0_level_2,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班
孙八,0,76,0,66,0,119,0,102,0,76,0,149
张三,63,0,76,0,107,0,127,0,54,0,139,0
李四,147,0,92,0,25,0,104,0,149,0,112,0
王五,46,0,23,0,83,0,128,0,25,0,81,0
田七,0,101,0,17,0,109,0,127,0,84,0,86
赵六,0,16,0,31,0,138,0,137,0,56,0,69


In [64]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,63,76,107,127,54,139
一班,李四,147,92,25,104,149,112
一班,王五,46,23,83,128,25,81
二班,赵六,16,31,138,137,56,69
二班,田七,101,17,109,127,84,86
二班,孙八,76,66,119,102,76,149


## 5. 聚合操作

In [68]:
dd = df.loc['一班', '期中'].copy()

In [69]:
dd

Unnamed: 0,语文,数学,英语
张三,63,76,107
李四,147,92,25
王五,46,23,83


In [70]:
dd.sum()

语文    256
数学    191
英语    215
dtype: int64

In [73]:
dd.sum(axis=0)

语文    256
数学    191
英语    215
dtype: int64

In [74]:
dd.sum(axis=1)

张三    246
李四    264
王五    152
dtype: int64

In [71]:
dd.mean()

语文    85.333333
数学    63.666667
英语    71.666667
dtype: float64

In [72]:
dd.std()

语文    54.077105
数学    36.115555
英语    42.158431
dtype: float64

In [None]:
# axis=0 ,表示对行进行聚合, axis=1, 表示对列进行聚合.

In [None]:
dd.sum()

In [75]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,63,76,107,127,54,139
一班,李四,147,92,25,104,149,112
一班,王五,46,23,83,128,25,81
二班,赵六,16,31,138,137,56,69
二班,田七,101,17,109,127,84,86
二班,孙八,76,66,119,102,76,149


In [79]:
df.sum(level=1, axis=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,63,76,107,127,54,139
李四,147,92,25,104,149,112
王五,46,23,83,128,25,81
赵六,16,31,138,137,56,69
田七,101,17,109,127,84,86
孙八,76,66,119,102,76,149


In [None]:
多层索引的聚合, axis指定要聚合的是行还是列,level指定要保留哪一层索引.


【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目每个人的最高分

============================================

In [80]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,63,76,107,127,54,139
一班,李四,147,92,25,104,149,112
一班,王五,46,23,83,128,25,81
二班,赵六,16,31,138,137,56,69
二班,田七,101,17,109,127,84,86
二班,孙八,76,66,119,102,76,149


In [81]:
df.mean(axis=0)

期中  语文     74.833333
    数学     50.833333
    英语     96.833333
期末  语文    120.833333
    数学     74.000000
    英语    106.000000
dtype: float64

In [82]:
df.max(axis=1, level=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,127,76,139
一班,李四,147,149,112
一班,王五,128,25,83
二班,赵六,137,56,138
二班,田七,127,84,109
二班,孙八,102,76,149
