# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [1]:
import pandas as pd 
from pandas import Series,DataFrame

import numpy as np


In [2]:
s = Series(np.random.randint(0,150,size = 10))
s

0     28
1    147
2     43
3     97
4     21
5    136
6     60
7     97
8     10
9    129
dtype: int32

In [11]:
# 2层，第一层3，第二层2
s2 = Series(np.random.randint(0,150,size = 6),index=pd.MultiIndex.from_arrays([['A','D','B','B','C','C'],['期中','期末','期中','期末','期中','期末']]))
s2

A  期中    140
D  期末     74
B  期中     53
   期末    146
C  期中    103
   期末     39
dtype: int32

In [9]:
s2 = Series(np.random.randint(0,150,size = 6),
            index=pd.MultiIndex.from_tuples([('A','期中'),('A','期末'),('B','期中'),('B','期末'),('C','期中'),('C','期末')]))
s2

A  期中     49
   期末    100
B  期中     68
   期末    131
C  期中    103
   期末     45
dtype: int32

In [5]:
s3 = Series(np.random.randint(0,150,size = 6),index=pd.MultiIndex.from_product([['A','B','C'],['期中','期末']]))
s3

A  期中     51
   期末      9
B  期中    145
   期末     69
C  期中     66
   期末     22
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [7]:
df = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_arrays([['A','A','B','B','C','C'],['期中','期末','期中','期末','期中','期末']]))
df

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,137,128,62
A,期末,24,107,118
B,期中,67,44,132
B,期末,73,93,21
C,期中,108,113,145
C,期末,15,7,48


- 使用tuple

In [8]:
df = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_tuples([('A','期中'),('A','期末'),('B','期中'),('B','期末'),('C','期中'),('C','期末')]))
df

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,80,24,86
A,期末,29,11,110
B,期中,2,115,76
B,期末,90,20,9
C,期中,122,65,20
C,期末,23,105,114


- 使用product

    最简单，推荐使用

In [12]:
df = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['A','B','C'],['期中','期末']]))
df

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,55,88,40
A,期末,83,148,128
B,期中,45,32,26
B,期末,20,72,72
C,期中,38,26,23
C,期末,56,6,141


In [14]:
df = DataFrame(np.random.randint(0,150,size = (36,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['A','B','C'],['期中','期末'],['上','下'],['单元一','单元二','单元三']]))
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Python,数学,En
A,期中,上,单元一,15,91,26
A,期中,上,单元二,38,113,23
A,期中,上,单元三,9,6,27
A,期中,下,单元一,104,131,63
A,期中,下,单元二,84,82,59
A,期中,下,单元三,28,21,7
A,期末,上,单元一,84,26,146
A,期末,上,单元二,113,95,133
A,期末,上,单元三,142,115,15
A,期末,下,单元一,104,141,117


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [15]:
df.columns

Index(['Python', '数学', 'En'], dtype='object')

In [16]:
df.index

MultiIndex(levels=[['A', 'B', 'C'], ['期中', '期末'], ['上', '下'], ['单元一', '单元三', '单元二']],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1], [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1], [0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1]])

In [19]:
# 行索引和列索引一样
df = DataFrame(np.random.randint(0,150,size = (6,6)),index=list('abcdef'),
               columns=pd.MultiIndex.from_product([['Python','Math','En'],['期中','期末']]))
df

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,8,13,42,93,148,46
b,134,7,27,58,17,127
c,94,131,16,65,33,76
d,62,88,148,68,142,101
e,93,107,75,71,107,79
f,44,106,149,108,15,141


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

(1) 索引

In [20]:
s3

A  期中     51
   期末      9
B  期中    145
   期末     69
C  期中     66
   期末     22
dtype: int32

In [21]:
s3['A','期末']

9

(2) 切片

In [22]:
s3['A':'B']

A  期中     51
   期末      9
B  期中    145
   期末     69
dtype: int32

In [23]:
# 切片时候，必须从最外层开始
s3['期中':'期末']

Series([], dtype: int32)

In [24]:
s3['fjdslf':'sjfl;s']

Series([], dtype: int32)

In [25]:
s3['fjslfjs']

KeyError: 'fjslfjs'

In [26]:
s3.loc['A':'B']

A  期中     51
   期末      9
B  期中    145
   期末     69
dtype: int32

In [27]:
s3.iloc[0:3]

A  期中     51
   期末      9
B  期中    145
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

In [28]:
df

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,8,13,42,93,148,46
b,134,7,27,58,17,127
c,94,131,16,65,33,76
d,62,88,148,68,142,101
e,93,107,75,71,107,79
f,44,106,149,108,15,141


In [35]:
df['Python','期末']['e']

107

In [36]:
df['Python','期末','e']

KeyError: 'Key length (3) exceeds index depth (2)'

In [29]:
df.loc['a']

Python  期中      8
        期末     13
Math    期中     42
        期末     93
En      期中    148
        期末     46
Name: a, dtype: int32

In [31]:
df['Python']['期中']['b']

134

In [32]:
df2 = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['A','B','C'],['期中','期末']]))
df2

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,69,122,99
A,期末,93,57,50
B,期中,71,146,99
B,期末,92,18,102
C,期中,39,101,125
C,期末,32,41,7


In [33]:
df2.loc['A','期中']

Python     69
数学        122
En         99
Name: (A, 期中), dtype: int32

In [37]:
df2.loc['A','期中']['数学']

122

In [38]:
# 添加一个逗号多了一维
df2.loc['A','期中','数学']

KeyError: 'the label [期中] is not in the [columns]'

In [39]:
df2

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,69,122,99
A,期末,93,57,50
B,期中,71,146,99
B,期末,92,18,102
C,期中,39,101,125
C,期末,32,41,7


In [40]:
df2.loc['A':'B']

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,69,122,99
A,期末,93,57,50
B,期中,71,146,99
B,期末,92,18,102


In [41]:
df2.iloc[:,0:2]

Unnamed: 0,Unnamed: 1,Python,数学
A,期中,69,122
A,期末,93,57
B,期中,71,146
B,期末,92,18
C,期中,39,101
C,期末,32,41


In [42]:
df

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,8,13,42,93,148,46
b,134,7,27,58,17,127
c,94,131,16,65,33,76
d,62,88,148,68,142,101
e,93,107,75,71,107,79
f,44,106,149,108,15,141


In [43]:
df.iloc[:,1:4]

Unnamed: 0_level_0,Python,Math,Math
Unnamed: 0_level_1,期末,期中,期末
a,13,42,93
b,7,27,58
c,131,16,65
d,88,148,68
e,107,75,71
f,106,149,108


In [46]:
df3 = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['A','B','C'],['期中','期末']]))
df3

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,78,44,120
A,期末,62,108,123
B,期中,8,77,57
B,期末,58,115,84
C,期中,62,73,143
C,期末,78,106,45


In [47]:
df3.loc['A':'B']

Unnamed: 0,Unnamed: 1,Python,数学,En
A,期中,78,44,120
A,期末,62,108,123
B,期中,8,77,57
B,期末,58,115,84


In [44]:
df2 = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['小李','大潘','王五'],['期中','期末']]))
df2

Unnamed: 0,Unnamed: 1,Python,数学,En
小李,期中,88,71,120
小李,期末,130,22,144
大潘,期中,12,113,94
大潘,期末,111,81,48
王五,期中,145,75,82
王五,期末,88,1,19


In [45]:
# 并不是代码写错了，DataFrame对一些汉字不支持
df2.loc['小李':'大潘']

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [48]:
df4 = DataFrame(np.random.randint(0,150,size = (6,3)),columns=['Python','数学','En'],
               index=pd.MultiIndex.from_product([['张三','李四','王五'],['期中','期末']]))
df4

Unnamed: 0,Unnamed: 1,Python,数学,En
张三,期中,51,80,88
张三,期末,92,72,31
李四,期中,114,96,119
李四,期末,58,142,143
王五,期中,122,48,17
王五,期末,75,34,107


In [49]:
df4['张三':'李四']

Unnamed: 0,Unnamed: 1,Python,数学,En
张三,期中,51,80,88
张三,期末,92,72,31
李四,期中,114,96,119
李四,期末,58,142,143


============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [50]:
df

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,8,13,42,93,148,46
b,134,7,27,58,17,127
c,94,131,16,65,33,76
d,62,88,148,68,142,101
e,93,107,75,71,107,79
f,44,106,149,108,15,141


In [52]:
# 可以将多层的列索引转换为多层行索引
df.stack(level=0)

Unnamed: 0,Unnamed: 1,期中,期末
a,En,148,46
a,Math,42,93
a,Python,8,13
b,En,17,127
b,Math,27,58
b,Python,134,7
c,En,33,76
c,Math,16,65
c,Python,94,131
d,En,142,101


In [53]:
df2

Unnamed: 0,Unnamed: 1,Python,数学,En
小李,期中,88,71,120
小李,期末,130,22,144
大潘,期中,12,113,94
大潘,期末,111,81,48
王五,期中,145,75,82
王五,期末,88,1,19


In [55]:
df2.unstack(level=0)

Unnamed: 0_level_0,Python,Python,Python,数学,数学,数学,En,En,En
Unnamed: 0_level_1,大潘,小李,王五,大潘,小李,王五,大潘,小李,王五
期中,12,88,145,113,71,75,94,120,82
期末,111,130,88,81,22,1,48,144,19


小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相同，聚合的时候，axis等于哪一个，那一个就聚合，消失。

所谓的聚合操作：平均数，方差，最大值，最小值……

In [60]:
nd = np.array([12])

nd.

In [None]:
df2.

In [56]:
df2.

Unnamed: 0,Unnamed: 1,Python,数学,En
小李,期中,88,71,120
小李,期末,130,22,144
大潘,期中,12,113,94
大潘,期末,111,81,48
王五,期中,145,75,82
王五,期末,88,1,19


In [58]:
# axis = 0 行
# axis = 1 列
df2.sum(axis = 0)

Python    574
数学        363
En        507
dtype: int64

In [59]:
df2.mean(axis = 1)

小李  期中     93.000000
    期末     98.666667
大潘  期中     73.000000
    期末     80.000000
王五  期中    100.666667
    期末     36.000000
dtype: float64

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================