## 四、Pandas层次化索引

### 1. 创建多层行索引

#### 1) 隐式构造

- 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组
- Series也可以创建多层索引
#### 2) 显示构造pd.MultiIndex

- 使用数组
- 使用tuple
- 使用product
  - 笛卡尔积
### 2. 创建多层列索引(同行索引)

除了行索引index，列索引columns也能用同样的方法创建多层索引

##### 3. 多层索引对象的索引与切片操作

#### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样
#### 2）DataFrame的操作

- 可以直接使用列名称来进行列索引
- 使用行索引需要用iloc()，loc()等函数 
- 无法直接对二级索引进行索引

### 4. 索引的堆叠（stack）

- stack()
- unstack()
- 【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。
- 【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。
- 使用fill_value填充

### 5. 聚合操作

【注意】

- 需要指定axis
- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [1]:
import numpy as np
import pandas as pd

### 1. 创建多层行索引

#### 1) 隐式构造

- 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组
- Series也可以创建多层索引

In [4]:
# 创建多层索引的DataFrame
data = np.random.randint(0,100,size=(6,6))
index = [
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
]
columns = [
    ['期中','期中','期中','期末','期末','期末'],
    ['语文','数学','英语','语文','数学','英语']
]
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,93,18,37,74,32,93
1班,李四,96,44,57,74,98,23
1班,王五,85,81,16,99,58,75
2班,鲁班,89,58,61,68,61,55
2班,张三丰,28,23,61,0,54,81
2班,张无忌,16,75,67,37,31,24


In [5]:
# Series也可以创建多层索引
data2 = np.random.randint(0,100,size=6)
index = [
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
]
s = pd.Series(data=data2,index=index)
s

1班  张三     15
    李四     65
    王五     24
2班  鲁班     76
    张三丰    28
    张无忌    97
dtype: int32

#### 2) 显示构造pd.MultiIndex

- 使用数组
- 使用tuple
- 使用product
  - 笛卡尔积

In [7]:
# 使用数组创建多层索引的DataFrame
data = np.random.randint(0,100,size=(6,6))
index = pd.MultiIndex.from_arrays([
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
])
columns = [
    ['期中','期中','期中','期末','期末','期末'],
    ['语文','数学','英语','语文','数学','英语']
]
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,56,36,64,47,9,43
1班,李四,51,63,15,18,95,16
1班,王五,4,96,27,83,46,50
2班,鲁班,17,13,27,10,40,28
2班,张三丰,59,25,1,43,28,47
2班,张无忌,40,88,86,48,0,52


In [12]:
# 使用元组创建多层索引的DataFrame
data = np.random.randint(0,100,size=(6,6))
index = pd.MultiIndex.from_tuples(
    (
        ('1班','张三'),('1班','李四'),('1班','王五'),
        ('2班','鲁班'),('2班','张三丰'),('2班','张无忌')
    )
)
columns = [
    ['期中','期中','期中','期末','期末','期末'],
    ['语文','数学','英语','语文','数学','英语']
]
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,13,41,51,37,86,54
1班,李四,86,79,79,51,30,90
1班,王五,43,44,84,13,61,52
2班,鲁班,62,55,44,25,92,59
2班,张三丰,60,83,12,18,62,81
2班,张无忌,28,97,97,83,83,98


In [14]:
# 使用product（笛卡尔积）
data = np.random.randint(0,100,size=(6,6))
index = pd.MultiIndex.from_product([
    ['1班','2班'],
    ['张三','李四','王五']
])
columns = [
    ['期中','期中','期中','期末','期末','期末'],
    ['语文','数学','英语','语文','数学','英语']
]
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,5,85,73,0,30,15
1班,李四,17,99,21,25,43,71
1班,王五,41,36,1,43,21,66
2班,张三,15,96,81,28,15,61
2班,李四,11,41,25,21,95,20
2班,王五,86,9,41,56,2,11


In [95]:
# 创建多层列索引(同行索引)
# 使用product（笛卡尔积）
data = np.random.randint(0,100,size=(6,6))
index = [
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
]
columns = pd.MultiIndex.from_product([
    ['期中','期末'],
    ['语文','数学','英语']
])
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,48,90,31,26,49,65
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,鲁班,31,62,34,11,35,18
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31


##### 3. 多层索引对象的索引与切片操作

#### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样


（1）索引

In [17]:
# 索引
# Series创建多层索引
data2 = np.random.randint(0,100,size=6)
index = [
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
]
s = pd.Series(data=data2,index=index)
s

1班  张三     98
    李四     33
    王五     90
2班  鲁班      0
    张三丰    65
    张无忌    28
dtype: int32

In [37]:
# 显示索引--获取1班数据
display('显示索引--获取1班数据')
display(s['1班'])
display(s.loc['1班'])
# 双中括号保留原有的索引结构
display(s.loc[['1班']])
# 获取第二层数据
display(s['1班']['张三'])
display(s.loc['1班']['张三'])
display(s['1班','张三'])
display(s.loc['1班','张三'])
# 隐式索引--获取2班数据，只能获取行索引所对应的值
display('隐式索引--获取2班数据')
display(s[1]) # 只能获取行索引所对应的值
display(s.iloc[1]) # 只能获取行索引所对应的值
# 双中括号保留原有的索引结构
display(s.iloc[['1','2']]) # 获取的是完整的行数据，包括多级索引


'显示索引--获取1班数据'

张三    98
李四    33
王五    90
dtype: int32

张三    98
李四    33
王五    90
dtype: int32

1班  张三    98
    李四    33
    王五    90
dtype: int32

np.int32(98)

np.int32(98)

np.int32(98)

np.int32(98)

'隐式索引--获取2班数据'

  display(s[1]) # 只能获取行索引所对应的值


np.int32(33)

np.int32(33)

1班  李四    33
    王五    90
dtype: int32

（2）切片

In [45]:
# 显式切片
display('显式切片')
display(s['1班':'2班'])
display(s.loc['1班':'2班'])
# 对第二层数据切片
display(s.loc['1班']['李四':'王五'])
# 如果需要跨不同班级进行切片，可以使用隐式索引
# 隐式切片
display('隐式切片')
display(s[1:5])
display(s.iloc[1:5])

'显式切片'

1班  张三     98
    李四     33
    王五     90
2班  鲁班      0
    张三丰    65
    张无忌    28
dtype: int32

1班  张三     98
    李四     33
    王五     90
2班  鲁班      0
    张三丰    65
    张无忌    28
dtype: int32

李四    33
王五    90
dtype: int32

'隐式切片'

1班  李四     33
    王五     90
2班  鲁班      0
    张三丰    65
dtype: int32

1班  李四     33
    王五     90
2班  鲁班      0
    张三丰    65
dtype: int32

#### 2）DataFrame的操作

- 可以直接使用列名称来进行列索引
- 使用行索引需要用iloc()，loc()等函数 
- 无法直接对二级索引进行索引

In [96]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,48,90,31,26,49,65
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,鲁班,31,62,34,11,35,18
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31


（1）索引

In [57]:
# 获取元素
display(df['期中']['数学']['1班']['张三'])
display(df['期中','数学']['1班','张三'])
# 使用loc、iloc
display(df.iloc[0,1]) #隐式索引，不管有多少个显示索引，都是按照数据行进行定位
display(df.loc[('1班','张三'),('期中','数学')]) # 显示索引，需要定位每层索引

np.int32(37)

np.int32(37)

np.int32(37)

np.int32(37)

In [74]:
# 列索引
display(df['期中'])
display(df['期中'][['数学']]) #双中括号，保留DataFrame格式
display(df['期中', '数学'])
display(df.期中.数学)

# loc、iloc：先取行，后取列
df.iloc[:,2]
df.iloc[:,[0,2,1]]
df.loc[:,'期中']
df.loc[:,('期中','数学')]
# 行索引
df.loc['2班']
df.loc['2班'].loc['鲁班']
df.loc['2班','鲁班']
df.loc[('2班','鲁班')]

df.iloc[[1,3,5]]

Unnamed: 0,Unnamed: 1,语文,数学,英语
1班,张三,61,37,66
1班,李四,70,94,94
1班,王五,55,72,37
2班,鲁班,59,72,39
2班,张三丰,62,19,74
2班,张无忌,26,73,48


Unnamed: 0,Unnamed: 1,数学
1班,张三,37
1班,李四,94
1班,王五,72
2班,鲁班,72
2班,张三丰,19
2班,张无忌,73


1班  张三     37
    李四     94
    王五     72
2班  鲁班     72
    张三丰    19
    张无忌    73
Name: (期中, 数学), dtype: int32

1班  张三     37
    李四     94
    王五     72
2班  鲁班     72
    张三丰    19
    张无忌    73
Name: 数学, dtype: int32

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,李四,70,94,94,14,71,24
2班,鲁班,59,72,39,13,32,93
2班,张无忌,26,73,48,25,6,41


（2）切片
注意：使用loc()（df.loc[('1班','李四'):('2班','张三丰')]）进行切片是必须先对多层索引进行排序：df = df.sort_index()

sort_index()：对 MultiIndex 进行排序，确保索引层级正确。如果不排序，Pandas 无法正确解析多层索引的切片操作。

In [97]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,48,90,31,26,49,65
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,鲁班,31,62,34,11,35,18
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31


In [100]:
# 优先行切片，然后列切片
display(df.iloc[1:5])
# 对 MultiIndex 进行排序
# sort_index()：对 MultiIndex 进行排序，确保索引层级正确。如果不排序，Pandas 无法正确解析多层索引的切片操作。
df = df.sort_index()
display(df) # 将索引排序之后数据顺序发生改变，最好在使用之前先排序
display(df.loc[('1班','李四'):('2班','张三丰')])

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31


Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,48,90,31,26,49,65
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31
2班,鲁班,31,62,34,11,35,18


Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,张三丰,57,91,20,51,86,71


In [106]:
# 列切片
display(df.iloc[:,1:5])
display(df.loc[:,'期中':'期末'])
# 这样会报错，列切片不支持
# display(df.loc[:,('期中','数学'):('期末','数学')])
# 建议切片使用隐式索引

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,数学,英语,语文,数学
1班,张三,90,31,26,49
1班,李四,32,20,23,53
1班,王五,92,84,4,98
2班,张三丰,91,20,51,86
2班,张无忌,45,14,28,85
2班,鲁班,62,34,11,35


Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,48,90,31,26,49,65
1班,李四,67,32,20,23,53,16
1班,王五,13,92,84,4,98,69
2班,张三丰,57,91,20,51,86,71
2班,张无忌,73,45,14,28,85,31
2班,鲁班,31,62,34,11,35,18



### 4. 索引的堆叠（stack）

- stack()：使用future_stack=True参数消除警告
  - 这是 Pandas 2.1.0 引入的新参数，用于启用 stack() 的新实现方式。
  - 添加此参数可以消除警告，并确保代码在未来的 Pandas 版本中兼容。
- unstack()
- 【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。
- 【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。
- 使用fill_value填充


In [107]:
# 创建多层列索引(同行索引)
# 使用product（笛卡尔积）
data = np.random.randint(0,100,size=(6,6))
index = [
    ['1班','1班','1班','2班','2班','2班'],
    ['张三','李四','王五','鲁班','张三丰','张无忌']
]
columns = pd.MultiIndex.from_product([
    ['期中','期末'],
    ['语文','数学','英语']
])
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,65,1,64,71,16,40
1班,李四,75,60,62,65,14,48
1班,王五,82,59,34,35,80,23
2班,鲁班,7,18,12,91,79,86
2班,张三丰,19,92,60,81,17,0
2班,张无忌,94,87,57,97,62,3


In [119]:
# 将列索引变成行索引，默认是将最里层的列索引变成行索引（行索引的最后一层行索引）
df.stack(future_stack=True)
# 可以指定哪层索引转为行索引，level（默认是-1）
df.stack(future_stack=True,level=0)

Unnamed: 0,Unnamed: 1,Unnamed: 2,语文,数学,英语
1班,张三,期中,65,1,64
1班,张三,期末,71,16,40
1班,李四,期中,75,60,62
1班,李四,期末,65,14,48
1班,王五,期中,82,59,34
1班,王五,期末,35,80,23
2班,鲁班,期中,7,18,12
2班,鲁班,期末,91,79,86
2班,张三丰,期中,19,92,60
2班,张三丰,期末,81,17,0


In [121]:
# unstack：将行索引变成列索引
df2 = df.stack(future_stack=True,level=0)
# level可以指定哪层行索引转成列索引
df2.unstack(level=2)

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,语文,数学,数学,英语,英语
Unnamed: 0_level_1,Unnamed: 1_level_1,期中,期末,期中,期末,期中,期末
1班,张三,65,71,1,16,64,40
1班,李四,75,65,60,14,62,48
1班,王五,82,35,59,80,34,23
2班,张三丰,19,81,92,17,60,0
2班,张无忌,94,97,87,62,57,3
2班,鲁班,7,91,18,79,12,86


In [None]:
使用fill_value

In [123]:
# 行转列之后可能出现空值，可以使用fill_value指定默认值
df.unstack()
df.unstack(fill_value=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,...,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,语文,数学,数学,数学,数学,...,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语
Unnamed: 0_level_2,张三,张三丰,张无忌,李四,王五,鲁班,张三,张三丰,张无忌,李四,...,张无忌,李四,王五,鲁班,张三,张三丰,张无忌,李四,王五,鲁班
1班,65,0,0,75,82,0,1,0,0,60,...,0,14,80,0,40,0,0,48,23,0
2班,0,19,94,0,0,7,0,92,87,0,...,62,0,0,79,0,0,3,0,0,86



### 5. 聚合操作

【注意】

- 需要指定axis
- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。
-  Pandas 2.0.0 版本之后，df.sum() 的 level 参数 已被移除。
  - 方法 1：使用 groupby() 按层级求和
    -  Pandas 2.0.0 及更高版本中，groupby() 的 level 参数 也不建议使用
    -  Pandas 推荐使用 frame.T.groupby(...) 来替代 axis=1 的分组操作
      - 推荐使用 df.T.groupby(level=0).sum().T
  - 方法 2：使用 unstack() 和 sum()
  - 方法 3：使用 xs() 提取特定层级后求和


In [124]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,65,1,64,71,16,40
1班,李四,75,60,62,65,14,48
1班,王五,82,59,34,35,80,23
2班,鲁班,7,18,12,91,79,86
2班,张三丰,19,92,60,81,17,0
2班,张无忌,94,87,57,97,62,3


In [127]:
df2 = df.loc['1班','期中']
df2

Unnamed: 0,语文,数学,英语
张三,65,1,64
李四,75,60,62
王五,82,59,34


In [128]:
# 获取所有元素的和
df2.values.sum()

np.int64(502)

In [131]:
# 求每一列的和（每一列多行相加）axis默认为0
df2.sum()

语文    222
数学    120
英语    160
dtype: int64

In [130]:
# 求每一行的和（每一行多列相加）
df2.sum(axis=1)

张三    130
李四    197
王五    175
dtype: int64

多层索引聚合操作

In [132]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,65,1,64,71,16,40
1班,李四,75,60,62,65,14,48
1班,王五,82,59,34,35,80,23
2班,鲁班,7,18,12,91,79,86
2班,张三丰,19,92,60,81,17,0
2班,张无忌,94,87,57,97,62,3


In [152]:
# 求每一列的和，最后一层的列的和
df.sum()

期中  语文    342
    数学    317
    英语    289
期末  语文    440
    数学    268
    英语    200
dtype: int64

In [151]:
# 求每一行的和，最后一层的行的和
df.sum(axis=1)

1班  张三     257
    李四     324
    王五     313
2班  鲁班     293
    张三丰    269
    张无忌    400
dtype: int64

In [157]:
# 计算行中的第一层
df.groupby(level=0).sum()
# 计算行中的第二层
df.groupby(level=1).sum()
# 计算列中的第一层（先转置，然后计算，然后再转置）
df.T.groupby(level=0).sum().T
# 计算列中的第二层（先转置，然后计算，然后再转置）
df.T.groupby(level=1).sum().T

Unnamed: 0,Unnamed: 1,数学,英语,语文
1班,张三,17,104,136
1班,李四,74,110,140
1班,王五,139,57,117
2班,鲁班,97,98,98
2班,张三丰,109,60,100
2班,张无忌,149,60,191
