In [6]:
import numpy as np
from pandas import DataFrame, Series
import pandas as pd

# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [10]:
columns = [['期中', '期中', '期中', '期末', '期末', '期末'], ['语文','数学','英语','语文','数学','英语']]
index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']]
data = np.random.randint(0, 150, size=(6, 6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,18,2,26,88,147,33
一班,李四,137,118,114,78,134,57
一班,王五,86,146,60,76,9,100
二班,赵六,79,67,117,142,10,56
二班,田七,80,32,120,130,78,18
二班,孙八,76,82,23,72,8,122


- Series也可以创建多层索引

In [13]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']]
data = np.random.randint(0, 150, size=6)
s = Series(data=data, index=index)
s

一班  张三     10
    李四      5
    王五    106
二班  赵六     49
    田七      0
    孙八     90
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [15]:
columns = pd.MultiIndex.from_arrays([['期中', '期中', '期中', '期末', '期末', '期末'], ['语文','数学','英语','语文','数学','英语']])
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']])
data = np.random.randint(0, 150, size=(6, 6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,51,88,50,128,79,73
一班,李四,5,128,145,65,32,10
一班,王五,108,102,8,120,18,43
二班,赵六,36,36,109,67,149,37
二班,田七,13,125,124,38,2,108
二班,孙八,82,48,63,88,26,73


- 使用tuple

In [18]:
columns = pd.MultiIndex.from_tuples((('期中', '语文'),('期中', '数学'),('期中', '英语'),('期末', '语文'),('期末', '数学'),('期末', '英语')))
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']])
data = np.random.randint(0, 150, size=(6, 6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,9,47,107,79,64,93
一班,李四,8,74,126,91,25,144
一班,王五,56,126,43,68,68,77
二班,赵六,81,48,146,129,106,126
二班,田七,98,21,125,146,119,95
二班,孙八,5,24,26,2,21,0


- 使用product

    最简单，推荐使用

In [19]:
# from虽然简单会失去一定的灵活性
columns = pd.MultiIndex.from_product([['期中', '期末'],['语文','数学','英语']])
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七', '孙八']])
data = np.random.randint(0, 150, size=(6, 6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,67,26,149,110,15,116
一班,李四,70,102,10,13,10,105
一班,王五,83,37,139,128,63,82
二班,赵六,109,74,10,3,125,136
二班,田七,31,117,62,112,21,121
二班,孙八,130,24,121,97,75,98


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用中括号索引和切片。

In [39]:
s

一班  张三     10
    李四      5
    王五    106
二班  赵六     49
    田七      0
    孙八     90
dtype: int32

(1) 索引

In [40]:
# 显示:
s.loc['一班', '张三']

10

In [41]:
# 不能直接索引内层索引,多层索引对象的索引,必须从最外层开始往内一层层索引, 不能直接访问内层索引
s.loc['张三']  # 错误的

KeyError: '张三'

In [42]:
# 隐式
s.iloc[0]

10

(2) 切片

In [43]:
s.loc['一班':'二班']

一班  张三     10
    李四      5
    王五    106
二班  赵六     49
    田七      0
    孙八     90
dtype: int32

In [44]:
# 不能直接切内层索引
s.loc['张三':'李四']

Series([], dtype: int32)

In [47]:
# 语法没问题, 但是因为中文索引, 会报没排序索引错误
s.loc[('一班', '张三'):('二班', '赵六')]  

UnsortedIndexError: 'Key length (2) was greater than MultiIndex lexsort depth (1)'

In [49]:
# 推荐使用隐式索引
s.iloc[0:4]

一班  张三     10
    李四      5
    王五    106
二班  赵六     49
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

行多级索引的索引和切片操作

In [50]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,67,26,149,110,15,116
一班,李四,70,102,10,13,10,105
一班,王五,83,37,139,128,63,82
二班,赵六,109,74,10,3,125,136
二班,田七,31,117,62,112,21,121
二班,孙八,130,24,121,97,75,98


In [20]:
# 显示写法, 建议写上括号
df.loc[('一班', '张三')]

期中  语文     67
    数学     26
    英语    149
期末  语文    110
    数学     15
    英语    116
Name: (一班, 张三), dtype: int32

In [51]:
df.loc[[('一班','张三')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,67,26,149,110,15,116


In [21]:
df.iloc[0]

期中  语文     67
    数学     26
    英语    149
期末  语文    110
    数学     15
    英语    116
Name: (一班, 张三), dtype: int32

In [52]:
df.iloc[[0]]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,67,26,149,110,15,116


In [53]:
# 语法没问题,但是因为中文索引,会报没排序索引错误
df.loc[('一班', '张三'):('二班','赵六')]

UnsortedIndexError: 'Key length (2) was greater than MultiIndex lexsort depth (1)'

In [55]:
# 建议写法 隐式索引
df.iloc[0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,67,26,149,110,15,116
一班,李四,70,102,10,13,10,105
一班,王五,83,37,139,128,63,82
二班,赵六,109,74,10,3,125,136


列多级索引的索引和切片操作

In [56]:
df[('期中','语文')]

一班  张三     67
    李四     70
    王五     83
二班  赵六    109
    田七     31
    孙八    130
Name: (期中, 语文), dtype: int32

In [63]:
df[('期中', '语文')]

一班  张三     67
    李四     70
    王五     83
二班  赵六    109
    田七     31
    孙八    130
Name: (期中, 语文), dtype: int32

In [64]:
df.iloc[:,0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文
一班,张三,67,26,149,110
一班,李四,70,102,10,13
一班,王五,83,37,139,128
二班,赵六,109,74,10,3
二班,田七,31,117,62,112
二班,孙八,130,24,121,97


In [65]:
# 元素索引的显示写法
# 依然先行后列的原则
df.loc[('一班', '张三'), ('期中', '数学')]

26

In [67]:
df.loc[[('一班', '张三')], [('期中', '数学')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中
Unnamed: 0_level_1,Unnamed: 1_level_1,数学
一班,张三,26


In [66]:
df.iloc[0, 1]

26

(2) 使用行索引需要用loc()函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [None]:
# 所谓的sack就是把列索引变成行索引
# unstack就是反过来操作, 把行索引变成列索引的操作

In [23]:
df.stack(level=0)

Unnamed: 0,Unnamed: 1,Unnamed: 2,数学,英语,语文
一班,张三,期中,26,149,67
一班,张三,期末,15,116,110
一班,李四,期中,102,10,70
一班,李四,期末,10,105,13
一班,王五,期中,37,139,83
一班,王五,期末,63,82,128
二班,赵六,期中,74,10,109
二班,赵六,期末,125,136,3
二班,田七,期中,117,62,31
二班,田七,期末,21,121,112


In [24]:
df.unstack(fill_value=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,...,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,语文,数学,数学,数学,数学,...,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语
Unnamed: 0_level_2,孙八,张三,李四,王五,田七,赵六,孙八,张三,李四,王五,...,李四,王五,田七,赵六,孙八,张三,李四,王五,田七,赵六
一班,0,67,70,83,0,0,0,26,102,37,...,10,63,0,0,0,116,105,82,0,0
二班,130,0,0,0,31,109,24,0,0,0,...,0,0,21,125,98,0,0,0,121,136


小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将df变为两行，分别为期中期末

2. 使用unstack()将df变为四行，分别为四个科目

============================================

In [28]:
df.stack(level=0).unstack(level=(0, 1), fill_value=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,赵六,田七,孙八,张三,李四,王五,赵六,田七,孙八,张三,李四,王五,赵六,田七,孙八
期中,26,102,37,74,117,24,149,10,139,10,62,121,67,70,83,109,31,130
期末,15,10,63,125,21,75,116,105,82,136,121,98,110,13,128,3,112,97


In [29]:
df.stack().unstack(level=(0, 1), fill_value=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,赵六,田七,孙八,张三,李四,王五,赵六,田七,孙八
数学,26,102,37,74,117,24,15,10,63,125,21,75
英语,149,10,139,10,62,121,116,105,82,136,121,98
语文,67,70,83,109,31,130,110,13,128,3,112,97


## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [31]:
dd  = df.loc['一班', '期中'].copy()

In [32]:
dd

Unnamed: 0,语文,数学,英语
张三,67,26,149
李四,70,102,10
王五,83,37,139


In [None]:
# 多层索引聚合的秘诀: 先确定axis; 先确定要聚合的是行还是列, 然后确定哪一层需要留下来, namelevele就等于哪一层

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================

In [34]:
# 题目1, 确定是列聚合
df.mean(axis=1, level=1)


Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,88.5,20.5,132.5
一班,李四,41.5,56.0,57.5
一班,王五,105.5,50.0,110.5
二班,赵六,56.0,99.5,73.0
二班,田七,71.5,69.0,91.5
二班,孙八,113.5,49.5,109.5


In [37]:
# 题目2, 确定是列聚合
df.max(axis=1, level=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,110,26,149
一班,李四,70,102,105
一班,王五,128,63,139
二班,赵六,109,125,136
二班,田七,112,117,121
二班,孙八,130,75,121
