# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [6]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'],['张三', '李四', '王五', '赵六', '钱七', '王八']]
columns = [['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']]
data = np.random.randint(0,150,size=(6,6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,134,19,25,138,0,22
一班,李四,121,51,43,105,25,67
一班,王五,102,10,125,10,44,59
二班,赵六,46,0,29,69,93,45
二班,钱七,22,65,3,61,67,70
二班,王八,67,22,67,79,27,131


- Series也可以创建多层索引

In [5]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'],['张三', '李四', '王五', '赵六', '钱七', '王八']]
s = Series(data=np.random.randint(0,150,size=6), index=index)
s

一班  张三     39
    李四     33
    王五    103
二班  赵六     58
    钱七    130
    王八    144
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [9]:
index = pd.MultiIndex.from_arrays([['一班', '一班', '一班', '二班', '二班', '二班'],['张三', '李四', '王五', '赵六', '钱七', '王八']])
columns = pd.MultiIndex.from_arrays([['期中', '期中', '期中', '期末', '期末', '期末'], ['语文', '数学', '英语', '语文', '数学', '英语']])
data = np.random.randint(0,150,size=(6,6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,143,38,44,107,3,98
一班,李四,149,81,60,142,4,0
一班,王五,147,40,148,115,12,135
二班,赵六,127,113,141,59,83,26
二班,钱七,22,94,110,107,140,147
二班,王八,109,40,38,100,45,59


- 使用tuple

In [13]:
index = pd.MultiIndex.from_tuples([('一班', '张三'),('一班', '李四'), ('一班','王五'), ('二班', '赵六'), ('二班', '钱七'), ('二班', '王八')])
columns = pd.MultiIndex.from_tuples([('期中', '语文'),('期中', '数学'),('期中', '英语'),('期末', '语文'),('期末', '数学'),('期末', '英语')])
data = np.random.randint(0,150,size=(6,6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,56,30,143,80,91,1
一班,李四,44,80,124,65,53,18
一班,王五,5,54,50,32,117,134
二班,赵六,36,25,136,138,75,27
二班,钱七,14,144,56,39,6,144
二班,王八,125,34,29,111,37,55


- 使用product

    最简单，推荐使用

In [3]:
index = pd.MultiIndex.from_product([['一班', '二班'],['张三', '李四', '王五']])
columns = pd.MultiIndex.from_product([['期中', '期末'], ['语文', '数学', '英语']])
data = np.random.randint(0,150,size=(6,6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,99,47,51,24,60,138
一班,李四,34,142,2,10,104,7
一班,王五,142,138,4,108,48,146
二班,张三,141,45,8,50,40,41
二班,李四,40,135,69,111,19,92
二班,王五,110,104,101,90,17,47


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用中括号索引和切片。

In [6]:
s

一班  张三     39
    李四     33
    王五    103
二班  赵六     58
    钱七    130
    王八    144
dtype: int32

(1) 索引

In [33]:
# 不能直接绕过外层索引去索引内层索引
s.loc['张三']

KeyError: 'the label [张三] is not in the [index]'

In [32]:
s.loc['一班'].loc['张三']

39

In [17]:
s.loc['一班', '张三']  #*************************#

39

In [31]:
s.loc['一班', '张三']
# s.loc['一班','李四']

39

In [40]:
s.iloc[0]

39

(2) 切片

In [34]:
s.loc['一班': '二班']    

一班  张三     39
    李四     33
    王五    103
二班  赵六     58
    钱七    130
    王八    144
dtype: int32

In [27]:
# 切片的时候,直接操作内层索引,不会报错,但是没有结果.
s.loc['张三': '王八']

Series([], dtype: int32)

In [39]:
s.iloc[0:2]

一班  张三    39
    李四    33
dtype: int32

In [38]:
s.iloc[0:5]

一班  张三     39
    李四     33
    王五    103
二班  赵六     58
    钱七    130
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [30]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133,82,139,86,83,112
一班,李四,129,85,23,131,4,18
一班,王五,9,15,96,131,72,77
二班,张三,4,142,104,48,81,108
二班,李四,75,60,108,126,85,122
二班,王五,24,31,53,72,49,46


行多级索引的索引和切片操作

In [34]:
# DataFrame中操作行要调用loc[]
df.loc['一班'].loc[['李四']]

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
李四,129,85,23,131,4,18


In [35]:
df.loc['一班': '二班']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133,82,139,86,83,112
一班,李四,129,85,23,131,4,18
一班,王五,9,15,96,131,72,77
二班,张三,4,142,104,48,81,108
二班,李四,75,60,108,126,85,122
二班,王五,24,31,53,72,49,46


In [36]:
# 和Series一样,直接切内层索引,会没有结果.不会报错.
df.loc['张三': '李四']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语


In [38]:
# 隐式索引不涉及外层索引
df.iloc[[0]]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133,82,139,86,83,112


In [15]:
df.iloc[0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,99,47,51,24,60,138
一班,李四,34,142,2,10,104,7
一班,王五,142,138,4,108,48,146
二班,张三,141,45,8,50,40,41


列多级索引的索引和切片操作

In [16]:
# df['期中'][['语文', '数学']]
df['期末']['英语'].loc['一班','李四']

7

In [42]:
# 列索引,直接切片,没有报错,但是没有结果.
df['期中': '期末']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语


(2) 使用行索引需要用loc()函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [43]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133,82,139,86,83,112
一班,李四,129,85,23,131,4,18
一班,王五,9,15,96,131,72,77
二班,张三,4,142,104,48,81,108
二班,李四,75,60,108,126,85,122
二班,王五,24,31,53,72,49,46


In [71]:
pd.set_option('mode.chained_assignment', 'raise')

In [84]:
df.loc['一班']['期中']['语文']['张三']  = 0
# 链式索引,官方不推荐,要避免.


In [87]:
df.loc['一班', '张三'].loc['期中', '语文'] = 88  #*************************#

In [88]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,88.0,82.0,88.0,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [81]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,0.0,82.0,88.0,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [49]:
# 张三的期中英语成绩设成None
# 行索引
# 类型不一致不能对dataframe中的数据进行赋值.df = df.astype(np.float64)
df.loc['一班'].loc['张三'].loc['期中'].loc['英语'] = np.nan

In [25]:
df = df.astype(np.float64)

In [51]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,99.0,47.0,,24.0,60.0,138.0
一班,李四,34.0,142.0,2.0,10.0,104.0,7.0
一班,王五,142.0,138.0,4.0,108.0,48.0,146.0
二班,张三,141.0,45.0,8.0,50.0,40.0,41.0
二班,李四,40.0,135.0,69.0,111.0,19.0,92.0
二班,王五,110.0,104.0,101.0,90.0,17.0,47.0


In [27]:
df['期中']['英语']['一班']['张三'] 

nan

In [29]:
df.loc['一班', '张三'].loc['期中', '英语'] = 88
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,99.0,47.0,88.0,24.0,60.0,138.0
一班,李四,34.0,142.0,2.0,10.0,104.0,7.0
一班,王五,142.0,138.0,4.0,108.0,48.0,146.0
二班,张三,141.0,45.0,8.0,50.0,40.0,41.0
二班,李四,40.0,135.0,69.0,111.0,19.0,92.0
二班,王五,110.0,104.0,101.0,90.0,17.0,47.0


## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [61]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133.0,82.0,,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [62]:
# stack就是把列索引,变成最内层的行索引.从水平变成垂直.
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,期中,期末
一班,张三,数学,82.0,83.0
一班,张三,英语,,112.0
一班,张三,语文,133.0,86.0
一班,李四,数学,85.0,4.0
一班,李四,英语,23.0,18.0
一班,李四,语文,129.0,131.0
一班,王五,数学,15.0,72.0
一班,王五,英语,96.0,77.0
一班,王五,语文,9.0,131.0
二班,张三,数学,142.0,81.0


In [64]:
# unstack把最内层的行索引变成列索引.
df.stack().unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,数学,英语,语文,数学,英语,语文
一班,张三,82.0,,133.0,83.0,112.0,86.0
一班,李四,85.0,23.0,129.0,4.0,18.0,131.0
一班,王五,15.0,96.0,9.0,72.0,77.0,131.0
二班,张三,142.0,104.0,4.0,81.0,108.0,48.0
二班,李四,60.0,108.0,75.0,85.0,122.0,126.0
二班,王五,31.0,53.0,24.0,49.0,46.0,72.0


In [92]:
df.unstack(fill_value=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,数学,数学,数学,英语,英语,英语,语文,语文,语文,数学,数学,数学,英语,英语,英语
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
一班,88.0,129.0,9.0,82.0,85.0,15.0,88.0,23.0,96.0,86.0,131.0,131.0,83.0,4.0,72.0,112.0,18.0,77.0
二班,4.0,75.0,24.0,142.0,60.0,31.0,104.0,108.0,53.0,48.0,126.0,72.0,81.0,85.0,49.0,108.0,122.0,46.0


【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将df变为两行，分别为期中期末

2. 使用unstack()将df变为3行，分别为3个科目

============================================

In [65]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133.0,82.0,,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [67]:
# 第一步先把期中期末放到行索引
# 第二步把一班,张三等弄到列索引去.
df.stack(level=0).unstack(level=0).unstack(level=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
期中,82.0,85.0,15.0,142.0,60.0,31.0,,23.0,96.0,104.0,108.0,53.0,133.0,129.0,9.0,4.0,75.0,24.0
期末,83.0,4.0,72.0,81.0,85.0,49.0,112.0,18.0,77.0,108.0,122.0,46.0,86.0,131.0,131.0,48.0,126.0,72.0


In [68]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,133.0,82.0,,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [70]:
df.stack().unstack(level=0).unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
数学,82.0,85.0,15.0,142.0,60.0,31.0,83.0,4.0,72.0,81.0,85.0,49.0
英语,,23.0,96.0,104.0,108.0,53.0,112.0,18.0,77.0,108.0,122.0,46.0
语文,133.0,129.0,9.0,4.0,75.0,24.0,86.0,131.0,131.0,48.0,126.0,72.0


## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [94]:
# 聚合操作的时候,默认算的是列的聚合.
df.sum()

期中  语文    329.0
    数学    415.0
    英语    472.0
期末  语文    594.0
    数学    374.0
    英语    483.0
dtype: float64

In [96]:
# 聚合操作的时候.axis=0表示列,=1表示行
df.sum(axis=0)

期中  语文    329.0
    数学    415.0
    英语    472.0
期末  语文    594.0
    数学    374.0
    英语    483.0
dtype: float64

In [97]:
df.sum(axis=1)

一班  张三    539.0
    李四    390.0
    王五    400.0
二班  张三    487.0
    李四    576.0
    王五    275.0
dtype: float64

In [98]:
df.sum(level=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
一班,226.0,182.0,207.0,348.0,159.0,207.0
二班,103.0,233.0,265.0,246.0,215.0,276.0


In [99]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,88.0,82.0,88.0,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [100]:
# 聚合操作的时候,level等于哪一层,就保留哪一层.
df.sum(level=1)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,92.0,224.0,192.0,134.0,164.0,220.0
李四,204.0,145.0,131.0,257.0,89.0,140.0
王五,33.0,46.0,149.0,203.0,121.0,123.0


In [101]:
df.sum(level=1, axis=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,174.0,165.0,200.0
一班,李四,260.0,89.0,41.0
一班,王五,140.0,87.0,173.0
二班,张三,52.0,223.0,212.0
二班,李四,201.0,145.0,230.0
二班,王五,96.0,80.0,99.0


所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================

In [103]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,88.0,82.0,88.0,86.0,83.0,112.0
一班,李四,129.0,85.0,23.0,131.0,4.0,18.0
一班,王五,9.0,15.0,96.0,131.0,72.0,77.0
二班,张三,4.0,142.0,104.0,48.0,81.0,108.0
二班,李四,75.0,60.0,108.0,126.0,85.0,122.0
二班,王五,24.0,31.0,53.0,72.0,49.0,46.0


In [102]:
df.mean(level=1, axis=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,87.0,82.5,100.0
一班,李四,130.0,44.5,20.5
一班,王五,70.0,43.5,86.5
二班,张三,26.0,111.5,106.0
二班,李四,100.5,72.5,115.0
二班,王五,48.0,40.0,49.5


In [104]:
df.max(level=1, axis=1)

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,88.0,83.0,112.0
一班,李四,131.0,85.0,23.0
一班,王五,131.0,72.0,96.0
二班,张三,48.0,142.0,108.0
二班,李四,126.0,85.0,122.0
二班,王五,72.0,49.0,53.0
