## Pandas层次化索引

In [1]:
import numpy as np
import pandas as pd

### 1. 创建多层行索引

#### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [2]:
data = np.random.randint(0, 100, size=(6, 6))

index = [
    ['1班',  '1班',   '1班',  '2班', '2班', '2班'],
    ['张三', '李四', '王五', '鲁班', '张三丰', '张无忌']
]
columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,76,14,66,6,65,91
1班,李四,79,51,86,60,5,52
1班,王五,8,13,12,28,44,4
2班,鲁班,28,11,81,23,79,85
2班,张三丰,29,83,1,15,64,32
2班,张无忌,5,80,88,50,48,56


- Series也可以创建多层索引

In [3]:
data = np.random.randint(0, 100, size=6)

index = [
    ['1班',  '1班',   '1班',  '2班', '2班', '2班'],
    ['张三', '李四', '王五', '鲁班', '张三丰', '张无忌']
]

s = pd.Series(data=data, index=index)
s

1班  张三     35
    李四      5
    王五     46
2班  鲁班     96
    张三丰    55
    张无忌    35
dtype: int32

#### 2) 显示构造pd.MultiIndex

- 使用数组

In [4]:
data = np.random.randint(0, 100, size=(6, 6))

index = pd.MultiIndex.from_arrays( [
    ['1班',  '1班',   '1班',  '2班', '2班', '2班'],
    ['张三', '李四', '王五', '鲁班', '张三丰', '张无忌']
])
columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,72,77,93,61,22,5
1班,李四,60,90,21,23,81,21
1班,王五,19,48,51,82,47,49
2班,鲁班,40,54,58,97,86,7
2班,张三丰,24,15,49,56,66,97
2班,张无忌,35,33,8,36,20,16


- 使用tuple

In [5]:
data = np.random.randint(0, 100, size=(6, 6))

index = pd.MultiIndex.from_tuples( 
    (
        ('1班', '张三'), ('1班', '李四'), ('1班', '王五'), 
        ('2班', '鲁班'), ('2班', '张三丰'), ('2班', '张无忌')
    )
)

columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,58,68,21,11,21,97
1班,李四,1,44,60,77,49,13
1班,王五,33,70,57,37,44,82
2班,鲁班,35,65,47,57,61,48
2班,张三丰,64,2,73,54,61,55
2班,张无忌,69,7,79,46,18,83


- 使用product
    - 笛卡尔积

In [6]:
data = np.random.randint(0, 100, size=(6, 6))

# 笛卡尔积: {a, b} {c, d} => {a, c}, {a, d}, {b, c}, {b, d}

index = pd.MultiIndex.from_product( [
    ['1班',  '2班'],
    ['张三', '李四', '王五']
])
columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,37,2,58,39,94,8
1班,李四,69,17,78,87,76,72
1班,王五,91,73,12,66,26,62
2班,张三,89,84,20,31,58,93
2班,李四,87,90,52,60,66,65
2班,王五,27,39,85,16,29,0


### 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

### 3. 多层索引对象的索引与切片操作

#### 1）Series的操作

- 对于Series来说，直接中括号[]与使用.loc()完全一样

(1) 索引

In [7]:
s

1班  张三     35
    李四      5
    王五     46
2班  鲁班     96
    张三丰    55
    张无忌    35
dtype: int32

In [8]:
# 显式索引
s['1班']
s.loc['1班']

s[['1班']]
s[['1班', '2班']]

s['1班']['张三']
s.loc['1班']['张三']
s.loc['1班', '张三']
s['1班', '张三']

# 隐式索引
s[0]
s[1]
s.iloc[1]
s.iloc[[1, 2]]

1班  李四     5
    王五    46
dtype: int32

(2) 切片

In [9]:
s

1班  张三     35
    李四      5
    王五     46
2班  鲁班     96
    张三丰    55
    张无忌    35
dtype: int32

In [10]:
# 切片
# 显式切片
s['1班' : '2班']
s.loc['1班' : '2班']
s.loc['1班'][:]

# 建议使用隐式索引
s[1 : 5]
s.iloc[1 : 5]

1班  李四      5
    王五     46
2班  鲁班     96
    张三丰    55
dtype: int32

#### 2）DataFrame的操作

(1) 索引

In [11]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,37,2,58,39,94,8
1班,李四,69,17,78,87,76,72
1班,王五,91,73,12,66,26,62
2班,张三,89,84,20,31,58,93
2班,李四,87,90,52,60,66,65
2班,王五,27,39,85,16,29,0


In [12]:
# 列索引
df['期中']
df['期中'][['数学']]
df['期中']['数学']
df['期中', '数学']
df.期中.数学

df.iloc[:, 2]
df.iloc[:, [0, 2, 1]]
df.loc[:, ('期中', '数学')]

# 行索引
df.loc['2班']
df.loc['2班'].loc['张三']
df.loc['2班', '张三']
df.loc[('2班', '张三')]

df.iloc[1]
df.iloc[[1]]
df.iloc[[1, 3, 4, 2]]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,李四,69,17,78,87,76,72
2班,张三,89,84,20,31,58,93
2班,李四,87,90,52,60,66,65
1班,王五,91,73,12,66,26,62


In [13]:
# 获取元素
df['期中']['数学']['1班']['张三']
df['期中']['数学']['1班'][0]

df.iloc[0, 1]
df.loc[('1班', '张三'), ('期中', '数学')]

2

(2) 切片

In [14]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,37,2,58,39,94,8
1班,李四,69,17,78,87,76,72
1班,王五,91,73,12,66,26,62
2班,张三,89,84,20,31,58,93
2班,李四,87,90,52,60,66,65
2班,王五,27,39,85,16,29,0


In [15]:
# 行切片
df.iloc[1 : 5]
df.loc[('1班', '李四') : ('2班', '李四')]
df.loc['1班' : '2班']

# 列切片
df.iloc[:, 1: 5]
df.loc[:, '期中': '期末']
# df.loc[:, ('期中', '数学') : ('期末', '数学')]  # 报错

# 建议切片使用隐式索引：
#    使用数字下标来做偏


Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,37,2,58,39,94,8
1班,李四,69,17,78,87,76,72
1班,王五,91,73,12,66,26,62
2班,张三,89,84,20,31,58,93
2班,李四,87,90,52,60,66,65
2班,王五,27,39,85,16,29,0


### 4. 索引的堆叠

- stack()
- unstack()

【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [16]:
data = np.random.randint(0, 100, size=(6, 6))

# 笛卡尔积: {a, b} {c, d} => {a, c}, {a, d}, {b, c}, {b, d}

index = pd.MultiIndex.from_product( [
    ['1班',  '2班'],
    ['张三', '李四', '王五']
])
columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,7,74,74,35,76,18
1班,李四,32,51,10,80,62,76
1班,王五,31,70,2,41,79,58
2班,张三,77,78,21,89,20,90
2班,李四,19,89,97,26,84,85
2班,王五,76,34,98,1,48,39


In [17]:
# stack: 将列索引变成行索引
df.stack()   # 默认是将最里层的列索引变成行索引
df.stack(level=-1)
df.stack(level=1)

df2 = df.stack(level=0)
df2

Unnamed: 0,Unnamed: 1,Unnamed: 2,数学,英语,语文
1班,张三,期中,74,74,7
1班,张三,期末,76,18,35
1班,李四,期中,51,10,32
1班,李四,期末,62,76,80
1班,王五,期中,70,2,31
1班,王五,期末,79,58,41
2班,张三,期中,78,21,77
2班,张三,期末,20,90,89
2班,李四,期中,89,97,19
2班,李四,期末,84,85,26


【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

In [18]:
# unstack: 将行索引变成列索引
df2.unstack()
df2.unstack(level=-1)
df2.unstack(level=2)
df2.unstack(level=1)
df2.unstack(level=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,数学,数学,英语,英语,语文,语文
Unnamed: 0_level_1,Unnamed: 1_level_1,1班,2班,1班,2班,1班,2班
张三,期中,74,78,74,21,7,77
张三,期末,76,20,18,90,35,89
李四,期中,51,89,10,97,32,19
李四,期末,62,84,76,85,80,26
王五,期中,70,34,2,98,31,76
王五,期末,79,48,58,39,41,1


使用fill_value填充

In [19]:
data = np.random.randint(0, 100, size=(6, 6))

index = pd.MultiIndex.from_tuples( 
    (
        ('1班', '张三'), ('1班', '李四'), ('1班', '王五'), 
        ('2班', '鲁班'), ('2班', '张三丰'), ('2班', '张无忌')
    )
)

columns = [
    ['期中', '期中', '期中', '期末', '期末', '期末'],
    ['语文', '数学', '英语', '语文', '数学', '英语']
]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,13,79,41,58,81,8
1班,李四,47,98,28,98,30,14
1班,王五,82,80,28,42,96,66
2班,鲁班,8,9,17,99,78,97
2班,张三丰,71,14,6,91,52,92
2班,张无忌,57,45,27,96,6,64


In [20]:
df.unstack()

df.unstack(fill_value=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,...,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,语文,数学,数学,数学,数学,...,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语
Unnamed: 0_level_2,张三,张三丰,张无忌,李四,王五,鲁班,张三,张三丰,张无忌,李四,...,张无忌,李四,王五,鲁班,张三,张三丰,张无忌,李四,王五,鲁班
1班,13,0,0,47,82,0,79,0,0,98,...,0,30,96,0,8,0,0,14,66,0
2班,0,71,57,0,0,8,0,14,45,0,...,6,0,0,78,0,92,64,0,0,97


### 5. 聚合操作

DataFrame聚合函数
- 求和
- 平均值
- 最大值
- 最小值等

In [21]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,13,79,41,58,81,8
1班,李四,47,98,28,98,30,14
1班,王五,82,80,28,42,96,66
2班,鲁班,8,9,17,99,78,97
2班,张三丰,71,14,6,91,52,92
2班,张无忌,57,45,27,96,6,64


In [22]:
df2 = df.loc['1班',  '期中']
df2

Unnamed: 0,语文,数学,英语
张三,13,79,41
李四,47,98,28
王五,82,80,28


In [23]:
df2.values.sum()

496

In [24]:
df2.sum()
df2.sum(axis=0)  # 求每一列中多行的和
df2.sum(axis=1)  # 求每一行中多列的和

张三    133
李四    173
王五    190
dtype: int64

In [25]:
df2.mean()
df2.max()

语文    82
数学    98
英语    41
dtype: int32

多层索引聚合操作

In [26]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
1班,张三,13,79,41,58,81,8
1班,李四,47,98,28,98,30,14
1班,王五,82,80,28,42,96,66
2班,鲁班,8,9,17,99,78,97
2班,张三丰,71,14,6,91,52,92
2班,张无忌,57,45,27,96,6,64


In [27]:
df.sum()  # 默认是求每一列中多行的和
df.sum(axis=0)

期中  语文    278
    数学    325
    英语    147
期末  语文    484
    数学    343
    英语    341
dtype: int64

In [28]:
df.sum(axis=1)  # 默认是求每一行中多列的和

1班  张三     280
    李四     315
    王五     394
2班  鲁班     308
    张三丰    326
    张无忌    295
dtype: int64

In [29]:
df.sum(axis=0, level=0)  # 表式计算 行 中 的第1层（level=0）
df.sum(axis=0, level=1)  # 表式计算 行 中 的第2层（level=1）

df.sum(axis=1, level=0)  # 表式计算 列 中 的第1层（level=0）
df.sum(axis=1, level=1)  # 表式计算 列 中 的第2层（level=1）

Unnamed: 0,Unnamed: 1,语文,数学,英语
1班,张三,71,160,49
1班,李四,145,128,42
1班,王五,124,176,94
2班,鲁班,107,87,114
2班,张三丰,162,66,98
2班,张无忌,153,51,91
