# pandas层次化索引

In [1]:
import numpy as np

import pandas as pd

from pandas import Series,DataFrame

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [2]:
s = Series(np.random.randint(0,150,size = 6),index = pd.MultiIndex.from_product([['A','B','C'],['期中','期末']]))

s

A  期中     68
   期末    140
B  期中     22
   期末    128
C  期中    139
   期末    143
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [4]:
s = Series(np.random.randint(0,150,size = 6),
           index = pd.MultiIndex.from_arrays([['A','A','B','B','C',"C"],['期中','期末','期中','期末','期中','期末']]))

s

A  期中    149
   期末    135
B  期中    122
   期末     38
C  期中    122
   期末     33
dtype: int32

- 使用tuple

- 使用product

    最简单，推荐使用

In [5]:
df = DataFrame(np.random.randint(0,150,size = (10,3)),columns=['Python','Math','En'],
               index=pd.MultiIndex.from_product([list('ABCDE'),['期中','期末']]))
df

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,44,16,98
A,期末,110,86,83
B,期中,93,47,45
B,期末,108,95,7
C,期中,36,64,12
C,期末,2,13,148
D,期中,107,109,52
D,期末,52,82,26
E,期中,54,39,69
E,期末,112,96,22


In [6]:
df = DataFrame(np.random.randint(0,150,size = (20,3)),columns=['Python','Math','En'],
               index=pd.MultiIndex.from_product([list('ABCDE'),['期中','期末'],['模拟一','模拟二']]))
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


In [7]:
df2 = DataFrame(np.random.randint(0,150,size = (5,6)),
                columns=pd.MultiIndex.from_product([['Python','Math','En'],['期中','期末']]),
                index = list('ABCDE'))

df2

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
A,9,101,114,111,130,110
B,118,92,26,47,149,0
C,57,143,35,47,122,128
D,136,34,115,25,95,52
E,82,112,30,113,65,122


In [9]:
df['Python']

A  期中  模拟一    140
       模拟二    111
   期末  模拟一     78
       模拟二     90
B  期中  模拟一     59
       模拟二     90
   期末  模拟一    127
       模拟二    143
C  期中  模拟一    107
       模拟二    143
   期末  模拟一     62
       模拟二     69
D  期中  模拟一     39
       模拟二    135
   期末  模拟一    128
       模拟二    114
E  期中  模拟一    101
       模拟二     12
   期末  模拟一     95
       模拟二    126
Name: Python, dtype: int32

In [10]:
df.Python

A  期中  模拟一    140
       模拟二    111
   期末  模拟一     78
       模拟二     90
B  期中  模拟一     59
       模拟二     90
   期末  模拟一    127
       模拟二    143
C  期中  模拟一    107
       模拟二    143
   期末  模拟一     62
       模拟二     69
D  期中  模拟一     39
       模拟二    135
   期末  模拟一    128
       模拟二    114
E  期中  模拟一    101
       模拟二     12
   期末  模拟一     95
       模拟二    126
Name: Python, dtype: int32

In [11]:
df.loc['A']

Unnamed: 0,Unnamed: 1,Python,Math,En
期中,模拟一,140,87,89
期中,模拟二,111,143,133
期末,模拟一,78,77,43
期末,模拟二,90,63,45


In [12]:
df.loc[['A','D']]

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
D,期中,模拟一,39,123,61
D,期中,模拟二,135,113,41
D,期末,模拟一,128,131,30
D,期末,模拟二,114,53,29


In [14]:
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


In [13]:
df.iloc[0]

Python    140
Math       87
En         89
Name: (A, 期中, 模拟一), dtype: int32

In [15]:
df['A':'C']

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


In [16]:
df.loc['A':'B']

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136


In [17]:
df.iloc[0:3]

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43


In [22]:
df.loc['A','期末','模拟二']['Python']

90

In [18]:
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


In [24]:
df.mean()

Python    98.45
Math      89.05
En        56.10
dtype: float64

In [27]:
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


In [28]:
df.mean(axis = 0,level = 0)

Unnamed: 0,Python,Math,En
A,104.75,92.5,77.5
B,104.75,96.25,73.0
C,95.25,60.5,45.75
D,104.0,105.0,40.25
E,83.5,91.0,44.0


In [29]:
df.mean(axis = 0,level = 1)

Unnamed: 0,Python,Math,En
期中,93.7,96.6,67.5
期末,103.2,81.5,44.7


In [30]:
df.mean(axis = 0,level = 2)

Unnamed: 0,Python,Math,En
模拟一,93.6,91.0,63.4
模拟二,103.3,87.1,48.8


In [31]:
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,140,87,89
A,期中,模拟二,111,143,133
A,期末,模拟一,78,77,43
A,期末,模拟二,90,63,45
B,期中,模拟一,59,64,120
B,期中,模拟二,90,87,8
B,期末,模拟一,127,99,28
B,期末,模拟二,143,135,136
C,期中,模拟一,107,17,2
C,期中,模拟二,143,104,59


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

(1) 索引

(2) 切片

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [34]:
df2

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
A,9,101,114,111,130,110
B,118,92,26,47,149,0
C,57,143,35,47,122,128
D,136,34,115,25,95,52
E,82,112,30,113,65,122


In [36]:
df2.stack(level = 0)

Unnamed: 0,Unnamed: 1,期中,期末
A,En,130,110
A,Math,114,111
A,Python,9,101
B,En,149,0
B,Math,26,47
B,Python,118,92
C,En,122,128
C,Math,35,47
C,Python,57,143
D,En,95,52


In [39]:
# 行变成列
df.unstack(level=[0,1])

Unnamed: 0_level_0,Python,Python,Python,Python,Python,Python,Python,Python,Python,Python,Math,Math,Math,Math,Math,Math,Math,Math,Math,Math,En,En,En,En,En,En,En,En,En,En
Unnamed: 0_level_1,A,A,B,B,C,C,D,D,E,E,A,A,B,B,C,C,D,D,E,E,A,A,B,B,C,C,D,D,E,E
Unnamed: 0_level_2,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末,期中,期末
模拟一,140,78,59,127,107,62,39,128,101,95,87,77,64,99,17,104,123,131,109,99,89,43,120,28,2,120,61,30,132,9
模拟二,111,90,90,143,143,69,135,114,12,126,143,63,87,135,104,17,113,53,119,37,133,45,8,136,59,2,41,29,30,5


In [41]:
s = df['Python']
s

A  期中  模拟一    140
       模拟二    111
   期末  模拟一     78
       模拟二     90
B  期中  模拟一     59
       模拟二     90
   期末  模拟一    127
       模拟二    143
C  期中  模拟一    107
       模拟二    143
   期末  模拟一     62
       模拟二     69
D  期中  模拟一     39
       模拟二    135
   期末  模拟一    128
       模拟二    114
E  期中  模拟一    101
       模拟二     12
   期末  模拟一     95
       模拟二    126
Name: Python, dtype: int32

In [42]:
s.unstack()

Unnamed: 0,Unnamed: 1,模拟一,模拟二
A,期中,140,111
A,期末,78,90
B,期中,59,90
B,期末,127,143
C,期中,107,143
C,期末,62,69
D,期中,39,135
D,期末,128,114
E,期中,101,12
E,期末,95,126


小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================