# pandas层次化索引

In [5]:
import numpy as np

import pandas as pd

from pandas import Series,DataFrame

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [4]:
s = Series(np.random.randint(0, 150, size = 6), index = pd.MultiIndex.from_product([['A', 'B', 'C'],['期中','期末']]))
s

A  期中     37
   期末      1
B  期中    132
   期末    108
C  期中     18
   期末    109
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

In [55]:
ser1 = Series(np.random.randint(0, 150, size = 6), index = pd.MultiIndex.from_product([['A', 'B', 'C'],['期中','期末']]))
ser1

A  期中      5
   期末     59
B  期中    101
   期末     70
C  期中     64
   期末     29
dtype: int32

In [10]:
ser2 = Series(np.random.randint(0, 150, size = 6),
              index = pd.MultiIndex.from_arrays([['A','A','B','B','C','C'],
                                                 ['期中','期末','期中','期末','期中','期末']]))
ser2

A  期中     24
   期末    125
B  期中     47
   期末      5
C  期中     28
   期末     86
dtype: int32

- 使用tuple

- 使用product

    最简单，推荐使用

In [14]:
df1 = DataFrame(np.random.randint(0,150,size = (10, 3)),
               columns = ['Python','Math','En'], 
               index = pd.MultiIndex.from_product([list('ABCDE'),
                                                  ['期中', '期末']]))
df1

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,97,86,18
A,期末,70,93,78
B,期中,43,29,10
B,期末,60,16,35
C,期中,1,63,104
C,期末,75,62,40
D,期中,53,0,0
D,期末,28,130,20
E,期中,56,131,72
E,期末,106,22,53


In [40]:
df2 = DataFrame(np.random.randint(0,150,size = (20, 3)),
               columns = ['Python','Math','En'], 
               index = pd.MultiIndex.from_product([list('ABCDE'),
                                                  ['期中', '期末'],
                                                  ['模拟一', '模拟二']]))
df2

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,118,34,100
A,期中,模拟二,123,80,142
A,期末,模拟一,125,86,139
A,期末,模拟二,62,112,35
B,期中,模拟一,2,94,5
B,期中,模拟二,33,37,15
B,期末,模拟一,131,24,2
B,期末,模拟二,51,6,97
C,期中,模拟一,22,133,18
C,期中,模拟二,50,116,147


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

In [39]:
df4 = DataFrame(np.random.randint(0, 150, size = (6, 3)),
                columns = ['Python','Math','En'],
                index = pd.MultiIndex.from_product([['张三','李四','王二'],['期中','期末']]))
df4

Unnamed: 0,Unnamed: 1,Python,Math,En
张三,期中,63,10,70
张三,期末,95,68,101
李四,期中,148,31,39
李四,期末,131,20,49
王二,期中,114,98,59
王二,期末,139,39,72


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [24]:
#列索引
df3 = DataFrame(np.random.randint(0, 150, size = (5, 6)),
                columns=pd.MultiIndex.from_product([['Python','Math','En'],
                                                   ['期中','期末']])
               )
df3

Unnamed: 0_level_0,Python,Python,Math,Math,En,En
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
0,103,108,100,140,65,76
1,60,145,19,81,3,122
2,69,121,49,94,27,84
3,20,16,63,50,142,61
4,46,36,148,93,37,26


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

(1) 索引

In [25]:
df['Python']

A  期中    118
   期末    102
B  期中     59
   期末    140
C  期中    134
   期末     61
D  期中     57
   期末     76
E  期中    123
   期末    140
Name: Python, dtype: int32

In [26]:
df.Python

A  期中    118
   期末    102
B  期中     59
   期末    140
C  期中    134
   期末     61
D  期中     57
   期末     76
E  期中    123
   期末    140
Name: Python, dtype: int32

In [28]:
df

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,118,17,37
A,期末,102,20,149
B,期中,59,19,62
B,期末,140,47,107
C,期中,134,40,94
C,期末,61,84,122
D,期中,57,31,101
D,期末,76,131,120
E,期中,123,19,12
E,期末,140,107,19


In [31]:
df.loc[['A','B']]

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,118,17,37
A,期末,102,20,149
B,期中,59,19,62
B,期末,140,47,107


In [29]:
df.iloc[1]

Python    102
Math       20
En        149
Name: (A, 期末), dtype: int32

(2) 切片

In [36]:
df.loc['A':'C']

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,118,17,37
A,期末,102,20,149
B,期中,59,19,62
B,期末,140,47,107
C,期中,134,40,94
C,期末,61,84,122


In [37]:
df.iloc[0:3]

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,118,17,37
A,期末,102,20,149
B,期中,59,19,62


In [38]:
df2

Unnamed: 0,Unnamed: 1,Python,Math,En
张三,期中,50,64,44
张三,期末,132,103,13
李四,期中,76,19,139
李四,期末,85,127,105
王二,期中,116,23,95
王二,期末,117,128,36


In [44]:
df2.loc['A','期末', '模拟二'][]

Python     62
Math      112
En         35
Name: (A, 期末, 模拟二), dtype: int32

In [46]:
df

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,118,17,37
A,期末,102,20,149
B,期中,59,19,62
B,期末,140,47,107
C,期中,134,40,94
C,期末,61,84,122
D,期中,57,31,101
D,期末,76,131,120
E,期中,123,19,12
E,期末,140,107,19


In [49]:
#求个人期中期末的拼平均值
df.mean(axis = 0, level = 0)

Unnamed: 0,Python,Math,En
A,110.0,18.5,93.0
B,99.5,33.0,84.5
C,97.5,62.0,108.0
D,66.5,81.0,110.5
E,131.5,63.0,15.5


In [51]:
#求所有人期中，期末的分别的平均值
df.mean(axis = 0, level = 1)

Unnamed: 0,Python,Math,En
期中,98.2,25.2,61.2
期末,103.8,77.8,103.4


In [53]:
df2['A':'E']

Unnamed: 0,Unnamed: 1,Unnamed: 2,Python,Math,En
A,期中,模拟一,118,34,100
A,期中,模拟二,123,80,142
A,期末,模拟一,125,86,139
A,期末,模拟二,62,112,35
B,期中,模拟一,2,94,5
B,期中,模拟二,33,37,15
B,期末,模拟一,131,24,2
B,期末,模拟二,51,6,97
C,期中,模拟一,22,133,18
C,期中,模拟二,50,116,147


### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [57]:
ser1

A  期中      5
   期末     59
B  期中    101
   期末     70
C  期中     64
   期末     29
dtype: int32

In [58]:
ser1[0]

5

In [59]:
ser1[1]

59

In [61]:
ser1[0] = 100

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================