In [4]:
import pandas as pd
from pandas import DataFrame,Series
import numpy as np

# pandas层次化索引

## 1.创建多层行索引  

### （1）隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [5]:
data = np.random.randint(0,150,size=(6,6))
index = [['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','钱八']]
columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']]
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,137,149,145,65,48,121
一班,李四,117,104,103,144,92,80
一班,王五,131,81,13,116,7,94
二班,赵六,135,34,85,123,149,147
二班,孙七,121,51,120,16,10,93
二班,钱八,62,133,127,140,10,123


#### Series也可以创建多层索引

In [7]:
index = [['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','钱八']]
data = np.random.randint(0,150,size=6)
s = Series(data=data,index=index)
s

一班  张三    118
    李四     35
    王五    112
二班  赵六     99
    孙七     79
    钱八    139
dtype: int32

### (2)显式构造  
+ 使用数组 pd.MultiIndex

In [9]:
data = np.random.randint(0,150,size=(6,6))
index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','钱八']])
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,108,99,47,143,136,149
一班,李四,28,65,18,124,26,95
一班,王五,92,59,80,46,48,142
二班,赵六,67,5,9,90,33,141
二班,孙七,27,12,87,123,120,124
二班,钱八,78,42,106,92,144,65


+ 使用tuple

In [10]:
data = np.random.randint(0,150,size=(6,6))
index = pd.MultiIndex.from_tuples([('一班','张三'),('一班','李四'),('一班','王五'),('二班','赵六'),('二班','孙七'),('二班','钱八')])
columns = pd.MultiIndex.from_tuples([('期中','语文'),('期中','数学'),('期中','英语'),('期末','语文'),('期末','数学'),('期末','英语')])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,136,31,92,72,113,52
一班,李四,123,36,139,102,84,49
一班,王五,76,24,144,66,135,41
二班,赵六,4,102,11,44,66,18
二班,孙七,136,27,23,118,32,113
二班,钱八,71,95,29,96,135,39


+ 使用product  
最简单，推荐使用

In [108]:
data = np.random.randint(0,150,size=(6,6))
index = pd.MultiIndex.from_product([['一班','二班'],['张三','李四','王五']])
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,69,92,141,84,28,26
一班,李四,61,107,132,129,48,107
一班,王五,114,51,99,58,100,145
二班,张三,2,124,17,45,115,80
二班,李四,101,11,47,128,113,59
二班,王五,116,87,24,136,4,69


## 2.多层索引对象的索引与切片  
### （1）Series的操作  
【重要】 对于Series来说，直接中括号与使用loc[]完全一样，推荐使用中括号索引和切片  

In [17]:
s

一班  张三    118
    李四     35
    王五    112
二班  赵六     99
    孙七     79
    钱八    139
dtype: int32

(1)索引  
原则：当有多层索引的时候，不要直接索引内层索引  
+ 显式索引

In [25]:
# 先索引外层索引，再索引内层
display(s['二班','赵六'],s.loc['一班','李四'])

99

35

+ 隐式索引

In [29]:
display(s.iloc[0],s.iloc[[1]])

118

一班  李四    35
dtype: int32

(2)切片  

In [33]:
# 不能直接切内层索引
s['张三':'王五']

Series([], dtype: int32)

In [41]:
s['一班':]

一班  张三    118
    李四     35
    王五    112
二班  赵六     99
    孙七     79
    钱八    139
dtype: int32

In [48]:
s['二班']['赵六':'孙七']

赵六    99
孙七    79
dtype: int32

In [51]:
s['一班']['李四':'王五']

李四     35
王五    112
dtype: int32

In [31]:
s.loc['一班',['张三','王五']]

一班  张三    118
    王五    112
dtype: int32

In [52]:
# 隐式切片
s.iloc[0:4]

一班  张三    118
    李四     35
    王五    112
二班  赵六     99
dtype: int32

### (2)DataFrame的操作  
(1)可以直接使用列名称来进行索引    
+ 行多级索引的索引和切片操作  

In [53]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,102,52,61,135,37,135
一班,李四,110,115,114,148,71,117
一班,王五,117,120,141,60,32,78
二班,张三,5,80,49,120,45,0
二班,李四,84,87,17,100,94,137
二班,王五,137,49,141,133,14,113


In [56]:
df.loc['一班']

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,102,52,61,135,37,135
李四,110,115,114,148,71,117
王五,117,120,141,60,32,78


In [58]:
df.loc['一班','张三']

期中  语文    102
    数学     52
    英语     61
期末  语文    135
    数学     37
    英语    135
Name: (一班, 张三), dtype: int32

In [61]:
df.loc['一班','张三']['期末']

语文    135
数学     37
英语    135
Name: (一班, 张三), dtype: int32

In [64]:
df.loc['一班','张三']['期末','数学']

37

In [65]:
df.loc['一班']['张三':'李四']

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,102,52,61,135,37,135
李四,110,115,114,148,71,117


In [66]:
df.loc['一班']['张三':'李四']['期中']

Unnamed: 0,语文,数学,英语
张三,102,52,61
李四,110,115,114


In [86]:
df.loc['一班']['张三':'李四']['期中'].loc[:,'数学':'英语']

Unnamed: 0,数学,英语
张三,52,61
李四,115,114


+ 列多级索引的索引和切片操作  

In [87]:
df['期中']

Unnamed: 0,Unnamed: 1,语文,数学,英语
一班,张三,102,52,61
一班,李四,110,115,114
一班,王五,117,120,141
二班,张三,5,80,49
二班,李四,84,87,17
二班,王五,137,49,141


In [88]:
df['期中','数学']

一班  张三     52
    李四    115
    王五    120
二班  张三     80
    李四     87
    王五     49
Name: (期中, 数学), dtype: int32

In [89]:
df.loc[:,'期中':'期末']

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,102,52,61,135,37,135
一班,李四,110,115,114,148,71,117
一班,王五,117,120,141,60,32,78
二班,张三,5,80,49,120,45,0
二班,李四,84,87,17,100,94,137
二班,王五,137,49,141,133,14,113


In [90]:
df.iloc[:,0:2]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学
一班,张三,102,52
一班,李四,110,115
一班,王五,117,120
二班,张三,5,80
二班,李四,84,87
二班,王五,137,49


注意在对行索引的时候，若一级索引还有多个，对二级行索引会遇到问题，也就是说，无法直接对二级索引进行索引，必须要让二级索引变成一级索引后才能对其进行索引

练习9：  
1.分析比较Series和DataFrame各种索引方式，熟悉掌握loc()方法  
2.假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

1.DataFrame列索引用中括号，行索引用loc[]，多层索引的时候，不要直接索引内层索引，而要从外层索引往里面索引

In [109]:
# 2.
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,69,92,141,84,28,26
一班,李四,61,107,132,129,48,107
一班,王五,114,51,99,58,100,145
二班,张三,2,124,17,45,115,80
二班,李四,101,11,47,128,113,59
二班,王五,116,87,24,136,4,69


In [123]:
df.loc[('一班','张三'),('期中','数学')]

92.0

In [126]:
df.loc['一班','期中'].loc['张三','英语'] = np.nan

In [115]:
# 并没有成功，因为类型不一样，这是pandas的多层索引的一个问题
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,69,92,141,84,28,26
一班,李四,61,107,132,129,48,107
一班,王五,114,51,99,58,100,145
二班,张三,2,124,17,45,115,80
二班,李四,101,11,47,128,113,59
二班,王五,116,87,24,136,4,69


In [116]:
df.dtypes

期中  语文    int32
    数学    int32
    英语    int32
期末  语文    int32
    数学    int32
    英语    int32
dtype: object

In [118]:
# 这样子就成功了
df = df.astype('float32')
df.loc['一班','期中'].loc['张三','英语'] = np.nan
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,69.0,92.0,,84.0,28.0,26.0
一班,李四,61.0,107.0,132.0,129.0,48.0,107.0
一班,王五,114.0,51.0,99.0,58.0,100.0,145.0
二班,张三,2.0,124.0,17.0,45.0,115.0,80.0
二班,李四,101.0,11.0,47.0,128.0,113.0,59.0
二班,王五,116.0,87.0,24.0,136.0,4.0,69.0


### 4.索引的堆（stack）  
+ stack()  
+ unstack()

索引的堆指的是多层索引中行索引和列索引的转换

In [132]:
data = np.random.randint(0,150,size=(6,6))
index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','钱八']])
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,138,86,30,145,35,98
一班,李四,68,112,0,141,75,26
一班,王五,87,60,13,98,30,11
二班,赵六,34,109,51,30,0,134
二班,孙七,139,124,144,139,36,12
二班,钱八,22,81,145,54,146,105


In [133]:
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,期中,期末
一班,张三,数学,86,35
一班,张三,英语,30,98
一班,张三,语文,138,145
一班,李四,数学,112,75
一班,李四,英语,0,26
一班,李四,语文,68,141
一班,王五,数学,60,30
一班,王五,英语,13,11
一班,王五,语文,87,98
二班,赵六,数学,109,0


In [134]:
df.unstack()

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语
Unnamed: 0_level_2,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八
一班,,138.0,68.0,87.0,,,,86.0,112.0,60.0,,,,30.0,0.0,13.0,,,,145.0,141.0,98.0,,,,35.0,75.0,30.0,,,,98.0,26.0,11.0,,
二班,139.0,,,,34.0,22.0,124.0,,,,109.0,81.0,144.0,,,,51.0,145.0,139.0,,,,30.0,54.0,36.0,,,,0.0,146.0,12.0,,,,134.0,105.0


In [135]:
df.stack(level=0)

Unnamed: 0,Unnamed: 1,Unnamed: 2,数学,英语,语文
一班,张三,期中,86,30,138
一班,张三,期末,35,98,145
一班,李四,期中,112,0,68
一班,李四,期末,75,26,141
一班,王五,期中,60,13,87
一班,王五,期末,30,11,98
二班,赵六,期中,109,51,34
二班,赵六,期末,0,134,30
二班,孙七,期中,124,144,139
二班,孙七,期末,36,12,139


In [136]:
df.unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,语文,数学,数学,英语,英语,语文,语文,数学,数学,英语,英语
Unnamed: 0_level_2,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班,一班,二班
孙七,,139.0,,124.0,,144.0,,139.0,,36.0,,12.0
张三,138.0,,86.0,,30.0,,145.0,,35.0,,98.0,
李四,68.0,,112.0,,0.0,,141.0,,75.0,,26.0,
王五,87.0,,60.0,,13.0,,98.0,,30.0,,11.0,
赵六,,34.0,,109.0,,51.0,,30.0,,0.0,,134.0
钱八,,22.0,,81.0,,145.0,,54.0,,146.0,,105.0


In [143]:
df.stack(level=0).unstack(level=0).unstack(level=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,一班,一班,一班,二班,二班,二班,二班,二班,二班,一班,一班,一班,一班,一班,一班,二班,二班,二班,二班,二班,二班,一班,一班,一班,一班,一班,一班,二班,二班,二班,二班,二班,二班
Unnamed: 0_level_2,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八,孙七,张三,李四,王五,赵六,钱八
期中,,86.0,112.0,60.0,,,124.0,,,,109.0,81.0,,30.0,0.0,13.0,,,144.0,,,,51.0,145.0,,138.0,68.0,87.0,,,139.0,,,,34.0,22.0
期末,,35.0,75.0,30.0,,,36.0,,,,0.0,146.0,,98.0,26.0,11.0,,,12.0,,,,134.0,105.0,,145.0,141.0,98.0,,,139.0,,,,30.0,54.0


In [146]:
df.stack(level=1).unstack(level=[0,1])

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末,期末
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,赵六,孙七,钱八,张三,李四,王五,赵六,孙七,钱八
数学,86,112,60,109,124,81,35,75,30,0,36,146
英语,30,0,13,51,144,145,98,26,11,134,12,105
语文,138,68,87,34,139,22,145,141,98,30,139,54


### 5.聚合操作

In [151]:
data = np.random.randint(0,150,size=(6,3))
index = ['张三','李四','王五','赵六','孙七','钱八']
columns = ['语文','数学','英语']
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0,语文,数学,英语
张三,19,47,141
李四,77,85,74
王五,126,10,130
赵六,97,94,69
孙七,130,98,104
钱八,112,53,4


sum/min/max/mean/std/var/prod/...

In [154]:
df.sum(axis=0)

语文    561
数学    387
英语    522
dtype: int64

In [153]:
df.sum(axis=1)

张三    207
李四    236
王五    266
赵六    260
孙七    332
钱八    169
dtype: int64

In [155]:
data = np.random.randint(0,150,size=(6,6))
index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','钱八']])
columns = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,101,83,94,16,53,0
一班,李四,140,137,61,31,137,19
一班,王五,130,63,94,65,11,116
二班,赵六,37,114,45,140,141,34
二班,孙七,11,84,36,103,24,108
二班,钱八,148,64,121,59,53,9


In [158]:
df.sum(axis=0)

期中  语文    567
    数学    545
    英语    451
期末  语文    414
    数学    419
    英语    286
dtype: int64

In [159]:
df.sum(axis=1)

一班  张三    347
    李四    525
    王五    479
二班  赵六    511
    孙七    366
    钱八    454
dtype: int64

In [163]:
# level=0,表示除了第0层，其他的都聚合了
# 求各班各科的总成绩
df.sum(axis=0,level=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
一班,371,283,249,112,201,135
二班,196,262,202,302,218,151


【注意】：  
+ 需要指定axis  
+ 【小技巧】和unstack()相反，level等于哪一个，哪一个就保留  

所谓的聚合操作：平均数，方差，最大值，最小值...  
   
练习11：  
1. 计算各个科目期中期末平均成绩  
2. 计算各科目张三李四的最高分

In [179]:
df.mean(axis=0,level=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
一班,123.666667,94.333333,83.0,37.333333,67.0,45.0
二班,65.333333,87.333333,67.333333,100.666667,72.666667,50.333333


In [175]:
df.max(axis=1,level=0).iloc[0:2]

Unnamed: 0,Unnamed: 1,期中,期末
一班,张三,101,53
一班,李四,140,137
