# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [6]:
s = Series([1,2,3,4], index=[['a','a','b','b'],['期中','期末','期中','期末']])
s

a  期中    1
   期末    2
b  期中    3
   期末    4
dtype: int64

In [44]:
df = DataFrame(data = np.random.randint(0,150,size = (6,3)),
               columns = ['Python','Java','PHP'],
              index = [['张三','张三','李四','李四','Michael','Michael'],['期中','期末','期中','期末','期中','期末']])
#隐式创建
df

Unnamed: 0,Unnamed: 1,Python,Java,PHP
张三,期中,99,41,80
张三,期末,39,125,130
李四,期中,116,48,116
李四,期末,10,55,96
Michael,期中,37,33,7
Michael,期末,147,141,117


### 2) 显示构造pd.MultiIndex

- 使用数组

In [56]:
df2 = DataFrame(data = np.random.randint(0,150,size = (6,4)),
               columns = ["Spring",'Summer','Autumn','Winter'],
               index = pd.MultiIndex.from_arrays([['张三','张三','李四','李四','Michael','Michael'],['期中','期末','期中','期末','期中','期末']]))

df2

Unnamed: 0,Unnamed: 1,Spring,Summer,Autumn,Winter
张三,期中,1,72,84,96
张三,期末,142,132,67,32
李四,期中,120,68,147,92
李四,期末,40,97,90,26
Michael,期中,110,133,59,138
Michael,期末,47,115,59,134


- 使用tuple

In [10]:
df3 = DataFrame(data = np.random.randint(0,150,size = (6,4)),
               columns = ["Spring",'Summer','Autumn','Winter'],
               index = pd.MultiIndex.from_tuples([('张三','期中'),('张三','期末'),('李四','期中'),('李四','期末'),('Sara','期中'),('Sara','期末')]))

df3

Unnamed: 0,Unnamed: 1,Spring,Summer,Autumn,Winter
张三,期中,41,148,74,91
张三,期末,32,65,107,45
李四,期中,39,3,74,13
李四,期末,28,127,114,39
Sara,期中,49,142,32,105
Sara,期末,35,103,43,94


- 使用product

    最简单，推荐使用

In [15]:
df4 = DataFrame(data = np.random.randint(0,150,size = (12,4)),
               columns = ["Spring",'Summer','Autumn','Winter'],
               index = pd.MultiIndex.from_product([['张三','Sara','Lisa'],['middle','end'],list('AB')]))

df4

Unnamed: 0,Unnamed: 1,Unnamed: 2,Spring,Summer,Autumn,Winter
张三,middle,A,38,9,94,24
张三,middle,B,66,69,53,47
张三,end,A,149,47,50,134
张三,end,B,6,19,143,119
Sara,middle,A,141,33,35,81
Sara,middle,B,75,17,116,57
Sara,end,A,89,149,13,137
Sara,end,B,41,43,99,132
Lisa,middle,A,4,59,13,68
Lisa,middle,B,85,41,126,144


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [12]:
df5 = DataFrame(data = np.random.randint(0,150,size = (4,12)),
               columns = pd.MultiIndex.from_product([['张三','Sara','Lisa'],['middle','end'],list('AB')]),
               index = ["Spring",'Summer','Autumn','Winter'])

df5

Unnamed: 0_level_0,张三,张三,张三,张三,Sara,Sara,Sara,Sara,Lisa,Lisa,Lisa,Lisa
Unnamed: 0_level_1,middle,middle,end,end,middle,middle,end,end,middle,middle,end,end
Unnamed: 0_level_2,A,B,A,B,A,B,A,B,A,B,A,B
Spring,19,122,120,76,28,127,147,137,33,114,102,40
Summer,10,24,92,63,74,21,144,82,69,82,6,119
Autumn,99,50,90,87,43,42,117,39,92,83,69,29
Winter,12,36,149,5,114,79,65,87,115,113,126,18


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

In [22]:
s

a  期中    1
   期末    2
b  期中    3
   期末    4
dtype: int64

(1) 索引

In [19]:
# 第一个参数是多层索引的第一维，第二个参数是第二维
s['a','期中']

1

In [20]:
# ['a','期中'] 作为一个参数
s[['a','期中']]

a  期中    1
   期末    2
dtype: int64

(2) 切片

In [23]:
s['a':'b']

a  期中    1
   期末    2
b  期中    3
   期末    4
dtype: int64

In [24]:
s.iloc[0:3]

a  期中    1
   期末    2
b  期中    3
dtype: int64

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [45]:
df

Unnamed: 0,Unnamed: 1,Python,Java,PHP
张三,期中,99,41,80
张三,期末,39,125,130
李四,期中,116,48,116
李四,期末,10,55,96
Michael,期中,37,33,7
Michael,期末,147,141,117


In [41]:
df1 = DataFrame(np.random.randint(0,150, size=(3,3)), index=['张三','侯少','文少'], columns=['java','html','Python'])
df1

Unnamed: 0,java,html,Python
张三,124,43,32
侯少,16,68,116
文少,111,25,30


In [33]:
df1['张三':'侯少']

Unnamed: 0,java,html,Python
张三,16,59,14
侯少,31,92,46


In [49]:
df.index = pd.MultiIndex.from_product([list('ABC'),['期中', '期末']])
df

Unnamed: 0,Unnamed: 1,Python,Java,PHP
A,期中,99,41,80
A,期末,39,125,130
B,期中,116,48,116
B,期末,10,55,96
C,期中,37,33,7
C,期末,147,141,117


In [50]:
df['A':'C'] # 中文会出问题

Unnamed: 0,Unnamed: 1,Python,Java,PHP
A,期中,99,41,80
A,期末,39,125,130
B,期中,116,48,116
B,期末,10,55,96
C,期中,37,33,7
C,期末,147,141,117


In [51]:
df.iloc[0:4]

Unnamed: 0,Unnamed: 1,Python,Java,PHP
A,期中,99,41,80
A,期末,39,125,130
B,期中,116,48,116
B,期末,10,55,96


(2) 使用行索引需要用loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

In [57]:
df2.loc['张三'].loc['期中']

Spring     1
Summer    72
Autumn    84
Winter    96
Name: 期中, dtype: int64

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [60]:
df5

Unnamed: 0_level_0,张三,张三,张三,张三,Sara,Sara,Sara,Sara,Lisa,Lisa,Lisa,Lisa
Unnamed: 0_level_1,middle,middle,end,end,middle,middle,end,end,middle,middle,end,end
Unnamed: 0_level_2,A,B,A,B,A,B,A,B,A,B,A,B
Spring,19,122,120,76,28,127,147,137,33,114,102,40
Summer,10,24,92,63,74,21,144,82,69,82,6,119
Autumn,99,50,90,87,43,42,117,39,92,83,69,29
Winter,12,36,149,5,114,79,65,87,115,113,126,18


In [61]:
# 多层索引的列而言0，1，2 从上往下计算  level默认为-1
df5.stack(level = 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,end,end,middle,middle
Unnamed: 0_level_1,Unnamed: 1_level_1,A,B,A,B
Spring,Lisa,102,40,33,114
Spring,Sara,147,137,28,127
Spring,张三,120,76,19,122
Summer,Lisa,6,119,69,82
Summer,Sara,144,82,74,21
Summer,张三,92,63,10,24
Autumn,Lisa,69,29,92,83
Autumn,Sara,117,39,43,42
Autumn,张三,90,87,99,50
Winter,Lisa,126,18,115,113


In [65]:
df4.unstack(level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Spring,Spring,Summer,Summer,Autumn,Autumn,Winter,Winter
Unnamed: 0_level_1,Unnamed: 1_level_1,end,middle,end,middle,end,middle,end,middle
Lisa,A,147,4,68,59,83,13,89,68
Lisa,B,13,85,87,41,38,126,102,144
Sara,A,89,141,149,33,13,35,137,81
Sara,B,41,75,43,17,99,116,132,57
张三,A,149,38,47,9,50,94,134,24
张三,B,6,66,19,69,143,53,119,47


【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就会进行计算。

所谓的聚合操作：平均数，方差，最大值，最小值……

In [66]:
df3

Unnamed: 0,Unnamed: 1,Spring,Summer,Autumn,Winter
张三,期中,41,148,74,91
张三,期末,32,65,107,45
李四,期中,39,3,74,13
李四,期末,28,127,114,39
Sara,期中,49,142,32,105
Sara,期末,35,103,43,94


In [80]:
# axis = 0 跨行 对行进行操作，行的数据就被加到一起，列就显示
df3.mean(axis = 0)

Spring    37.333333
Summer    98.000000
Autumn    74.000000
Winter    64.500000
dtype: float64

In [82]:
df3.mean(axis = 1) # df3.mean(axis = 'columns')

张三    期中    88.50
      期末    62.25
李四    期中    32.25
      期末    77.00
Sara  期中    82.00
      期末    68.75
dtype: float64

In [75]:
#数据离散的程度，
df3.std(axis=1)

张三    期中    44.769781
      期末    32.775753
李四    期中    31.700421
      期末    50.708316
Sara  期中    50.721462
      期末    34.702305
dtype: float64

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================