# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [2]:
s = Series(np.random.randint(0,150,size=6),
           index=pd.MultiIndex.from_product([['张三','李四','王五'],['期中','期末']]))
s

张三  期中     54
    期末    128
李四  期中     73
    期末     12
王五  期中    122
    期末    148
dtype: int32

In [3]:
s = Series(np.random.randint(0,150,size=6),
           index=pd.MultiIndex.from_arrays([['张三','张三','李四','李四','王五','王五'],['期中','期末','期中','期末','期中','期末']]))
s

张三  期中    138
    期末     98
李四  期中    105
    期末     53
王五  期中    132
    期末     14
dtype: int32

In [4]:
# s = Series(np.random.randint(0,150,size=6),
#            index=pd.MultiIndex.from_tuples([('张三','期中'),('张三','期末'),
#                                            ('李四','期中'),('李四','期末'),
#                                            ('王五','期中'),('王五','期末')])
# s

In [5]:
s3 = Series(np.random.randint(0,150,size=12),
           index=pd.MultiIndex.from_product([['张三','李四','王五'],['期中','期末'],['a','b']]))
s3

张三  期中  a     49
        b     77
    期末  a     31
        b     13
李四  期中  a     32
        b     69
    期末  a    113
        b     22
王五  期中  a     88
        b    124
    期末  a    138
        b     82
dtype: int32

### 2) 显示构造pd.MultiIndex

- 使用数组

- 使用tuple

- 使用product

    最简单，推荐使用

In [6]:
df = DataFrame(np.random.randint(0,150,size=(10,3)),
               index=pd.MultiIndex.from_product([['a','b','c','d','e'],['期中','期末']]),
               columns=['python','math','en'])
df

Unnamed: 0,Unnamed: 1,python,math,en
a,期中,90,60,3
a,期末,92,77,136
b,期中,19,80,133
b,期末,109,78,72
c,期中,80,57,37
c,期末,84,19,12
d,期中,138,48,84
d,期末,142,135,75
e,期中,133,29,29
e,期末,24,140,88


In [7]:
df2 = DataFrame(np.random.randint(0,150,size=(5,6)),
                columns=pd.MultiIndex.from_product([['python','math','en'],['期中','期末']]),
                index=list('abcde'))
df2

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,74,112,122,91,6,149
b,33,118,61,1,112,24
c,79,77,113,119,110,83
d,19,5,105,111,49,47
e,109,77,124,108,89,1


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [8]:
# 多层， 多维， 一层表示一个维度
s['张三','期末']

98

In [9]:
s['张三':'李四']

张三  期中    138
    期末     98
李四  期中    105
    期末     53
dtype: int32

In [10]:
s['张三':'赵六']

张三  期中    138
    期末     98
李四  期中    105
    期末     53
王五  期中    132
    期末     14
dtype: int32

In [11]:
s.loc['张三','期中']

138

In [12]:
s.loc['张三':'王五']

张三  期中    138
    期末     98
李四  期中    105
    期末     53
王五  期中    132
    期末     14
dtype: int32

In [13]:
s.iloc[0:3]

张三  期中    138
    期末     98
李四  期中    105
dtype: int32

## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

(1) 索引

(2) 切片

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

In [14]:
df['python']

a  期中     90
   期末     92
b  期中     19
   期末    109
c  期中     80
   期末     84
d  期中    138
   期末    142
e  期中    133
   期末     24
Name: python, dtype: int32

In [15]:
df.loc['a']

Unnamed: 0,python,math,en
期中,90,60,3
期末,92,77,136


In [16]:
df.loc['a','期末']

python     92
math       77
en        136
Name: (a, 期末), dtype: int32

In [17]:
# df.loc['a','期末','python']

KeyError: 'the label [期末] is not in the [columns]'

In [18]:
df.loc['a','期末']['python']

92

In [19]:
df.loc['a':'d']

Unnamed: 0,Unnamed: 1,python,math,en
a,期中,90,60,3
a,期末,92,77,136
b,期中,19,80,133
b,期末,109,78,72
c,期中,80,57,37
c,期末,84,19,12
d,期中,138,48,84
d,期末,142,135,75


============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

In [20]:
df

Unnamed: 0,Unnamed: 1,python,math,en
a,期中,90,60,3
a,期末,92,77,136
b,期中,19,80,133
b,期末,109,78,72
c,期中,80,57,37
c,期末,84,19,12
d,期中,138,48,84
d,期末,142,135,75
e,期中,133,29,29
e,期末,24,140,88


In [21]:
# 行索引转换成列索引
df.unstack()

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,90,92,60,77,3,136
b,19,109,80,78,133,72
c,80,84,57,19,37,12
d,138,142,48,135,84,75
e,133,24,29,140,29,88


In [22]:
df.unstack(level=0)

Unnamed: 0_level_0,python,python,python,python,python,math,math,math,math,math,en,en,en,en,en
Unnamed: 0_level_1,a,b,c,d,e,a,b,c,d,e,a,b,c,d,e
期中,90,19,80,138,133,60,80,57,48,29,3,133,37,84,29
期末,92,109,84,142,24,77,78,19,135,140,136,72,12,75,88


In [23]:
df2

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,74,112,122,91,6,149
b,33,118,61,1,112,24
c,79,77,113,119,110,83
d,19,5,105,111,49,47
e,109,77,124,108,89,1


In [25]:
df2.stack(level=0)

Unnamed: 0,Unnamed: 1,期中,期末
a,en,6,149
a,math,122,91
a,python,74,112
b,en,112,24
b,math,61,1
b,python,33,118
c,en,110,83
c,math,113,119
c,python,79,77
d,en,49,47


【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

In [27]:
# 将dataframe 保存下来
df.to_csv('./df.csv')

In [28]:
pd.read_csv('./df.csv')

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,python,math,en
0,a,期中,90,60,3
1,a,期末,92,77,136
2,b,期中,19,80,133
3,b,期末,109,78,72
4,c,期中,80,57,37
5,c,期末,84,19,12
6,d,期中,138,48,84
7,d,期末,142,135,75
8,e,期中,133,29,29
9,e,期末,24,140,88


In [29]:
df = DataFrame(np.random.randint(0,150,size=(100,3)),columns=['python','java','math'])
df

Unnamed: 0,python,java,math
0,112,16,106
1,19,67,18
2,118,84,10
3,3,54,65
4,14,111,86
5,136,70,104
6,46,4,16
7,122,148,98
8,49,49,112
9,48,8,102


In [30]:
df.to_csv('./df2.csv')

In [31]:
df.to_json('./df2.json')

In [32]:
df.to_html('./df2.html')

In [33]:
# 数据库
pd.read_json('./df2.json')

Unnamed: 0,python,java,math
0,112,16,106
1,19,67,18
10,131,40,38
11,82,68,135
12,112,44,85
13,109,72,68
14,110,83,145
15,81,2,133
16,9,97,92
17,56,147,13


## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

In [34]:
s

张三  期中    138
    期末     98
李四  期中    105
    期末     53
王五  期中    132
    期末     14
dtype: int32

In [35]:
s.max()

138

In [36]:
s.max(level=0)

张三    138
李四    105
王五    132
dtype: int32

In [37]:
s.max(level=1)

期中    138
期末     98
dtype: int32

In [38]:
df2

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,74,112,122,91,6,149
b,33,118,61,1,112,24
c,79,77,113,119,110,83
d,19,5,105,111,49,47
e,109,77,124,108,89,1


In [40]:
df2.mean(axis=1)

a    92.333333
b    58.166667
c    96.833333
d    56.000000
e    84.666667
dtype: float64

In [46]:
df2.mean(axis=0).mean(level=0)

python    70.3
math      95.5
en        67.0
dtype: float64

In [47]:
df2.mean(axis=0).mean(level=1)

期中    80.333333
期末    74.866667
dtype: float64

In [48]:
df2.pow(2)

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,5476,12544,14884,8281,36,22201
b,1089,13924,3721,1,12544,576
c,6241,5929,12769,14161,12100,6889
d,361,25,11025,12321,2401,2209
e,11881,5929,15376,11664,7921,1


In [49]:
df2.rank()

Unnamed: 0_level_0,python,python,math,math,en,en
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,3.0,4.0,4.0,2.0,1.0,5.0
b,2.0,5.0,1.0,1.0,5.0,2.0
c,4.0,2.5,3.0,5.0,4.0,4.0
d,1.0,1.0,2.0,4.0,2.0,3.0
e,5.0,2.5,5.0,3.0,3.0,1.0


============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================