In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

## DataFrame多层索引

In [5]:
df = DataFrame(np.random.randint(0 ,150, (6, 3)), 
               index=pd.MultiIndex.from_product([['a', 'b', 'c'], ['期中', '期末']]),
               columns=['Python', 'En', '数学']
              )
df

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104
c,期中,101,134,45
c,期末,93,106,32


In [6]:
# 列索引
df['Python']

a  期中     25
   期末     12
b  期中     80
   期末    142
c  期中    101
   期末     93
Name: Python, dtype: int32

In [9]:
# 列切片
df.iloc[: , 1: 2]

Unnamed: 0,Unnamed: 1,En
a,期中,8
a,期末,39
b,期中,115
b,期末,121
c,期中,134
c,期末,106


In [10]:
# 行索引
df.loc['a']

Unnamed: 0,Python,En,数学
期中,25,8,143
期末,12,39,1


In [11]:
# 行多层索引1
df.loc['a', '期末']

Python    12
En        39
数学         1
Name: (a, 期末), dtype: int32

In [12]:
# 行多层索引2
df.iloc[1]

Python    12
En        39
数学         1
Name: (a, 期末), dtype: int32

In [17]:
# 行切片1
df.loc['a': 'b']

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104


In [16]:
# 行切片2
df.iloc[0:4]

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104


In [18]:
# 组合切片1
df.loc['a': 'b', 'Python': 'En']

Unnamed: 0,Unnamed: 1,Python,En
a,期中,25,8
a,期末,12,39
b,期中,80,115
b,期末,142,121


In [21]:
# 组合切片2
df.iloc[0: 4, 1: 3]

Unnamed: 0,Unnamed: 1,En,数学
a,期中,8,143
a,期末,39,1
b,期中,115,113
b,期末,121,104


## Series多层索引

In [22]:
s = Series(np.random.randint(0,150,size = 6),
           index = pd.MultiIndex.from_product([['a','b','c'],['期中','期末']]))
s

a  期中     17
   期末    138
b  期中    121
   期末     54
c  期中    148
   期末    112
dtype: int32

In [23]:
# 索引
s['a', '期中']

17

In [28]:
# 切片
s['a': 'b']

a  期中     17
   期末    138
b  期中    121
   期末     54
dtype: int32

In [26]:
# 切片(全闭)
s.loc['a': 'b']

a  期中     17
   期末    138
b  期中    121
   期末     54
dtype: int32

In [27]:
# 切片(左闭右开)
s.iloc[0: 4]

a  期中     17
   期末    138
b  期中    121
   期末     54
dtype: int32

## 索引的堆

In [29]:
df

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104
c,期中,101,134,45
c,期末,93,106,32


In [38]:
# stack level等于哪一个，就消失，出现在行中
df.stack(level=0)

a  期中  Python     25
       En          8
       数学        143
   期末  Python     12
       En         39
       数学          1
b  期中  Python     80
       En        115
       数学        113
   期末  Python    142
       En        121
       数学        104
c  期中  Python    101
       En        134
       数学         45
   期末  Python     93
       En        106
       数学         32
dtype: int32

In [37]:
# unstack level等于哪一个，就消失，出现在列中
df.unstack(level=1)

Unnamed: 0_level_0,Python,Python,En,En,数学,数学
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
a,25,12,8,39,143,1
b,80,142,115,121,113,104
c,101,93,134,106,45,32


## 聚合操作

- 所谓的聚合操作：平均数(mean)，方差(std)，最大值(min)，最小值(max)……

In [39]:
df

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104
c,期中,101,134,45
c,期末,93,106,32


In [42]:
# 求平均值
# axis = 1 --->列
# axis = 0 --->行，如果是多层索引，继续用level
df.mean(axis=0, level=0)

Unnamed: 0,Python,En,数学
a,18.5,23.5,72.0
b,111.0,118.0,108.5
c,97.0,120.0,38.5


In [43]:
df.mean(axis=0, level=1)

Unnamed: 0,Python,En,数学
期中,68.666667,85.666667,100.333333
期末,82.333333,88.666667,45.666667


In [44]:
df.mean(axis=1)

a  期中     58.666667
   期末     17.333333
b  期中    102.666667
   期末    122.333333
c  期中     93.333333
   期末     77.000000
dtype: float64

In [45]:
# a,b,c每门学科的最小值
df.min(axis=0, level=0)

Unnamed: 0,Python,En,数学
a,12,8,1
b,80,115,104
c,93,106,32


In [46]:
# 期中期末每门学科最小值
df.min(axis=0, level=1)

Unnamed: 0,Python,En,数学
期中,25,8,45
期末,12,39,1


In [47]:
df

Unnamed: 0,Unnamed: 1,Python,En,数学
a,期中,25,8,143
a,期末,12,39,1
b,期中,80,115,113
b,期末,142,121,104
c,期中,101,134,45
c,期末,93,106,32


In [48]:
# 计算各个科目期中期末平均成绩
df.mean(axis=0, level=1)

Unnamed: 0,Python,En,数学
期中,68.666667,85.666667,100.333333
期末,82.333333,88.666667,45.666667


In [54]:
#计算各科目a b的最高分 
df.loc['a': 'b'].max(axis=0, level=0)

Unnamed: 0,Python,En,数学
a,25,39,143
b,142,121,113
