# 1.创建多层行索引
## 1.1隐式构造
- 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组
    - Series也可以创建多层索引

In [5]:
import numpy as np
import pandas as pd

In [6]:
s = pd.Series([1,2,3,4],index=[['a','a','b','b'],[0,0,1,1]])
s

a  0    1
   0    2
b  1    3
   1    4
dtype: int64

In [7]:
df = pd.DataFrame(np.random.randint(0,150,size=(6,3)),
                  columns=['语文','数学','Python'],
                  index=[['Michael','Michael','Lisa','Lisa','Po','Po'],['Mid','End','Mid','End','Mid','End']])
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michael,Mid,89,134,15
Michael,End,144,24,34
Lisa,Mid,110,22,133
Lisa,End,22,75,0
Po,Mid,68,99,25
Po,End,73,95,146


## 1.2显示构造pd.MultiIndex
- 使用数组

In [8]:
df1 = pd.DataFrame(np.random.randint(0,150,size=(6,3)),
                   columns=['Java','Python','Scala'],
                   index=pd.MultiIndex.from_arrays([['张三','张三','李四','李四','王五','王五'],
                                                    ['期中','期末','期中','期末','期中','期末']]))
df1

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114
王五,期中,97,15,147
王五,期末,53,20,100


- 使用tuple

In [9]:
df2 = pd.DataFrame(np.random.randint(0,150,size=(6,3)),
                   columns=['Java','Python','Scala'],
                   index=pd.MultiIndex.from_tuples([('张三','期中'),('张三','期末'),('李四','期中'),('李四','期末'),('王五','期中'),('王五','期末')]))
df2

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,119,65,51
张三,期末,74,56,111
李四,期中,43,52,48
李四,期末,3,22,19
王五,期中,108,143,64
王五,期末,83,0,96


- 使用product 【最简单，推荐使用】

In [10]:
df3 = pd.DataFrame(np.random.randint(0,150,size=(6,3)),
                   columns=['Java','Python','Scala'],
                   index=pd.MultiIndex.from_product([['张三','李四','王五'],['期中','期末']]))
df3

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,5,125,70
张三,期末,2,73,65
李四,期中,149,84,112
李四,期末,41,75,77
王五,期中,0,126,71
王五,期末,0,113,91


In [11]:
#对于DataFrame列同样可以设置多层索引
df4 = pd.DataFrame(np.random.randint(0,150,size=(3,6)),
                   columns=pd.MultiIndex.from_product([['Java','Python','Scala'],['期中','期末']]),
                   index=['张三','李四','王五'])
df4

Unnamed: 0_level_0,Java,Java,Python,Python,Scala,Scala
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,73,80,74,53,78,121
李四,114,44,104,37,9,84
王五,51,76,8,103,115,65


# 2.多层索引对象的索引与切片操作
## 2.1Series的操作
- 【重要】对于Series来说，直接中括号`[]`与使用`.loc()`完全一样，推荐使用中括号索引和切片
- （1）索引

In [26]:
s = pd.Series(np.random.randint(0,150,size=4),index=[['a','a','b','b'],['期中','期末','期中','期末']])
s

a  期中    54
   期末    62
b  期中    54
   期末    21
dtype: int32

In [27]:
s['a','期末']

62

In [28]:
s[['a','期中']]

a  期中    54
   期末    62
dtype: int32

- （2）切片

In [29]:
s['a':'b']

a  期中    54
   期末    62
b  期中    54
   期末    21
dtype: int32

In [30]:
s.iloc[0:3]

a  期中    54
   期末    62
b  期中    54
dtype: int32

## 2.2DataFrame的操作
- （1）可以直接使用列名称来进行行列索引

In [31]:
df1

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114
王五,期中,97,15,147
王五,期末,53,20,100


In [32]:
df1['张三':'李四']

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114


In [33]:
df1.loc['张三':'李四']

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114


- （2）使用行索引需要用`ix()`，`loc()`等函数
- 【极其重要】推荐使用`loc()`函数
- 注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

In [38]:
df1.loc['张三','期中']

Java      143
Python     33
Scala      31
Name: (张三, 期中), dtype: int32

In [39]:
df1.loc['张三'].loc['期中']

Java      143
Python     33
Scala      31
Name: 期中, dtype: int32

In [40]:
df1.loc[['张三','李四']]

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114


In [48]:
df1.loc[:,'期中']

KeyError: 'the label [期中] is not in the [columns]'

# 3.索引的堆（stack）
- stack()
- unstack()
- 【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [49]:
df4

Unnamed: 0_level_0,Java,Java,Python,Python,Scala,Scala
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,73,80,74,53,78,121
李四,114,44,104,37,9,84
王五,51,76,8,103,115,65


In [50]:
#stack = 堆  --->行
df4.stack()

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,73,74,78
张三,期末,80,53,121
李四,期中,114,104,9
李四,期末,44,37,84
王五,期中,51,8,115
王五,期末,76,103,65


In [51]:
#多层索引而言0,1,2：从上往下数
df4.stack(level=0)

Unnamed: 0,Unnamed: 1,期中,期末
张三,Java,73,80
张三,Python,74,53
张三,Scala,78,121
李四,Java,114,44
李四,Python,104,37
李四,Scala,9,84
王五,Java,51,76
王五,Python,8,103
王五,Scala,115,65


In [52]:
df4.stack(level=1)

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,73,74,78
张三,期末,80,53,121
李四,期中,114,104,9
李四,期末,44,37,84
王五,期中,51,8,115
王五,期末,76,103,65


In [None]:
- 【小技巧】使用unstack()的时候，level()等于哪一个，哪一个就消失，出现在列里面。

In [53]:
df2

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,119,65,51
张三,期末,74,56,111
李四,期中,43,52,48
李四,期末,3,22,19
王五,期中,108,143,64
王五,期末,83,0,96


In [54]:
df2.unstack()

Unnamed: 0_level_0,Java,Java,Python,Python,Scala,Scala
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,119,74,65,56,51,111
李四,43,3,52,22,48,19
王五,108,83,143,0,64,96


In [55]:
df2.unstack(level=0)

Unnamed: 0_level_0,Java,Java,Java,Python,Python,Python,Scala,Scala,Scala
Unnamed: 0_level_1,张三,李四,王五,张三,李四,王五,张三,李四,王五
期中,119,43,108,65,52,143,51,48,64
期末,74,3,83,56,22,0,111,19,96


In [58]:
df2.unstack(level=1)

Unnamed: 0_level_0,Java,Java,Python,Python,Scala,Scala
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,119,74,65,56,51,111
李四,43,3,52,22,48,19
王五,108,83,143,0,64,96


# 4.聚合操作
- 【注意】
    - 需要指定axis
    - 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留
- 所谓的聚合操作：平均数，方差，最大值，最小值

In [59]:
df1

Unnamed: 0,Unnamed: 1,Java,Python,Scala
张三,期中,143,33,31
张三,期末,128,125,6
李四,期中,133,14,126
李四,期末,132,30,114
王五,期中,97,15,147
王五,期末,53,20,100


In [60]:
df1.sum()

Java      686
Python    237
Scala     524
dtype: int64

In [61]:
#axis = 0 行，对行进行求和操作，行的数据就加到一起了，行就消失了
df1.sum(axis=0)

Java      686
Python    237
Scala     524
dtype: int64

In [62]:
df1.sum(axis=1)

张三  期中    207
    期末    259
李四  期中    273
    期末    276
王五  期中    259
    期末    173
dtype: int64

In [64]:
df1.std(axis=1)

张三  期中    64.093681
    期末    69.586876
李四  期中    66.775744
    期末    54.442630
王五  期中    66.643329
    期末    40.203648
dtype: float64