In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

### 什么是多级index

In [2]:
s1 = Series(np.random.randn(6), index=[['1', '1', '1','2','2','2'],['a','b','c','a','b','c']])

index是一个list，这个list中又有两个子list。

In [3]:
s1

1  a   -0.900337
   b   -0.627384
   c   -0.272853
2  a   -1.342490
   b    0.335441
   c    0.357363
dtype: float64

s1这个series拥有两级的index，第一级是1和2，第二级是abc abc

这个series类似于包含了两个传统的series。

In [4]:
s1['1']

a   -0.900337
b   -0.627384
c   -0.272853
dtype: float64

通过s1的第一级索引 1 返回的值依然是一个series

In [5]:
type(s1['1'])

pandas.core.series.Series

In [6]:
s1['1']['a']

-0.90033658549405116

不指定一级的index。使用 `:` 代表一级的index任意。

In [7]:
s1[:,'a']

1   -0.900337
2   -1.342490
dtype: float64

这样返回的也会是一个新的series。返回一级index以及二级index中匹配a的值

In [8]:
type(s1[:,'a'])

pandas.core.series.Series

series我们可以将其看成是一个一维的结构。

dataframe是由series组成的，我们可以把它看成是一个二维的结构。

>今天的多级index的series，就不是简单的一维的结构了。

- 它有两级index。它也是一个二维的数据结构。

>那么它与dataframe就有了一定的转换关系

### 多级index的series转换为dataframe

In [9]:
df1 = s1.unstack()

In [10]:
df1

Unnamed: 0,a,b,c
1,-0.900337,-0.627384,-0.272853
2,-1.34249,0.335441,0.357363


### dataframe由多个series来创建

In [11]:
df2 = DataFrame([s1['1'],s1['2']])

In [12]:
df2

Unnamed: 0,a,b,c
0,-0.900337,-0.627384,-0.272853
1,-1.34249,0.335441,0.357363


### dataframe转换为多级index的series

In [13]:
s2 = df1.unstack()

unstack()时会把columns的值变为一级index。index的值变为二级index。

In [14]:
s2

a  1   -0.900337
   2   -1.342490
b  1   -0.627384
   2    0.335441
c  1   -0.272853
   2    0.357363
dtype: float64

>可以看到这样直接unstack转换过来的series。和我们原始的选择的一级index不一样


对于矩阵进行转置，使其行变列，列变行。可以实现。

In [15]:
df1.T.unstack()

1  a   -0.900337
   b   -0.627384
   c   -0.272853
2  a   -1.342490
   b    0.335441
   c    0.357363
dtype: float64

### 创建具有多级index的dataframe

In [16]:
df = DataFrame(np.arange(16).reshape(4,4))

In [17]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [18]:
DataFrame(np.arange(16).reshape(4,4), index=[['a','a','b','b'],['1','2','1','2']])

Unnamed: 0,Unnamed: 1,0,1,2,3
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


对于dataframe来说: index可以有多级，columns也可以有多级。

In [19]:
df = DataFrame(np.arange(16).reshape(4,4), index=[['a','a','b','b'],['1','2','1','2']], columns=[['KM','XA','HZ','HZ'],[8,9,8,8]])

In [20]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,KM,XA,HZ,HZ
Unnamed: 0_level_1,Unnamed: 1_level_1,8,9,8,8.1
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


### 具有多级index和多级columns的dataframe，访问元素

In [21]:
print (df['KM'])

type(df['KM'])

      8
a 1   0
  2   4
b 1   8
  2  12


pandas.core.frame.DataFrame

Dataframe基于columns访问。直接`df['a']`会报错

In [22]:
df['KM'][8]

a  1     0
   2     4
b  1     8
   2    12
Name: 8, dtype: int32

注意这里选取的8 是字符还是整数8，要和上面创建时候保持一致。