# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

In [3]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [2]:
index1 = [['first','second'],['大米','白面','猪肉']]

index2 = [['first','大米'],['first','白面'],['first','猪肉'],['second','大米'],['second','白面'],['second','猪肉']]

# 最傻的写法
index3 = [['first','first','first','second','second','second'],['大米','白面','猪肉','大米','白面','猪肉']]

In [5]:
data = np.random.randint(0,200,size=(6,4))
columns = ['dancer','lucy','tom','jerry']

# 地球超人 亚汉 葫芦娃 鬼神童子 六神合体 大力水手
# 宠物小精灵 足球小子 美少女战士 四驱兄弟 灌篮高手  tom&jerry
# 海绵宝宝 喜洋洋灰太狼 
# 小猪佩奇

In [8]:
df = DataFrame(data=data,index=index3,columns=columns)
df

Unnamed: 0,Unnamed: 1,dancer,lucy,tom,jerry
first,大米,51,83,83,121
first,白面,155,25,173,171
first,猪肉,69,28,154,23
second,大米,89,60,79,90
second,白面,175,32,10,170
second,猪肉,175,179,55,190


- Series也可以创建多层索引

### 2) 显示构造pd.MultiIndex

- 使用数组

In [12]:
mindex3 = pd.MultiIndex.from_arrays(index3,names=('季度','品类'))
df = DataFrame(data=data,columns=columns,index=mindex3)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,dancer,lucy,tom,jerry
季度,品类,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
first,大米,51,83,83,121
first,白面,155,25,173,171
first,猪肉,69,28,154,23
second,大米,89,60,79,90
second,白面,175,32,10,170
second,猪肉,175,179,55,190


In [10]:
# demo 查看from _arrays函数说明，里面自带的demo
arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
index = pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))

df = DataFrame(data=np.random.randint(0,10,size=(4,2)),index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
number,color,Unnamed: 2_level_1,Unnamed: 3_level_1
1,red,0,4
1,blue,4,2
2,red,8,7
2,blue,0,9


- 使用tuple

In [14]:
mindex2 = pd.MultiIndex.from_tuples(index2,names=('季度','品类'))
df2 = DataFrame(data=data,index=mindex2,columns=columns)
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,dancer,lucy,tom,jerry
季度,品类,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
first,大米,51,83,83,121
first,白面,155,25,173,171
first,猪肉,69,28,154,23
second,大米,89,60,79,90
second,白面,175,32,10,170
second,猪肉,175,179,55,190


- 使用product

    最简单，推荐使用

In [15]:
mindex3 = pd.MultiIndex.from_product(index1,names=('季度','品类'))
df3 = DataFrame(data=data,index=mindex3,columns=columns)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,dancer,lucy,tom,jerry
季度,品类,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
first,大米,51,83,83,121
first,白面,155,25,173,171
first,猪肉,69,28,154,23
second,大米,89,60,79,90
second,白面,175,32,10,170
second,猪肉,175,179,55,190


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

In [20]:
# 语文数学英语 
# 张三 李四
data = np.random.randint(0,150,size=(2,6))
columns = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
index = ['张三','李四']
score = DataFrame(data=data,index=index,columns=columns)
score

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,50,57,107,2,51,99
李四,11,138,103,111,39,25


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [16]:
columns = pd.MultiIndex.from_product([['first','seoncd'],['大米','白面','猪肉']])

In [17]:
columns = df3.index

In [18]:
data = np.random.randint(0,100,size=(4,6))
index = df3.columns
df4 = DataFrame(data=data,index=index,columns=columns)
df4

季度,first,first,first,second,second,second
品类,大米,白面,猪肉,大米,白面,猪肉
dancer,50,94,71,46,72,22
lucy,94,61,96,15,76,12
tom,72,97,63,18,8,22
jerry,98,5,73,84,84,31


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用.loc中括号索引和切片。

In [21]:
index = pd.MultiIndex.from_product([['期中','期末'],['语文','数学','英语']])
data = np.random.randint(0,150,size=6)
s1 = Series(data=data,index=index)
s1

期中  语文    112
    数学    145
    英语     59
期末  语文    128
    数学     91
    英语    129
dtype: int32

(1) 索引

In [None]:
# 把多级索引变成单级索引访问

In [23]:
s1.loc['期中'].loc['语文']

112

In [27]:
s1['期中'].iloc[0]

112

In [28]:
# 注意区别跟DataFrame对象访问元素的方法
s1.loc['期中','语文']

112

In [30]:
s1.iloc[3]

128

(2) 切片

In [None]:
# 函数核心 数据是核心
np.nansum(data)

In [None]:
# 核心是对象
# 自己的事情自己做 oop
s1.sum()

In [None]:
数类：据的封装
    方法的封装

In [None]:
book = {
    name:
    author:
    content:
}

In [None]:
book = ['hahaah','heheh','heihei']

In [31]:
# 可读性不高
s1.iloc[0:5]

期中  语文    112
    数学    145
    英语     59
期末  语文    128
    数学     91
dtype: int32

In [38]:
# 多级索引的切片
# 1. 使用隐式索引
# 2. 使用显式索引，不能跨区切片
s1.loc['期中'].loc['语文':'数学']

UnsortedIndexError: 'MultiIndex slicing requires the index to be lexsorted: slicing on levels [1], lexsort depth 1'

### 2）DataFrame的操作

In [39]:
data = np.random.randint(0,100,size=(5,6))
index = ['dancer','lucy','tom','jack','mery']
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,72,56,53,49,37,60
lucy,17,99,76,21,5,30
tom,80,65,49,40,82,86
jack,25,56,69,60,43,39
mery,96,18,34,64,32,20


In [40]:
# 访问行
df.loc['dancer']

期中  语文    72
    数学    56
    英语    53
期末  语文    49
    数学    37
    英语    60
Name: dancer, dtype: int32

In [44]:
# 访问列
# 先变成单级索引
df['期中']['英语']

dancer    53
lucy      76
tom       49
jack      69
mery      34
Name: 英语, dtype: int32

In [47]:
# 使用类似series访问元素的方式访问DataFrame的列
df['期中','英语']

dancer    53
lucy      76
tom       49
jack      69
mery      34
Name: (期中, 英语), dtype: int32

In [None]:
df.loc[indexname,columnname]

In [51]:
# 访问元素的方法，可以结合各种基本的访问方法进行访问
df.loc['dancer','期中'].loc['语文']

72

In [53]:
df['期中'].loc['dancer','语文']

72

In [56]:
df.loc['dancer'].loc['期中','语文']

72

In [58]:
# 切片 
# [] 索引是列索引 切片是行切片
df['dancer':'tom']

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,72,56,53,49,37,60
lucy,17,99,76,21,5,30
tom,80,65,49,40,82,86


In [None]:
df.loc[:,column1:column2]

In [59]:
# 使用隐式索引进行列切片
df.iloc[:,0:4]

Unnamed: 0_level_0,期中,期中,期中,期末
Unnamed: 0_level_1,语文,数学,英语,语文
dancer,72,56,53,49
lucy,17,99,76,21
tom,80,65,49,40
jack,25,56,69,60
mery,96,18,34,64


In [61]:
# 变成单级索引进行列切片（不能跨区）
df['期中'].loc[:,'语文':'数学']

Unnamed: 0,语文,数学
dancer,72,56
lucy,17,99
tom,80,65
jack,25,56
mery,96,18


In [None]:
# 使用stack技术对dataframe对象变形处理，再进行切片

(1) 可以直接使用列名称来进行列索引

行多级索引的索引和切片操作

列多级索引的索引和切片操作

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [105]:
# 赋值不成功
temp = df.loc['dancer'].copy()
temp.loc['期中','英语'] = np.nan
df.loc['dancer'] = temp

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,799.0,56.0,,49.0,37.0,60.0
lucy,17.0,99.0,900.0,21.0,5.0,30.0
tom,80.0,65.0,49.0,40.0,82.0,86.0
jack,25.0,56.0,69.0,60.0,43.0,39.0
mery,96.0,18.0,34.0,64.0,32.0,20.0


In [93]:
# 使用.loc方式访问多级索引的元素进行赋值
df.loc['dancer',('期中','语文')] = np.nan

## 4. 索引的堆（stack）

In [106]:
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,799.0,56.0,,49.0,37.0,60.0
lucy,17.0,99.0,900.0,21.0,5.0,30.0
tom,80.0,65.0,49.0,40.0,82.0,86.0
jack,25.0,56.0,69.0,60.0,43.0,39.0
mery,96.0,18.0,34.0,64.0,32.0,20.0


In [109]:
df['期中'][['数学','语文']]

Unnamed: 0,数学,语文
dancer,56.0,799.0
lucy,99.0,17.0
tom,65.0,80.0
jack,56.0,25.0
mery,18.0,96.0


In [110]:
# 访问期中期末语文成绩
df.loc[:,[('期中','语文'),('期末','语文')]]

Unnamed: 0_level_0,期中,期末
Unnamed: 0_level_1,语文,语文
dancer,799.0,49.0
lucy,17.0,21.0
tom,80.0,40.0
jack,25.0,60.0
mery,96.0,64.0


In [111]:
df.iloc[:,[0,3]]

Unnamed: 0_level_0,期中,期末
Unnamed: 0_level_1,语文,语文
dancer,799.0,49.0
lucy,17.0,21.0
tom,80.0,40.0
jack,25.0,60.0
mery,96.0,64.0


- ``stack()``
- ``unstack()``

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

In [123]:
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,799.0,56.0,,49.0,37.0,60.0
lucy,17.0,99.0,900.0,21.0,5.0,30.0
tom,80.0,65.0,49.0,40.0,82.0,86.0
jack,25.0,56.0,69.0,60.0,43.0,39.0
mery,96.0,18.0,34.0,64.0,32.0,20.0


In [134]:
# level 多级索引从内向外 依次的编号是0.1.2...
# level设置为几，就把哪一级索引留下
result = df.stack(level=1).unstack(level=0)

In [142]:
r = df.stack(level=1)
r

Unnamed: 0,Unnamed: 1,期中,期末
dancer,数学,56.0,37.0
dancer,英语,,60.0
dancer,语文,799.0,49.0
lucy,数学,99.0,5.0
lucy,英语,900.0,30.0
lucy,语文,17.0,21.0
tom,数学,65.0,82.0
tom,英语,49.0,86.0
tom,语文,80.0,40.0
jack,数学,56.0,43.0


In [143]:
r.unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末
Unnamed: 0_level_1,dancer,lucy,tom,jack,mery,dancer,lucy,tom,jack,mery
数学,56.0,99.0,65.0,56.0,18.0,37.0,5.0,82.0,43.0,32.0
英语,,900.0,49.0,69.0,34.0,60.0,30.0,86.0,39.0,20.0
语文,799.0,17.0,80.0,25.0,96.0,49.0,21.0,40.0,60.0,64.0


In [138]:
result.loc['语文'].unstack(level=0)

Unnamed: 0,期中,期末
dancer,799.0,49.0
lucy,17.0,21.0
tom,80.0,40.0
jack,25.0,60.0
mery,96.0,64.0


【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

In [144]:
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
dancer,799.0,56.0,,49.0,37.0,60.0
lucy,17.0,99.0,900.0,21.0,5.0,30.0
tom,80.0,65.0,49.0,40.0,82.0,86.0
jack,25.0,56.0,69.0,60.0,43.0,39.0
mery,96.0,18.0,34.0,64.0,32.0,20.0


In [146]:
df.stack(level=0).unstack(level=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文
Unnamed: 0_level_1,dancer,lucy,tom,jack,mery,dancer,lucy,tom,jack,mery,dancer,lucy,tom,jack,mery
期中,56.0,99.0,65.0,56.0,18.0,,900.0,49.0,69.0,34.0,799.0,17.0,80.0,25.0,96.0
期末,37.0,5.0,82.0,43.0,32.0,60.0,30.0,86.0,39.0,20.0,49.0,21.0,40.0,60.0,64.0


In [148]:
df.stack(level=1).unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末
Unnamed: 0_level_1,dancer,lucy,tom,jack,mery,dancer,lucy,tom,jack,mery
数学,56.0,99.0,65.0,56.0,18.0,37.0,5.0,82.0,43.0,32.0
英语,,900.0,49.0,69.0,34.0,60.0,30.0,86.0,39.0,20.0
语文,799.0,17.0,80.0,25.0,96.0,49.0,21.0,40.0,60.0,64.0


In [154]:
# 注意不要在变化的途中变成了Series对象
df.unstack()

期中  语文  dancer    799.0
        lucy       17.0
        tom        80.0
        jack       25.0
        mery       96.0
    数学  dancer     56.0
        lucy       99.0
        tom        65.0
        jack       56.0
        mery       18.0
    英语  dancer      NaN
        lucy      900.0
        tom        49.0
        jack       69.0
        mery       34.0
期末  语文  dancer     49.0
        lucy       21.0
        tom        40.0
        jack       60.0
        mery       64.0
    数学  dancer     37.0
        lucy        5.0
        tom        82.0
        jack       43.0
        mery       32.0
    英语  dancer     60.0
        lucy       30.0
        tom        86.0
        jack       39.0
        mery       20.0
dtype: float64

## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [2]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [3]:
data = np.random.randint(0,150,size=(3,6))
index = ['dancer','lucy','mery']
columns = pd.MultiIndex.from_product([['期中','期末'],['python','java','C']])
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,python,java,C,python,java,C
dancer,99,4,11,34,77,121
lucy,35,27,90,60,122,91
mery,118,60,1,77,103,128


In [7]:
df.mean(axis=0)

期中  python     84.000000
    java       30.333333
    C          34.000000
期末  python     57.000000
    java      100.666667
    C         113.333333
dtype: float64

In [11]:
df.values.mean(axis=1)

array([57.66666667, 70.83333333, 81.16666667])

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================

In [12]:
df.mean()

期中  python     84.000000
    java       30.333333
    C          34.000000
期末  python     57.000000
    java      100.666667
    C         113.333333
dtype: float64

In [15]:
df.max(axis=1)

dancer    121
lucy      122
mery      128
dtype: int32