# pandas层次化索引

In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [3]:
# 期中，语文   期中，数学   期末，语文   期末，数学 
data = np.random.randint(0,100,size=4)
s1 = Series(data,index=['期中','期中','期末','期末'])
s1 = Series(data,index=[['期中','期中','期末','期末'],['语文','数学','语文','数学']])
s1

期中  语文     4
    数学    11
期末  语文     9
    数学    20
dtype: int32

In [5]:
s1.loc['期中','语文']

4

### 2) 显示构造pd.MultiIndex

- 使用数组

In [9]:
# 期中 期末 语 数 外
indexes = pd.MultiIndex.from_arrays([['期中','期中','期中','期末','期末','期末'],['语','数','外','语','数','外']])
columns = ['tom','jack','rose']
# 6行 3列
data = np.random.randint(0,150,size=(6,3))
DataFrame(data=data,index=indexes,columns=columns)

Unnamed: 0,Unnamed: 1,tom,jack,rose
期中,语,13,34,109
期中,数,40,1,40
期中,外,21,60,135
期末,语,129,61,90
期末,数,135,143,18
期末,外,82,25,33


- 使用tuple

In [10]:
indexes = pd.MultiIndex.from_tuples([('期中','语'),('期中','数'),('期中','外'),('期末','语'),('期末','数'),('期末','外')])
columns = ['tom','jack','rose']
data = np.random.randint(0,150,size=(6,3))
DataFrame(data=data,index=indexes,columns=columns)

Unnamed: 0,Unnamed: 1,tom,jack,rose
期中,语,91,41,136
期中,数,119,33,117
期中,外,92,86,45
期末,语,3,123,32
期末,数,130,58,142
期末,外,77,20,95


- 使用product

    最简单，推荐使用

In [11]:
indexes = pd.MultiIndex.from_product([['期中','期末'],['语','数','外']])
columns = ['tom','jack','rose']
data = np.random.randint(0,150,size=(6,3))
DataFrame(data=data,index=indexes,columns=columns)

Unnamed: 0,Unnamed: 1,tom,jack,rose
期中,语,73,98,56
期中,数,48,70,22
期中,外,68,5,74
期末,语,109,86,59
期末,数,90,54,50
期末,外,29,78,149


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末的语数外成绩

============================================

In [12]:
indexes = pd.MultiIndex.from_product([['期中','期末'],['语','数','外']])
columns = ['张三','李四']
data = np.random.randint(0,150,size=(6,2))
DataFrame(data=data,index=indexes,columns=columns)

Unnamed: 0,Unnamed: 1,张三,李四
期中,语,70,16
期中,数,50,79
期中,外,28,37
期末,语,7,9
期末,数,70,128
期末,外,96,22


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [13]:
features = pd.MultiIndex.from_product([['期中','期末'],['语','数','外']])
samples = ['张三','李四']
data = np.random.randint(0,150,size=(2,6))
DataFrame(data=data,index=samples,columns=features)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语,数,外,语,数,外
张三,107,124,8,148,135,148
李四,31,112,148,20,102,105


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

(1) 索引

deno: s1 = Series([100,90,80,70,60,50],index=pd.MultiIndex.from_product([['期中','期末'],['语','数','外']]))

In [15]:
s1 = Series([100,90,80,70,60,50],index=pd.MultiIndex.from_product([['期中','期末'],['语','数','外']]))
s1

期中  语    100
    数     90
    外     80
期末  语     70
    数     60
    外     50
dtype: int64

In [21]:
# 所有期中成绩
s1.loc['期中']
s1.loc['期中','语']
s1.loc['期中']
type(s1.loc['期中'])
s1.loc['期中'].loc['语']

100

(2) 切片

In [22]:
s1

期中  语    100
    数     90
    外     80
期末  语     70
    数     60
    外     50
dtype: int64

In [27]:
s1.loc['期中':'期末']
# s1.loc['语':'数']
s1.iloc[0:4]  # 虽然有多层 但是编号还和以前一样

期中  语    100
    数     90
    外     80
期末  语     70
dtype: int64

### 2）DataFrame的操作

indexes = pd.MultiIndex.from_product([['期中','期末'],['语','数','外']])

columns = pd.MultiIndex.from_product([['一班','二班'],['01','02','03']])

data = np.random.randint(0,150,size=(6,6))

df1 = DataFrame(data,index=indexes,columns=columns)

In [28]:
indexes = pd.MultiIndex.from_product([['期中','期末'],['语','数','外']])
columns = pd.MultiIndex.from_product([['一班','二班'],['01','02','03']])
data = np.random.randint(0,150,size=(6,6))
df1 = DataFrame(data,index=indexes,columns=columns)
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_1,Unnamed: 1_level_1,01,02,03,01,02,03
期中,语,74,109,26,43,69,78
期中,数,27,141,38,72,105,22
期中,外,121,95,109,12,13,124
期末,语,87,97,102,135,100,33
期末,数,33,7,118,137,46,33
期末,外,128,40,41,60,83,98


(1) 索引： 可以直接使用列名称来进行 列索引  以及 使用loc()对行索引

In [38]:
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_1,Unnamed: 1_level_1,01,02,03,01,02,03
期中,语,74,109,26,43,69,78
期中,数,27,141,38,72,105,22
期中,外,121,95,109,12,13,124
期末,语,87,97,102,135,100,33
期末,数,33,7,118,137,46,33
期末,外,128,40,41,60,83,98


In [46]:
# 通过列名 对列进行 索引
# df1['一班']
df1['一班']
type(df1['一班'])  # 获取到的是DataFrame
df1['一班']['01']
# 通过loc和iloc 对行进行索引
df1.iloc[0]
df1.loc['期中'].loc['语']
df1.loc['期中','语']

一班  01     74
    02    109
    03     26
二班  01     43
    02     69
    03     78
Name: (期中, 语), dtype: int32

(2) 切片

In [47]:
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_1,Unnamed: 1_level_1,01,02,03,01,02,03
期中,语,74,109,26,43,69,78
期中,数,27,141,38,72,105,22
期中,外,121,95,109,12,13,124
期末,语,87,97,102,135,100,33
期末,数,33,7,118,137,46,33
期末,外,128,40,41,60,83,98


In [67]:
df1.iloc[0:4]
df1.loc['期中'].loc['语':'数']
# df1.loc['期中',['语','数']]
df1.loc['期中'].loc[['语','数']]

Unnamed: 0_level_0,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_1,01,02,03,01,02,03
语,74,109,26,43,69,78
数,27,141,38,72,105,22


In [65]:
df1['一班']
df1['一班']['02']
df1.iloc[:,0:4]
df1.loc[:,'一班'].loc[:,'01':'02']

Unnamed: 0,Unnamed: 1,01,02
期中,语,74,109
期中,数,27,141
期中,外,121,95
期末,语,87,97
期末,数,33,7
期末,外,128,40


总结：要么用编号，要么用文字索引取的话就一级一级来吧（猥琐发育，别浪）