# pandas层次化索引

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [2]:
df=DataFrame(np.random.rand(4,2),index=[['a','a','b','b'],[1,2,1,2]],columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.551073,0.84239
a,2,0.68431,0.857883
b,1,0.090266,0.400649
b,2,0.490777,0.565122


In [3]:
data = np.random.randint(0,1000,size=8)

# [['7月','8月'],['0#','90#','95#','97#']]

# [['7月','0#'],['7月','90#'],['7月','95#'],['7月','98#'],['8月','0#'],['8月','90#'],['8月','95#'],['8月','98#']]

index = [['7月','7月','7月','7月','8月','8月','8月','8月'],['0#','90#','95#','97#','0#','90#','95#','97#']]

s = Series(data=data,index=index)
DataFrame(s)

Unnamed: 0,Unnamed: 1,0
7月,0#,786
7月,90#,298
7月,95#,527
7月,97#,296
8月,0#,428
8月,90#,963
8月,95#,484
8月,97#,21


### 2) 显示构造pd.MultiIndex

- 使用数组

In [4]:
columns = pd.MultiIndex.from_arrays([[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']])
display(columns)
data=np.random.randint(0,100,size=(3,4))
display(data)
df=DataFrame(data=data,columns=columns)
df

MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]])

array([[56,  7, 41, 55],
       [15, 43, 62, 54],
       [ 8,  5, 82, 27]])

Unnamed: 0_level_0,1,1,2,2
Unnamed: 0_level_1,red,blue,red,blue
0,56,7,41,55
1,15,43,62,54
2,8,5,82,27


- 使用tuple

In [5]:
columns = pd.MultiIndex.from_tuples([(1, u'red'), (1, u'blue'),
              (2, u'red'), (2, u'blue')])
display(columns)
data = np.random.randint(0,1000,size=(3,4))
display(data)
df = DataFrame(data=data,columns=columns)
df

MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]])

array([[580, 466, 166, 331],
       [397, 977, 303, 463],
       [112, 118, 818, 476]])

Unnamed: 0_level_0,1,1,2,2
Unnamed: 0_level_1,red,blue,red,blue
0,580,466,166,331
1,397,977,303,463
2,112,118,818,476


- 使用product

    最简单，推荐使用

In [6]:
columns = pd.MultiIndex.from_product([['7月','8月'],['0#','90#','95#','97#']])
display(columns)
data = np.random.randint(0,1000,size=(3,8))
display(data)
df = DataFrame(data=data,columns=columns)
df

MultiIndex(levels=[['7月', '8月'], ['0#', '90#', '95#', '97#']],
           labels=[[0, 0, 0, 0, 1, 1, 1, 1], [0, 1, 2, 3, 0, 1, 2, 3]])

array([[674, 485, 829, 227, 363, 768, 540, 752],
       [573, 959, 204, 142,  88, 910, 216, 702],
       [814, 852, 545, 424, 380, 407, 440, 903]])

Unnamed: 0_level_0,7月,7月,7月,7月,8月,8月,8月,8月
Unnamed: 0_level_1,0#,90#,95#,97#,0#,90#,95#,97#
0,674,485,829,227,363,768,540,752
1,573,959,204,142,88,910,216,702
2,814,852,545,424,380,407,440,903


- 人口统计

In [7]:
Mindex = pd.MultiIndex.from_tuples([('California',2000),('California',2010),
        ('New York',2000),('New York',2010),
        ('Texas',2000),('Texas',2010)])

#Mindex = pd.MultiIndex.from_product([['California','New York','Texas'],[2000,2010]])
populations=np.random.randint(0,1000000,size=6)
pop = DataFrame(populations,index=Mindex,columns = ['人口'])
pop

Unnamed: 0,Unnamed: 1,人口
California,2000,431190
California,2010,298318
New York,2000,395240
New York,2010,862462
Texas,2000,226286
Texas,2010,102173


============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

In [8]:
index = pd.MultiIndex.from_product([['期中','期末'],['python','c','java']])
columns = ['张三','李四']
data = np.random.randint(0,150,size=(6,2))
score = DataFrame(data=data,index=index,columns=columns)
score

Unnamed: 0,Unnamed: 1,张三,李四
期中,python,139,72
期中,c,61,106
期中,java,73,9
期末,python,50,6
期末,c,83,147
期末,java,9,63


## 2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

In [9]:
a = np.random.randint(0,150,(2,8))
Mindex = pd.MultiIndex.from_product([['语文','数学','英语','理综'],['期中','期末']])
ddd = DataFrame(data = a,
                index = ['张三','李四'],
                columns = Mindex)
ddd

Unnamed: 0_level_0,语文,语文,数学,数学,英语,英语,理综,理综
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末,期中,期末
张三,17,147,58,56,41,23,36,88
李四,45,39,71,7,45,137,93,43


## 3. 多层索引对象的索引与切片操作

### 1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用.loc中括号索引和切片。

In [10]:
index = [['7月','7月','7月','7月','8月','8月','8月','8月'],['0#','90#','95#','97#','0#','90#','95#','97#']]
data = np.random.randint(0,1000,size=8)
print(data)
s = Series(data=data,index=index)
s

[ 81 387 796 303 454 247 527 383]


7月  0#      81
    90#    387
    95#    796
    97#    303
8月  0#     454
    90#    247
    95#    527
    97#    383
dtype: int32

(1) 索引

In [11]:
# 特有的访问方式
print(s.loc['7月','0#'])
s.loc['7月']['0#']

81


81

(2) 切片

In [12]:
s.loc['7月']['0#':'95#']

0#      81
90#    387
95#    796
dtype: int32

In [13]:
# 使用隐式索引进行切片，可以忽视多级索引
s.iloc[2:7]

7月  95#    796
    97#    303
8月  0#     454
    90#    247
    95#    527
dtype: int32

### 2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

In [14]:
score

Unnamed: 0,Unnamed: 1,张三,李四
期中,python,139,72
期中,c,61,106
期中,java,73,9
期末,python,50,6
期末,c,83,147
期末,java,9,63


In [15]:
score['张三']

期中  python    139
    c          61
    java       73
期末  python     50
    c          83
    java        9
Name: 张三, dtype: int32

行多级索引的索引和切片操作

In [16]:
score

Unnamed: 0,Unnamed: 1,张三,李四
期中,python,139,72
期中,c,61,106
期中,java,73,9
期末,python,50,6
期末,c,83,147
期末,java,9,63


In [17]:
display(score.loc['期中'].loc['python','李四'])
display(score.iloc[0]['李四'])
display(score['李四'][0])
display(score.iloc[0,1])
display(score['李四'].loc['期中','python'])

72

72

72

72

72

In [18]:
# 切片
print(score.loc['期中']['python':'c'])
score.iloc[2:4]

         张三   李四
python  139   72
c        61  106


Unnamed: 0,Unnamed: 1,张三,李四
期中,java,73,9
期末,python,50,6


In [19]:
# 需求：获取期中期末的python成绩
score.iloc[[0,3]]
# score.loc[[0,3]]
# 还可以使用stack变换来解决此问题

Unnamed: 0,Unnamed: 1,张三,李四
期中,python,139,72
期末,python,50,6


In [20]:
score.loc['期中'].loc['python':'c','张三']

python    139
c          61
Name: 张三, dtype: int32

列多级索引的索引和切片操作

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

# Series索引
显示 [indexname] .loc[indexname] [[indexname1,indexname2]] .loc[[indexname1,indexname2]]
隐式 .iloc[locindex] .iloc[[locindex1,locindex2]]
# Series切片
显示 [index1:index2]  .loc[index1:index2]
隐士 .iloc[locindex1:locindex2]

# DataFrame索引
显示 
行索引：df.loc[indexname]
列索引：df[columnname]  df.columnname
元素索引: df.loc[indexname,columnname]

隐式
行索引：df.iloc[locindex]
列索引：df.iloc[:,loccolumn]
元素索引：df.iloc[locindex,loccoloumn]

# 多级索引的DataFrame\Series
化繁为简
隐式索引的访问方式可以忽略多级索引问题

## 4. 索引的堆（stack）

- ``stack()``
- ``unstack()``

stack:把列索引转换成行索引
unstack：把行索引变成列索引
level：控制要转换的索引（索引最外层记为0，往里一次递增1）

In [21]:
score

Unnamed: 0,Unnamed: 1,张三,李四
期中,python,139,72
期中,c,61,106
期中,java,73,9
期末,python,50,6
期末,c,83,147
期末,java,9,63


In [22]:
score.unstack(level=0).stack(level=0).unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,c,java,python,c,java,python
张三,61,73,139,83,9,50
李四,106,9,72,147,63,6


In [23]:
score.unstack(level=0).loc['python']

张三  期中    139
    期末     50
李四  期中     72
    期末      6
Name: python, dtype: int32

小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

In [24]:
ddd

Unnamed: 0_level_0,语文,语文,数学,数学,英语,英语,理综,理综
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末,期中,期末
张三,17,147,58,56,41,23,36,88
李四,45,39,71,7,45,137,93,43


In [25]:
ddd.stack(level=1).unstack(level=0)

Unnamed: 0_level_0,数学,数学,理综,理综,英语,英语,语文,语文
Unnamed: 0_level_1,张三,李四,张三,李四,张三,李四,张三,李四
期中,58,71,36,93,41,45,17,45
期末,56,7,88,43,23,137,147,39


In [26]:
ddd.stack(level=0).unstack(level=0)

Unnamed: 0_level_0,期中,期中,期末,期末
Unnamed: 0_level_1,张三,李四,张三,李四
数学,58,71,56,7
理综,36,93,88,43
英语,41,45,23,137
语文,17,45,147,39


In [27]:
columns = pd.MultiIndex.from_product([['期中','期末'],['量子力学','达尔文进化论','相对论','虫洞深入探讨']])
index = ['大黄','小玲','小天才']
data = np.random.randint(0,150,size=(3,8))
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0_level_0,期中,期中,期中,期中,期末,期末,期末,期末
Unnamed: 0_level_1,量子力学,达尔文进化论,相对论,虫洞深入探讨,量子力学,达尔文进化论,相对论,虫洞深入探讨
大黄,59,141,24,1,29,121,82,15
小玲,90,140,41,149,8,74,142,66
小天才,41,136,71,68,74,29,126,56


In [28]:
df1 = df.stack(level=0).unstack(level=0)
df1

Unnamed: 0_level_0,相对论,相对论,相对论,虫洞深入探讨,虫洞深入探讨,虫洞深入探讨,达尔文进化论,达尔文进化论,达尔文进化论,量子力学,量子力学,量子力学
Unnamed: 0_level_1,大黄,小玲,小天才,大黄,小玲,小天才,大黄,小玲,小天才,大黄,小玲,小天才
期中,24,41,71,1,149,68,141,140,136,59,90,41
期末,82,142,126,15,66,56,121,74,29,29,8,74


In [29]:
df.stack(level=1).unstack(level=0)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,大黄,小玲,小天才,大黄,小玲,小天才
相对论,24,41,71,82,142,126
虫洞深入探讨,1,149,68,15,66,56
达尔文进化论,141,140,136,121,74,29
量子力学,59,90,41,29,8,74


## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

In [30]:
df

Unnamed: 0_level_0,期中,期中,期中,期中,期末,期末,期末,期末
Unnamed: 0_level_1,量子力学,达尔文进化论,相对论,虫洞深入探讨,量子力学,达尔文进化论,相对论,虫洞深入探讨
大黄,59,141,24,1,29,121,82,15
小玲,90,140,41,149,8,74,142,66
小天才,41,136,71,68,74,29,126,56


In [31]:
df.mean(axis=1)

大黄     59.000
小玲     88.750
小天才    75.125
dtype: float64

In [32]:
df.sum(axis=1)

大黄     472
小玲     710
小天才    601
dtype: int64

In [33]:
df.max(axis=1)

大黄     141
小玲     149
小天才    136
dtype: int32

In [34]:
df.stack(level=0).unstack(level=0).stack(level=1).mean(axis=1)

期中  大黄      56.25
    小玲     105.00
    小天才     79.00
期末  大黄      61.75
    小玲      72.50
    小天才     71.25
dtype: float64

In [35]:
df.stack(level=0).unstack(level=0).mean(axis=1)

期中    80.083333
期末    68.500000
dtype: float64

In [36]:
df.mean(axis=0)

期中  量子力学       63.333333
    达尔文进化论    139.000000
    相对论        45.333333
    虫洞深入探讨     72.666667
期末  量子力学       37.000000
    达尔文进化论     74.666667
    相对论       116.666667
    虫洞深入探讨     45.666667
dtype: float64

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================