# pandas层次化索引

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [6]:
df = pd.read_excel('data.xlsx', header=[0,1])

In [8]:
df.columns

MultiIndex(levels=[['上半年', '下半年'], ['成本', '收入', '费用']],
           labels=[[0, 0, 0, 1, 1, 1], [1, 0, 2, 1, 0, 2]])

## 1. 创建多层行索引

### 1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

- Series也可以创建多层索引

### 2) 显示构造pd.MultiIndex

- 使用数组

In [15]:
arrays = [["上半年","上半年","上半年","下半年","下半年","下半年"],["收入","成本","费用","收入","成本","费用"]]
pd.MultiIndex.from_arrays(arrays)

MultiIndex(levels=[['上半年', '下半年'], ['成本', '收入', '费用']],
           labels=[[0, 0, 0, 1, 1, 1], [1, 0, 2, 1, 0, 2]])

- 使用tuple

In [16]:
tuples = (("上半年","收入"),("上半年","成本"),("上半年","费用"),("下半年","收入"),("下半年","成本"),("下半年","费用"))
pd.MultiIndex.from_tuples(tuples)

MultiIndex(levels=[['上半年', '下半年'], ['成本', '收入', '费用']],
           labels=[[0, 0, 0, 1, 1, 1], [1, 0, 2, 1, 0, 2]])

- 使用product

    最简单，推荐使用

In [11]:
columns = pd.MultiIndex.from_product([["上半年","下半年"], ["收入","成本","费用"]])
columns

MultiIndex(levels=[['上半年', '下半年'], ['成本', '收入', '费用']],
           labels=[[0, 0, 0, 1, 1, 1], [1, 0, 2, 1, 0, 2]])

In [12]:
data = np.random.randint(0,10000,size=(3,6))
index = ["92#","95#","90#"]

DataFrame(data=data, index=index, columns=columns)

Unnamed: 0_level_0,上半年,上半年,上半年,下半年,下半年,下半年
Unnamed: 0_level_1,收入,成本,费用,收入,成本,费用
92#,1921,9625,1642,9722,632,7899
95#,8382,610,9132,9341,8013,7777
90#,3832,8868,5299,6456,6230,6279


In [None]:
["上半年","下半年"]
["收入","成本","费用"]

============================================

练习8：

1. 创建一个DataFrame，表示出张三李四期中期末各科成绩（python,java,c）
  
============================================

In [18]:
index = ["张三","李四"]
columns = pd.MultiIndex.from_product([["期中","期末"],["python","java","c"]])
data = np.random.randint(0,100,size=(2,6))

DataFrame(data=data, index=index, columns=columns)

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,python,java,c,python,java,c
张三,75,39,74,44,58,67
李四,95,73,12,42,5,27


In [20]:
index = pd.MultiIndex.from_product([["期中","期末"],["张三","李四"]])
columns = ["python","java","c"]
data = np.random.randint(0,100,size=(4,3))
df = DataFrame(data=data, index=index, columns=columns)

## 2. 多层行索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

## 3. 多层索引对象的索引与切片操作

In [None]:
需求：
    构造一个多层级列索引成绩表，分值在0~100内随机
    一级标题为上学期和下学期，二级标题为python、java、c，行标签为tom、lucy、jack
    1. 获取上学期lucy成绩的最高分是哪门学科
    2. 同时获取上学期和下学期tom的成绩，计算tom的各学科的平均成绩
    3. 获取上学期jack的python成绩，并给他加20分

### 1）Series的操作

In [24]:
python = df["python"]
python

期中  张三    60
    李四    64
期末  张三    81
    李四    59
Name: python, dtype: int32

In [None]:
# 多层索引使用元祖来表达索引逻辑
("期中","张三")

In [25]:
python.loc[("期中","张三")]

60

In [28]:
python

期中  张三    60
    李四    64
期末  张三    81
    李四    59
Name: python, dtype: int32

In [27]:
# 也可以先把多级索引先变成单级索引
python.loc["期中"]

张三    60
李四    64
Name: python, dtype: int32

In [31]:
pd.__version__

'0.22.0'

In [33]:
python

期中  张三    60
    李四    64
期末  张三    81
    李四    59
Name: python, dtype: int32

In [32]:
# python.loc[index1:index2]
index1 = ("期中","张三")
index2 = ("期末","张三")
python.loc[index1:index2]

期中  张三    60
    李四    64
期末  张三    81
Name: python, dtype: int32

In [34]:
# 是用列表访问多个值
python.loc[[index1, index2]]

期中  张三    60
期末  张三    81
Name: python, dtype: int32

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，推荐使用.loc中括号索引和切片。

(1) 索引

(2) 切片

### 2）DataFrame的操作

In [35]:
df

Unnamed: 0,Unnamed: 1,python,java,c
期中,张三,60,9,10
期中,李四,64,78,93
期末,张三,81,55,89
期末,李四,59,69,36


In [37]:
# df.loc[index,column]
index = ("期中","张三")
column = "java"
df.loc[index, column] = 100

In [38]:
df

Unnamed: 0,Unnamed: 1,python,java,c
期中,张三,60,100,10
期中,李四,64,78,93
期末,张三,81,55,89
期末,李四,59,69,36


In [39]:
df[["python","java"]]

Unnamed: 0,Unnamed: 1,python,java
期中,张三,60,100
期中,李四,64,78
期末,张三,81,55
期末,李四,59,69


In [40]:
df.loc[:,"python":"java"]

Unnamed: 0,Unnamed: 1,python,java
期中,张三,60,100
期中,李四,64,78
期末,张三,81,55
期末,李四,59,69


In [41]:
# 获取期中的张三和李四的成绩
df.loc["期中"]

Unnamed: 0,python,java,c
张三,60,100,10
李四,64,78,93


In [42]:
# 获取期中的李四和期末的张三成绩
index1 = ("期中","李四")
index2 = ("期末","张三")
df.loc[[index1, index2]]

Unnamed: 0,Unnamed: 1,python,java,c
期中,李四,64,78,93
期末,张三,81,55,89


In [43]:
df.loc[index1:index2]

Unnamed: 0,Unnamed: 1,python,java,c
期中,李四,64,78,93
期末,张三,81,55,89


In [44]:
df

Unnamed: 0,Unnamed: 1,python,java,c
期中,张三,60,100,10
期中,李四,64,78,93
期末,张三,81,55,89
期末,李四,59,69,36


In [47]:
# 隐式索引不受多层级索引的影响，隐式索引永远是但层级
df.iloc[1:]

Unnamed: 0,Unnamed: 1,python,java,c
期中,李四,64,78,93
期末,张三,81,55,89
期末,李四,59,69,36


(1) 可以直接使用列名称来进行列索引

行多级索引的索引和切片操作

列多级索引的索引和切片操作

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

============================================

练习9：

1. 分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法

2. 假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

In [50]:
df.loc[("期中","张三"), "c"] = np.nan

In [54]:
df

Unnamed: 0,Unnamed: 1,python,java,c
期中,张三,60,100,100.0
期中,李四,64,78,93.0
期末,张三,81,55,89.0
期末,李四,59,69,36.0


In [53]:
df.iloc[0,2] = 100

In [None]:
# 多层级索引访问的核心
# 1. 多层级的索引的表达方式变成元组
# 2. 隐式索引的访问方式不受影响

## 4. 多层级索引的变形操作（stack）

- ``stack()``
- ``unstack()``

In [57]:
df

Unnamed: 0,Unnamed: 1,python,java,c
期中,张三,60,100,100.0
期中,李四,64,78,93.0
期末,张三,81,55,89.0
期末,李四,59,69,36.0


In [61]:
df1 = df.unstack(level=-2)
df1

Unnamed: 0_level_0,python,python,java,java,c,c
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,60,81,100,55,100.0,89.0
李四,64,59,78,69,93.0,36.0


In [62]:
df1.stack(level=-2)

Unnamed: 0,Unnamed: 1,期中,期末
张三,c,100.0,89.0
张三,java,100.0,55.0
张三,python,60.0,81.0
李四,c,93.0,36.0
李四,java,78.0,69.0
李四,python,64.0,59.0


============================================

练习10：

1. 使用unstack()将ddd变为两行，分别为期中期末

2. 使用unstack()将ddd变为四行，分别为四个科目

============================================

In [64]:
df.unstack(level=-1)

Unnamed: 0_level_0,python,python,java,java,c,c
Unnamed: 0_level_1,张三,李四,张三,李四,张三,李四
期中,60,64,100,78,100.0,93.0
期末,81,59,55,69,89.0,36.0


In [66]:
df.unstack(level=-1).stack(level=-2).unstack(level=-2)

Unnamed: 0_level_0,张三,张三,李四,李四
Unnamed: 0_level_1,期中,期末,期中,期末
c,100.0,89.0,93.0,36.0
java,100.0,55.0,78.0,69.0
python,60.0,81.0,64.0,59.0


## 5. 聚合操作

【注意】

- 需要指定axis

- 【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

============================================

练习11：

1. 计算各个科目期中期末平均成绩

2. 计算各科目张三李四的最高分

============================================