# pandas 进阶修炼
<br>

本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。


不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

## 7 - 数据透视与合并



<br>

**<font color = '#5172F0'><font size=3.5>必读👇👇👇**</font>
    
现在让我们继续练习 pandas数据分析另一组常用操作 --> **数据透视与合并**


本节习题将涉及四大函数：
    
- pivot_table
- concat
- merge
- join

随着练习的深入，若没有一定的基础知识将很难继续刷题
    
官方文档永远是最好的学习手册，在本节之前强烈建议学习[官方文档对应部分](https://pandas.pydata.org/pandas-docs/version/0.20/merging.html#database-style-dataframe-joining-merging)
 




## 初始化

<br>

该 `Notebook` 版本为**习题+答案版**


请执行下方单元格以初始化读取本节习题的答案

执行完毕后，你可以使用 `ans(1)` 来查看第 1 题的参考解答，其余习题类似。

注意：所有答案并非固定（唯一），我提供的答案仅供参考（并非推荐答案或者最优解）



In [1]:
import sys
sys.path.append('../document/')
from inits import initialize, ans
res = initialize("../document/answer-7.txt")

***************正在初始化***************
*************读取到配置文件*************
***************初始化成功***************


## 数据透视表

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/14/16316101294678.jpg?域名/sample.jpg?x-oss-process=style/stylename)

### 1 - 加载数据

读取当前目录下 `"某超市销售数据.csv"` 并设置千分位符号为 `,`

In [5]:
import pandas as pd
import numpy as np

# csv文件中销售额表示为3,305，类型为object
df = pd.read_csv('某超市销售数据.csv', thousands = ',')

### 2 - 数据透视｜默认

制作各省「平均销售额」的数据透视表

In [8]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], aggfunc = [np.mean])
pd.DataFrame(df.groupby('省/自治区')['销售额'].mean())

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,1875.712934
云南,1863.78903
内蒙古,1314.826316
北京,1726.857143
吉林,1701.563567
四川,1157.875536
天津,1611.206667
宁夏,1651.68
安徽,1477.868251
山东,1642.659111


### 3 - 数据透视｜指定方法

制作各省「销售总额」的数据透视表

In [9]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], aggfunc = sum)
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], aggfunc = [np.sum])

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,594601
云南,441718
内蒙古,249817
北京,350552
吉林,896724
四川,269785
天津,483362
宁夏,41292
安徽,684253
山东,1884130


### 4 - 数据透视｜多方法

制作各省「销售总额」与「平均销售额」的数据透视表

In [10]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], aggfunc = ['mean', sum])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,销售额,销售额
省/自治区,Unnamed: 1_level_2,Unnamed: 2_level_2
上海,1875.712934,594601
云南,1863.78903,441718
内蒙古,1314.826316,249817
北京,1726.857143,350552
吉林,1701.563567,896724
四川,1157.875536,269785
天津,1611.206667,483362
宁夏,1651.68,41292
安徽,1477.868251,684253
山东,1642.659111,1884130


In [11]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], aggfunc = [np.mean, np.sum, np.median, np.max, np.min])

Unnamed: 0_level_0,mean,sum,median,amax,amin
Unnamed: 0_level_1,销售额,销售额,销售额,销售额,销售额
省/自治区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海,1875.712934,594601,673.0,29124,18
云南,1863.78903,441718,714.0,24536,25
内蒙古,1314.826316,249817,457.0,11164,33
北京,1726.857143,350552,655.0,30307,16
吉林,1701.563567,896724,689.0,21286,15
四川,1157.875536,269785,580.0,15207,32
天津,1611.206667,483362,633.0,22501,29
宁夏,1651.68,41292,666.0,8469,89
安徽,1477.868251,684253,556.0,20075,25
山东,1642.659111,1884130,683.0,27047,21


### 5 - 数据透视｜多指标

制作各省市「销售总额」与「利润总额」的数据透视表

In [13]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额', '利润'], aggfunc = sum)
pd.DataFrame(df.groupby('省/自治区')['销售额', '利润'].sum())

  pd.DataFrame(df.groupby('省/自治区')['销售额', '利润'].sum())


Unnamed: 0_level_0,销售额,利润
省/自治区,Unnamed: 1_level_1,Unnamed: 2_level_1
上海,594601,87236
云南,441718,83201
内蒙古,249817,-20685
北京,350552,57883
吉林,896724,152504
四川,269785,-16615
天津,483362,63108
宁夏,41292,-1149
安徽,684253,133312
山东,1884130,310042


### 6 - 数据透视｜多索引

制作「各省市」与「不同类别」产品「销售总额」的数据透视表

In [18]:
pd.pivot_table(df, index = ['省/自治区', '类别'], values = ['销售额'], aggfunc = sum)
pd.DataFrame(df.groupby(['省/自治区', '类别'])['销售额'].sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额
省/自治区,类别,Unnamed: 2_level_1
上海,办公用品,198529
上海,家具,221058
上海,技术,175014
云南,办公用品,123051
云南,家具,174155
...,...,...
青海,家具,25923
青海,技术,22896
黑龙江,办公用品,473319
黑龙江,家具,497504


### 7 - 数据透视｜多层

制作各省市「不同类别」产品的「销售总额」透视表

In [17]:
pd.pivot_table(df, index = ['省/自治区'], values = ['销售额'], columns = '类别', aggfunc = sum)

Unnamed: 0_level_0,销售额,销售额,销售额
类别,办公用品,家具,技术
省/自治区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
上海,198529.0,221058.0,175014.0
云南,123051.0,174155.0,144512.0
内蒙古,74058.0,95426.0,80333.0
北京,144232.0,127407.0,78913.0
吉林,215143.0,287498.0,394083.0
四川,111393.0,88297.0,70095.0
天津,142526.0,149452.0,191384.0
宁夏,19529.0,16449.0,5314.0
安徽,200511.0,215901.0,267841.0
山东,575520.0,664339.0,644271.0


### 8 - 数据透视｜综合

制作「各省市」、「不同类别」产品「销售量与销售额」的「均值与总和」的数据透视表，并在最后追加一行『合计』

In [20]:
pd.pivot_table(df, index = ['省/自治区', '类别'], values = ['销售额', '数量'], aggfunc = ['mean', sum], margins = True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,数量,销售额,数量,销售额
省/自治区,类别,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海,办公用品,3.706897,1140.971264,645,198529
上海,家具,4.132530,2663.349398,343,221058
上海,技术,3.616667,2916.900000,217,175014
云南,办公用品,3.913043,891.673913,540,123051
云南,家具,4.224490,3554.183673,207,174155
...,...,...,...,...,...
青海,技术,3.833333,3816.000000,23,22896
黑龙江,办公用品,3.657471,1088.089655,1591,473319
黑龙江,家具,3.921687,2997.012048,651,497504
黑龙江,技术,3.442177,2557.176871,506,375905


### 9 - 数据透视｜筛选

在上一题的基础上，查询 **「类别」** 等于 **「办公用品」** 的详情

In [22]:
table = pd.pivot_table(df, index = ['省/自治区', '类别'], values = ['销售额', '数量'], aggfunc = ['mean', sum], margins = True)
table.query('类别 == ["办公用品"]')

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,数量,销售额,数量,销售额
省/自治区,类别,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海,办公用品,3.706897,1140.971264,645,198529
云南,办公用品,3.913043,891.673913,540,123051
内蒙古,办公用品,3.391304,643.982609,390,74058
北京,办公用品,3.75,1163.16129,465,144232
吉林,办公用品,3.52027,726.834459,1042,215143
四川,办公用品,3.947368,837.541353,525,111393
天津,办公用品,3.917127,787.436464,709,142526
宁夏,办公用品,3.75,1627.416667,45,19529
安徽,办公用品,3.710526,753.800752,987,200511
山东,办公用品,3.775112,862.848576,2518,575520


### 10 -数据透视｜逆透视

逆透视就是将宽的表转换为长的表，例如将第 5 题的透视表进行逆透视，其中不需要转换的列为『数量』列

In [24]:
table = pd.pivot_table(df, index = '类别', values = ['销售额', '利润', '数量'], aggfunc = sum)
table

Unnamed: 0_level_0,利润,数量,销售额
类别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
办公用品,752124,21389,4844936
家具,628052,8434,5696531
技术,742264,7613,5442876


In [26]:
# 以 '数量' 为index
table.melt(id_vars = ['数量'], var_name = '分类', value_name = '金额')

Unnamed: 0,数量,分类,金额
0,21389,利润,752124
1,8434,利润,628052
2,7613,利润,742264
3,21389,销售额,4844936
4,8434,销售额,5696531
5,7613,销售额,5442876


## 数据合并

### concat - 数据拼接

`concat`主要用于**数据拼接**，也是非常常用的一个操作

除了官方文档外很难找到比官方文档更好的练习

以下案例来源或基于 [👉官方文档](https://pandas.pydata.org/pandas-docs/version/0.20/merging.html) 中的案例修改而来

在练习之前应执行下方代码生成数据

并应预览不同数据的结构以及每题的图解（如果有）

In [28]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])


df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [None]:
df4

#### 11 - <font color = '#FB8E00'>concat</font>｜默认拼接

拼接 df1 和 df2

In [None]:
# 上下连接
pd.concat([df1, df2])

#### 12 - <font color = '#FB8E00'>concat</font>｜拼接多个

垂直拼接 `df1、df2、df3`，效果如下图所示

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_basic.png)

In [None]:
pd.concat([df1, df2, df3])

#### 13 - <font color = '#FB8E00'>concat</font>｜重置索引

垂直拼接 df1 和 df4，并按顺序重新生成索引，

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_ignore_index.png)

In [29]:
# 不忽略索引会把原索引填充
pd.concat([df1, df4], ignore_index = True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


#### 14 - <font color = '#FB8E00'>concat</font>｜横向拼接

横向拼接 `df1、df4`，效果如下图所示


![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_axis1.png)

In [None]:
pd.concat([df1, df4], axis = 1)

#### 15 - <font color = '#FB8E00'>concat</font>｜横向拼接（取交集）

在上一题的基础上，只取结果的交集

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_axis1_inner.png)

In [None]:
pd.concat([df1, df4], axis = 1, join = 'inner')

#### 16 - <font color = '#FB8E00'>concat</font>｜横向拼接（取指定）

在 14 题基础上，只取包含 df1 索引的部分

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_axis1_join_axes.png)

In [30]:
pd.concat([df1, df4], axis = 1).reindex(df1.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


![公众号：早起Python](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/18/16319660121648.jpg?域名/sample.jpg?x-oss-process=style/stylename)

#### 17 - <font color = '#FB8E00'>concat</font>｜新增索引

拼接 `df1、df2、df3`，同时新增一个索引（`x、y、z`）来区分不同的表数据来源

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_concat_keys.png)

In [31]:
pd.concat([df1, df2, df3], keys = ['x', 'y', 'z'])

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


### merge - 数据连接

concat是拼接，merge则是连接，同样重要的一个操作

同样很难找到比官方文档更好的练习，以下案例来源或基于 [👉官方文档](https://pandas.pydata.org/pandas-docs/version/0.20/merging.html#database-style-dataframe-joining-merging) 中的案例修改而来

在练习之前应执行每题下方的代码生成数据

并应预览不同数据的结构以及每题的图解（如果有）

#### 18 - <font color = '#1B85FF' >merge</font>｜按单键

根据 `key` 连接 `left` 和 `right`

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key.png)

In [36]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [37]:
# on = 'key' 只有 'key' 一样的时候才能merge
pd.merge(left, right, on = 'key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


#### 19 - <font color = '#1B85FF' >merge</font>｜按多键

根据 `key1` 和 `key2` 连接 `left` 和 `right`

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key_multiple.png)

In [38]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})


In [None]:
# 对应key值分别相等
pd.merge(left, right, on = ['key1', 'key2'])

#### 20 - <font color = '#1B85FF' >merge</font>｜左外连接


如下图所示的结果连接 left 和 right，保留左表全部键
![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key_left.png)

In [None]:
# 左外连接
pd.merge(left, right, how = 'left', on = ['key1', 'key2'])

#### 21 - <font color = '#1B85FF' >merge</font>｜右外连接


如下图所示的结果连接 left 和 right，保留右表全部键
![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key_right.png)

In [None]:
pd.merge(left, right, how = 'right', on = ['key1', 'key2'])

#### 22 - <font color = '#1B85FF' >merge</font>｜全外连接


如下图所示的结果连接 left 和 right，保留全部键
![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key_outer.png)

In [None]:
pd.merge(left, right, how = 'outer', on = ['key1', 'key2'])

#### 23 - <font color = '#1B85FF' >merge</font>｜内连接


如下图所示的结果连接 left 和 right，保留交集
![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_on_key_inner.png)

In [None]:
pd.merge(left, right, how = 'inner', on = ['key1', 'key2'])

#### 24 - <font color = '#1B85FF' >merge</font>｜重复索引


重新产生数据并按下图所示进行连接
![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_merge_overlapped_suffix.png)

In [39]:
left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})

right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})


In [40]:
pd.merge(left, right, on = 'k', suffixes = ['_l', '_r'])

Unnamed: 0,k,v_l,v_r
0,K0,1,4
1,K0,1,5


### join - 组合

最后一个数据合并的常用且重要的操作是`join`

同样很难找到比官方文档更好的练习，以下案例来源或基于 [👉官方文档](https://pandas.pydata.org/pandas-docs/version/0.20/merging.html#database-style-dataframe-joining-merging) 中的案例修改而来

在练习之前应执行每题下方的代码生成数据

并应预览不同数据的结构以及每题的图解（如果有）

In [242]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                     index=['K0', 'K1', 'K2'])


right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

#### 25 -  <font color ='#27BE49'>join</font>｜左对齐

合并 left 和 right，并按照 left 的索引进行对齐

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_join.png)

In [None]:
left.join(right)

#### 26 - <font color ='#27BE49'>join</font>｜左对齐（外连接）

按下图所示进行连接

思考：merge 做法

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_join_outer.png)

In [None]:
left.join(right, how = 'outer')

In [None]:
pd.merge(left, right, left_index = True, right_index = True, how = 'outer')

#### 27 - <font color ='#27BE49'>join</font>｜左对齐（内连接）

按下图所示进行连接

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_join_inner.png)

In [None]:
left.join(right, how = 'inner')

#### 28 - <font color ='#27BE49'>join</font>｜按索引

重新产生数据并按下图所示进行连接（根据 `key`）

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_join_key_columns.png)


In [248]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'key': ['K0', 'K1', 'K0', 'K1']})


right = pd.DataFrame({'C': ['C0', 'C1'],
                      'D': ['D0', 'D1']},
                      index=['K0', 'K1'])

In [None]:
left.join(right, on = 'key')

#### 29 - <font color ='#27BE49'>join</font>｜按索引（多个）

重新产生数据并按下图所示进行连接（根据 `key1` 和 `key2`）

![](https://pandas.pydata.org/pandas-docs/version/0.20/_images/merging_join_multikeys.png)


In [None]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1']})


index = pd.MultiIndex.from_tuples([('K0', 'K0'), ('K1', 'K0'),
                                  ('K2', 'K0'), ('K2', 'K1')])


right = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']},
                  index=index)

In [None]:
left.join(right, on = ['key1', 'key2'])