In [1]:
import pandas as pd
import numpy as np

In [None]:
# 表的横向拼接就是在横向将两个表依据公共列拼接在一起
# Excel中利用的是vLookup()
# Python中实现横向拼接利用的是merge()方法

In [8]:
# 11.1.1 连接表的类型
# 连接表主要有3种情况：一对一、多对一、多对多
df1=pd.DataFrame([[1,'小张',100,650],
                 [2,'小王',101,600],
                 [3,'小李',102,578],
                 [4,'小赵',103,550]],
                columns=('名次','姓名','学号','成绩'))
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [12]:
df2 = pd.DataFrame([[100,'一班'],[101,'一班'],[102,'二班'],[103,'三班']],
                  columns=('学号','班级'))
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [13]:
# 利用pd.merge()方法主动寻找两个表中的公共列，并将找到的公共列作为连接列
# df1和df2的公共列为学好，且学号是一对一，两个表运行pd.merge()方法以后结果如下
# 一对一
pd.merge(df1,df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


In [14]:
# 多对一
# 多对一就是待连接的两个表的公共列不是一对一的，其中一个表的公共列有重复值，另一个表的公共列是唯一的
# df3记录了每位学生升入高三以后的第一次模拟考试的成绩
# df4d记录了学号及之后每次模拟考试的成绩
# df3中的学号是唯一的，df4中的学号不是唯一的
# 因此拼接结果就是保留df4中的重复值，且在df3中也增加重复值
df3 = pd.DataFrame([['小张',100,650],['小王',101,600],['小李',102,578]],columns=('姓名','学号','f_成绩'))
df3

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小王,101,600
2,小李,102,578


In [16]:
df4=pd.DataFrame([[100,586],[100,602],[101,691],[101,702],[102,645],[102,676]],columns=('学号','e_成绩'))
df4

Unnamed: 0,学号,e_成绩
0,100,586
1,100,602
2,101,691
3,101,702
4,102,645
5,102,676


In [17]:
pd.merge(df3,df4,on='学号')

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,586
1,小张,100,650,602
2,小王,101,600,691
3,小王,101,600,702
4,小李,102,578,645
5,小李,102,578,676


In [18]:
# 多对多
# 多对多就是连接的两个表的公共列不是一对一的，且两个表中的公共列都有重复值，多对多连接相当于多个多对一连接
df5 = pd.DataFrame([['小张',100,650],['小张',100,610],['小王',101,600],['小李',102,578],['小李',102,542]],columns=('姓名','学号','f_成绩'))
df5

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小张,100,610
2,小王,101,600
3,小李,102,578
4,小李,102,542


In [19]:
df6=pd.DataFrame([[100,650],[100,610],[101,600],[102,578],[102,542]],columns=('学号','e_成绩'))
df6

Unnamed: 0,学号,e_成绩
0,100,650
1,100,610
2,101,600
3,102,578
4,102,542


In [21]:
pd.merge(df5,df6)

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,650
1,小张,100,650,610
2,小张,100,610,650
3,小张,100,610,610
4,小王,101,600,600
5,小李,102,578,578
6,小李,102,578,542
7,小李,102,542,578
8,小李,102,542,542


In [23]:
# 11.1.2 连接键的类型
# 如果事先没有指定要按哪个列进行拼接时，pd.merge()默认以公共列作为连接键
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [24]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [27]:
pd.merge(df1,df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


In [28]:
# 用on来指定连接键
# 参数on一般指定两个表中的公共列


Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


In [30]:
# 公共列可以有多列，也就是连接键可以有多个
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [32]:
df7=pd.DataFrame([['小张',100,'一班'],
                  ['小王',101,'一班'],
                  ['小李',102,'二班'],
                  ['小赵',103,'三班']],
                 columns=('姓名','学号','班级'))
df7

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小赵,103,三班


In [33]:
pd.merge(df1,df7,on=['姓名','学号'])

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


In [39]:
# 分别指定左右连接键
# 使用参数left_on和right_on，前者用来指明左表用作连接键的列名，后者用来指明右表连接键的列名
df8=pd.DataFrame([[1,'小张',100,650],
                 [2,'小王',101,600],
                 [3,'小李',102,578],
                 [4,'小赵',103,550]],
                columns=('名次','姓名','编号','成绩'))
df8

Unnamed: 0,名次,姓名,编号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [35]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [40]:
pd.merge(df8,df2,left_on='编号',right_on='学号')

Unnamed: 0,名次,姓名,编号,成绩,学号,班级
0,1,小张,100,650,100,一班
1,2,小王,101,600,101,一班
2,3,小李,102,578,102,二班
3,4,小赵,103,550,103,三班


In [47]:
# 把索引列当作连接键
# 利用参数left_index,right_index,前者控制左表的索引，后者控制右表的索引
df8

Unnamed: 0,名次,姓名,编号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [48]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [50]:
# 书中例子索引层次不齐，此处就不做仿制- -||
# 左表和右表的连接键均为索引
pd.merge(df8,df2,left_index=True,right_index=True)

Unnamed: 0,名次,姓名,编号,成绩,学号,班级
0,1,小张,100,650,100,一班
1,2,小王,101,600,101,一班
2,3,小李,102,578,102,二班
3,4,小赵,103,550,103,三班


In [51]:
# 还可以把索引列和普通列混用
# 左表连接键为索引，右表的连接键为普通列 
df8

Unnamed: 0,名次,姓名,编号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [45]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [52]:
# 没有得到书中的计算结果
pd.merge(df8,df2,left_index=True,right_on='学号')

Unnamed: 0,名次,姓名,编号,成绩,学号,班级


In [53]:
# 11.1.3 连接方式
# 利用参数how来指明具体的连接方式
# 内连接（inner)
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [58]:
df9=pd.DataFrame([['小张',100,'一班'],
                  ['小王',101,'一班'],
                  ['小李',102,'二班'],
                  ['小钱',104,'三班']],
                 columns=('姓名','学号','班级'))
df9

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [60]:
# 内连接选取两个表中的公共部分
# 如果不指明连接方式，则默认都是内连接
pd.merge(df1,df9,on='学号',how='inner')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班


In [61]:
# 左连接（left)
# 左连接就是以左表为基础，右表往左表上拼接
# 拼接过来的信息就用NaN填充
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [62]:
df9

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [63]:
pd.merge(df1,df9,on='学号',how='left')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班
3,4,小赵,103,550,,


In [64]:
# 右连接（right)
# 右连接就是以右表为基础，左表往右表上拼接
# 拼接过来的信息就用NaN填充
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [65]:
df9

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [66]:
pd.merge(df1,df9,on='学号',how='right')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,2.0,小王,101,600.0,小王,一班
2,3.0,小李,102,578.0,小李,二班
3,,,104,,小钱,三班


In [67]:
# 外连接（outer)
# 外连接取两个表的并集
# 拼接过来的信息就用NaN填充
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [68]:
df9

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [69]:
pd.merge(df1,df9,on='学号',how='outer')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,2.0,小王,101,600.0,小王,一班
2,3.0,小李,102,578.0,小李,二班
3,4.0,小赵,103,550.0,,
4,,,104,,小钱,三班


In [70]:
# 11.1.4 重复列名处理
# 在遇到列名重复时，pd.merge()方法会自动给这些重复列名添加后缀_x、_y或z，而且会根据表中已有的列名自行调整
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [71]:
df9

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [74]:
pd.merge(df1,df9,on='学号',how='inner')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班


In [76]:
# 利用修改参数suffixes的值，默认为['_x','_y']
# 给重复的列名加后缀_L和_R
pd.merge(df1,df9,on='学号',how='inner',suffixes=['_L','_R'])

Unnamed: 0,名次,姓名_L,学号,成绩,姓名_R,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班
