# Pandas 之 concat 与 merge 的用法

## concat 表示连接，merge 表示合并

+ concat 可以认为是根据索引进行合并；
+ merge 的时候可以指定合并的字段。

参考资料：https://blog.csdn.net/zutsoft/article/details/51498026

In [1]:
df1 = pd.DataFrame(np.arange(12).reshape(3, 4), columns=['a', 'b', 'c', 'd'])
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [2]:
df2 = pd.DataFrame(np.arange(10, 16).reshape(2, 3), columns=['b', 'd', 'a'])
df2

Unnamed: 0,b,d,a
0,10,11,12
1,13,14,15


## concat 设置 axis=0 表示按行合并

In [3]:
pd.concat([df1, df2], axis=0, sort=True)  # axis = 0 表示接在后面

Unnamed: 0,a,b,c,d
0,0,1,2.0,3
1,4,5,6.0,7
2,8,9,10.0,11
0,12,10,,11
1,15,13,,14


### 设置 sort=False、copy=False 会提高性能

In [4]:
pd.concat([df1, df2], axis=0, sort=False, copy=False)

Unnamed: 0,a,b,c,d
0,0,1,2.0,3
1,4,5,6.0,7
2,8,9,10.0,11
0,12,10,,11
1,15,13,,14


## merge 表示合并，需要指定合并的字段和合并的方式

In [5]:
import pandas as pd

left = pd.DataFrame({'k': ['K0', 'K1', 'K1', 'K2'],
                     'lv': [1, 2, 3, 4],
                     's': ['a', 'b', 'c', 'd']})
left

Unnamed: 0,k,lv,s
0,K0,1,a
1,K1,2,b
2,K1,3,c
3,K2,4,d


In [7]:
right = pd.DataFrame({'k': ['K1', 'K2', 'K4'],
                      'rv': [1, 2, 3]})
right

Unnamed: 0,k,rv
0,K1,1
1,K2,2
2,K4,3


In [8]:
pd.merge(left, right, left_on='k', right_on='k', how='inner')

Unnamed: 0,k,lv,s,rv
0,K1,2,b,1
1,K1,3,c,1
2,K2,4,d,2


In [54]:
pd.merge(left, right, left_on='k', right_on='k', how='outer')
pd.merge(left, right, left_on='k', right_on='k', how='left')
pd.merge(left, right, left_on='k', right_on='k', how='right')

Unnamed: 0,k,lv,s,rv
0,K1,2.0,b,1
1,K1,3.0,c,1
2,K2,4.0,d,2
3,K4,,,3


### 没有指定连接键，默认用重叠列名，没有指定连接方式

In [10]:
df1 = pd.DataFrame({'key': ['a', 'b', 'b'], 'data1': range(3)})
df1

Unnamed: 0,key,data1
0,a,0
1,b,1
2,b,2


In [14]:
df2 = pd.DataFrame({'key': ['a', 'b', 'c'], 'data2': range(3)})
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,c,2


In [15]:
pd.merge(df1, df2)  

Unnamed: 0,key,data1,data2
0,a,0,0
1,b,1,1
2,b,2,1
