## pd.concat() 函数可以沿着指定的轴将多个 DataFrame 或者 series 拼接到一起；
## pd.merge() 函数只能实现两个表的拼接。

    轴向连接(concatenation): pd.concat() 可以沿一个轴将多个DataFrame对象连接在一起, 形成一个新的Dataframe对象
    融合（merging）：pd.merge()方法可以根据一个或多个键将不同DataFrame中的行连接起来。
    concat() 轴向连接

    concat() 函数可以将数据根据不同的轴作进行合并

    pd.concat(objs, axis=0, join='outer')
        objs: series、dataframe或者是panel构成的序列list
        axis： 需要合并链接的轴，0是行，1是列，默认是0
        join：连接的方式 inner，或者outer，默认是outer
### concat()合并

join的值 inner ，得到的是两表的交集，如果是outer，得到的是两表的并集
(1) join='outer'，axis=0

    当join=‘outer’，axis参数为0时，列进行并集处理，纵向表拼接，缺失值由NaN填充，并且会保留原有数据的行索引
(2) join='outer'，axis=1

    当join=‘outer’，axis参数为1时，行进行并集处理，横向表拼接，缺失值由NaN填充
(3) join=inner, axis=0

### merge() 融合
merge(left, right, how='inner', on=None)
参数介绍

    left和right, 两个要合并的DataFrame(对应的左连接和右连接)
    how: 连接的方式, 有inner(内连接)、left(左连接)、right(右连接)、outer(外连接), 默认为 inner
    on: 指的是用于连接的列索引名称, 必须存在于左右两个DataFrame中, 如果没有指定且其他参数也没有指定,则两个DataFrame列名交集作为连接键
    left_on
    right_on
inner(内连接)

    merge()默认做inner连接，并且使用两个DataFrame的列名交集（key）作为连接键，同样，最终连接的数据也是两个DataFramekey列数据的交集
outer (外连接)

    当merge()做outer连接时最终连接的数据是两个DataFramekey列数据的并集，缺失的内容由NaN填充  
left(左连接)

    当merge()做left连接时，最终连接的数据将以left数据的链接建为准合并两个数据的列数据，缺失的内容由NaN填充
right (右连接)

    当merge()做right连接时，最终连接的数据将以right数据的链接建为准合并两个数据的列数据，缺失的内容由NaN填充


pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起。

基本语法：

    pd.concat( objs, axis=0, join=‘outer’, join_axes=None,ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True,)
    objs 表示需要连接的对象，比如：[df1, df2]，需要将合并的数据用综括号包围；
    axis=0 表拼接方式是上下堆叠，当axis=1表示左右拼接；
    join 参数控制的是外连接还是内连接，join='outer’表示外连接，保留两个表中的所有信息；join="inner"表示内连接，拼接结果只保留两个表共有的信息；
    join_axes参数是在内连接时选择要完整保留哪个表的索引，但是这个参数在官方文档中提醒即将被弃用，所以不做详细讲解，只看一下join参数的表现吧；

In [3]:
# %load 16_concat.py
# View more python tutorials on my Youtube and Youku channel!!!

# Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTTpcg
# Youku video tutorial: http://i.youku.com/pythontutorial

"""
Please note, this code is only for python 3+. If you are using python 2+, please modify the code accordingly.
"""
from __future__ import print_function
import pandas as pd
import numpy as np

# concatenating
# ignore index
df1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['a', 'b', 'c', 'd'])
df3 = pd.DataFrame(np.ones((3, 4)) * 2, columns=['a', 'b', 'c', 'd'])
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)
print(df1)
print(df2)
print(df3)
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
     a    b    c    d
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
     a    b    c    d
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0


In [12]:

# join, ('inner', 'outer')
df1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'], index=[1, 2, 3])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['b', 'c', 'd', 'e'], index=[2, 3, 4])
print(df1)
print(df2)
res = pd.concat([df1, df2], axis=1, join='outer')
print(res)
res = pd.concat([df1, df2], axis=1, join='inner')
print(res)

     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
     b    c    d    e
2  1.0  1.0  1.0  1.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
     a    b    c    d    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
4  NaN  NaN  NaN  NaN  1.0  1.0  1.0  1.0
     a    b    c    d    b    c    d    e
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0


通过pd.merge()方法可以自由灵活地操作各种逻辑的数据连接、合并等操作

可以将两个DataFrame或Series合并，最终返回一个合并后的DataFrame
pd.merge(left, right, how = ‘inner', on = None, left_on = None, right_on = None,
         left_index = False, right_index = False, sort = True, suffixes = (‘_x','_y'),
         copy = True, indicator = False, validate = None)
## 参数 

left、right:需要连接的两个DataFrame或Series，一左一右

how:两个数据连接方式，默认为inner，可设置inner、outer、left或right

on:作为连接键的字段，左右数据中都必须存在，否则需要用left_on和right_on来指定

left_on:左表的连接键字段

right_on:右表的连接键字段

left_index:为True时将左表的索引作为连接键，默认为False

right_index:为True时将右表的索引作为连接键，默认为False

suffixes:如果左右数据出现重复列，新数据表头会用此后缀进行区分，默认为_x和_y 

In [23]:
# join_axes
# 得到原因："join_axes" was deprecated in version 0.25 for some reason. You can achieve the same effect by reindexing.
# 可知"join_axes"在0.25版中已弃用，故可采用merge函数代替concat函数，join_axes参数可采用on参数替代！
# pd.merge(left, right, how = ‘inner’, on = None, left_on = None, right_on = None,
#          left_index = False, right_index = False, sort = True, suffixes = (‘_x’,’_y’),
#          copy = True, indicator = False, validate = None)
# https://floweryu.blog.csdn.net/article/details/95649578?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-95649578-blog-123010001.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-95649578-blog-123010001.pc_relevant_default&utm_relevant_index=5
import pandas as pd
df1 = pd.DataFrame({'a':[1,2],'b':[5,6]})
df2 = pd.DataFrame({'a':[2,1,0],'y':[6,7,8]})
# 按a列进行连接，数据顺序取df1的顺序
res = pd.merge(df1, df2, on='a')
print(df1)
print(df2)
res = pd.merge(df1, df2, how='inner',on='a')
print(res)

   a  b
0  1  5
1  2  6
   a  y
0  2  6
1  1  7
2  0  8
   a  b  y
0  1  5  7
1  2  6  6


In [25]:
# 索引连接
# 可以直接按索引进行连接，将left_index和right_index设置为True,会以两个表的索引作为连接键
import pandas as pd
df1 = pd.DataFrame({'a':[1,2],'b':[5,6]})
df2 = pd.DataFrame({'a':[2,1,0],'y':[6,7,8]})
# 两个表都有同名的a列，用suffixes参数设置后缀来区分
res = pd.merge(df1, df2, left_index=True, right_index=True, suffixes=('_1','_2'))
print(df1)
print(df2)
print(res)

   a  b
0  1  5
1  2  6
   a  y
0  2  6
1  1  7
2  0  8
   a_1  b  a_2  y
0    1  5    2  6
1    2  6    1  7


In [26]:
# 多连接键
# 如果在合并数据时需要用多个连接键，可以以列表的形式将这些连接键传入on中
import pandas as pd
df1 = pd.DataFrame({'a':[1,2],'b':[3,4],'x':[5,6]})
df2 = pd.DataFrame({'a':[1,2,3],'b':[3,4,5],'y':[6,7,8]})
# a和b列中的(1,3)和(2,4)作为连接键将两个数据进行了连接
res = pd.merge(df1, df2, on=['a','b'])
print(df1)
print(df2)
print(res)

   a  b  x
0  1  3  5
1  2  4  6
   a  b  y
0  1  3  6
1  2  4  7
2  3  5  8
   a  b  x  y
0  1  3  5  6
1  2  4  6  7


In [27]:
# 连接方法
# how参数可以指定数据用哪种方法进行合并，可以设置inner、outer、left或right
# 默认的方式是inner join，取交集，也就是保留左右表的共同内容;如果是left join，左边表中所有的内容都会保留;如果是right join，右表全部保留;如果是outer join，则左右表全部保留。关联不上的内容为NaN
import pandas as pd
df3 = pd.DataFrame({'a':[1,2],'b':[3,4],'x':[5,6]})
df4 = pd.DataFrame({'a':[1,2,3],'b':[3,4,5],'y':[6,7,8]})
print(df3)
print(df4)
# 以左表为基表
res1 = pd.merge(df3, df4, how='left', on=['a','b'])
print(res1)
# 以右表为基表
res2 = pd.merge(df3, df4, how='right', on=['a','b'])
print(res2)

   a  b  x
0  1  3  5
1  2  4  6
   a  b  y
0  1  3  6
1  2  4  7
2  3  5  8
   a  b  x  y
0  1  3  5  6
1  2  4  6  7
   a  b    x  y
0  1  3  5.0  6
1  2  4  6.0  7
2  3  5  NaN  8


In [29]:
import pandas as pd
df3 = pd.DataFrame({'a':[1,2],'b':[3,4],'x':[5,6]})
df4 = pd.DataFrame({'a':[1,2,3],'b':[3,4,5],'y':[6,7,8]})
# 取两个表的并集
# pd.merge(left, right, how='outer', on=['key1','key2'])
res3 = pd.merge(df3, df4, how='outer', on=['a','b'])
print(res3)
# 取两个表的交集
# pd.merge(left, right, how='inner', on=['key1','key2'])
res4 = pd.merge(df3, df4, how='inner', on=['a','b'])
print(res4)

   a  b    x  y
0  1  3  5.0  6
1  2  4  6.0  7
2  3  5  NaN  8
   a  b  x  y
0  1  3  5  6
1  2  4  6  7


In [30]:
# 一个有重复连接键的例子
import pandas as pd
left = pd.DataFrame({'A':[1,2],'B':[2,2]})
print(left)
right = pd.DataFrame({'A':[4,5,6],'B':[2,2,2]})
print(right)
res = pd.merge(left, right, on='B', how='outer')

print(res)
res1 = pd.merge(left, right, on='B')
print(res1)
res2 = pd.merge(left, right, how='outer')
print(res2)

   A  B
0  1  2
1  2  2
   A  B
0  4  2
1  5  2
2  6  2
   A_x  B  A_y
0    1  2    4
1    1  2    5
2    1  2    6
3    2  2    4
4    2  2    5
5    2  2    6
   A_x  B  A_y
0    1  2    4
1    1  2    5
2    1  2    6
3    2  2    4
4    2  2    5
5    2  2    6
   A  B
0  1  2
1  2  2
2  4  2
3  5  2
4  6  2


In [32]:
# 连接指示
#
# 如果想知道数据连接后是左表内容还是右表内容，可以使用indicator参数显示连接方式
#
# 如果将indicator设置为True,则会增加名为_merge的列，显示这列是从何而来
#
# _merge有以下三个值:
#
# left_only:只在左表中
# right_only:只在右表中
# both:两个表都有
import pandas as pd
df1 = pd.DataFrame({'a':[1,2],'b':[5,6]})
df2 = pd.DataFrame({'a':[2,1,0],'y':[6,7,8]})
print(df1)
print(df2)
# 显示连接指示列
res = pd.merge(df1, df2, on='a', how='outer', indicator=True)
print(res)

   a  b
0  1  5
1  2  6
   a  y
0  2  6
1  1  7
2  0  8
   a    b  y      _merge
0  1  5.0  7        both
1  2  6.0  6        both
2  0  NaN  8  right_only


In [None]:
# append
df1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['b', 'c', 'd', 'e'], index=[2, 3, 4])
res = df1.append(df2, ignore_index=True)
res = df1.append([df2, df3])

s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
res = df1.append(s1, ignore_index=True)

print(res)