## Concat(类似numpy的concatenate)

In [1]:
import pandas as pd
import numpy as np

In [2]:
arr =np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [3]:
np.concatenate([arr,arr],axis = 1)#横轴连接块

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

# concat函数参数表格

参数	说明<br>
objs	参与连接的列表或字典，且列表或字典里的对象是pandas数据类型，唯一必须给定的参数<br>
axis=0	指明连接的轴向，0是纵轴，1是横轴，默认是0<br>
join	‘inner’（交集），‘outer’（并集），默认是‘outer’指明轴向索引的索引是交集还是并集<br>
join_axis	指明用于其他n-1条轴的索引（层次化索引，某个轴向有多个索引），不执行交并集<br>
keys	与连接对象有关的值，用于形成连接轴向上的层次化索引（外层索引），可以是任意值的列表或数组、元组数据、数组列表（如果将levels设置成多级数组的话）<br>
levels	指定用作层次化索引各级别（内层索引）上的索引，如果设置keys的话<br>
names	用于创建分层级别的名称，如果设置keys或levels的话<br>
verify_integrity	检查结果对象新轴上的重复情况，如果发横则引发异常，默认False，允许重复<br>
ignore_index	不保留连接轴上的索引，产生一组新索引range（total_length）<br>

In [4]:
s1 = pd.Series([0,1,2],index = ['a','b','c'])
s2 = pd.Series([2,3,4],index = ['c','f','e'])
s3 = pd.Series([4,5,6],index = ['c','f','g'])

In [5]:
print(s1)
print(s2)
print(s3)

a    0
b    1
c    2
dtype: int64
c    2
f    3
e    4
dtype: int64
c    4
f    5
g    6
dtype: int64


In [7]:
#默认并集、纵向连接axis=0
pd.concat([s1,s2,s3])

a    0
b    1
c    2
c    2
f    3
e    4
c    4
f    5
g    6
dtype: int64

In [8]:
#生成纵轴上的并集，索引会自动生成新的一列
pd.concat([s1,s2,s3],ignore_index = True)

0    0
1    1
2    2
3    2
4    3
5    4
6    4
7    5
8    6
dtype: int64

In [9]:
#纵向取交集,注意该方法对对象表中有重复索引时失效
pd.concat([s1,s2,s3],axis = 1,join = 'inner')

Unnamed: 0,0,1,2
c,2,2,4


In [10]:
#横向索引取并集，纵向索引取交集,注意该方法对对象表中有重复索引时失效
pd.concat([s1,s2,s3],axis = 1,join = 'outer')

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,2.0,2.0,4.0
e,,4.0,
f,,3.0,5.0
g,,,6.0


## 补充，也可选择必要的列进行合并

In [None]:
pd.concat([df[['字段1','字段2']],df2],axis=1)

### 如果想注明合并后，数组来源，贴上标签，可以用参数keys

In [11]:
pd.concat([df,df2],keys=['第一组','第二组'])

NameError: name 'df' is not defined

### concat函数小结
1）纵向连接，ignore_index = False ,可能生成重复的索引

2）横向连接时，对象索引不能重复

In [None]:
# keys 可以判断数据来自哪个数据集，生成一个多重索引
data = pd.concat([df1,df2],keys=[0,1])
data