# Pandas的Concat语法

**适用场景：**   
批量合并相同格式的Excel、给DataFrame添加行和列。

**一句话说明Concat语法**  
* 使用某种合并方式（inner/oouter）
* 沿着某个轴axis=0/1
* 将多个Pandas对象（df/series）合并成一个

**Concat语法：pandas.concat(objs, axis=0,join='outer', ignore_index=False)**  
- objs:是一个列表，内容可以是DataFrame或者Series，可以混合
- axis：默认是0代表按行合并，如果是1代表按列合并
- join：合并的时候索引对齐方式，默认是outer join，也可以是inner join

**append语法**

append只能按行合并，没有按列合并，相当于Concat按行的简写形式。
- other：单个DataFrame、Series、dict或者列表
- ignore_index：是否忽略掉原来的数据索引。

**参考文档**  

- pandas.concat的api文档： https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html  
- pandas.concat的教程：    https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html  
- pandas.append的api文档： https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html

In [1]:
import pandas as pd
import warnings

warnings.filterwarnings('ignore')


## 使用pandas.concat合并数据

In [2]:
df1 = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3'],
        'E': ['E0', 'E1', 'E2', 'E3'],
    }
)

In [3]:
df1

Unnamed: 0,A,B,C,D,E
0,A0,B0,C0,D0,E0
1,A1,B1,C1,D1,E1
2,A2,B2,C2,D2,E2
3,A3,B3,C3,D3,E3


In [4]:
df2 = pd.DataFrame(
    {
        'A': ['A4', 'A5', 'A6', 'A7'],
        'B': ['B4', 'B5', 'B6', 'B7'],
        'C': ['C4', 'C5', 'C6', 'C7'],
        'D': ['D4', 'D5', 'D6', 'D7'],
        'F': ['F4', 'F5', 'F6', 'F7'],
    }
)

In [5]:
df2

Unnamed: 0,A,B,C,D,F
0,A4,B4,C4,D4,F4
1,A5,B5,C5,D5,F5
2,A6,B6,C6,D6,F6
3,A7,B7,C7,D7,F7


### 默认的concat，参数为axis=0，join=outer，ignore_index=False

In [6]:
pd.concat([df1, df2])

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,
1,A1,B1,C1,D1,E1,
2,A2,B2,C2,D2,E2,
3,A3,B3,C3,D3,E3,
0,A4,B4,C4,D4,,F4
1,A5,B5,C5,D5,,F5
2,A6,B6,C6,D6,,F6
3,A7,B7,C7,D7,,F7


### 使用ignore_index=True使用原来的索引

In [7]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,
1,A1,B1,C1,D1,E1,
2,A2,B2,C2,D2,E2,
3,A3,B3,C3,D3,E3,
4,A4,B4,C4,D4,,F4
5,A5,B5,C5,D5,,F5
6,A6,B6,C6,D6,,F6
7,A7,B7,C7,D7,,F7


### 使用join=inner过滤掉不匹配的列

In [8]:
pd.concat([df1, df2], ignore_index=True,join='inner')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


### 使用axis=1相当于添加新列

In [9]:
df1

Unnamed: 0,A,B,C,D,E
0,A0,B0,C0,D0,E0
1,A1,B1,C1,D1,E1
2,A2,B2,C2,D2,E2
3,A3,B3,C3,D3,E3


In [10]:
s1 = pd.Series(list(range(4)),name='F')

In [11]:
s1

0    0
1    1
2    2
3    3
Name: F, dtype: int64

In [12]:
pd.concat([df1,s1],axis=0)

Unnamed: 0,A,B,C,D,E,0
0,A0,B0,C0,D0,E0,
1,A1,B1,C1,D1,E1,
2,A2,B2,C2,D2,E2,
3,A3,B3,C3,D3,E3,
0,,,,,,0.0
1,,,,,,1.0
2,,,,,,2.0
3,,,,,,3.0


In [13]:
pd.concat([df1,s1],axis=1)

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,0
1,A1,B1,C1,D1,E1,1
2,A2,B2,C2,D2,E2,2
3,A3,B3,C3,D3,E3,3


### 添加多列Series

In [14]:
s2 = df1.apply(lambda x: x['A']+"_GG", axis=1)

In [15]:
s2

0    A0_GG
1    A1_GG
2    A2_GG
3    A3_GG
dtype: object

In [16]:
s2.name = 'G'

In [17]:
s2

0    A0_GG
1    A1_GG
2    A2_GG
3    A3_GG
Name: G, dtype: object

In [18]:
pd.concat([df1,s1,s2], axis=1)

Unnamed: 0,A,B,C,D,E,F,G
0,A0,B0,C0,D0,E0,0,A0_GG
1,A1,B1,C1,D1,E1,1,A1_GG
2,A2,B2,C2,D2,E2,2,A2_GG
3,A3,B3,C3,D3,E3,3,A3_GG


In [19]:
# 列表里面可以只放Series
pd.concat([s1,s2], axis=1)

Unnamed: 0,F,G
0,0,A0_GG
1,1,A1_GG
2,2,A2_GG
3,3,A3_GG


In [20]:
# 列表是可以混合顺序的

pd.concat([s1,df1,s2],axis=1)

Unnamed: 0,F,A,B,C,D,E,G
0,0,A0,B0,C0,D0,E0,A0_GG
1,1,A1,B1,C1,D1,E1,A1_GG
2,2,A2,B2,C2,D2,E2,A2_GG
3,3,A3,B3,C3,D3,E3,A3_GG


## 使用DataFrame.append函数合并数据  -- 1.4.0以后这个方法已经被弃用

In [21]:
df1 = pd.DataFrame([[1,2],[3,4]], columns=list('AB'))
df1

Unnamed: 0,A,B
0,1,2
1,3,4


In [22]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))

In [23]:
df2

Unnamed: 0,A,B
0,5,6
1,7,8


### 给一个DataFrame添加另一个DataFrame

In [26]:
# df1.append(df2, ignore_index=True)

In [32]:
# 可以一行一行的给DataFrame添加数据

df = pd.DataFrame(columns=['A'])

In [33]:
df

Unnamed: 0,A


In [35]:
# # 低性能版本
# for i in range(5):
#     df = df.append({'A':i}, ignore_index=True)
# df

In [37]:
# 高性能版本
pd.concat(
    [pd.DataFrame([i], columns=['A']) for i in range(5)],
    ignore_index=True
)

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4
