# pandas实现数据的合并concat
*使用场景:*
批量合并相同格式的excel、给DataFrame添加行、给DataFrame添加列

**concat使用方式**
- 使用合并的方式(inner/outer)
- 使用index即行(axis=0)或column即列(axis=1)方向进行合并
- 把多个pandas对象(DataFrame/Series)合并成一个对象

**concat语法: `pandas.concat(objs, axis=0, join='outer', ignore_index=False)`**
- objs: 一个列表, 内容可以时DataFrame或者Series, 可以混合
- axis: 默认0(index即行方向)方向进行合并, 如果等于1(column即列方向)进行合并
- join: 合并的时候索引的对齐方式, 默认时outer join, 也可以指定为inner join
- ignore_index: 是否忽略掉原来的数据索引

**append语法: `DataFrame.append(other, ignore_index=Fale)`(已经弃用)**
append只有按行合并, 没有按列合并, 相当于concat按行的简写形式
- other: 单个DataFrame、Series、dict或者列表
- ignore_index: 是否忽略掉原来的数据索引

# 文档:
- pandas.concat的api文档[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html]
- pandas.concat的教程[https://pandas.pydata.org/pandas-docs/stable/reference/user_guide/merging.html]
- pandas.append的api文档[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html]

In [10]:
import pandas as pd
import warnings

warnings.filterwarnings('ignore') # 忽略掉报警

## 一. 使用pandas.concat合并数据

In [11]:
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3'],
    'E': ['E0', 'E1', 'E2', 'E3'],
})
df1

Unnamed: 0,A,B,C,D,E
0,A0,B0,C0,D0,E0
1,A1,B1,C1,D1,E1
2,A2,B2,C2,D2,E2
3,A3,B3,C3,D3,E3


In [12]:
df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7'],
    'F': ['F4', 'F5', 'F6', 'F7'],
})

In [13]:
df2

Unnamed: 0,A,B,C,D,F
0,A4,B4,C4,D4,F4
1,A5,B5,C5,D5,F5
2,A6,B6,C6,D6,F6
3,A7,B7,C7,D7,F7


**1. 默认的concat, 参数为axis=0, join=outer, ignore_index=False**

In [14]:
pd.concat([df1, df2])

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,
1,A1,B1,C1,D1,E1,
2,A2,B2,C2,D2,E2,
3,A3,B3,C3,D3,E3,
0,A4,B4,C4,D4,,F4
1,A5,B5,C5,D5,,F5
2,A6,B6,C6,D6,,F6
3,A7,B7,C7,D7,,F7


**2.使用ignore_index=True可以忽略掉原来的索引**

In [15]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,
1,A1,B1,C1,D1,E1,
2,A2,B2,C2,D2,E2,
3,A3,B3,C3,D3,E3,
4,A4,B4,C4,D4,,F4
5,A5,B5,C5,D5,,F5
6,A6,B6,C6,D6,,F6
7,A7,B7,C7,D7,,F7


**3.使用join=inner过滤掉不匹配的列**

In [17]:
pd.concat([df1, df2], join='inner', ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


**4.使用axis=1相当于添加新列**

In [18]:
df1

Unnamed: 0,A,B,C,D,E
0,A0,B0,C0,D0,E0
1,A1,B1,C1,D1,E1
2,A2,B2,C2,D2,E2
3,A3,B3,C3,D3,E3


**A:添加一列Series**

In [22]:
s1 = pd.Series(list(range(4)), name='F')
pd.concat([df1, s1], axis=1)

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,E0,0
1,A1,B1,C1,D1,E1,1
2,A2,B2,C2,D2,E2,2
3,A3,B3,C3,D3,E3,3


**B:添加多列Series**

In [23]:
s2 = df1.apply(lambda x:x['A'] + '_GG', axis=1)

In [24]:
s2

0    A0_GG
1    A1_GG
2    A2_GG
3    A3_GG
dtype: object

In [25]:
s2.name='G'
s2

0    A0_GG
1    A1_GG
2    A2_GG
3    A3_GG
Name: G, dtype: object

In [28]:
pd.concat([df1, s1, s2], axis=1)

Unnamed: 0,A,B,C,D,E,F,G
0,A0,B0,C0,D0,E0,0,A0_GG
1,A1,B1,C1,D1,E1,1,A1_GG
2,A2,B2,C2,D2,E2,2,A2_GG
3,A3,B3,C3,D3,E3,3,A3_GG


In [30]:
# 列表可以只有Series
pd.concat([s1,s2], axis=1)

0        0
1        1
2        2
3        3
0    A0_GG
1    A1_GG
2    A2_GG
3    A3_GG
dtype: object

In [31]:
# 列表也可以是混合顺序的
pd.concat([s1,df1,s2], axis=1)

Unnamed: 0,F,A,B,C,D,E,G
0,0,A0,B0,C0,D0,E0,A0_GG
1,1,A1,B1,C1,D1,E1,A1_GG
2,2,A2,B2,C2,D2,E2,A2_GG
3,3,A3,B3,C3,D3,E3,A3_GG


## 一行一行的给DataFrame添加数据

In [41]:
# 创建一个空的DataFrame
df3 = pd.DataFrame(columns=['A'])
df3

Unnamed: 0,A


**A: 低性能方式**

In [46]:
d = {'A': []}
for i in range(5):
    d.get('A').append(i)
df4 = pd.DataFrame(d)
pd.concat([df3, df4], axis=0, ignore_index=True)

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4


In [48]:
pd.concat([pd.DataFrame([i], columns=['A']) for i in range(5)], ignore_index=True)

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4
