In [1]:
##-------------------------##
## -----Pandas数据合并1-----##
##-------------------------##

In [2]:
import numpy as np
import pandas as pd

In [10]:
###通过pd.concat实现简易合并
#从构建两个series
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[7, 8, 9])

In [11]:
ser1

1    A
2    B
3    C
dtype: object

In [12]:
ser2

7    D
8    E
9    F
dtype: object

In [13]:
#简易合并
pd.concat([ser1,ser2])

1    A
2    B
3    C
7    D
8    E
9    F
dtype: object

In [14]:
###高维数据的合并
#首先构建一个生成datafram的函数
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [18]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(f"{df1}\n\n{df2}")

    A   B
1  A1  B1
2  A2  B2

    A   B
3  A3  B3
4  A4  B4


In [19]:
#DataFrame 的合并都是逐行进行的（默认设置是 axis=0） ,通过修改axis参数可以实现按行列合并
#按列合并
pd.concat([df1,df2],axis= 1)

Unnamed: 0,A,B,A.1,B.1
1,A1,B1,,
2,A2,B2,,
3,,,A3,B3
4,,,A4,B4


In [20]:
#按行合并(默认)
pd.concat([df1,df2],axis=0)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [28]:
#索引重复的情况，contact会自动保留所有索引，即使是重复的
df3 = make_df('AB', [0, 1])
df4 = make_df('AB', [0, 1])
print(f"{df3}\n\n{df4}")

    A   B
0  A0  B0
1  A1  B1

    A   B
0  A0  B0
1  A1  B1


In [29]:
#合并数据,即使索引重复也被保留，但是这样不是想要的结果
pd.concat([df3,df4],axis = 0)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A0,B0
1,A1,B1


In [35]:
#检测是否存在重复索引,报错则存在重复索引
try:
    pd.concat([df3,df4],verify_integrity=True)
except:
    print("error:\nIndexes have overlapping values")

error: 
Indexes have overlapping values


In [36]:
#可以使用ignore_index来重新构建索引,解决索引重复
pd.concat([df3,df4],ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A0,B0
3,A1,B1


In [37]:
#还可以通过key选项增加多级索引
pd.concat([df3,df4],keys=["df3","df4"])

Unnamed: 0,Unnamed: 1,A,B
df3,0,A0,B0
df3,1,A1,B1
df4,0,A0,B0
df4,1,A1,B1


In [39]:
#当列名不一致时对数据合并
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(f"{df5}\n\n{df6}")

    A   B   C
1  A1  B1  C1
2  A2  B2  C2

    B   C   D
3  B3  C3  D3
4  B4  C4  D4


In [40]:
#如果直接合并会出现缺失值
pd.concat([df5, df6])

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [41]:
#可以通过调整join选项来进行合并
#jion选项默认是"outer"是取并集合并；"inner"是取交集合并
pd.concat([df5,df6],join="inner")

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


In [46]:
#同样可以使用join_axes选项指定列名进行合并
#pd.concat([df5,df6])#pandas1.0以上已经不支持

In [48]:
#使用append方法对数据合并
#如果你需要进行多个 append 操作， 还是建议先创建一个 DataFrame 列表， 然后用 concat() 函数一次性解决所有合并任务。
df5.append(df6)

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4
