# 數據拼接
### concat: 可"上下", "左右"拼接
### merge: 僅能"左右"拼接
## concat:

In [6]:
import pandas as pd
df1 = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
}, index=[0, 1, 2, 3],)


df2 = pd.DataFrame({
    "A": ["A4", "A5", "A6", "A7"],
    "B": ["B4", "B5", "B6", "B7"],
    "C": ["C4", "C5", "C6", "C7"],
    "D": ["D4", "D5", "D6", "D7"],
}, index=[2, 3, 6, 7],)

concat1 = pd.concat([df1, df2], axis=0)  # 默認上下拼接
concat2 = pd.concat([df1, df2], axis=1)  # 左右拼接
print('concat1:\n', concat1)
print('concat2:\n', concat2)
concat3 = pd.concat([df1, df2], axis=1, join="inner")  # 僅合併index相同的
concat4 = pd.concat([df1, df2], axis=1, join="outer")  # 默認都合併空的欄位補上空值
print('concat3:\n', concat3)
print('concat4:\n', concat4)

concat1:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
2  A4  B4  C4  D4
3  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7
concat2:
      A    B    C    D    A    B    C    D
0   A0   B0   C0   D0  NaN  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN  NaN
2   A2   B2   C2   D2   A4   B4   C4   D4
3   A3   B3   C3   D3   A5   B5   C5   D5
6  NaN  NaN  NaN  NaN   A6   B6   C6   D6
7  NaN  NaN  NaN  NaN   A7   B7   C7   D7
concat3:
     A   B   C   D   A   B   C   D
2  A2  B2  C2  D2  A4  B4  C4  D4
3  A3  B3  C3  D3  A5  B5  C5  D5
concat4:
      A    B    C    D    A    B    C    D
0   A0   B0   C0   D0  NaN  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN  NaN
2   A2   B2   C2   D2   A4   B4   C4   D4
3   A3   B3   C3   D3   A5   B5   C5   D5
6  NaN  NaN  NaN  NaN   A6   B6   C6   D6
7  NaN  NaN  NaN  NaN   A7   B7   C7   D7


In [7]:
import pandas as pd
df1 = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
}, index=[0, 1, 2, 3],)


df2 = pd.DataFrame({
    "A": ["A4", "A5", "A6", "A7"],
    "B": ["B4", "B5", "B6", "B7"],
    "C": ["C4", "C5", "C6", "C7"],
    "D": ["D4", "D5", "D6", "D7"],
}, index=[2, 3, 6, 7],)

concat1 = pd.concat([df1, df2], axis=0, keys=["A", "B"])  # 加上索引保留原本性質, ex: A班級學生資料...
print('concat1:\n', concat1)
concat2 = concat1.loc["A"]  # 可用建立的索引去讀取出原本資料
print('concat2:\n', concat2)

concat1:
       A   B   C   D
A 0  A0  B0  C0  D0
  1  A1  B1  C1  D1
  2  A2  B2  C2  D2
  3  A3  B3  C3  D3
B 2  A4  B4  C4  D4
  3  A5  B5  C5  D5
  6  A6  B6  C6  D6
  7  A7  B7  C7  D7
concat2:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3


## merge & join:

In [8]:
import pandas as pd
left = pd.DataFrame({
    "key": ["K0", "K1", "K2", "K3"],
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
})


right = pd.DataFrame({
    "key": ["K0", "K1", "K2", "K3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
})

print('left:\n', left)
print('right:\n', right)
merge1 = pd.merge(left, right, on="key")  # key一樣的合併
print('merge1"\n', merge1)


left:
   key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2
3  K3  A3  B3
right:
   key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3
merge1"
   key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3


In [9]:
left = pd.DataFrame({
    "key1": ["K0", "K0", "K1", "K2"],
    "key2": ["K0", "K1", "K0", "K1"],
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
})


right = pd.DataFrame({
    "key1": ["K0", "K1", "K1", "K2"],
    "key2": ["K0", "K0", "K0", "K0"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
})
print('left:\n', left)
print('right:\n', right)
merge1 = pd.merge(left, right, how="left", on=["key1", "key2"])
merge2 = pd.merge(left, right, how="right", on=["key1", "key2"])
merge3 = pd.merge(left, right, how="inner", on=["key1", "key2"])
merge4 = pd.merge(left, right, how="outer", on=["key1", "key2"])
# merge5 = pd.merge(left, right, how="cross", on=["key1", "key2"])
print('merge1(left):\n', merge1)
print('merge2(right):\n', merge2)
print('merge3(inner):\n', merge3)
print('merge4(outer):\n', merge4)
# print('merge5:\n', merge5)

left:
   key1 key2   A   B
0   K0   K0  A0  B0
1   K0   K1  A1  B1
2   K1   K0  A2  B2
3   K2   K1  A3  B3
right:
   key1 key2   C   D
0   K0   K0  C0  D0
1   K1   K0  C1  D1
2   K1   K0  C2  D2
3   K2   K0  C3  D3
merge1(left):
   key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN
merge2(right):
   key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3
merge3(inner):
   key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2
merge4(outer):
   key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K2   K1   A3   B3  NaN  NaN
5   K2   K0  NaN  NaN   C3   D3


In [10]:
import pandas as pd
left = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "key": ["K0", "K1", "K0", "K1"],
})


right = pd.DataFrame({
    "C": ["C0", "C1"],
    "D": ["D0", "D1"]
}, index=["K0", "K1"])

print('left:\n', left)
print('right:\n', right)
left.join(right, on="key")  # key當index做合併

left:
     A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K0
3  A3  B3  K1
right:
      C   D
K0  C0  D0
K1  C1  D1


Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K0,C0,D0
3,A3,B3,K1,C1,D1
