## 合併多個dataframe

如同在numpy上所遇到的事情，有時我們會需要以各種方式合併兩個或多個表格資料，針對這樣的需求Pandas提也供了各式各樣的函數，但以下我們只先針對concat與merge兩種不同的合併方式做說明。若大家對此部分的功能有興趣的話可以參考[Pandas官方文件](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

- #### concat 功能

pd.concat函數可以把表格資料依照行或列的方式合併起來，且擁有許多參數可供彈性地調整。

In [2]:
import pandas as pd
# 產生範例資料，其中df1與df2的欄位名稱皆相同

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])

In [3]:
# 觀察df1資料
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [4]:
# 觀察df2資料
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [5]:
# 沿著列的方向將兩份資料合併，相同名稱的欄位將會被視為同一個欄位
result = pd.concat([df1, df2])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [6]:
# 沿著列的方向將兩份資料合併，並且以keys函數新增index索引
result = pd.concat([df1, df2], keys=['dataframe1', 'dataframe2'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
dataframe1,0,A0,B0,C0,D0
dataframe1,1,A1,B1,C1,D1
dataframe1,2,A2,B2,C2,D2
dataframe1,3,A3,B3,C3,D3
dataframe2,4,A4,B4,C4,D4
dataframe2,5,A5,B5,C5,D5
dataframe2,6,A6,B6,C6,D6
dataframe2,7,A7,B7,C7,D7


In [7]:
# 沿著欄的方向將兩份資料合併，相同的index相會被視為同一筆資料
# 在此由於df1與df2的index數值皆不相同，因此合併後的資料會有八筆
result = pd.concat([df1, df2], axis=1)
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,,,,
4,,,,,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5
6,,,,,A6,B6,C6,D6
7,,,,,A7,B7,C7,D7


#### merge功能

merge不同於concat，將會對應兩資料表中指定欄位的數值將資料作合併。例如我們分別有兩份資料表紀錄產品的價格、以及產品的製造地，我們就可以依照產品名稱這個欄位將兩份資料表合併再一起，也就可以得到製造地與價格之間的對應。此種用法與資料庫語言(SQL)的JOIN方法相同。

In [8]:
# 建立要合併的兩份資料，兩份資料在Key欄位內的數值相同，但其他欄位不同

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [9]:
# 使用pd.merge將left與right依照key欄位的數值合併起來
result = pd.merge(left, right, on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


在上面的例子中，兩份dataframe在key欄位的數值皆相同，因此在合併上並不會有特別的問題，然而有時兩份dataframe在要合併的欄位上不會完全相同，此時資料表中不重複的部分有哪些處理方式呢?在這邊我們就來介紹幾種可能的合併方法，在pd.merge函數內可以使用how參數決定使用何種合併方法。

合併資料方式   |  說明
-------------|----------------------
Left join    | 以第一個輸入的資料表格中欄位內的數值為主, 忽略第一個資料表格中未出現的數值或類別
Right join   | 以第二個輸入的資料表格中欄位內的數值為主, 忽略第二個資料表格中未出現的數值或類別
Inner join   | 只有兩個資料表格的欄位中街有出現的數值或類別才會被保留, 其餘皆會被忽略
Full outer join | 無論出現在哪一個資料表格中的欄位數值街不會被忽略

In [10]:
# 建立兩個datafrmae，後續會依照key1與key2將其合併

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [11]:
# left join
# 只有左邊的dataframe擁有的欄位數值組合會保留下來

result = pd.merge(left, right, on=['key1', 'key2'], how='left')
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [12]:
# right join
# 只有右邊dataframe中出現的欄位數值組合會保留下來

result = pd.merge(left, right, how='right', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [13]:
# inner join
# 只有兩個dataframe中共有的欄位數值組合會被保留下來

result = pd.merge(left, right, how='inner', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [14]:
# outer join
# 無論出現在哪一個dataframe的欄位數值組合都會被保留下來

result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


### 請參考 [100-pandas-puzzles](https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles.ipynb) 做更多 pandas  的資料操作練習