<a href="https://colab.research.google.com/github/AI-FREE-Team/Machine-Learning-Basic/blob/master/Materials/%E8%B3%87%E6%96%99%E6%95%B4%E5%90%88_Data_Integration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![Logo](https://raw.githubusercontent.com/AI-FREE-Team/Machine-Learning-Basic/main/README_imgs/aifreeteam.png) 
<center>Welcome to the course《Python: from business analytics to Artificial Intelligence》by AI . FREE Team.</center>
<center>歡迎大家來到 AI . FREE Team 《Python 從商業分析到人工智慧》的第二堂課 - 機器學習(ML)基礎教學。 </center>
<br/>

<center>作者: Tom Wu (<a href="https://github.com/YenLinWu">Github</a>) &nbsp&nbsp&nbsp 日期: June 19, 2021 </center>

# 前言 
本篇文章將介紹如何將多個 DataFrame 物件橫向合併或縱向連接。一般而言，一個機器學習的專案中，在初步定義好問題與解決方法後，我們需要蒐集相關的資料，有時會從多個不同的網站爬取或資料庫中撈取資料，將這些資料整合成一份資料集後，才開始分析資料；因此，資料整合( Data Intergration )的方式及邏輯，不僅直接影響資料的正確性，也影響著分析結果的合理性。   
[Pandas 套件](https://github.com/YenLinWu/Machine_Learning_Basic/blob/master/2_%E8%AA%8D%E8%AD%98Pandas.ipynb)提供我們多種資料整合的方法，讀者們在閱讀本篇文章後，將具備下列能力：  
  1. 左右橫向合併兩個 DataFrame 物件；
  2. 上下縱向連接兩個 DataFrame 物件。   



# 匯入套件

In [None]:
import sys
import numpy as np
import pandas as pd

print( 'Python Version:', sys.version[0:7] ) 
print( 'Numpy Version:', np.__version__ )
print( 'Pandas Version:', pd.__version__ )

Python Version: 3.7.10 
Numpy Version: 1.19.5
Pandas Version: 1.1.5


# 橫向合併兩個 DataFrame  
Pandas 提供三種方法來執行資料集的橫向合併，分別為 : [`pandas.DataFrame.merge()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) 、 [`pandas.DataFrame.join()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) 及 [`pandas.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)。兩個資料集橫向合併的方式有四種 : 全聯集( 'outer' )、交集( 'inner' )、右聯集( 'right' )、左聯集( 'left' )，如下圖所示 : 

![SQL JOINS](https://raw.githubusercontent.com/AI-FREE-Team/Machine-Learning-Basic/main/Content/SQL_JOINS.png)

## [pandas.DataFrame.merge( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)  

使用 `DataFrame.merge( right, on, how='inner' )` 函數可左右橫向合併兩個 DataFrame 物件，參數說明如下：  
  * on = 指定資料合併的索引欄，為兩個資料集中皆存在的欄位名稱；  
  * how = 資料合併的方式，有四種如同 SQL 的合併查詢( 參考文獻：[Different Types of SQL JOINs](https://www.w3schools.com/sql/sql_join.asp)  )：全聯集( 'outer' )、交集( 'inner' )、右聯集( 'right' )、左聯集( 'left' )，預設值為 'inner'；
    - 註: Pandas 1.2.0 版之後，也提供[交叉連接](https://en.wikipedia.org/wiki/Join_(SQL) )( 'Cross' )的合併方式。 
  * suffixes = 除索引欄之外，若兩個資料集還有其他相同的欄位名稱，可標註其分別屬於哪個資料集中。    





透過下面範例來說明 `DataFrame.merge()` 函數的用法及效果，首先，建立兩個 DataFrame 用來分別記載身高及體重的資訊，欄位名稱如下：  
  * df1：姓名(Name)、性別(Sex)、身高(Height)；
  * df2：姓名(Name)、性別(Sex)、體重(Weight)。  

In [None]:
# df1 紀錄姓名、性別、身高 
df1 = pd.DataFrame( { 'Name':['Andy','Ken','Ryan','Rose','Tom'],
                      'Sex':[np.nan,'M',np.nan,'F','M'],
                      'Height':[175,np.nan,178,np.nan,173] } )

# df2 紀錄姓名、性別、體重  
df2 = pd.DataFrame( { 'Name':['Andy','Ken','Pat','Ryan','Tom'],
                      'Sex':['M','M',np.nan,'M','M'],
                      'Weight':[77,73,79,64,68] } )

print( f'df1 : \n{df1}\n' )
print( f'df2 : \n{df2}\n' )

df1 : 
   Name  Sex  Height
0  Andy  NaN   175.0
1   Ken    M     NaN
2  Ryan  NaN   178.0
3  Rose    F     NaN
4   Tom    M   173.0

df2 : 
   Name  Sex  Weight
0  Andy    M      77
1   Ken    M      73
2   Pat  NaN      79
3  Ryan    M      64
4   Tom    M      68




將上列 df1 及 df2 兩個 DataFrame 左右合併成一個 DataFrame ( 欄位名稱：姓名、性別、身高、體重 )：

In [None]:
# merge() 交集
df_inner = pd.merge( df1, df2, on='Name', suffixes=('_df1','_df2') )

# merge() 左聯集
df_outer = pd.merge( df1, df2, on='Name', how='left', suffixes=('_df1','_df2') )

print( f'df1 : \n{df1}\n' )
print( f'df2 : \n{df2}\n' )
print( f'交集 df1 及 df2 : \n{df_inner}\n' )
print( f'左聯集 df1 及 df2 : \n{df_outer}\n' )

df1 : 
   Name  Sex  Height
0  Andy  NaN   175.0
1   Ken    M     NaN
2  Ryan  NaN   178.0
3  Rose    F     NaN
4   Tom    M   173.0

df2 : 
   Name  Sex  Weight
0  Andy    M      77
1   Ken    M      73
2   Pat  NaN      79
3  Ryan    M      64
4   Tom    M      68

交集 df1 及 df2 : 
   Name Sex_df1  Height Sex_df2  Weight
0  Andy     NaN   175.0       M      77
1   Ken       M     NaN       M      73
2  Ryan     NaN   178.0       M      64
3   Tom       M   173.0       M      68

左聯集 df1 及 df2 : 
   Name Sex_df1  Height Sex_df2  Weight
0  Andy     NaN   175.0       M    77.0
1   Ken       M     NaN       M    73.0
2  Ryan     NaN   178.0       M    64.0
3  Rose       F     NaN     NaN     NaN
4   Tom       M   173.0       M    68.0



## [pandas.DataFrame.join( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html)    

使用 `DataFrame.join( other, on, how='left', lsuffix , rsuffix )` 函數可左右橫向合併兩個 DataFrame 物件，參數說明如下：  
  * on = 指定資料合併的索引欄，為兩個資料集中皆存在的欄位名稱；  
  * how = 資料合併的方式，有四種如同 SQL 的合併查詢：全聯集( 'outer' )、交集( 'inner' )、右聯集( 'right' )、左聯集( 'left' )，預設值為 'left'；
  * lsuffix\rsuffix = 除索引欄之外，若兩個資料集還有其他相同的欄位名稱，可標註其分別屬於哪個資料集中。

我們用下面範例來說明 `DataFrame.join()` 用法及效果，建立 df3 及 df4 分別用來記載性別及年齡的資訊，欄位名稱如下：  
  * df3：姓名( Name )、性別( Sex )；
  * df4：姓名( Name )、年齡( Age )。

In [None]:
# df3 紀錄姓名、性別 
df3 = pd.DataFrame( { 'Name':['Andy','Ken','Ryan','Tom'],
                      'Sex':['M','M',np.nan,'M'] } )

# df4 紀錄姓名、年齡  
df4 = pd.DataFrame( { 'Name':['Andy','Ken','Pat','Ryan','Tom'],
                      'Age':[35,25,np.nan,23,36] } )

print( f'df3 : \n{df3}\n' )
print( f'df4 : \n{df4}\n' )

df3 : 
   Name  Sex
0  Andy    M
1   Ken    M
2  Ryan  NaN
3   Tom    M

df4 : 
   Name   Age
0  Andy  35.0
1   Ken  25.0
2   Pat   NaN
3  Ryan  23.0
4   Tom  36.0



以 df3 為基底左聯集 df4 成一個 DataFrame ( 欄位名稱：姓名、性別、年齡 )，這裏分別使用 `pandas.DataFrame.merge()` 與 `DataFrame.join()` 來比較合併結果：

In [None]:
# merge( ) 左聯集
df_merge = pd.merge( df3, df4, on='Name', how='left' )

# join( ) 左聯集
df_join = df3.join( df4.set_index('Name'), on='Name' )

print( f'df3 : \n{df3}\n' )
print( f'df4 : \n{df4}\n' )
print( f'merge() 左聯集 df3 及 df4 : \n{df_merge}\n' )
print( f'join() 左聯集 df3 及 df4 : \n{df_join}\n' )

df3 : 
   Name  Sex
0  Andy    M
1   Ken    M
2  Ryan  NaN
3   Tom    M

df4 : 
   Name   Age
0  Andy  35.0
1   Ken  25.0
2   Pat   NaN
3  Ryan  23.0
4   Tom  36.0

merge() 左聯集 df3 及 df4 : 
   Name  Sex   Age
0  Andy    M  35.0
1   Ken    M  25.0
2  Ryan  NaN  23.0
3   Tom    M  36.0

join() 左聯集 df3 及 df4 : 
   Name  Sex   Age
0  Andy    M  35.0
1   Ken    M  25.0
2  Ryan  NaN  23.0
3   Tom    M  36.0



使用 `DataFrame.join()` 左右橫向合併資料時，有一點需特別留意，即 `DataFrame.join()` 是以資料集的索引值來進行左右合併，因此，<font color="#dddd00">**在使用 `DataFrame.join()` 之前，須先檢視資料集的索引值是否為相同定義的欄位、數值或文字等。**</font>下面範例為 `DataFrame.join()` 執行左聯集的另一種程式寫法，先透過 [`pandas.DataFrame.set_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html) 函數設置索引後再左右合併資料集：

In [None]:
df_join_2 = df3.set_index('Name').join( df4.set_index('Name') ).reset_index( )

print( f'join() 左聯集 df3 及 df4 : \n{df_join_2}\n' )

join() 左聯集 df3 及 df4 : 
   Name  Sex   Age
0  Andy    M  35.0
1   Ken    M  25.0
2  Ryan  NaN  23.0
3   Tom    M  36.0



## [pandas.concat( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)  

使用 `pandas.concat( objs, axis=1, join='outer', sort, ignore_index=False, keys )` 函數可左右橫向合併兩個 DataFrame 物件，參數說明如下：  
  * axis = 資料集上下連接(0)或左右合併(1)，預設值為 0；   
  * join = 資料集合併的方式，有二種如同 SQL 的合併查詢：全聯集( 'outer' )、交集( 'inner' )，預設值為 'outer'；  
  * sort = 資料合併後是否對欄位名稱進行排序，預設為 None；  
  * ignore_index = 是否重新排序索引值( index )，預設為 False；
  * keys = 新增索引值來識別資料來自於哪個 DataFrame 。


同樣地，藉由範例來說明 `pandas.concat()` 函數的用法及效果，建立 df5 及 df6 分別記載各縣市的氣象資訊，欄位名稱如下：  
  * df5：縣市( City )、地區( Area )、氣溫( Temperature )；
  * df6：縣市( City )、地區( Area )、降雨率( Probability )。  

In [None]:
# df5 紀錄縣市、地區、氣溫 
df5 = pd.DataFrame( { 'City':['基隆','台北','台中','高雄'],
                      'Area':['北部','北部','中部','南部'],
                      'Temperature':[23,22,26,30] } )

# df6 紀錄縣市、地區、降雨率 
df6 = pd.DataFrame( { 'City':['台南','高雄','彰化','花蓮'],
                      'Area':['南部','南部','中部','東部'],
                      'Probability':['30%','30%','10%','20%'] } )

print( f'df5 : \n{df5}\n' )
print( f'df6 : \n{df6}\n' )

df5 : 
  City Area  Temperature
0   基隆   北部           23
1   台北   北部           22
2   台中   中部           26
3   高雄   南部           30

df6 : 
  City Area Probability
0   台南   南部         30%
1   高雄   南部         30%
2   彰化   中部         10%
3   花蓮   東部         20%



若設定 `pandas.concat()` 函數中的參數 **axis = 1**，則 `pandas.concat( [ df5, df6 ], axis=1 )` 可全聯集 df5 及 df6 兩個 DataFrame 物件。需特別注意的是，<font color="#dddd00">**`pandas.concat()` 函數是依各資料集的索引值( index )來左右合併資料，所以在合併前須先檢視各資料集的索引值**</font>，若我們直接使用 `pandas.concat()` 函數左右合併 df5 及 df6 ，則會產生下面不合理的結果：

In [None]:
# concat() 資料左右合併
df = pd.concat( [ df5, df6 ], axis=1 )

print( f'df5 : \n{df5}\n' )
print( f'df6 : \n{df6}\n' )
print( f'concat() 左右合併 : \n{df}\n' )

df5 : 
  City Area  Temperature
0   基隆   北部           23
1   台北   北部           22
2   台中   中部           26
3   高雄   南部           30

df6 : 
  City Area Probability
0   台南   南部         30%
1   高雄   南部         30%
2   彰化   中部         10%
3   花蓮   東部         20%

concat() 左右合併 : 
  City Area  Temperature City Area Probability
0   基隆   北部           23   台南   南部         30%
1   台北   北部           22   高雄   南部         30%
2   台中   中部           26   彰化   中部         10%
3   高雄   南部           30   花蓮   東部         20%



透過 [`pandas.DataFrame.set_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html) 函數分別設置 DataFrame 的索引值後，再使用 `pandas.concat( [ df5, df6 ], axis=1 )` 函數將兩個資料集做橫向全聯集：

In [None]:
# 設置 DataFrame 的索引值
df5.set_index( ['City','Area'], inplace=True )
df6.set_index( ['City','Area'], inplace=True )

# concat() 資料左右合併
df = pd.concat( [ df5, df6 ], axis=1 ).reset_index( )

print( f'df5 : \n{df5}\n' )
print( f'df6 : \n{df6}\n' )
print( f'concat() 左右合併 : \n{df}\n' )

df5 : 
           Temperature
City Area             
基隆   北部             23
台北   北部             22
台中   中部             26
高雄   南部             30

df6 : 
          Probability
City Area            
台南   南部           30%
高雄   南部           30%
彰化   中部           10%
花蓮   東部           20%

concat() 左右合併 : 
  City Area  Temperature Probability
0   台中   中部         26.0         NaN
1   台北   北部         22.0         NaN
2   台南   南部          NaN         30%
3   基隆   北部         23.0         NaN
4   彰化   中部          NaN         10%
5   花蓮   東部          NaN         20%
6   高雄   南部         30.0         30%



# 縱向連接兩個 DataFrame  
Pandas 提供兩種方法來執行資料集的縱向連接，分別為 : [`pandas.DataFrame.append()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html) 及 [`pandas.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)。

## [pandas.DataFrame.append( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html)  

透過 `DataFrame.append( other, sort, ignore_index=False )` 可上下縱向連接兩個 DataFrame 物件，參數說明如下：    
  * sort = 當兩個資料集的欄位名稱不完全相同時，需設定資料合併後是否對欄位名稱進行排序，預設為 None ；  
  * ignore_index = 是否重新排序索引值( index )，預設值為 False 。


下面範例將說明 `DataFrame.append( )` 的用法及效果，建立 df7 及 df8 分別記載商品銷售的數量及金額，欄位名稱如下：
* df7：品名( Product )、銷售數量( Volume )、銷售金額( Amount )、備註( Note )；  
* df8：品名( Product )、銷售數量( Volume )、銷售金額( Amount )。

In [None]:
# df7 記載品名、銷售數量
df7 = pd.DataFrame( { 'Product':['A','B','C'],
                      'Volume':[5000,2000,1500],
                      'Amount':[100000,5000,np.nan],
                      'Note':['Y','N','Y'] } )

# df8 記載品名、銷售金額 
df8 = pd.DataFrame( { 'Product':['A','B','E','F'],
                      'Volume':[5000,2000,1500,np.nan],
                      'Amount':[100000,np.nan,1000,758] } )

print( f'df7 : \n{df7}\n' )
print( f'df8 : \n{df8}\n' )

df7 : 
  Product  Volume    Amount Note
0       A    5000  100000.0    Y
1       B    2000    5000.0    N
2       C    1500       NaN    Y

df8 : 
  Product  Volume    Amount
0       A  5000.0  100000.0
1       B  2000.0       NaN
2       E  1500.0    1000.0
3       F     NaN     758.0



透過 `df7.append( df8 )` 上下連接 df7 及 df8 成為一個 DataFrame 物件( 欄位名稱：品名、銷售量、銷售額 )：

In [None]:
# append() 上下連接
df = df7.append( df8, ignore_index=True ) 

print( f'df7 : \n{df7}\n' )
print( f'df8 : \n{df8}\n' )
print( f'append() 上下連接 : \n{df}\n' )

df7 : 
  Product  Volume    Amount Note
0       A    5000  100000.0    Y
1       B    2000    5000.0    N
2       C    1500       NaN    Y

df8 : 
  Product  Volume    Amount
0       A  5000.0  100000.0
1       B  2000.0       NaN
2       E  1500.0    1000.0
3       F     NaN     758.0

append() 上下連接 : 
  Product  Volume    Amount Note
0       A  5000.0  100000.0    Y
1       B  2000.0    5000.0    N
2       C  1500.0       NaN    Y
3       A  5000.0  100000.0  NaN
4       B  2000.0       NaN  NaN
5       E  1500.0    1000.0  NaN
6       F     NaN     758.0  NaN



## [pandas.concat( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)  

使用 `pandas.concat( objs, axis=0, join='outer', sort, ignore_index=False, keys )` 函數可上下縱向連接兩個 DataFrame 物件，參數說明如下：  
  * axis = 資料集上下連接(0)或左右合併(1)，預設值為 0；   
  * join = 資料集合併的方式，有二種如同 SQL 的合併查詢：全聯集( 'outer' )、交集( 'inner' )，預設值為 'outer'；  
  * sort = 資料合併後是否對欄位名稱進行排序，預設為 None；  
  * ignore_index = 是否重新排序索引值( index )，預設為 False；
  * keys = 新增索引值來識別資料來自於哪個 DataFrame 。

將前述 df7 及 df8 上下連接成為一個 DataFrame 物件( 欄位名稱：品名、銷售量、銷售額 )：：

In [None]:
# concat() 上下連接全聯集
outer_df = pd.concat( [ df7, df8 ], sort=False, keys=['df7','df8'] )

# concat() 上下連接交集
inner_df = pd.concat( [ df7, df8 ], join='inner', sort=False, keys=['df7','df8'] )

print( f'df5 : \n{df7}\n' )
print( f'df6 : \n{df8}\n' )
print( f'concat() 上下連接全聯集 : \n{outer_df}\n' )
print( f'concat() 上下連接交集 : \n{inner_df}\n' )

df5 : 
  Product  Volume    Amount Note
0       A    5000  100000.0    Y
1       B    2000    5000.0    N
2       C    1500       NaN    Y

df6 : 
  Product  Volume    Amount
0       A  5000.0  100000.0
1       B  2000.0       NaN
2       E  1500.0    1000.0
3       F     NaN     758.0

concat() 上下連接全聯集 : 
      Product  Volume    Amount Note
df7 0       A  5000.0  100000.0    Y
    1       B  2000.0    5000.0    N
    2       C  1500.0       NaN    Y
df8 0       A  5000.0  100000.0  NaN
    1       B  2000.0       NaN  NaN
    2       E  1500.0    1000.0  NaN
    3       F     NaN     758.0  NaN

concat() 上下連接交集 : 
      Product  Volume    Amount
df7 0       A  5000.0  100000.0
    1       B  2000.0    5000.0
    2       C  1500.0       NaN
df8 0       A  5000.0  100000.0
    1       B  2000.0       NaN
    2       E  1500.0    1000.0
    3       F     NaN     758.0



# 結語 

本文介紹了四個 Pandas 提供的函數：`DataFrame.merge()`、`DataFrame.join()`、`pandas.concat( objs )` 及 `DataFrame.append()`，用來進行兩個資料集的整合，我們可依照各資料集彼此之間的關聯性，選用適合的方法來彙整資料。特別提醒的一點，在資料整合前瞭解各個資料集的欄位意義及內容，是必要且重要的功課，這不僅能讓我們明確地知道該如何整合資料之外，同時也能判斷整合後的資料是否合理且符合需求。   
針對本文的內容，若讀者們有發現任何的錯誤或疑問，非常歡迎您[來信( yenlinwu1112@gmail.com )]( mailto:yenlinwu1112@gmail.com )給予建議及討論，讓我們一同來學習成長！

# 返回 [課程大綱](https://github.com/AI-FREE-Team/Machine-Learning-Basic#%E8%AA%B2%E7%A8%8B%E5%A4%A7%E7%B6%B1-course-outline)