# pd.merge()

In [1]:
import pandas as pd
from pandas import DataFrame

In [None]:
pd.merge(left,right, #merge할 DataFrame 객체 이름
         how=, #left, right, inner(default), outer
         on=, #merge의 기준이 되는 Key 변수
         left_on=, #왼쪽 데이터프레임의 변수를 Key로 사용
         right_on=, #오른쪽 데이터프레임의 변수를 Key로 사용
         left_index=, #만약 True 라면, 왼쪽 데이터프레임의 index를 merge Key로 사용
         right_index=, #만약 True 라면, 오른쪽쪽 데이터프레임의 index를 merge Key로 사용
         sort=, #merge된 후의 데이터프레임을 join Key기준으로 정렬
         suffixes=, #중복되는 변수 이름에 대해 접두사 부여(defaults to '_x', '_y')
         copy=,#merge할 데이터프레임을 복사
         indicator=) #병합된 이후의 데이터프레임에 left_only, right_only, both 등의 출처를 알 수 있는 정보 변수 추가

In [2]:
df_left = DataFrame({'KEY':['K0','K1','K2','K3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})

In [3]:
df_right = DataFrame({'KEY':['K2','K3','K4','K5'],
                    'C':['C2','C3','C4','C5'],
                    'D':['D2','D3','D4','D5']})

In [4]:
df_left #KEY가 왜 왼쪽에 깔리는 걸까?

Unnamed: 0,KEY,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [5]:
df_right #KEY가 왜 왼쪽에 깔리는 걸까?

Unnamed: 0,KEY,C,D
0,K2,C2,D2
1,K3,C3,D3
2,K4,C4,D4
3,K5,C5,D5


### (1) Merge method: left (SQL join name : LEFT OUTER JOIN)

In [6]:
df_merge_how_left = pd.merge(df_left, df_right,
                            how='left',
                            on='KEY')

In [7]:
df_merge_how_left

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


### (2) Merge method: right (SQL join name : RIGHT OUTER JOIN)

In [8]:
df_merge_how_right = pd.merge(df_left, df_right,
                            how='right',
                            on='KEY')

In [9]:
df_merge_how_right

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3
2,K4,,,C4,D4
3,K5,,,C5,D5


### (3) Merge method: inner (SQL join name : INNER JOIN)

In [10]:
df_merge_how_inner = pd.merge(df_left, df_right,
                            how='inner',
                            on='KEY')

In [11]:
df_merge_how_inner

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3


###  (4) Merge method : outer (SQL join name : FULL OUTER JOIN)

In [12]:
df_merge_how_outer = pd.merge(df_left, df_right,
                            how='outer',
                            on='KEY')

In [13]:
df_merge_how_outer

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,,,C4,D4
5,K5,,,C5,D5


###   (5) indicator = True : 병합된 이후의 DataFrame에 left_only, right_only, both 등의 
###                                       출처를 알 수 있는 부가정보 변수 추가

In [14]:
pd.merge(df_left, df_right, how='outer',on='KEY', indicator=True) #_merge라는 새로운 변수 생성 // indicator=True의 default

Unnamed: 0,KEY,A,B,C,D,_merge
0,K0,A0,B0,,,left_only
1,K1,A1,B1,,,left_only
2,K2,A2,B2,C2,D2,both
3,K3,A3,B3,C3,D3,both
4,K4,,,C4,D4,right_only
5,K5,,,C5,D5,right_only


In [15]:
pd.merge(df_left, df_right, how='outer',on='KEY', indicator='indicator_info') #ndicator_info라는 새로운 변수 생성

Unnamed: 0,KEY,A,B,C,D,indicator_info
0,K0,A0,B0,,,left_only
1,K1,A1,B1,,,left_only
2,K2,A2,B2,C2,D2,both
3,K3,A3,B3,C3,D3,both
4,K4,,,C4,D4,right_only
5,K5,,,C5,D5,right_only


### 변수 이름이 중복될 경우 접미사 붙이기 : suffixes=('_x','_y')

In [16]:
#making DataFrames with overlapping columns
df_left_2 = DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                       'A': ['A0', 'A1', 'A2', 'A3'],
                       'B': ['B0', 'B1', 'B2', 'B3'],
                       'C': ['C0', 'C1', 'C2', 'C3']})

In [17]:
df_left_2

Unnamed: 0,KEY,A,B,C
0,K0,A0,B0,C0
1,K1,A1,B1,C1
2,K2,A2,B2,C2
3,K3,A3,B3,C3


In [18]:
df_right_2 = DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                       'B': ['B0_2', 'B1_2', 'B2_2', 'B3_2'],
                       'C': ['C0_2', 'C1_2', 'C2_2', 'C3_2'],
                       'D': ['D0_2', 'D1_2', 'D2_2', 'D3_2']})

In [19]:
df_right_2

Unnamed: 0,KEY,B,C,D
0,K0,B0_2,C0_2,D0_2
1,K1,B1_2,C1_2,D1_2
2,K2,B2_2,C2_2,D2_2
3,K3,B3_2,C3_2,D3_2


In [20]:
#adding string suffixes to apply to overlapping columns
pd.merge(df_left_2,df_right_2,how="inner",on="KEY",suffixes=('_left','_right'))

Unnamed: 0,KEY,A,B_left,C_left,B_right,C_right,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_2


In [21]:
#suffixes defaults to ('_x','_y')
pd.merge(df_left_2,df_right_2,how="inner",on="KEY")

Unnamed: 0,KEY,A,B_x,C_x,B_y,C_y,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_2
