In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import scipy as sp

In [None]:
"""
pd.merge(
left, right, 
# merge할 DataFrame 객체 이름

how='inner', 
# left, rigth, inner (default), outer
             
on=None, 
# merge의 기준이 되는 Key 변수
             
left_on=None, 
# 왼쪽 DataFrame의 변수를 Key로 사용

right_on=None, 
# 오른쪽 DataFrame의 변수를 Key로 사용
             
left_index=False, 
# 만약 True 라면, 왼쪽 DataFrame의 index를 merge Key로 사용
             
right_index=False, 
# 만약 True 라면, 오른쪽 DataFrame의 index를 merge Key로 사용
             
sort=True, 
# merge 된 후의 DataFrame을 join Key 기준으로 정렬
             
suffixes=('_x', '_y'), 
# 중복되는 변수 이름에 대해 접두사 부여 (defaults to '_x', '_y')
             
copy=True, 
# merge할 DataFrame을 복사
             
indicator=False) 
# 병합된 이후의 DataFrame에 
left_only, right_only, both 등의 출처를 알 수 있는 부가 정보 변수 추가


"""

In [74]:
# making df
df1 = pd.DataFrame(
    {
        'KEY': ['K0', 'K1', 'K2', 'K3'],
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame(
    {
        'KEY': ['K2', 'K3', 'K4', 'K5'],
        'C': ['C2', 'C3', 'C4', 'C5'],
        'D': ['D2', 'D3', 'D4', 'D5']})

print(df1)
print(df2)



    A   B KEY
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K2
3  A3  B3  K3
    C   D KEY
0  C2  D2  K2
1  C3  D3  K3
2  C4  D4  K4
3  C5  D5  K5


In [14]:
# Merge method : left (SQL join name : LEFT OUTER JOIN)
# on="KEY" : 설정하지 않을시 동일한 이름의 컬럼으로 자동 설정
pd.merge(df1, df2, how="left", on="KEY")

Unnamed: 0,A,B,KEY,C,D
0,A0,B0,K0,,
1,A1,B1,K1,,
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3


In [15]:
# Merge method : inner (SQL join name : INNER JOIN)
pd.merge(df1, df2, how="right")

Unnamed: 0,A,B,KEY,C,D
0,A2,B2,K2,C2,D2
1,A3,B3,K3,C3,D3
2,,,K4,C4,D4
3,,,K5,C5,D5


In [30]:
# Merge method : outer (SQL join name : FULL OUTER JOIN)
pd.merge(df1, df2, how="outer")

Unnamed: 0,A,B,KEY,C,D
0,A0,B0,K0,,
1,A1,B1,K1,,
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3
4,,,K4,C4,D4
5,,,K5,C5,D5


In [41]:
# indicator = True 
# 병합된 이후의 DataFrame에 left_only, right_only, both 등의 
# 출처를 알 수 있는 부가정보 변수 추가
# indicator = 컬럼명 을 지정하면 해당 컬럼명으로 정보 추가
pd.merge(df1, df2, how="outer", indicator="indicator_info")

Unnamed: 0,A,B,KEY,C,D,indicator_info
0,A0,B0,K0,,,left_only
1,A1,B1,K1,,,left_only
2,A2,B2,K2,C2,D2,both
3,A3,B3,K3,C3,D3,both
4,,,K4,C4,D4,right_only
5,,,K5,C5,D5,right_only


In [42]:
# making DataFrames with overlapping columns
# 중복된 컬럼명
df1 = pd.DataFrame(
    {'KEY': ['K0', 'K1', 'K2', 'K3'],
     'A': ['A0', 'A1', 'A2', 'A3'],
     'B': ['B0', 'B1', 'B2', 'B3'],
     'C': ['C0', 'C1', 'C2', 'C3']})

df2 = pd.DataFrame(
    {'KEY': ['K0', 'K1', 'K2', 'K3'],
     'B': ['B0_2', 'B1_2', 'B2_2', 'B3_2'],
     'C': ['C0_2', 'C1_2', 'C2_2', 'C3_2'],
     'D': ['D0_2', 'D1_2', 'D2_2', 'D3_3']})
print(df1)
print(df2)


    A   B   C KEY
0  A0  B0  C0  K0
1  A1  B1  C1  K1
2  A2  B2  C2  K2
3  A3  B3  C3  K3
      B     C     D KEY
0  B0_2  C0_2  D0_2  K0
1  B1_2  C1_2  D1_2  K1
2  B2_2  C2_2  D2_2  K2
3  B3_2  C3_2  D3_3  K3


In [52]:
# 변수 이름이 중복될 경우 접미사 붙이기 : suffixes = ('_x', '_y')
pd.merge(df1, df2, on="KEY")

Unnamed: 0,A,B_x,C_x,KEY,B_y,C_y,D
0,A0,B0,C0,K0,B0_2,C0_2,D0_2
1,A1,B1,C1,K1,B1_2,C1_2,D1_2
2,A2,B2,C2,K2,B2_2,C2_2,D2_2
3,A3,B3,C3,K3,B3_2,C3_2,D3_3


In [57]:
pd.merge(df1, df2, on="KEY", suffixes=["_left", "_right"])

Unnamed: 0,A,B_left,C_left,KEY,B_right,C_right,D
0,A0,B0,C0,K0,B0_2,C0_2,D0_2
1,A1,B1,C1,K1,B1_2,C1_2,D1_2
2,A2,B2,C2,K2,B2_2,C2_2,D2_2
3,A3,B3,C3,K3,B3_2,C3_2,D3_3
