**단계 1:** pandas 패키지를 import 하는 과정

In [2]:
# 본 예제에서는 pandas를 사용하여 DataFrame 객체를 제어합니다.
# 이를 위해서 pandas의 DataFrame 객체를 사용할수 있도록 합니다.

import pandas as pd
from pandas import DataFrame

**단계 2:** 병합 (Merge)를 진행하기 위한 DataFrame 객체를 선언합니다.

In [3]:
# DataFrame 객체를 선언하고, 값을 확인합니다.
# 출력되는 데이터는 속성에 해당되는 값과 인덱스 값이 같이 출력됩니다.

df_left = DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})

df_left


Unnamed: 0,KEY,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [4]:
# 마찬가지로 다른 DataFrame 객체를 선언하고, 값을 확인합니다.
# 출력되는 데이터는 속성에 해당되는 값과 인덱스 값이 같이 출력됩니다.

df_right = DataFrame({'KEY': ['K2', 'K3', 'K4', 'K5'],
'C': ['C2', 'C3', 'C4', 'C5'],
'D': ['D2', 'D3', 'D4', 'D5']})

df_right

Unnamed: 0,KEY,C,D
0,K2,C2,D2
1,K3,C3,D3
2,K4,C4,D4
3,K5,C5,D5


**단계 3:** 두개의 DataFrame을 병합합니다.

In [5]:
# pandas.merge (data1, data2, how, on)은 두개의 DataFram을 합치는 합수입니다.
# merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합칩니다.
# 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.
# data1과 data2는 합쳐지는 대상이며, how는 어떠한 방식으로 합칠 것인를 의미합니다.
# on은 어떠한 기준으로 합칠 것인지 (key)를 의미하며, 공통적인 열 이름을 보통 사용합니다.

# left, right 방식은 각각 첫번째,혹은 두번째 데이터프레임의 키 값을 모두 보여줍니다.
# inner join (양쪽 데이터프레임에 모두 키가 존재하는 데이터만), outer join (모두 보여줌)
# 여기서는 KEY값을 기준 (on)으로, left 방식으로 합칩니다.

f_merge_how_left = pd.merge(df_left, df_right, how='left', on='KEY')
f_merge_how_left


Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [14]:
# 여기서는 KEY값을 기준 (on)으로, right 방식으로 합칩니다.
f_merge_how_right = pd.merge(df_left, df_right, how='right', on='KEY')
f_merge_how_right


Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3
2,K4,,,C4,D4
3,K5,,,C5,D5


In [6]:
# 여기서는 KEY값을 기준 (on)으로, inner 방식으로 합칩니다.
# inner는 공통 부분만을 이용하여 합침을 의미합니다.
df_merge_how_inner = pd.merge(df_left, df_right, how='inner', on='KEY')
df_merge_how_inner



Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3


In [7]:
# 여기서는 KEY값을 기준 (on)으로, inner 방식으로 합칩니다.
# outer 공통 부분만을 이용하여 합침을 의미합니다.
df_merge_how_outer = pd.merge(df_left, df_right, how='outer', on='KEY')
df_merge_how_outer



Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,,,C4,D4
5,K5,,,C5,D5


In [18]:
# 변수 이름이 중복 될 경우 접미사 붙이기
df_left_2 = DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'C': ['C0', 'C1', 'C2', 'C3']})

df_right_2 = DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
'B': ['B0_2', 'B1_2', 'B2_2', 'B3_2'],
'C': ['C0_2', 'C1_2', 'C2_2', 'C3_2'],
'D': ['D0_2', 'D1_2', 'D2_2', 'D3_3']})


In [19]:
pd.merge(df_left_2, df_right_2, how='inner', on='KEY', suffixes=('_left', '_right'))




Unnamed: 0,KEY,A,B_left,C_left,B_right,C_right,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_3


In [20]:
pd.merge(df_left_2, df_right_2, how='inner', on='KEY')


Unnamed: 0,KEY,A,B_x,C_x,B_y,C_y,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_3
