In [1]:
import pandas as pd

```
Database의 Table 들을 Join/Merge 하는 것과 유사하게 

Python pandas의 pd.merge() 함수를 사용해서 DataFrame을 Key 기준으로 

inner, outer, left, outer join 하여 합치는 방법을 소개하도록 하겠습니다.


how, on 은 가장 중요하니 잊지마세요!!

```
___

```python
pd.merge(left, right, # merge할 DataFrame 객체 이름
         how='inner', # left, rigth, inner (default), outer
         on=None, # merge의 기준이 되는 Key 변수
         left_on=None, # 왼쪽 DataFrame의 변수를 Key로 사용
         right_on=None, # 오른쪽 DataFrame의 변수를 Key로 사용
         left_index=False, # 만약 True 라면, 왼쪽 DataFrame의 index를 merge Key로 사용
         right_index=False, # 만약 True 라면, 오른쪽 DataFrame의 index를 merge Key로 사용
         sort=True, # merge 된 후의 DataFrame을 join Key 기준으로 정렬
         suffixes=('_x', '_y'), # 중복되는 변수 이름에 대해 접두사 부여 (defaults to '_x', '_y'
         copy=True, # merge할 DataFrame을 복사
         indicator=False) # 병합된 이후의 DataFrame에 left_only, right_only, both 등의 출처를 알 수 있는 부가 정보 변수 추가
```

In [2]:
df_left = pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
df_left

Unnamed: 0,KEY,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [3]:
df_right = pd.DataFrame({'KEY': ['K2', 'K3', 'K4', 'K5'],
                         'C': ['C2', 'C3', 'C4', 'C5'],
                         'D': ['D2', 'D3', 'D4', 'D5']})
df_right

Unnamed: 0,KEY,C,D
0,K2,C2,D2
1,K3,C3,D3
2,K4,C4,D4
3,K5,C5,D5


# merge how='left'

**LEFT OUTER JOIN**

In [4]:
df_merge_how_left = pd.merge(df_left, df_right,
                             how='left',
                             on='KEY')
df_merge_how_left

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


# merge how='right'

**RIGHT OUTER JOIN**

In [5]:
df_merge_how_right = pd.merge(df_left, df_right,
                              how='right',
                              on='KEY')
df_merge_how_right

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3
2,K4,,,C4,D4
3,K5,,,C5,D5


# merge how='inner'

**INNER JOIN**

In [6]:
df_merge_how_inner = pd.merge(df_left, df_right, 
                              how='inner', 
                              on='KEY')
df_merge_how_inner

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3


# merge how='outer'

**FULL OUTER JOIN**

In [7]:
df_merge_how_outer = pd.merge(df_left, df_right,
                              how='outer',
                              on='KEY')
df_merge_how_outer

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,,,C4,D4
5,K5,,,C5,D5


# 병합된 이후 부가 정보 추가

In [8]:
df_merge_outer_indicator = pd.merge(df_left, df_right,
                                    how='outer',
                                    on='KEY',
                                    indicator=True)
df_merge_outer_indicator

Unnamed: 0,KEY,A,B,C,D,_merge
0,K0,A0,B0,,,left_only
1,K1,A1,B1,,,left_only
2,K2,A2,B2,C2,D2,both
3,K3,A3,B3,C3,D3,both
4,K4,,,C4,D4,right_only
5,K5,,,C5,D5,right_only


# 중복된 변수 접미사 붙이기

```
'B'와 'C' 의 변수 이름이 동일하게 있는 두 개의 DataFrame을 만든 후에, KEY를 기준으로 합치기(merge)를 해보겠습니다. 변수 이름이 중복되므로 Data Source를 구분할 수 있도록 suffixes = ('string', 'string') 을 사용해서 중복되는 변수의 뒷 부분에 접미사를 추가해보겠습니다.  default는 suffixes = ('_x', '_y') 입니다.
```

In [9]:
df_left_2 = pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                          'A': ['A0', 'A1', 'A2', 'A3'],
                          'B': ['B0', 'B1', 'B2', 'B3'],
                          'C': ['C0', 'C1', 'C2', 'C3']})
df_left_2

Unnamed: 0,KEY,A,B,C
0,K0,A0,B0,C0
1,K1,A1,B1,C1
2,K2,A2,B2,C2
3,K3,A3,B3,C3


In [10]:
df_right_2 = pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                           'B': ['B0_2', 'B1_2', 'B2_2', 'B3_2'],
                           'C': ['C0_2', 'C1_2', 'C2_2', 'C3_2'],
                           'D': ['D0_2', 'D1_2', 'D2_2', 'D3_3']})
df_right_2

Unnamed: 0,KEY,B,C,D
0,K0,B0_2,C0_2,D0_2
1,K1,B1_2,C1_2,D1_2
2,K2,B2_2,C2_2,D2_2
3,K3,B3_2,C3_2,D3_3


In [11]:
pd.merge(df_left_2, df_right_2,
         how='inner',
         on='KEY',
         suffixes=('_left', '_right'))

Unnamed: 0,KEY,A,B_left,C_left,B_right,C_right,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_3


In [12]:
pd.merge(df_left_2, df_right_2, 
         how='inner', 
         on='KEY')

Unnamed: 0,KEY,A,B_x,C_x,B_y,C_y,D
0,K0,A0,B0,C0,B0_2,C0_2,D0_2
1,K1,A1,B1,C1,B1_2,C1_2,D1_2
2,K2,A2,B2,C2,B2_2,C2_2,D2_2
3,K3,A3,B3,C3,B3_2,C3_2,D3_3
