# Pandas 데이터 병합

Pandas에서 DataFrame을 병합하는 방법

- pd.merge()
- pd.concat()
- pd.join()

In [1]:
import pandas as pd

#### 🔰 pd.merge(left, right)

- pandas의 DataFrame 데이터끼리의 병합은 빈번히 일어난다.
- 병합 후 데이터가 엉망이 되지 않도록 잘 익혀야 한다.

- 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법 
- 기준이 되는 컬럼이나 인덱스를 키값이라고 한다.
- 기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야 한다.


In [2]:
# 딕셔너리 안에 리스트 형태

left = pd.DataFrame({
	"key": ['K0', 'K4', 'K2', 'K3'],
	"A": ['A0', 'A1', 'A2', 'A3'],
	"B": ['B0', 'B1', 'B2', 'B3']
})
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [3]:
# 리스트 안에 딕셔너리 형태

right = pd.DataFrame([
	{"key": 'K0', "C": 'C0', "D": 'D0'},
	{"key": 'K1', "C": 'C1', "D": 'D1'},
	{"key": 'K2', "C": 'C2', "D": 'D2'},
	{"key": 'K3', "C": 'C3', "D": 'D3'}
])
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


- "key" 컬럼을 기준으로 병합

In [4]:
pd.merge(left, right, on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


- "key" 컬럼에서 두 데이터의 공통 부분만 병합, 일종의 교집합

In [7]:
pd.merge(left, right, how='inner', on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


- 둘 다 손상되지 않도록 "key"를 기준으로 병합

	- left와 right의 모든 "key" 값을 살린다.

In [8]:
pd.merge(left, right, how='outer', on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


- left의 "key"를 기준으로 right 병합

	- left 데이터의 "key" 컬럼에 있는 데이터만 right에서 가져온다.
	- right에서 left "key" 컬럼에 없는 'K1'이 포함된 row는 병합에서 제외된다.

In [5]:
pd.merge(left, right, how='left', on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


- right의 "key"를 기준으로 left 병합

In [6]:
pd.merge(left, right, how='right', on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
