# **데이터 결합**


---



- 두 개의 데이터를 특정 컬럼을 기준으로 합칩니다.

- 결합 방법에는 4가지가 있습니다.

![이미지](https://vitalflux.com/wp-content/uploads/2023/01/SQL-Joins-explained-using-Sets-640x451.png)

- `pd.merge(데이터1, 데이터2, on=기준컬럼, how=결합방법)`

In [1]:
import pandas as pd

customer = pd.DataFrame({'id' : [i for i in range(1,7)],
                    'name' : ['민준','서연','서준','도현','지윤','채원'],
                    'age' : [15,30,40,20,23,31]})
customer

Unnamed: 0,id,name,age
0,1,민준,15
1,2,서연,30
2,3,서준,40
3,4,도현,20
4,5,지윤,23
5,6,채원,31


In [2]:
orders = pd.DataFrame({'id' : [1,1,2,3,3,4,5,7,7,7],
                    'item' : ['사과','체리','바나나','사과','바나나','바나나','체리','사과','체리','바나나'],
                    'quantity' : [1, 2, 1, 1, 3, 2, 2, 3, 2, 1]})
orders

Unnamed: 0,id,item,quantity
0,1,사과,1
1,1,체리,2
2,2,바나나,1
3,3,사과,1
4,3,바나나,3
5,4,바나나,2
6,5,체리,2
7,7,사과,3
8,7,체리,2
9,7,바나나,1


In [3]:
pd.merge(customer, orders, on='id', how='inner')
# id 6, 7은 겹치지 않으므로 탈락

Unnamed: 0,id,name,age,item,quantity
0,1,민준,15,사과,1
1,1,민준,15,체리,2
2,2,서연,30,바나나,1
3,3,서준,40,사과,1
4,3,서준,40,바나나,3
5,4,도현,20,바나나,2
6,5,지윤,23,체리,2


In [4]:
pd.merge(customer, orders, on='id', how='left')
# customer 기준으로 결합하고 없는 데이터는 NaN 표시

Unnamed: 0,id,name,age,item,quantity
0,1,민준,15,사과,1.0
1,1,민준,15,체리,2.0
2,2,서연,30,바나나,1.0
3,3,서준,40,사과,1.0
4,3,서준,40,바나나,3.0
5,4,도현,20,바나나,2.0
6,5,지윤,23,체리,2.0
7,6,채원,31,,


In [5]:
pd.merge(customer, orders, on='id', how='right')
# orders 기준으로 결합하고 없는 데이터는 NaN 표시

Unnamed: 0,id,name,age,item,quantity
0,1,민준,15.0,사과,1
1,1,민준,15.0,체리,2
2,2,서연,30.0,바나나,1
3,3,서준,40.0,사과,1
4,3,서준,40.0,바나나,3
5,4,도현,20.0,바나나,2
6,5,지윤,23.0,체리,2
7,7,,,사과,3
8,7,,,체리,2
9,7,,,바나나,1


In [6]:
pd.merge(orders, customer, on='id', how='left')

Unnamed: 0,id,item,quantity,name,age
0,1,사과,1,민준,15.0
1,1,체리,2,민준,15.0
2,2,바나나,1,서연,30.0
3,3,사과,1,서준,40.0
4,3,바나나,3,서준,40.0
5,4,바나나,2,도현,20.0
6,5,체리,2,지윤,23.0
7,7,사과,3,,
8,7,체리,2,,
9,7,바나나,1,,


In [7]:
pd.merge(customer, orders, on='id', how='outer')
# 두개 데이터가 모두 합쳐지고 없는 데이터는 NaN 처리

Unnamed: 0,id,name,age,item,quantity
0,1,민준,15.0,사과,1.0
1,1,민준,15.0,체리,2.0
2,2,서연,30.0,바나나,1.0
3,3,서준,40.0,사과,1.0
4,3,서준,40.0,바나나,3.0
5,4,도현,20.0,바나나,2.0
6,5,지윤,23.0,체리,2.0
7,6,채원,31.0,,
8,7,,,사과,3.0
9,7,,,체리,2.0


- 두 데이터의 기준 컬럼명이 다를 경우에는

    - `pd.merge(데이터1, 데이터2, left_on=데이터1의 기준컬럼, right_on=데이터2의 기준컬럼, how=결합방법)`

In [8]:
orders = orders.rename({'id':'customer_id'}, axis=1)

In [9]:
pd.merge(customer, orders, left_on='id', right_on='customer_id', how='inner')

Unnamed: 0,id,name,age,customer_id,item,quantity
0,1,민준,15,1,사과,1
1,1,민준,15,1,체리,2
2,2,서연,30,2,바나나,1
3,3,서준,40,3,사과,1
4,3,서준,40,3,바나나,3
5,4,도현,20,4,바나나,2
6,5,지윤,23,5,체리,2
