# Merge
pandas의 merge 함수는 SQL의 JOIN 연산과 유사하게 두 개의 DataFrame을 특정 키(컬럼 또는 인덱스)를 기준으로 병합하는 데 사용됩니다. 이 함수는 데이터베이스의 조인처럼 inner, outer, left, right 조인 방식을 지원하여, 두 DataFrame 간의 공통된 값 또는 특정 조건을 만족하는 행들을 결합할 수 있게 해줍니다.

In [6]:
import pandas as pd

visited = pd.read_csv("visited.csv")
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22
8,900,DR-4,1932-03-22


In [5]:
site = pd.read_csv("site.csv")
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4
3,DR-5,-49.99,-120.1


In [8]:
# key 컬럼을 기준으로 inner 조인(공통 키에 해당하는 행만 결합)
visited.merge(site, left_on = "site", right_on = "name", how = "inner")

Unnamed: 0,ident,site,dated,name,lat,long
0,619,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,622,DR-1,1927-02-10,DR-1,-49.85,-128.57
2,734,DR-3,1939-01-07,DR-3,-47.15,-126.72
3,735,DR-3,1930-01-12,DR-3,-47.15,-126.72
4,751,DR-3,1930-02-26,DR-3,-47.15,-126.72
5,752,DR-3,,DR-3,-47.15,-126.72
6,837,MSK-4,1932-01-14,MSK-4,-48.87,-123.4
7,844,DR-1,1932-03-22,DR-1,-49.85,-128.57


In [9]:
# left: 왼쪽 DataFrame의 모든 행을 유지하며, 오른쪽 DataFrame과 일치하는 데이터가 있으면 병합
visited.merge(site, left_on = "site", right_on = "name", how = "left")

Unnamed: 0,ident,site,dated,name,lat,long
0,619,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,622,DR-1,1927-02-10,DR-1,-49.85,-128.57
2,734,DR-3,1939-01-07,DR-3,-47.15,-126.72
3,735,DR-3,1930-01-12,DR-3,-47.15,-126.72
4,751,DR-3,1930-02-26,DR-3,-47.15,-126.72
5,752,DR-3,,DR-3,-47.15,-126.72
6,837,MSK-4,1932-01-14,MSK-4,-48.87,-123.4
7,844,DR-1,1932-03-22,DR-1,-49.85,-128.57
8,900,DR-4,1932-03-22,,,


In [10]:
# right: 오른쪽 DataFrame의 모든 행을 유지하며, 왼쪽 DataFrame과 일치하는 데이터가 있으면 병합
visited.merge(site, left_on = "site", right_on = "name", how = "right")

Unnamed: 0,ident,site,dated,name,lat,long
0,619.0,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,622.0,DR-1,1927-02-10,DR-1,-49.85,-128.57
2,844.0,DR-1,1932-03-22,DR-1,-49.85,-128.57
3,734.0,DR-3,1939-01-07,DR-3,-47.15,-126.72
4,735.0,DR-3,1930-01-12,DR-3,-47.15,-126.72
5,751.0,DR-3,1930-02-26,DR-3,-47.15,-126.72
6,752.0,DR-3,,DR-3,-47.15,-126.72
7,837.0,MSK-4,1932-01-14,MSK-4,-48.87,-123.4
8,,,,DR-5,-49.99,-120.1


In [12]:
# outer: 양쪽 DataFrame의 모든 행을 포함하며, 일치하지 않는 경우 NaN으로 채움
visited.merge(site, left_on = "site", right_on = "name", how = "outer")

Unnamed: 0,ident,site,dated,name,lat,long
0,619.0,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,622.0,DR-1,1927-02-10,DR-1,-49.85,-128.57
2,844.0,DR-1,1932-03-22,DR-1,-49.85,-128.57
3,734.0,DR-3,1939-01-07,DR-3,-47.15,-126.72
4,735.0,DR-3,1930-01-12,DR-3,-47.15,-126.72
5,751.0,DR-3,1930-02-26,DR-3,-47.15,-126.72
6,752.0,DR-3,,DR-3,-47.15,-126.72
7,900.0,DR-4,1932-03-22,,,
8,,,,DR-5,-49.99,-120.1
9,837.0,MSK-4,1932-01-14,MSK-4,-48.87,-123.4


* left_index=True / right_index=True 옵션을 사용하면, 컬럼이 아닌 인덱스를 기준으로 병합할 수 있습니다.

In [13]:
left = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=['K0', 'K1', 'K2'])

right = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=['K0', 'K2', 'K3'])

In [14]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [15]:
right

Unnamed: 0,C,D
K0,C0,D0
K2,C1,D1
K3,C2,D2


In [18]:
pd.merge(left, right, left_index=True, right_index=True, how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C1,D1


* suffixes: 양쪽 DataFrame에서 동일한 이름의 컬럼이 존재할 경우, 충돌을 피하기 위해 자동으로 접미사를 붙입니다.

In [20]:
df1 = pd.DataFrame({
    'key': ['K0', 'K1'],
    'value': ['V0', 'V1']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1'],
    'value': ['V2', 'V3']
})

df1

Unnamed: 0,key,value
0,K0,V0
1,K1,V1


In [21]:
df2

Unnamed: 0,key,value
0,K0,V2
1,K1,V3


In [22]:
pd.merge(df1, df2, on='key', how='inner')

Unnamed: 0,key,value_x,value_y
0,K0,V0,V2
1,K1,V1,V3


In [23]:
pd.merge(df1, df2, on='key', how='inner', suffixes = ("_left", "_right"))

Unnamed: 0,key,value_left,value_right
0,K0,V0,V2
1,K1,V1,V3


* indicator=True 옵션을 사용하면, 병합된 각 행이 어느 DataFrame에서 왔는지를 나타내는 열(_merge)이 추가됩니다.

In [25]:
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'B': ['B0', 'B1', 'B2', 'B4']
})

pd.merge(left, right, on='key', how='outer', indicator=True)

Unnamed: 0,key,A,B,_merge
0,K0,A0,B0,both
1,K1,A1,B1,both
2,K2,A2,B2,both
3,K3,A3,,left_only
4,K4,,B4,right_only


* validate 옵션은 두 DataFrame을 병합할 때, 예상한 병합 관계(조인 카디널리티)가 올바른지 확인하는 역할을 합니다.

```
"one_to_one"
설명: 양쪽 DataFrame 모두 병합 키가 유일해야 함을 의미합니다.
예시 상황: 고객 정보와 고객의 상세 정보가 각각 유일한 키로 관리될 때.
검증 조건: 왼쪽과 오른쪽 DataFrame의 병합 키 모두 중복 없이 유일(unique)해야 합니다.

"one_to_many"
설명: 왼쪽 DataFrame의 병합 키는 유일해야 하고, 오른쪽 DataFrame은 해당 키에 대해 여러 행이 있을 수 있음을 의미합니다.
예시 상황: 고객 정보(유일한 고객 ID)와 고객 주문 내역(한 고객이 여러 주문을 할 수 있음)을 병합할 때.
검증 조건: 왼쪽 DataFrame의 키는 유일하지만, 오른쪽은 중복이 있어도 괜찮습니다.

"many_to_one"
설명: 오른쪽 DataFrame의 병합 키는 유일해야 하고, 왼쪽 DataFrame은 해당 키에 대해 여러 행이 있을 수 있음을 의미합니다.
예시 상황: 주문 내역(여러 주문 내역)과 제품 정보(유일한 제품 ID)를 병합할 때.
검증 조건: 오른쪽 DataFrame의 키는 유일해야 하며, 왼쪽은 중복이 있어도 됩니다.

"many_to_many"
설명: 양쪽 DataFrame 모두 병합 키가 유일하지 않아도 되는 경우입니다.
예시 상황: 복수의 조건으로 여러 대의 매칭이 가능한 경우.
검증 조건: 특별한 유일성 검증 없이, 다대다 관계로 병합합니다.

참고: 기본적으로 아무런 검증도 수행하지 않는 상태와 유사하므로, 실수로 many-to-many 병합이 일어나는 것을 의도한 경우가 아니라면 주의해야 합니다.
```

In [34]:
# 양쪽 모두 키 값이 유일한 경우
df_left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': [1, 2, 3]
})

df_right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'B': [4, 5, 6]
})

# one_to_one 병합: 성공 // 예시 상황: 고객 정보와 고객의 상세 정보가 각각 유일한 키로 관리될 때.
pd.merge(df_left, df_right, on='key', how='inner', validate='one_to_one')

Unnamed: 0,key,A,B
0,K0,1,4
1,K1,2,5
2,K2,3,6


In [36]:
# 오른쪽 DataFrame에 중복된 키가 존재하는 경우
df_left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': [1, 2, 3]
})

df_right = pd.DataFrame({
    'key': ['K0', 'K0', 'K2'],  # 'K0'가 중복됨
    'B': [4, 5, 6]
})

# 에러 발생!
# pd.merge(df_left, df_right, on='key', how='inner', validate='one_to_one')

In [37]:
# 왼쪽 DataFrame의 키는 유일, 오른쪽은 중복 가능
df_left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': [1, 2, 3]
})

df_right = pd.DataFrame({
    'key': ['K0', 'K0', 'K2'],  # 오른쪽에서 'K0'가 두 번 등장
    'B': [4, 5, 6]
})

# 예시 상황: 고객 정보(유일한 고객 ID)와 고객 주문 내역(한 고객이 여러 주문을 할 수 있음)을 병합할 때.
pd.merge(df_left, df_right, on='key', how='inner', validate='one_to_many')

Unnamed: 0,key,A,B
0,K0,1,4
1,K0,1,5
2,K2,3,6


## 연습문제
1. 두 개의 DataFrame df1과 df2가 있습니다. 이들을 공통 컬럼 key를 기준으로 inner join 방식으로 병합해보세요.

In [8]:
import pandas as pd

df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'B': ['B0', 'B1', 'B2', 'B4']
})

df1.merge(df2, on = "key", how = "inner")
# df1.merge(df2, left_on = "df1", right_on = "df2")

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


2. 위의 df1과 df2를 대상으로 왼쪽 DataFrame(df1)의 모든 행을 유지하면서 병합하는 left join을 수행해보세요.

In [9]:
df1.merge(df2, on = "key", how = "left")

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,


3. 위의 df1과 df2를 대상으로 오른쪽 DataFrame(df2)의 모든 행을 유지하면서 병합하는 right join을 수행해보세요.

In [10]:
df1.merge(df2, on = "key", how = "right")

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K4,,B4


4. 두 DataFrame df1과 df2를 outer join 방식으로 병합하여, 양쪽에 존재하는 모든 키 값을 포함하는 결과를 만들어보세요.

In [11]:
df1.merge(df2, on = "key", how = "outer")

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,
4,K4,,B4


5. 두 개의 DataFrame left_diff와 right_diff가 각각 다른 이름의 병합 키를 가지고 있습니다.

* left_diff에는 컬럼 'Lkey'가 있고,
* right_diff에는 컬럼 'Rkey'가 있습니다.

두 DataFrame을 left_on과 right_on 옵션을 사용하여 inner join 방식으로 병합해보세요.

In [12]:
left_diff = pd.DataFrame({
    'Lkey': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right_diff = pd.DataFrame({
    'Rkey': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

left_diff.merge(right_diff, left_on = "Lkey", right_on = "Rkey", how = "inner")

Unnamed: 0,Lkey,A,Rkey,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1


6. 두 개의 DataFrame df_index1과 df_index2가 인덱스를 기준으로 병합되어야 합니다.
각각의 인덱스가 병합 기준으로 사용되도록 inner join을 수행해보세요.

In [33]:
## 못품

df_index1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2']
}, index=['K0', 'K1', 'K2'])

df_index2 = pd.DataFrame({
    'B': ['B0', 'B2', 'B3']
}, index=['K0', 'K2', 'K3'])

df_index1.merge(df_index2, left_index = True, right_index = True, how = "inner")

Unnamed: 0,A,B
K0,A0,B0
K2,A2,B2


7. 두 DataFrame df_same1과 df_same2 모두 'key' 컬럼으로 병합할 때, 동일한 이름의 컬럼 'value'가 각각 존재합니다.
두 DataFrame을 inner join 방식으로 병합하면서, 충돌하는 컬럼명에 접미사를 붙여 구분해보세요.

In [30]:
df_same1 = pd.DataFrame({
    'key': ['K0', 'K1'],
    'value': ['V0', 'V1']
})

df_same2 = pd.DataFrame({
    'key': ['K0', 'K1'],
    'value': ['V2', 'V3']
})

df_same1.merge(df_same2, on = "key", how = "inner", suffixes = ("_left", "_right"))

Unnamed: 0,key,value_left,value_right
0,K0,V0,V2
1,K1,V1,V3


8. 두 DataFrame df1과 df2를 outer join 방식으로 병합하면서, 각 행이 어느 DataFrame에서 왔는지 확인할 수 있도록 indicator 옵션을 사용해보세요.

In [28]:
df1.merge(df2, on = "key", how = "outer", indicator = True)

Unnamed: 0,key,A,B,_merge
0,K0,A0,B0,both
1,K1,A1,B1,both
2,K2,A2,B2,both
3,K3,A3,,left_only
4,K4,,B4,right_only


9. 두 개의 DataFrame df_multi1과 df_multi2가 있습니다.
이들에는 각각 두 개의 병합 키 key1과 key2가 존재합니다. 두 DataFrame을 이 두 개의 키를 기준으로 inner join 방식으로 병합해보세요.

In [27]:
df_multi1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K1'],
    'key2': ['X0', 'X1', 'X0', 'X1'],
    'A': ['A0', 'A1', 'A2', 'A3']
})

df_multi2 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['X0', 'X1', 'X0', 'X0'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df_multi1.merge(df_multi2, on = "key1", how = "inner")

Unnamed: 0,key1,key2_x,A,key2_y,B
0,K0,X0,A0,X0,B0
1,K0,X0,A0,X1,B1
2,K0,X1,A1,X0,B0
3,K0,X1,A1,X1,B1
4,K1,X0,A2,X0,B2
5,K1,X1,A3,X0,B2


10. 두 DataFrame df1과 df2를 병합할 때, 병합 관계가 1:1이어야 한다고 가정합니다.
validate 옵션을 사용하여 병합 관계를 검증하는 코드를 작성해보세요. 만약 관계가 1:1이 아니라면 어떤 오류가 발생하는지 확인해보세요.

In [34]:
df1.merge(df2, on = "key", how = "inner", validate = "one_to_one")

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
