<a href="https://colab.research.google.com/github/kunyoungkim/pandas_basic/blob/main/merge().ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

# 두 데이터프레임을 key 열을 기준으로 결합
merged_df = pd.merge(df1, df2, on='key')

merged_df


Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


In [None]:
# Left Join 예시
left_merged = pd.merge(df1, df2, on='key', how='left')
print("Left Join 결과:\n", left_merged)

# Right Join 예시
right_merged = pd.merge(df1, df2, on='key', how='right')
print("Right Join 결과:\n", right_merged)

# Outer Join 예시
outer_merged = pd.merge(df1, df2, on='key', how='outer')
print("Outer Join 결과:\n", outer_merged)


Left Join 결과:
   key  value1  value2
0   A       1     NaN
1   B       2     5.0
2   C       3     NaN
3   D       4     6.0
Right Join 결과:
   key  value1  value2
0   B     2.0       5
1   D     4.0       6
2   E     NaN       7
3   F     NaN       8
Outer Join 결과:
   key  value1  value2
0   A     1.0     NaN
1   B     2.0     5.0
2   C     3.0     NaN
3   D     4.0     6.0
4   E     NaN     7.0
5   F     NaN     8.0


In [None]:
df3 = pd.DataFrame({
    'key1': ['A', 'B', 'C'],
    'key2': ['X', 'Y', 'Z'],
    'value3': [10, 20, 30]
})

df4 = pd.DataFrame({
    'key1': ['A', 'B', 'D'],
    'key2': ['X', 'Y', 'W'],
    'value4': [40, 50, 60]
})

# 두 개의 열을 기준으로 결합
multi_key_merged = pd.merge(df3, df4, on=['key1', 'key2'], how='inner')
multi_key_merged

Unnamed: 0,key1,key2,value3,value4
0,A,X,10,40
1,B,Y,20,50


In [None]:
index_merged = pd.merge(df1.set_index('key'), df2.set_index('key'), left_index=True, right_index=True, how='inner')
index_merged

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
B,2,5
D,4,6


In [None]:
# suffixes 옵션 사용 예시
df5 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value': [100, 200, 300]
})

df6 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value': [400, 500, 600]
})

suffix_merged = pd.merge(df5, df6, on='key', suffixes=('_left', '_right'))
suffix_merged

Unnamed: 0,key,value_left,value_right
0,B,200,400
1,C,300,500


In [None]:
# key 열을 인덱스로 변환
df1_indexed = df1.set_index('key')
df2_indexed = df2.set_index('key')

# 인덱스를 기준으로 결합
index_merged = pd.merge(df1_indexed, df2_indexed, left_index=True, right_index=True, how='inner')
index_merged

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
B,2,5
D,4,6


In [None]:
# key 열을 인덱스로 변환
df1_indexed = df1.set_index('key')
df2_indexed = df2.set_index('key')

# 인덱스를 기준으로 결합
index_merged = pd.merge(df1_indexed, df2_indexed, index_on=True, how='inner')
index_merged

TypeError: merge() got an unexpected keyword argument 'index_on'

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
}).set_index('key')  # 'key'를 인덱스로 설정

df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

# df1의 인덱스를 기준으로, df2의 'key' 열과 결합
merged_df = pd.merge(df1, df2, left_index=True, right_on='key')

merged_df

Unnamed: 0,value1,key,value2
0,2,B,5
1,4,D,6


In [None]:
# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'key1': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key2': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

pd.merge(df1, df2, left_on='key1', right_on='key2')

Unnamed: 0,key1,value1,key2,value2
0,B,2,B,5
1,D,4,D,6


In [None]:
# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})


In [None]:
pd.merge(df1, df2, on='key', how='outer', indicator=True)

Unnamed: 0,key,value1,value2,_merge
0,A,1.0,,left_only
1,B,2.0,5.0,both
2,C,3.0,,left_only
3,D,4.0,6.0,both
4,E,,7.0,right_only
5,F,,8.0,right_only


In [None]:
pd.merge(df1, df2, on='key', validate='one_to_one')

Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


In [None]:
df9 = pd.DataFrame({
    'key': ['D', 'C', 'B', 'A'],
    'value1': [1, 2, 3, 4]
})

df10 = pd.DataFrame({
    'key': ['F', 'E', 'D', 'B'],
    'value2': [5, 6, 7, 8]
})


In [None]:
pd.merge(df9, df10, on='key', sort=True)

Unnamed: 0,key,value1,value2
0,B,3,8
1,D,1,7


In [None]:
pd.merge(df9, df10, on='key', sort=False)

Unnamed: 0,key,value1,value2
0,D,1,7
1,B,3,8


In [None]:
pd.merge(df1, df2, on='key').sort_values(by='key', ascending=False)

Unnamed: 0,key,value1,value2
1,D,4,6
0,B,2,5


In [None]:
pd.merge(df1, df2, on='key', sort=False)

Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


In [None]:
pd.merge(df1, df2, on='key', copy=False)

Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


In [None]:
import pandas as pd

# 예제 데이터프레임
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value2': [4, 5, 6]
})

# one_to_one 검증
result = pd.merge(df1, df2, on='key', validate='one_to_one')
result

Unnamed: 0,key,value1,value2
0,A,1,4
1,B,2,5
2,C,3,6


In [None]:
# 예제 데이터프레임
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['A', 'A', 'B', 'C', 'C', 'C'],
    'value2': [4, 5, 6, 7, 8, 9]
})

# one_to_many 검증
result = pd.merge(df1, df2, on='key', validate='one_to_many')
result

Unnamed: 0,key,value1,value2
0,A,1,4
1,A,1,5
2,B,2,6
3,C,3,7
4,C,3,8
5,C,3,9


In [None]:
import pandas as pd
from functools import reduce

# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['A', 'B', 'D'],
    'value2': [4, 5, 6]
})

df3 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'E'],
    'value3': [7, 8, 9, 10]
})

# 데이터프레임 리스트 생성
dfs = [df1, df2, df3]

# reduce를 사용하여 다중 merge 수행
result = reduce(lambda left, right: pd.merge(left, right, on='key', how='inner'), dfs)

result

Unnamed: 0,key,value1,value2,value3
0,A,1,4,7
1,B,2,5,8


In [None]:
import pandas as pd

# 두 개의 데이터프레임을 병합하는 함수 정의
def merge_two_dfs(left, right):
    return pd.merge(left, right, on='key', how='outer')

# 데이터프레임 리스트 정의
dfs = [df1, df2, df3]

# 수동으로 reduce와 같은 방식으로 병합하기
result = dfs[0]  # 첫 번째 데이터프레임을 초기값으로 설정
for i in range(1, len(dfs)):  # 두 번째 데이터프레임부터 차례로 병합
    result = merge_two_dfs(result, dfs[i])

result

Unnamed: 0,key,value1,value2,value3
0,A,1.0,4.0,7.0
1,B,2.0,5.0,8.0
2,C,3.0,,9.0
3,D,,6.0,
4,E,,,10.0
