In [1]:
# concat & merge 다루기

In [2]:
# 1.concat 다루기
# 데이터를 단순하게 위아래, 좌우 결합하기 위해 사용

In [3]:
import pandas as pd

df1 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c03'],
    'product_id' : ['P001', 'P234', 'p125']
})

df2 = pd.DataFrame({
    'user_id': ['c02', 'c03', 'c04'],
    'quantity' :['3', '5', '7']
})


In [4]:
result0 = pd.concat([df1, df2], axis=0) # axis=0 (행 기준, 위아래 병합)
# result0 = pd.concat([df1, df2], axis=0, ignore_index=True)  # index 초기화 옵션
result0

Unnamed: 0,user_id,product_id,quantity
0,c01,P001,
1,c02,P234,
2,c03,p125,
0,c02,,3.0
1,c03,,5.0
2,c04,,7.0


In [5]:
result1 = pd.concat([df1, df2], axis=1) # axis=1 (열 기준, 좌우 병합)
# result1 = pd.concat([df1, df2], axis=1, ignore_index=True) # index 초기화 옵션
result1

Unnamed: 0,user_id,product_id,user_id.1,quantity
0,c01,P001,c02,3
1,c02,P234,c03,5
2,c03,p125,c04,7


In [6]:
# 2.merge 다루기

import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c03'],
    'product_id' :['P001', 'P234', 'P125']
})

df2 = pd.DataFrame({
    'user_id' : ['c02', 'c03', 'c04'],
    'quantity' : ['3', '5', '7']
})

print(df1)
print(df2)

  user_id product_id
0     c01       P001
1     c02       P234
2     c03       P125
  user_id quantity
0     c02        3
1     c03        5
2     c04        7


In [7]:
# 1) merge 설명
# pandas의 merge 함수를 활용하여 데이터프레임을 다양한 방법으로 병합할 수 있음

# pd.merge(df1, df2, how='inner', on='key', suffixes=('_x', '_y'))

# on : 두 데이터프레임에서 공통으로 존재하는 컬럼명(키)
# how : 병합 방식('inner', 'left', 'right', 'outer') # 기본옵션 : inner
# suffixes : 공통 컬럼명이 있을 때 붙일 접미사

In [8]:
# 2) 예제로 이해하기
# 예제1 - 교집합(inner join)으로 데이터 병합

# df1에는 고객(user_id)의 구매물품(product_id)정보가 있음
df1  

Unnamed: 0,user_id,product_id
0,c01,P001
1,c02,P234
2,c03,P125


In [9]:
# df2에는 고객(user_id)의 구매한 물품 수(quantity)정보가 있음
df2

Unnamed: 0,user_id,quantity
0,c02,3
1,c03,5
2,c04,7


In [10]:
# user_id 를 기준으로 병합
result_inner = pd.merge(df1, df2, how='inner', on='user_id')
# result_inner = pd.merge(df1, df2, on='user_id) # 'inner'가 기본 옵션이기 때문에 생략가능
result_inner

Unnamed: 0,user_id,product_id,quantity
0,c02,P234,3
1,c03,P125,5


In [11]:
# 예제2 - 합집합(outer join)으로 데이터 병합
result_outer = pd.merge(df1, df2, on='user_id', how='outer')
result_outer # 값이 없는 부분은 결측치로 처리

Unnamed: 0,user_id,product_id,quantity
0,c01,P001,
1,c02,P234,3.0
2,c03,P125,5.0
3,c04,,7.0


In [12]:
# 예제3 - left join 으로 데이터 병합
result_left = pd.merge(df1, df2, on='user_id', how='left')
result_left # 왼쪽 데이터프레임 기준으로 병합

Unnamed: 0,user_id,product_id,quantity
0,c01,P001,
1,c02,P234,3.0
2,c03,P125,5.0


In [13]:
# 예제4 - right join 으로 데이터 병합
result_right = pd.merge(df1, df2, on='user_id', how='left')
result_right # 오른쪽 데이터프레임 기준으로 병합

Unnamed: 0,user_id,product_id,quantity
0,c01,P001,
1,c02,P234,3.0
2,c03,P125,5.0


In [14]:
# 예제5 - 여러컬럼을 동시에 'key'로 사용하는 예제

# 첫번쨰 데이터프레임 : 주문 정보
df1 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c03', 'c04'],
    'order_date' : ['2025-03-01', '2025-03-02', '2025-03-03', '2025-03-04'],
    'product' : ['P001', 'P002', 'P003', 'P004']
})

# 두번째 데이터프레임 : 주문 수량 정보
df2 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c03', 'c05'],
    'order_date' : ['2025-03-01', '2025-03-02', '2025-03-05', '2025-03-06'],
    'quantity' : [5, 15, 25, 35]
})

print(df1)
print(df2)

  user_id  order_date product
0     c01  2025-03-01    P001
1     c02  2025-03-02    P002
2     c03  2025-03-03    P003
3     c04  2025-03-04    P004
  user_id  order_date  quantity
0     c01  2025-03-01         5
1     c02  2025-03-02        15
2     c03  2025-03-05        25
3     c05  2025-03-06        35


In [15]:
result = pd.merge(df1, df2, on=['user_id', 'order_date'], how='inner')

In [16]:
# 예제6 - suffixes=('_x', '_y') 옵션이 필요한 경우

# 예제 DataFrame 생성 (공통 컬럼: 'gender'와 'value'가 존재)
df1 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c03'],
    'gender' : ['M', 'M', 'M'],
    'value' : [10, 20, 30]
})

df2 = pd.DataFrame({
    'user_id' : ['c01', 'c02', 'c04'],
    'gender' : ['F', 'F', 'F'],
    'value' : [100, 200, 400]
})

print(df1)
print(df2)

  user_id gender  value
0     c01      M     10
1     c02      M     20
2     c03      M     30
  user_id gender  value
0     c01      F    100
1     c02      F    200
2     c04      F    400


In [17]:
# df1과 df2에 공통 변수명인 gender와 value가 존재
# suffixes = ('_M', '_F') 옵션으로 구분해 줄 수 있다.
result = pd.merge(df1, df2, on='user_id', how='inner', suffixes=('_M', '_F'))
#result = pd.merge(df1, df2, on='user_id', how='inner')
result

Unnamed: 0,user_id,gender_M,value_M,gender_F,value_F
0,c01,M,10,F,100
1,c02,M,20,F,200


In [19]:
# 별도로 옵션을 주지 않으면 기본 옵션인 _x, _y로 표기
result = pd.merge(df1, df2, on='user_id', how='inner')
result

Unnamed: 0,user_id,gender_x,value_x,gender_y,value_y
0,c01,M,10,F,100
1,c02,M,20,F,200
