# 데이터프레임 결합 (Concat & Merge)

데이터 분석 시 여러 개의 데이터 파일을 하나로 합쳐야 하는 경우가 많습니다. Pandas는 두 개 이상의 데이터프레임을 하나로 합치는 다양한 방법을 제공합니다. 대표적으로 `pd.concat()`과 `pd.merge()`가 있습니다.

## 1. 데이터프레임 연결 (pd.concat)

`pd.concat()`은 여러 데이터프레임을 **수직(위/아래)** 또는 **수평(좌/우)**으로 단순하게 이어 붙이는 함수입니다. 물리적으로 데이터를 합치는 개념에 가깝습니다.

### 주요 파라미터
- `objs`: 합칠 데이터프레임 객체들을 리스트 형태로 전달합니다. `[df1, df2, ...]`
- `axis`: 데이터를 연결할 축을 지정합니다.
  - `0` (기본값): 위/아래로 연결 (수직). 컬럼명을 기준으로 합칩니다.
  - `1`: 좌/우로 연결 (수평). 인덱스를 기준으로 합칩니다.
- `ignore_index`: 기존 인덱스를 무시하고 새로운 인덱스(0, 1, 2, ...)를 부여할지 결정합니다.
  - `False` (기본값): 기존 인덱스를 유지합니다.
  - `True`: 기존 인덱스를 무시하고 재설정합니다.

### 1.1. 수직 연결 (axis=0)

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2'],
    'C': ['C0', 'C1', 'C2']
}, index=[0, 1, 2])

df2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5'],
    'C': ['C3', 'C4', 'C5']
}, index=[3, 4, 5])

df3 = pd.DataFrame({
    'A': ['A6', 'A7', 'A8'],
    'B': ['B6', 'B7', 'B8'],
    'D': ['D6', 'D7', 'D8'] # df1, df2와 다른 컬럼 'D'
}, index=[6, 7, 8])

print("--- df1 ---")
print(df1)
print("\n--- df2 ---")
print(df2)
print("\n--- df3 ---")
print(df3)

In [None]:
# df1과 df2를 수직으로 연결
result_v1 = pd.concat([df1, df2])
print("--- df1, df2 수직 연결 (기존 인덱스 유지) ---")
print(result_v1)

# ignore_index=True 옵션으로 인덱스 재설정
result_v2 = pd.concat([df1, df2], ignore_index=True)
print("\n--- df1, df2 수직 연결 (인덱스 재설정) ---")
print(result_v2)

# 컬럼 구성이 다른 df1, df3 연결
# 공통되지 않은 컬럼(C, D)은 없는 부분에 NaN으로 채워짐
result_v3 = pd.concat([df1, df3], ignore_index=True)
print("\n--- df1, df3 수직 연결 (다른 컬럼 포함) ---")
print(result_v3)

### 1.2. 수평 연결 (axis=1)

In [None]:
# 예제 데이터프레임 생성
df4 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=[0, 1, 2])

df5 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=[0, 1, 2]) # df4와 동일한 인덱스

df6 = pd.DataFrame({
    'E': ['E1', 'E2', 'E3'],
    'F': ['F1', 'F2', 'F3']
}, index=[1, 2, 3]) # df4와 다른 인덱스

print("--- df4 ---")
print(df4)
print("\n--- df5 ---")
print(df5)
print("\n--- df6 ---")
print(df6)

In [None]:
# 인덱스가 같은 df4, df5를 수평으로 연결
result_h1 = pd.concat([df4, df5], axis=1)
print("--- df4, df5 수평 연결 (같은 인덱스) ---")
print(result_h1)

# 인덱스가 다른 df4, df6을 수평으로 연결
# 인덱스를 기준으로 합치므로, 겹치지 않는 인덱스(0, 3)의 값은 NaN으로 채워짐
result_h2 = pd.concat([df4, df6], axis=1)
print("\n--- df4, df6 수평 연결 (다른 인덱스) ---")
print(result_h2)

## 2. 데이터프레임 병합 (pd.merge)

`pd.merge()`는 특정 **'키(key)' 컬럼**을 기준으로 두 데이터프레임을 논리적으로 합치는 함수입니다. 관계형 데이터베이스(RDB)의 **SQL JOIN**과 매우 유사한 방식으로 동작합니다.

### 주요 파라미터
- `left`, `right`: 병합할 두 데이터프레임 객체.
- `on`: 병합의 기준이 되는 키 컬럼 이름. `left`, `right` 양쪽 데이터프레임에 모두 존재해야 합니다.
- `how`: 병합(JOIN) 방식을 지정합니다.
  - `'inner'` (기본값): 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 병합 (교집합).
  - `'outer'`: 양쪽 데이터프레임의 모든 키를 포함하여 병합. 한쪽에만 키가 있으면 없는 쪽은 `NaN`으로 채움 (합집합).
  - `'left'`: 왼쪽 데이터프레임의 키를 기준으로 병합.
  - `'right'`: 오른쪽 데이터프레임의 키를 기준으로 병합.
- `left_on`, `right_on`: 두 데이터프레임의 키 컬럼 이름이 다를 때 각각 지정합니다.

In [None]:
# 예제 데이터프레임 생성
# 직원 정보
df_employee = pd.DataFrame({
    'employee_id': ['E01', 'E02', 'E03', 'E04'],
    'name': ['Alice', 'Bob', 'Charlie', 'David']
})

# 부서 정보
df_department = pd.DataFrame({
    'employee_id': ['E02', 'E03', 'E05', 'E06'],
    'department': ['HR', 'Engineering', 'Marketing', 'Sales']
})

print("--- 직원 정보 (df_employee) ---")
print(df_employee)
print("\n--- 부서 정보 (df_department) ---")
print(df_department)

### 2.1. Inner Join

두 데이터프레임에 공통으로 존재하는 키(`employee_id`)를 기준으로 데이터를 합칩니다. 여기서는 'E02', 'E03'만 해당됩니다.

In [None]:
# 'employee_id'를 기준으로 inner join (기본값)
inner_join_result = pd.merge(df_employee, df_department, on='employee_id', how='inner')
# how='inner'는 기본값이므로 생략 가능: pd.merge(df_employee, df_department, on='employee_id')

print("--- Inner Join 결과 ---")
print(inner_join_result)

### 2.2. Outer Join

두 데이터프레임에 존재하는 모든 키를 기준으로 데이터를 합칩니다. 한쪽에만 존재하는 키의 경우, 다른 쪽 데이터는 `NaN`으로 채워집니다.

In [None]:
# 'employee_id'를 기준으로 outer join
outer_join_result = pd.merge(df_employee, df_department, on='employee_id', how='outer')

print("--- Outer Join 결과 ---")
print(outer_join_result)

### 2.3. Left Join

왼쪽 데이터프레임(`df_employee`)의 모든 키를 기준으로 데이터를 합칩니다. 오른쪽 데이터프레임에 해당 키가 없으면 `NaN`으로 채워집니다.

In [None]:
# 'employee_id'를 기준으로 left join
left_join_result = pd.merge(df_employee, df_department, on='employee_id', how='left')

print("--- Left Join 결과 ---")
print(left_join_result)

### 2.4. Right Join

오른쪽 데이터프레임(`df_department`)의 모든 키를 기준으로 데이터를 합칩니다. 왼쪽 데이터프레임에 해당 키가 없으면 `NaN`으로 채워집니다.

In [None]:
# 'employee_id'를 기준으로 right join
right_join_result = pd.merge(df_employee, df_department, on='employee_id', how='right')

print("--- Right Join 결과 ---")
print(right_join_result)