# 데이터 병합과 변환


## [1] **테이블 조인(join)**

> 특정 기준(하나 이상의 컬럼)에 따라 데이터프레임을 병합한다.

> 기본 사용법
> `new_df = pd.merge(left_dataframe, right_dataframe, on="기준 열", how="Join 방식")`

### (1) Join 방식

- 내부 조인 (Inner Join): 두 데이터프레임에 모두 존재하는 기준 열에 대해서 병합을 수행한다.
  `how='inner'`
- 왼쪽 조인 (Left Join): 첫 번째(왼쪽) 데이터프레임의 열을 기준으로 병합을 수행한다.
  `how='left'`
- 오른쪽 조인 (Right Join): 두 번째(오른쪽) 데이터프레임의 열을 기준으로 병합을 수행한다.
  `how='right'`
- 외부 조인 (Outer Join): 두 데이터프레임에 존재하는 모든 열에 대해 병합을 수행한다.
  `how='outer'`
- `on` : 병합을 할 때 기준이 되는 열 이름을 지정한다.


In [1]:
import pandas as pd
import random

In [2]:
df_left = pd.DataFrame(
    {
        "Key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)

df_right = pd.DataFrame(
    {
        "Key": ["K0", "K1", "K2", "K4"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)
df_left

Unnamed: 0,Key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [3]:
df_right

Unnamed: 0,Key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K4,C3,D3


In [4]:
# inner join
pd.merge(df_left, df_right, on="Key", how="inner")

Unnamed: 0,Key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [5]:
# left join
pd.merge(df_left, df_right, on="Key", how="left")

Unnamed: 0,Key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,


## [실습]

### (1) 데이터 병합하기

1. 3개의 데이터프레임을 생성하고, 실습 문제를 해결한다.
2. **`head()`** 와 **`info()`** 를 사용하여 데이터의 구조를 파악한다.
3. **`student_df`**와 **`enrollment_df`**를 **`학생ID`**를 기준으로 INNER JOIN 해서 각 학생의 수강 학점을 함께 출력한다.
4. **`enrollment_df`**와 **`lecture_df`**를 **`강의ID`**를 기준으로 LEFT JOIN 해서 각 수강 데이터의 강의 이름을 함께 출력한다.


In [6]:
random.seed(0)

# 학생 데이터프레임
student_df = pd.DataFrame(
    {
        "학생ID": range(101, 111),
        "학과": [
            random.choice(["컴퓨터공학과", "전자공학과", "기계공학과"])
            for _ in range(10)
        ],
    }
)

# 강의 데이터프레임
lecture_df = pd.DataFrame(
    {
        "강의ID": [1001, 1002, 1003, 1004],
        "강의 이름": ["프로그래밍 기초", "웹 개발", "데이터 분석", "데이터베이스"],
    }
)

n = 100
# 수강 데이터프레임
enrollment_df = pd.DataFrame(
    {
        "수강ID": range(1, n + 1),
        "학생ID": [random.choice(student_df["학생ID"]) for _ in range(n)],
        "강의ID": [random.choice(lecture_df["강의ID"]) for _ in range(n)],
        "학점": [random.choice(["A", "B", "C", "D", "F"]) for _ in range(n)],
    }
)

In [7]:
pd.merge(student_df, enrollment_df, on="학생ID", how="inner")

Unnamed: 0,학생ID,학과,수강ID,강의ID,학점
0,101,전자공학과,30,1001,B
1,101,전자공학과,32,1001,D
2,101,전자공학과,35,1001,A
3,101,전자공학과,78,1004,C
4,101,전자공학과,86,1003,B
...,...,...,...,...,...
95,110,전자공학과,69,1001,F
96,110,전자공학과,72,1003,F
97,110,전자공학과,79,1001,F
98,110,전자공학과,95,1002,A


In [8]:
pd.merge(enrollment_df, lecture_df, on="강의ID", how="left")

Unnamed: 0,수강ID,학생ID,강의ID,학점,강의 이름
0,1,110,1003,D,데이터 분석
1,2,104,1001,F,프로그래밍 기초
2,3,109,1003,D,데이터 분석
3,4,103,1001,A,프로그래밍 기초
4,5,105,1004,D,데이터베이스
...,...,...,...,...,...
95,96,107,1003,A,데이터 분석
96,97,110,1002,C,웹 개발
97,98,105,1002,B,웹 개발
98,99,108,1002,B,웹 개발
