# pd.concet()
- concat 함수는 데이터프레임들을 세로 방향으로 결합
```python
result = pd.concat([df1, df2, df3]
                   , ignore_index=True # concat 후의 결과 데이터프레임에서 인덱스가 새로 생성
                   )
```

In [1]:
import pandas as pd

# 세 개의 예시 데이터프레임 생성
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
df2 = pd.DataFrame({'Name': ['Chris', 'David'], 'Age': [22, 27]})
df3 = pd.DataFrame({'Name': ['Eve', 'Frank'], 'Age': [28, 33]})

# 세 데이터프레임을 세로 방향으로 결합 (append)


In [2]:
result = pd.concat([df1, df2, df3]
                   # concat 후의 결과 데이터프레임에서 인덱스가 새로 생성
                   # False면 원래 데이터의 index를 가져옴
                 , ignore_index=True
                 )
result

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Chris,22
3,David,27
4,Eve,28
5,Frank,33


# pd.merge() - join
```python
merged = pd.merge(left_df, right_df
                  ,left_on = 'left_key' , right_on = 'right_key'
                  , how='join_type'
                  )
# key_l과 key_r을 하나의 열로 통합
merged['new_key'] = merged['key_l'].combine_first(merged['key_r'])
# join_type -> inner, outer, left, right, cross('on' argument 필요없음)
```
- 두 개의 데이터프레임을 `가로`방향으로 결합하는 데 사용되며, SQL의 `JOIN` 연산과 유사합니다. 이 함수는 두 데이터프레임 간의 `공통된 열`이나 인덱스를 기준으로 데이터를 결합

<img src="https://i.ibb.co/m488DpG/join-type.png" width="300"/>

- `inner` merge(join): 공통된 key에 대해서만 결합
- `outer` merge(join): 모든 key를 포함하며, 일치하지 않는 경우 NaN으로 채움
- `left` merge(join): Left 테이블의 key를 기준으로 결합, 일치하지 않는 경우 NaN으로 채움
- `right` merge(join): Right 테이블의 key를 기준으로 결합, 일치하지 않는 경우 NaN으로 채움

<img src="https://i.ibb.co/TRLhjpD/cross-join.png" width="300"/>


- `cross` merge(join) (Pandas 1.2.0 이상): df1과 df2의 모든 조합을 생성

In [3]:
import pandas as pd

# 예시 데이터프레임 생성
left = pd.DataFrame({
    'key_l': ['K0', 'K1', 'K2'],
    'col_1': [ 'A1', 'A2', 'A3'],
    'col_2': [ 'B1', 'B2', 'B3']
})
right = pd.DataFrame({
    'key_r': [ 'K1', 'K2', 'K3'],
    'col_1': ['C0', 'C1', 'C2'],
    'col_2': ['D0', 'D1', 'D2']
})

In [4]:
left

Unnamed: 0,key_l,col_1,col_2
0,K0,A1,B1
1,K1,A2,B2
2,K2,A3,B3


In [5]:
right

Unnamed: 0,key_r,col_1,col_2
0,K1,C0,D0
1,K2,C1,D1
2,K3,C2,D2


In [7]:
merged = pd.merge(left, right
                  # column의 이름
                  ,left_on = 'key_l' , right_on = 'key_r'
                  , how='inner'
                  )
merged

Unnamed: 0,key_l,col_1_x,col_2_x,key_r,col_1_y,col_2_y
0,K1,A2,B2,K1,C0,D0
1,K2,A3,B3,K2,C1,D1


In [11]:
merged = pd.merge(left, right
                  # column의 이름
                  ,left_on = 'key_l' , right_on = 'key_r'
                  , how='outer'
                  )
merged
# key_r의 누락된 값을 key_l에서 가져와라
merged['new_key'] = merged['key_r'].combine_first(merged['key_l'])
merged

Unnamed: 0,key_l,col_1_x,col_2_x,key_r,col_1_y,col_2_y,new_key
0,K0,A1,B1,,,,K0
1,K1,A2,B2,K1,C0,D0,K1
2,K2,A3,B3,K2,C1,D1,K2
3,,,,K3,C2,D2,K3


In [9]:
# 키값의 기준이 left
merged = pd.merge(left, right
                  # column의 이름
                  ,left_on = 'key_l' , right_on = 'key_r'
                  , how='left'
                  )
merged

Unnamed: 0,key_l,col_1_x,col_2_x,key_r,col_1_y,col_2_y
0,K0,A1,B1,,,
1,K1,A2,B2,K1,C0,D0
2,K2,A3,B3,K2,C1,D1


In [10]:
# 키값의 기준이 right
merged = pd.merge(left, right
                  # column의 이름
                  ,left_on = 'key_l' , right_on = 'key_r'
                  , how='right'
                  )
merged

Unnamed: 0,key_l,col_1_x,col_2_x,key_r,col_1_y,col_2_y
0,K1,A2,B2,K1,C0,D0
1,K2,A3,B3,K2,C1,D1
2,,,,K3,C2,D2


In [13]:
# 가능한 모든 조합을 만들어냄
merged = pd.merge(left, right
                  # column의 이름
                #   ,left_on = 'key_l' , right_on = 'key_r'
                  , how='cross'
                  )
merged

Unnamed: 0,key_l,col_1_x,col_2_x,key_r,col_1_y,col_2_y
0,K0,A1,B1,K1,C0,D0
1,K0,A1,B1,K2,C1,D1
2,K0,A1,B1,K3,C2,D2
3,K1,A2,B2,K1,C0,D0
4,K1,A2,B2,K2,C1,D1
5,K1,A2,B2,K3,C2,D2
6,K2,A3,B3,K1,C0,D0
7,K2,A3,B3,K2,C1,D1
8,K2,A3,B3,K3,C2,D2


# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요
## 문제: 두 데이터프레임을 사용하여 다음 작업을 수행하십시오.

```python
import pandas as pd

# 예시 데이터프레임 생성
employees = pd.DataFrame({
    'employee_id': ['E01', 'E02', 'E03', 'E04'],
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'department': ['HR', 'Engineering', 'IT', 'Marketing']
})

salaries = pd.DataFrame({
    'id': ['E01', 'E02', 'E03'],
    'salary': [70000, 85000, 95000]
})

employees, salaries


```
1. employees 데이터프레임의 'employee_id' 열과 salaries 데이터프레임의 'id' 열을 기준으로 두 데이터프레임을 결합하십시오. 이때, 'employee_id'와 'id'가 일치하는 행만 포함되도록 내부 결합(inner join)을 사용하십시오.
2. 결합된 결과에서 'employee_id', 'name', 'department', 'salary' 열만 포함되도록 하십시오.

In [14]:
import pandas as pd

# 예시 데이터프레임 생성
employees = pd.DataFrame({
    'employee_id': ['E01', 'E02', 'E03', 'E04'],
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'department': ['HR', 'Engineering', 'IT', 'Marketing']
})

salaries = pd.DataFrame({
    'id': ['E01', 'E02', 'E03'],
    'salary': [70000, 85000, 95000]
})


In [16]:
merged = pd.merge(employees, salaries
                  # column의 이름
                  ,left_on = 'employee_id' , right_on = 'id'
                  , how='inner'
                  )
merged[["employee_id", "name", "department", "salary"]]

Unnamed: 0,employee_id,name,department,salary
0,E01,Alice,HR,70000
1,E02,Bob,Engineering,85000
2,E03,Charlie,IT,95000
