# DataFrame 병합
## Keypoint!
- 두 DataFrame을 하나로 합칠 수 있고, 이를 병합(Merge)라고 합니다.
- 병합하는 방법에 따라 `concat()`이나 `merge()`를 사용할 수 있습니다.

---

### **0. 데이터 준비하기**

In [1]:
# 사용자 정보 데이터를 pandas의 DataFrame으로 만들어봅시다.

import pandas as pd

user = pd.DataFrame({"id": [1, 2, 3, 4], "name": ["민준", "수영", "은진", "채윤"]})
user

Unnamed: 0,id,name
0,1,민준
1,2,수영
2,3,은진
3,4,채윤


In [2]:
# 책 데이터를 pandas의 DataFrame으로 만들어봅시다.

book = pd.DataFrame({"id": [1, 2, 3, 4], "name": ["버그란 무엇인가", "두근두근 물리학", "미분해줘 홈즈", "지금 우리 코드는"], "rent_user": [1, 3, 2, 3]})
book

Unnamed: 0,id,name,rent_user
0,1,버그란 무엇인가,1
1,2,두근두근 물리학,3
2,3,미분해줘 홈즈,2
3,4,지금 우리 코드는,3


### **1. 세로로 합치기 : `append()`**


In [3]:
# 새로운 유저 정보가 담긴 데이터가 이렇게 있다면?

new_user = pd.DataFrame({"id": [5, 6, 7], "name": ["소민", "지섭", "하림"]})
new_user

Unnamed: 0,id,name
0,5,소민
1,6,지섭
2,7,하림


In [4]:
# append을 활용해서 이를 진행할 수 있다.
# cf) ignore_index : True라면 연결하는 과정에서 인덱스를 새로 지정 (0, 1, ...)

user.append(new_user, ignore_index=True)

Unnamed: 0,id,name
0,1,민준
1,2,수영
2,3,은진
3,4,채윤
4,5,소민
5,6,지섭
6,7,하림


In [5]:
# Solution with .concat()

pd.concat([user, new_user]).reset_index(drop=True)

Unnamed: 0,id,name
0,1,민준
1,2,수영
2,3,은진
3,4,채윤
4,5,소민
5,6,지섭
6,7,하림


### **2. 가로로 합치기 : `merge()`**

In [6]:
# user 데이터와 book 데이터를 다시 확인해보자.

user

Unnamed: 0,id,name
0,1,민준
1,2,수영
2,3,은진
3,4,채윤


In [7]:
book

Unnamed: 0,id,name,rent_user
0,1,버그란 무엇인가,1
1,2,두근두근 물리학,3
2,3,미분해줘 홈즈,2
3,4,지금 우리 코드는,3


In [8]:
# user의 id와 book의 rent_user 정보가 동일한 것을 가리킬때, 이를 합쳐보자!

pd.merge(user, book, left_on='id', right_on='rent_user')

Unnamed: 0,id_x,name_x,id_y,name_y,rent_user
0,1,민준,1,버그란 무엇인가,1
1,2,수영,3,미분해줘 홈즈,2
2,3,은진,2,두근두근 물리학,3
3,3,은진,4,지금 우리 코드는,3


이때, 왼쪽 DataFrame의 기준 Column을 `left_on`으로 지정하고, 오른쪽 DataFrame의 기준 Column을 `right_on`으로 지정합니다.

그런데 id_y라는 것이 생겼군요!  
이는 두 DataFrame을 합치는 과정에서 동일한 이름의 Column이 존재하기 때문에 발생한 현상입니다.(`id`)

조금 더 보기 편하게 하기 위해서 중복되는 Column을 지워봅시다!

In [9]:
# 중복되는 Column을 지워봅시다.

pd.merge(user, book, left_on='id', right_on='rent_user').drop(columns=['id_y'])

Unnamed: 0,id_x,name_x,name_y,rent_user
0,1,민준,버그란 무엇인가,1
1,2,수영,미분해줘 홈즈,2
2,3,은진,두근두근 물리학,3
3,3,은진,지금 우리 코드는,3


In [10]:
ans = book.merge(user, left_on='rent_user', right_on='id', suffixes=("", "_user"))
ans.drop([col for col in ans.columns if 'id_user' in col], axis=1, inplace=True)
ans

Unnamed: 0,id,name,rent_user,name_user
0,1,버그란 무엇인가,1,민준
1,2,두근두근 물리학,3,은진
2,4,지금 우리 코드는,3,은진
3,3,미분해줘 홈즈,2,수영
