# Bind - Merge, Concat
- Visual Python: Data Analysis > Bind

## Merge
1. 컬럼을 기준으로 2개의 데이터를 병합
2. 인덱스를 기준으로 2개의 데이터를 병합
3. 데이터 병합 방식
<img src="./data/merge.png" width="500"/>

## Concat
1. 2개 이상의 데이터를 병합
2. 축 따라 이어 붙이기(가로축 병합, 세로축 병합)
3. 데이터 병합 방식: 'inner', 'outer'

---

## Import Packages
- Visual Python: Data Analysis > Import

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# 1. Merge

## 1.1. 컬럼을 기준으로 데이터 병합

In [None]:
left  = pd.DataFrame({'key1': ['foo', 'foo', 'bar'],
                      'key2': ['one', 'two', 'one'],
                      'lval': [1, 2, 3]})

right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                      'key2': ['one', 'one', 'one', 'two'],
                      'rval': [4, 5, 6, 7]})

### 1.1.1 'key1'을 기준으로 left 데이터와 right 데이터를 병합

In [None]:
# 중복되는 컬럼 이름 자동 변경
pd.merge(left, right, on='key1')

In [None]:
# 중복되는 컬럼 이름 뒤에 붙일 문자열 지정
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

### 1.1.2' key1' 과 'key2'를 기준으로 left 데이터와 right 데이터를 병합

In [None]:
pd.merge(left, right, on=['key1', 'key2'], how='outer')

## 1.2 인덱스를 기준으로 데이터 병합

### 1.2.1 left1의 기준: 'key', right1의 기준: 인덱스

In [None]:
left1  = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], 'value': range(6)})
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])

In [None]:
pd.merge(left1, right1, left_on='key', right_index=True)

### 1.2.2 멀티 인덱스 -  left1의 기준: 'key', 'key2',  right1의 기준: 멀티 인덱스

In [None]:
lefth  = pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                       'key2': [2000, 2001, 2002, 2001, 2002],
                       'data': np.arange(5.)})

righth = pd.DataFrame(np.arange(12).reshape((6, 2)),
                      index=[['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                             [2001, 2000, 2000, 2000, 2001, 2002]],
                      columns=['event1', 'event2'])

In [None]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)

# 2 Concat

## 2.1 가로 방향 데이터 병합

In [None]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'], columns=['three', 'four'])

### 2.1.1 outer join - 합집합

In [None]:
pd.concat([df1, df2], axis=1, join='outer')

### 2.1.2 inner join - 교집합

In [None]:
pd.concat([df1, df2], axis=1, join='inner')

## 2.2 세로 방향 데이터 병합

In [None]:
df3 = pd.DataFrame(np.arange(6).reshape(2, 3), index=['a', 'b'], columns=['one', 'two', 'three'])
df4 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['c', 'd'], columns=['one', 'three'])

### 2.2.1 outer join - 합집합

In [None]:
pd.concat([df3, df4], axis=0)

### 2.2.2 inner join - 교집합

In [None]:
pd.concat([df3, df4], axis=0, join='inner')

## 2.3 인덱스 재설정

In [None]:
df5 = pd.DataFrame(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])
df6 = pd.DataFrame(np.random.randn(2, 3), columns=['b', 'd', 'a'])

### 2.3.1 인덱스 유지

In [None]:
pd.concat([df5, df6], ignore_index=False)

### 2.3.2 인덱스 재설정

In [None]:
pd.concat([df5, df6], ignore_index=True)

---

# [실습] 직접 해보기

## 실습 1. 복습하기

#### Q. [Merge] left1의 컬럼 'key'와  right1의 인덱스를 기준으로 데이터를 병합하세요. (단 병합 방법은 합집합(outer)으로 하세요)

In [None]:
pd.merge(left1, right1, left_on='key', right_index=True, how='outer')

#### Q. [Merge] lefth의 컬럼 'key1', 'key2'와  righth의 인덱스를 기준으로 데이터를 병합하세요. (단 병합 방법은 교집합(inner)으로 하세요)

In [None]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True, how='inner')

#### Q. [Concat] df1 데이터와 df2데이터를 가로 방향으로 병합하세요. (단 병합 방법은 합집합(outer)으로 하세요)

In [None]:
pd.concat([df1, df2], axis=1, join='outer')

#### Q. [Concat] df5 데이터와 df6데이터를 가로 방향으로 병합하세요. (단 인덱스를 재설정 하세요)

In [None]:
pd.concat([df5, df6], ignore_index=True)

## 실습 2. 고객 데이터로 병합하기

In [None]:
# 고객 정보 데이터
customer = pd.DataFrame({
    'id': [1,2,3,4,5,6,7,8,9,10],
    'name': ['김', '이', '박', '유', '송', '강', '백', '오', '홍', '윤'],
    'age': [21, 34, 18, 61, 47, 55, 80, 25, 36, 41]
})

# 결제 정보 데이터
purchase = pd.DataFrame({
    'p_id': [111,112,113,114,115,116,117,118,119,120,121,122,123,124,125],
    'p_name': ['공책', '화장품', '화장품', '연필', '물', '인형', '노트북', '펜', '공책', '티셔츠', '맨투맨', '만두', '장난감', '드레스', '화장품'],
    'cost': [2500, 25000, 18200, 1500, 1900, 5000, 350000, 1000, 2500, 10000, 15000, 8000, 35000, 49000, 25000],
    'c_id': [2, 1, 8, 3, 4, 3, 2, 7, 1, 1, 2, 10, 6, 2, 2]
})

purchase2 = pd.DataFrame({
    'p_id': [126, 127, 128, 129, 130],
    'p_name': ['잠옷', '지우개', '음료수', '태블릿', '연필'],
    'cose': [19000, 500, 1500, 760000, 1500], # 잘못된 컬럼명일 경우 처리 방법
    'c_id': [2, 1, 10, 11, 3]
})

#### Q. [merge] customer 데이터와 purchase 데이터를 `id`와 `c_id` 컬럼을 기준으로 병합하세요.
- purchase를 left에, customer을 right에 놓고, 각각 기준 컬럼을 설정하세요.
- left 합집합 방식으로 병합하세요.

In [None]:
# Visual Python: Data Analysis > Bind
pd.merge(purchase, customer, left_on=['c_id'], right_on=['id'], how='left')

#### Q. [merge] customer 데이터와 purchase 데이터를 `id`와 `c_id` 컬럼을 기준으로 병합하세요.
- customer을 left에, purchase를 right에 놓고, 각각 기준 컬럼을 설정하세요.
- 합집합 방식을 선택하세요.

In [None]:
# Visual Python: Data Analysis > Bind
pd.merge(customer, purchase, left_on=['id'], right_on=['c_id'], how='outer')

#### Q. [concat] 아래 순서에 따라 purchase와 purchase2 데이터를 세로 방향으로 병합하세요.
- purchase와 purchase2 데이터를 concat을 통해 세로 방향으로 병합하세요.
- purchase2 데이터의 `cose` 컬럼명을 `cost`로 변경하세요. (단, purchase3 데이터로 저장하세요.)
- purchase와 purchase3 데이터를 concat을 통해 세로 방향으로 병합하세요. (단, purchase4 데이터로 저장하세요.)

In [None]:
# Visual Python: Data Analysis > Bind
pd.concat([purchase,purchase2], join='outer', axis=0)

In [None]:
# Visual Python: Data Analysis > Frame
purchase3 = purchase2.copy()
purchase3.rename(columns={'cose': 'cost'}, inplace=True)
purchase3

In [None]:
# Visual Python: Data Analysis > Bind
purchase4 = pd.concat([purchase,purchase3], join='outer', axis=0)
purchase4

---

In [None]:
# End of file