<img src="https://i.esdrop.com/d/7o0dj05m8rnz/JNGCMedl18.png" width="45%">

# Bind - Merge, Concat
- Visual Python: Data Analysis > Bind

## Merge
1. 컬럼을 기준으로 2개의 데이터를 병합
2. 인덱스를 기준으로 2개의 데이터를 병합
3. 데이터 병합 방식
<img src="./data/merge.png" width="500"/>

## Concat
1. 2개 이상의 데이터를 병합
2. 축 따라 이어 붙이기(가로축 병합, 세로축 병합)
3. 데이터 병합 방식: 'inner', 'outer'

---

## Import Packages
- Visual Python: Data Analysis > Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# 1. Merge

## 1.1. 컬럼을 기준으로 데이터 병합

In [2]:
left  = pd.DataFrame({'key1': ['foo', 'foo', 'bar'],
                      'key2': ['one', 'two', 'one'],
                      'lval': [1, 2, 3]})

right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                      'key2': ['one', 'one', 'one', 'two'],
                      'rval': [4, 5, 6, 7]})

### 1.1.1 'key1'을 기준으로 left 데이터와 right 데이터를 병합

In [3]:
# 중복되는 컬럼 이름 자동 변경
pd.merge(left, right, on='key1')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [4]:
# 중복되는 컬럼 이름 뒤에 붙일 문자열 지정
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


### 1.1.2' key1' 과 'key2'를 기준으로 left 데이터와 right 데이터를 병합

In [5]:
pd.merge(left, right, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


## 1.2 인덱스를 기준으로 데이터 병합

### 1.2.1 left1의 기준: 'key', right1의 기준: 인덱스

In [6]:
left1  = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], 'value': range(6)})
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])

In [7]:
pd.merge(left1, right1, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


### 1.2.2 멀티 인덱스 -  left1의 기준: 'key', 'key2',  right1의 기준: 멀티 인덱스

In [8]:
lefth  = pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                       'key2': [2000, 2001, 2002, 2001, 2002],
                       'data': np.arange(5.)})

righth = pd.DataFrame(np.arange(12).reshape((6, 2)),
                      index=[['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                             [2001, 2000, 2000, 2000, 2001, 2002]],
                      columns=['event1', 'event2'])

In [9]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)

Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0.0,4,5
0,Ohio,2000,0.0,6,7
1,Ohio,2001,1.0,8,9
2,Ohio,2002,2.0,10,11
3,Nevada,2001,3.0,0,1


# 2 Concat

## 2.1 가로 방향 데이터 병합

In [10]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'], columns=['three', 'four'])

### 2.1.1 outer join - 합집합

In [11]:
pd.concat([df1, df2], axis=1, join='outer')

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


### 2.1.2 inner join - 교집합

In [12]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,one,two,three,four
a,0,1,5,6
c,4,5,7,8


## 2.2 세로 방향 데이터 병합

In [13]:
df3 = pd.DataFrame(np.arange(6).reshape(2, 3), index=['a', 'b'], columns=['one', 'two', 'three'])
df4 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['c', 'd'], columns=['one', 'three'])

### 2.2.1 outer join - 합집합

In [14]:
pd.concat([df3, df4], axis=0)

Unnamed: 0,one,two,three
a,0,1.0,2
b,3,4.0,5
c,5,,6
d,7,,8


### 2.2.2 inner join - 교집합

In [15]:
pd.concat([df3, df4], axis=0, join='inner')

Unnamed: 0,one,three
a,0,2
b,3,5
c,5,6
d,7,8


## 2.3 인덱스 재설정

In [16]:
df5 = pd.DataFrame(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])
df6 = pd.DataFrame(np.random.randn(2, 3), columns=['b', 'd', 'a'])

### 2.3.1 인덱스 유지

In [17]:
pd.concat([df5, df6], ignore_index=False)

Unnamed: 0,a,b,c,d
0,0.405081,0.109302,-0.773241,0.808003
1,-0.648676,0.020192,0.732911,-1.223252
2,-1.253772,1.17209,-0.208648,0.497508
0,-0.837895,0.220122,,-0.523421
1,-0.475504,-0.078831,,1.213093


### 2.3.2 인덱스 재설정

In [18]:
pd.concat([df5, df6], ignore_index=True)

Unnamed: 0,a,b,c,d
0,0.405081,0.109302,-0.773241,0.808003
1,-0.648676,0.020192,0.732911,-1.223252
2,-1.253772,1.17209,-0.208648,0.497508
3,-0.837895,0.220122,,-0.523421
4,-0.475504,-0.078831,,1.213093


---

# [실습] 직접 해보기

## 실습 1. 복습하기

#### Q. [Merge] left1의 컬럼 'key'와  right1의 인덱스를 기준으로 데이터를 병합하세요. (단 병합 방법은 합집합(outer)으로 하세요)

In [19]:
pd.merge(left1, right1, left_on='key', right_index=True, how='outer')

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
5,c,5,


#### Q. [Merge] lefth의 컬럼 'key1', 'key2'와  righth의 인덱스를 기준으로 데이터를 병합하세요. (단 병합 방법은 교집합(inner)으로 하세요)

In [20]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True, how='inner')

Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0.0,4,5
0,Ohio,2000,0.0,6,7
1,Ohio,2001,1.0,8,9
2,Ohio,2002,2.0,10,11
3,Nevada,2001,3.0,0,1


#### Q. [Concat] df1 데이터와 df2데이터를 가로 방향으로 병합하세요. (단 병합 방법은 합집합(outer)으로 하세요)

In [21]:
pd.concat([df1, df2], axis=1, join='outer')

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


#### Q. [Concat] df5 데이터와 df6데이터를 가로 방향으로 병합하세요. (단 인덱스를 재설정 하세요)

In [22]:
pd.concat([df5, df6], ignore_index=True)

Unnamed: 0,a,b,c,d
0,0.405081,0.109302,-0.773241,0.808003
1,-0.648676,0.020192,0.732911,-1.223252
2,-1.253772,1.17209,-0.208648,0.497508
3,-0.837895,0.220122,,-0.523421
4,-0.475504,-0.078831,,1.213093


## 실습 2. 고객 데이터로 병합하기

In [23]:
# 고객 정보 데이터
customer = pd.DataFrame({
    'id': [1,2,3,4,5,6,7,8,9,10],
    'name': ['김', '이', '박', '유', '송', '강', '백', '오', '홍', '윤'],
    'age': [21, 34, 18, 61, 47, 55, 80, 25, 36, 41]
})

# 결제 정보 데이터
purchase = pd.DataFrame({
    'p_id': [111,112,113,114,115,116,117,118,119,120,121,122,123,124,125],
    'p_name': ['공책', '화장품', '화장품', '연필', '물', '인형', '노트북', '펜', '공책', '티셔츠', '맨투맨', '만두', '장난감', '드레스', '화장품'],
    'cost': [2500, 25000, 18200, 1500, 1900, 5000, 350000, 1000, 2500, 10000, 15000, 8000, 35000, 49000, 25000],
    'c_id': [2, 1, 8, 3, 4, 3, 2, 7, 1, 1, 2, 10, 6, 2, 2]
})

purchase2 = pd.DataFrame({
    'p_id': [126, 127, 128, 129, 130],
    'p_name': ['잠옷', '지우개', '음료수', '태블릿', '연필'],
    'cose': [19000, 500, 1500, 760000, 1500], # 잘못된 컬럼명일 경우 처리 방법
    'c_id': [2, 1, 10, 11, 3]
})

#### Q. [merge] customer 데이터와 purchase 데이터를 `id`와 `c_id` 컬럼을 기준으로 병합하세요.
- purchase를 left에, customer을 right에 놓고, 각각 기준 컬럼을 설정하세요.
- left 합집합 방식으로 병합하세요.

In [24]:
# Visual Python: Data Analysis > Bind
pd.merge(purchase, customer, left_on=['c_id'], right_on=['id'], how='left')

Unnamed: 0,p_id,p_name,cost,c_id,id,name,age
0,111,공책,2500,2,2,이,34
1,112,화장품,25000,1,1,김,21
2,113,화장품,18200,8,8,오,25
3,114,연필,1500,3,3,박,18
4,115,물,1900,4,4,유,61
5,116,인형,5000,3,3,박,18
6,117,노트북,350000,2,2,이,34
7,118,펜,1000,7,7,백,80
8,119,공책,2500,1,1,김,21
9,120,티셔츠,10000,1,1,김,21


#### Q. [merge] customer 데이터와 purchase 데이터를 `id`와 `c_id` 컬럼을 기준으로 병합하세요.
- customer을 left에, purchase를 right에 놓고, 각각 기준 컬럼을 설정하세요.
- 합집합 방식을 선택하세요.

In [25]:
# Visual Python: Data Analysis > Bind
pd.merge(customer, purchase, left_on=['id'], right_on=['c_id'], how='outer')

Unnamed: 0,id,name,age,p_id,p_name,cost,c_id
0,1,김,21,112.0,화장품,25000.0,1.0
1,1,김,21,119.0,공책,2500.0,1.0
2,1,김,21,120.0,티셔츠,10000.0,1.0
3,2,이,34,111.0,공책,2500.0,2.0
4,2,이,34,117.0,노트북,350000.0,2.0
5,2,이,34,121.0,맨투맨,15000.0,2.0
6,2,이,34,124.0,드레스,49000.0,2.0
7,2,이,34,125.0,화장품,25000.0,2.0
8,3,박,18,114.0,연필,1500.0,3.0
9,3,박,18,116.0,인형,5000.0,3.0


#### Q. [concat] 아래 순서에 따라 purchase와 purchase2 데이터를 세로 방향으로 병합하세요.
- purchase와 purchase2 데이터를 concat을 통해 세로 방향으로 병합하세요.
- purchase2 데이터의 `cose` 컬럼명을 `cost`로 변경하세요. (단, purchase3 데이터로 저장하세요.)
- purchase와 purchase3 데이터를 concat을 통해 세로 방향으로 병합하세요. (단, purchase4 데이터로 저장하세요.)

In [26]:
# Visual Python: Data Analysis > Bind
pd.concat([purchase,purchase2], join='outer', axis=0)

Unnamed: 0,p_id,p_name,cost,c_id,cose
0,111,공책,2500.0,2,
1,112,화장품,25000.0,1,
2,113,화장품,18200.0,8,
3,114,연필,1500.0,3,
4,115,물,1900.0,4,
5,116,인형,5000.0,3,
6,117,노트북,350000.0,2,
7,118,펜,1000.0,7,
8,119,공책,2500.0,1,
9,120,티셔츠,10000.0,1,


In [27]:
# Visual Python: Data Analysis > Frame
purchase3 = purchase2.copy()
purchase3.rename(columns={'cose': 'cost'}, inplace=True)
purchase3

Unnamed: 0,p_id,p_name,cost,c_id
0,126,잠옷,19000,2
1,127,지우개,500,1
2,128,음료수,1500,10
3,129,태블릿,760000,11
4,130,연필,1500,3


In [28]:
# Visual Python: Data Analysis > Bind
purchase4 = pd.concat([purchase,purchase3], join='outer', axis=0)
purchase4

Unnamed: 0,p_id,p_name,cost,c_id
0,111,공책,2500,2
1,112,화장품,25000,1
2,113,화장품,18200,8
3,114,연필,1500,3
4,115,물,1900,4
5,116,인형,5000,3
6,117,노트북,350000,2
7,118,펜,1000,7
8,119,공책,2500,1
9,120,티셔츠,10000,1


---

In [29]:
# End of file