# concat / merge 함수
- 두 개 이상의 DataFrame을 **하나로 합치는 경우**에 사용

## concat 함수
- **데이터 속성이 동일한 데이터 set**끼리 합치는 경우 사용
    - DataFrame을 단순히 합칠 때 사용
## merge 함수
- 두 DataFrame을 **공통된 항목을 기준**으로 합치는 것
    - inner, left, right, outer 기준으로 함

# DataFrame 병합하기

## 1. concat 함수 사용
두 개 이상의 데이터 프레임을 하나로 합치는 데이터 병합이나 연결을 지원하는 기능

In [2]:
# pandas import
import pandas as pd
import numpy as np
from IPython.display import Image

### 1-1. concat 함수 사용하여 DataFrame 병합하기
> - pandas.concat 함수
>     - 데이터 속성 형태가 동일한 데이터 set 끼리 합칠 때
> - 열 or 행 레벨로 병합

#### 1) column 명이 같은 경우
> ignore_index, axis 활용

In [3]:
df1 = pd.DataFrame({'key1' : [0,1,2,3,4], 'value1' : ['a','b','c','d','e']}, index = [0,1,2,3,4])
df2 = pd.DataFrame({'key1' : [3,4,5,6,7], 'value1' : ['c','d','e','f','g']}, index = [3,4,5,6,7])

In [4]:
df1

Unnamed: 0,key1,value1
0,0,a
1,1,b
2,2,c
3,3,d
4,4,e


In [5]:
df2

Unnamed: 0,key1,value1
3,3,c
4,4,d
5,5,e
6,6,f
7,7,g


##### **concat 함수 옵션**
>- **ignore_index** : 기존 index를 무시하고자 하는 경우
>    - False : 기존 index 유지 / True : 기존 index 무시
>- **axis**
>    - 0 : 위 + 아래로 합치기 (row 레벨) / 1 : 왼쪽 + 오른쪽으로 합치기 (col 레벨)

In [11]:
# ignore_index
pd.concat([df1,df2], ignore_index=False)

Unnamed: 0,key1,value1
0,0,a
1,1,b
2,2,c
3,3,d
4,4,e
3,3,c
4,4,d
5,5,e
6,6,f
7,7,g


In [12]:
# ignore_index
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,key1,value1
0,0,a
1,1,b
2,2,c
3,3,d
4,4,e
5,3,c
6,4,d
7,5,e
8,6,f
9,7,g


In [8]:
# axis = 0, 1 비교
pd.concat([df1, df2], axis = 1)

Unnamed: 0,key1,value1,key1.1,value1.1
0,0.0,a,,
1,1.0,b,,
2,2.0,c,,
3,3.0,d,3.0,c
4,4.0,e,4.0,d
5,,,5.0,e
6,,,6.0,f
7,,,7.0,g


In [9]:
# axis = 0, 1 비교
pd.concat([df1, df2], axis = 0)

Unnamed: 0,key1,value1
0,0,a
1,1,b
2,2,c
3,3,d
4,4,e
3,3,c
4,4,d
5,5,e
6,6,f
7,7,g


#### 2) column명이 다른 경우
- concat 함수 중 join 기능
- join 방식은 outer의 경우 합집합, inner의 경우 교집합을 의미

In [17]:
df3 = pd.DataFrame({'a':['a0','a1','a2','a3'], 'b' : ['b0','b1','b2','b3'], 'c' : ['c0','c1','c2','c3']}, index = [0,1,2,3])
df4 = pd.DataFrame({'a':['a2','a3','a4','a5'], 'b' : ['b2','b3','b4','b5'], 'c' : ['c2','c3','c4','c5'], 'd' : ['d1','d2','d3','d4']}, index = [2,3,4,5])

In [15]:
df3

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [18]:
df4

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d1
3,a3,b3,c3,d2
4,a4,b4,c4,d3
5,a5,b5,c5,d4


In [19]:
pd.concat([df3,df4], join = 'outer')

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d1
3,a3,b3,c3,d2
4,a4,b4,c4,d3
5,a5,b5,c5,d4


In [20]:
pd.concat([df3,df4], join = 'inner')

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


#### 3) index 중복 여부 확인
> - concat 함수 중에 verify_integrity에 대한 이해
> - verify_integrity=False가 default임으로 error가 발생하지 않음
> - verify_integrity=True인 경우 error 발생

In [3]:
df5 = pd.DataFrame({'A':['A0','A1','A2'], 'B':['B0','B1','B2'], 'C':['C0','C1','C2'], 'D':['D0','D1','D2']}, index=['I0','I1','I2'])
df6 = pd.DataFrame({'A':['AA2','A3','A4'], 'B':['BB2','B3','B4'], 'C':['CC2','C3','C4'], 'D':['DD2','D3','D4']}, index=['I2','I3','I4'])

In [4]:
df5

Unnamed: 0,A,B,C,D
I0,A0,B0,C0,D0
I1,A1,B1,C1,D1
I2,A2,B2,C2,D2


In [5]:
df6

Unnamed: 0,A,B,C,D
I2,AA2,BB2,CC2,DD2
I3,A3,B3,C3,D3
I4,A4,B4,C4,D4


In [7]:
pd.concat([df5,df6],verify_integrity=False)

Unnamed: 0,A,B,C,D
I0,A0,B0,C0,D0
I1,A1,B1,C1,D1
I2,A2,B2,C2,D2
I2,AA2,BB2,CC2,DD2
I3,A3,B3,C3,D3
I4,A4,B4,C4,D4


In [8]:
pd.concat([df5,df6],verify_integrity=True) #에러 발생

ValueError: Indexes have overlapping values: Index(['I2'], dtype='object')

## 2.merge & join 함수
### 2-1. DataFrame merge
> - DataFrame의 Table들을 Merge/join 하는 것과 유사
> - 특정한 column(key)을 기준으로 병합
>     - join 방식 : how 파라미터를 통해 명시 (특정한 col을 바탕으로 join)
>         - inner : 기본 merge. 일치하는 값이 있는 경우 (merge할 테이블의 데이터가 모두 있는 경우만 가져옴)
>         - left : left outer join (왼쪽을 기준으로 오른쪽을 채움 - 오른쪽에 데이터가 없으면 NaN)
>         - right : right outer join
>         - outer : full outer join (Left와 Right를 합친 것)

In [27]:
customer = pd.DataFrame({'cust_id' : np.arange(6),
                        'name' : ['철수', '영희', '길동', '명수', '수민', '동전'],
                        '나이' : [40,20,21,30,31,18]})

orders = pd.DataFrame({'cust_id' : [1,1,2,2,2,3,3,1,4,9],
                        'item' : ['치약', '칫솔', '이어폰', '헤드셋', '수건', '생수', '수건', '치약', '생수', '케이스'],
                        'quantity' : [1,2,1,1,3,2,2,3,2,1]})

In [10]:
customer

Unnamed: 0,cust_id,name,나이
0,0,철수,40
1,1,영희,20
2,2,길동,21
3,3,명수,30
4,4,수민,31
5,5,동전,18


In [11]:
orders

Unnamed: 0,cust_id,item,quantitiy
0,1,치약,1
1,1,칫솔,2
2,2,이어폰,1
3,2,헤드셋,1
4,2,수건,3
5,3,생수,2
6,3,수건,2
7,1,치약,3
8,4,생수,2
9,9,케이스,1


#### 1) merge 함수의 on 옵션
> - on : join 대상이 되는 column 명시

In [12]:
# 기본적인 Merge 방식은 inner
# customer의 cust_id 5번과 orders의 cust_id 9번이 없는 것을 확인
pd.merge(customer, orders, on='cust_id')

Unnamed: 0,cust_id,name,나이,item,quantitiy
0,1,영희,20,치약,1
1,1,영희,20,칫솔,2
2,1,영희,20,치약,3
3,2,길동,21,이어폰,1
4,2,길동,21,헤드셋,1
5,2,길동,21,수건,3
6,3,명수,30,생수,2
7,3,명수,30,수건,2
8,4,수민,31,생수,2


In [13]:
# merge하고자 하는 컬럼 명칭을 on
# 여러개인 경우 리스트 일치하는 것만 가져옴
pd.merge(customer, orders, on='cust_id', how = 'inner')

Unnamed: 0,cust_id,name,나이,item,quantitiy
0,1,영희,20,치약,1
1,1,영희,20,칫솔,2
2,1,영희,20,치약,3
3,2,길동,21,이어폰,1
4,2,길동,21,헤드셋,1
5,2,길동,21,수건,3
6,3,명수,30,생수,2
7,3,명수,30,수건,2
8,4,수민,31,생수,2


In [14]:
# merge하고자 하는 컬럼 명칭을 on
# 여러개인 경우 리스트 일치하는 것만 가져옴
pd.merge(customer, orders, on='cust_id', how = 'left')

Unnamed: 0,cust_id,name,나이,item,quantitiy
0,0,철수,40,,
1,1,영희,20,치약,1.0
2,1,영희,20,칫솔,2.0
3,1,영희,20,치약,3.0
4,2,길동,21,이어폰,1.0
5,2,길동,21,헤드셋,1.0
6,2,길동,21,수건,3.0
7,3,명수,30,생수,2.0
8,3,명수,30,수건,2.0
9,4,수민,31,생수,2.0


In [15]:
# merge하고자 하는 컬럼 명칭을 on
# 여러개인 경우 리스트 일치하는 것만 가져옴
pd.merge(customer, orders, on='cust_id', how = 'right')

Unnamed: 0,cust_id,name,나이,item,quantitiy
0,1,영희,20.0,치약,1
1,1,영희,20.0,칫솔,2
2,2,길동,21.0,이어폰,1
3,2,길동,21.0,헤드셋,1
4,2,길동,21.0,수건,3
5,3,명수,30.0,생수,2
6,3,명수,30.0,수건,2
7,1,영희,20.0,치약,3
8,4,수민,31.0,생수,2
9,9,,,케이스,1


In [17]:
# merge하고자 하는 컬럼 명칭을 on / left와 right를 합친 방식
# 여러개인 경우 리스트 일치하는 것만 가져옴
pd.merge(customer, orders, on='cust_id', how = 'outer')

Unnamed: 0,cust_id,name,나이,item,quantitiy
0,0,철수,40.0,,
1,1,영희,20.0,치약,1.0
2,1,영희,20.0,칫솔,2.0
3,1,영희,20.0,치약,3.0
4,2,길동,21.0,이어폰,1.0
5,2,길동,21.0,헤드셋,1.0
6,2,길동,21.0,수건,3.0
7,3,명수,30.0,생수,2.0
8,3,명수,30.0,수건,2.0
9,4,수민,31.0,생수,2.0


#### 2) index 기준으로 join

In [20]:
# cust_id 기준으로 인덱스 생성 (set_index 활용)
cust1 = customer.set_index('cust_id')
order1 = orders.set_index('cust_id')

In [21]:
cust1

Unnamed: 0_level_0,name,나이
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,철수,40
1,영희,20
2,길동,21
3,명수,30
4,수민,31
5,동전,18


In [22]:
order1

Unnamed: 0_level_0,item,quantitiy
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,치약,1
1,칫솔,2
2,이어폰,1
2,헤드셋,1
2,수건,3
3,생수,2
3,수건,2
1,치약,3
4,생수,2
9,케이스,1


In [23]:
# on을 명시하지 않고 index를 merge 하고자 하는 경우
pd.merge(cust1, order1, left_index=True, right_index=True)
# inner와 동일

Unnamed: 0_level_0,name,나이,item,quantitiy
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,영희,20,치약,1
1,영희,20,칫솔,2
1,영희,20,치약,3
2,길동,21,이어폰,1
2,길동,21,헤드셋,1
2,길동,21,수건,3
3,명수,30,생수,2
3,명수,30,수건,2
4,수민,31,생수,2


### 연습문제 1) 가장 많이 팔린 아이템은?
- hint : merge, groupy, sort_values 활용
- 아이템이 중요함으로 orders DataFrame이 중요

In [25]:
# 1. customer, orders를 merge(how는?)
# 2. group_by 이욯하여 item을 grouping 후 sum
pd.merge(customer, orders, on='cust_id', how='right').groupby('item').sum()

Unnamed: 0_level_0,cust_id,나이,quantitiy
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
생수,7,61.0,4
수건,5,51.0,5
이어폰,2,21.0,1
치약,2,40.0,4
칫솔,1,20.0,2
케이스,9,0.0,1
헤드셋,2,21.0,1


In [28]:
# sorted_values 를 이용하여 quantity를 기준으로 sort, 내림차순
pd.merge(customer, orders, on='cust_id', how='right').groupby('item').sum().sort_values(by='quantity', ascending=False)

Unnamed: 0_level_0,cust_id,나이,quantity
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
수건,5,51.0,5
생수,7,61.0,4
치약,2,40.0,4
칫솔,1,20.0,2
이어폰,2,21.0,1
케이스,9,0.0,1
헤드셋,2,21.0,1


### 연습문제 2) 영희가 가장 많이 구매한 아이템
 - 1. 우선 사람과 아이템별로 sum을 해서 (groupby시 '이름'과 '아이템' 기준으로 합을 구하고)
 - 2. loc을 활용하여 (영희의 row의 quantitu만 확인)

In [29]:
pd.merge(customer, orders, on = 'cust_id', how='inner').groupby(['name','item']).sum().loc['영희']

Unnamed: 0_level_0,cust_id,나이,quantity
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
치약,2,40,4
칫솔,1,20,2


### 2-2. join 함수
- index가 있는 경우 (행 인덱스를 기준으로 결합)
- 내부적으로 pandas, merge 함수를 기반으로 만들어짐
- 기본적으로 index를 사용하여 left join
- 형태 : DataFrame1.join(DataFrame2, how='left')

In [31]:
cust1.join(order1, how='inner')

Unnamed: 0_level_0,name,나이,item,quantitiy
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,영희,20,치약,1
1,영희,20,칫솔,2
1,영희,20,치약,3
2,길동,21,이어폰,1
2,길동,21,헤드셋,1
2,길동,21,수건,3
3,명수,30,생수,2
3,명수,30,수건,2
4,수민,31,생수,2
