# Merging, Joining, Concatenate

In [15]:
# 샘플 데이터
import pandas as pd
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']},
                   index = [0,1,2,3])

In [16]:
df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7'],
                    'D':['D4','D5','D6','D7']},
                   index = [4,5,6,7])

In [17]:
df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11'],
                    'D':['D8','D9','D10','D11']},
                   index = [8,9,10,11])

## 1. Concatenation

#### concatenation은 데이터 프레임을 이어 붙이는 형식. 차원의 수가 일치해야 한다.
#### pd.concat 명령을 사용하고 이어붙일 데이터 프레임의 리스트를 전달

In [21]:
# 기본적으로 행을 기준으로 이어 붙임.
pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [20]:
# 축의 값을 지정
pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


## 2. Merge

#### merge는 sql의 join 명령과 유사하게 데이터 프레임을 합침

In [22]:
left = pd.DataFrame({'key':['k0','k1','k2','k3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})              

In [23]:
right = pd.DataFrame({'key':['k0','k1','k2','k3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']})    

 ### (1) inner merge

In [28]:
# on - 결합할 기준 컬럼 지정"
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [29]:
left = pd.DataFrame({'key1':['k0','k0','k1','k2'],
                     'key2':['k0','k1','k0','k1'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})       
right = pd.DataFrame({'key1':['k0','k1','k1','k3'],
                      'key2':['k0','k0','k0','k0'],
                         'C':['C0','C1','C2','C3'],
                         'D':['D0','D1','D2','D3']})    


In [33]:
#how 기본값은 inner임

pd.merge(left, right, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k1,k0,A2,B2,C1,D1
2,k1,k0,A2,B2,C2,D2


### (2) outer merge
#### 한쪽 데이터프레임을 기준으로 merge하는 작업

In [36]:
left

Unnamed: 0,key1,key2,A,B
0,k0,k0,A0,B0
1,k0,k1,A1,B1
2,k1,k0,A2,B2
3,k2,k1,A3,B3


In [37]:
right

Unnamed: 0,key1,key2,C,D
0,k0,k0,C0,D0
1,k1,k0,C1,D1
2,k1,k0,C2,D2
3,k3,k0,C3,D3


In [38]:
# sql의 fullouter 구조와 유사
pd.merge (left, right, how='outer' , on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k0,k1,A1,B1,,
2,k1,k0,A2,B2,C1,D1
3,k1,k0,A2,B2,C2,D2
4,k2,k1,A3,B3,,
5,k3,k0,,,C3,D3


In [39]:
# 기준 데이터프레임을 지정하여 outer merge
pd.merge (left, right, how='right' , on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k1,k0,A2,B2,C1,D1
2,k1,k0,A2,B2,C2,D2
3,k3,k0,,,C3,D3


In [40]:
pd.merge (left, right, how='left' , on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k0,k1,A1,B1,,
2,k1,k0,A2,B2,C1,D1
3,k1,k0,A2,B2,C2,D2
4,k2,k1,A3,B3,,


## 3.Join

#### join - 서로 다르게 인데스된 데이터프레임에 대해 결합하는 방법

In [44]:
left = pd.DataFrame({'A':['A0','A1','A2'],
                     'B':['B0','B1','B2']},
                   index = ['KO','K1','K2'])       
right = pd.DataFrame({'C':['C0','C2','C3'],
                       'D':['D0','D2','D3']},
                    index = ['K0','K2','K3'])    

In [47]:
# 왼쪽 데이터프레임키의 인덱스와 일치하는 값만 join수행
left.join(right)

Unnamed: 0,A,B,C,D
KO,A0,B0,,
K1,A1,B1,,
K2,A2,B2,C2,D2


In [50]:
# 왼쪽과 오른쪽 데이터프레임을 모두 가져옴.
left.join(right, how='outer')

Unnamed: 0,A,B,C,D
K0,,,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3
KO,A0,B0,,
