# Concat

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Practics Data
df1 = pd.DataFrame({'A' : ['A0', 'A1', 'A2', 'A3'],
                    'B' : ['B0', 'B1', 'B2', 'B3'],
                    'C' : ['C0', 'C1', 'C2', 'C3'],
                    'D' : ['D0', 'D1', 'D2', 'D3']},
                    index = [0, 1, 2, 3])
df2 = pd.DataFrame({'A' : ['A4', 'A5', 'A6', 'A7'],
                    'B' : ['B4', 'B5', 'B6', 'B7'],
                    'C' : ['C4', 'C5', 'C6', 'C7'],
                    'D' : ['D4', 'D5', 'D6', 'D7']},
                    index = [4, 5, 6, 7])
df3 = pd.DataFrame({'A' : ['A8', 'A9', 'A10', 'A11'],
                    'B' : ['B8', 'B9', 'B10', 'B11'],
                    'C' : ['C8', 'C9', 'C10', 'C11'],
                    'D' : ['D8', 'D9', 'D10', 'D11']},
                    index = [8, 9, 10, 11])

In [3]:
# 열 방향 병합
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [4]:
# keys 옵션을 통해 MultiIndex 구성 가능
result = pd.concat([df1, df2, df3], keys=['X', 'Y', 'Z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
X,0,A0,B0,C0,D0
X,1,A1,B1,C1,D1
X,2,A2,B2,C2,D2
X,3,A3,B3,C3,D3
Y,4,A4,B4,C4,D4
Y,5,A5,B5,C5,D5
Y,6,A6,B6,C6,D6
Y,7,A7,B7,C7,D7
Z,8,A8,B8,C8,D8
Z,9,A9,B9,C9,D9


In [5]:
result.index

MultiIndex([('X',  0),
            ('X',  1),
            ('X',  2),
            ('X',  3),
            ('Y',  4),
            ('Y',  5),
            ('Y',  6),
            ('Y',  7),
            ('Z',  8),
            ('Z',  9),
            ('Z', 10),
            ('Z', 11)],
           )

In [6]:
# 1st Layer Index
result.index.get_level_values(0)

Index(['X', 'X', 'X', 'X', 'Y', 'Y', 'Y', 'Y', 'Z', 'Z', 'Z', 'Z'], dtype='object')

In [7]:
# 2nd Layer Index
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

In [8]:
df4 = pd.DataFrame({'B' : ['B2', 'B3', 'B6', 'B7'],
                    'D' : ['D2', 'D3', 'D6', 'D7'],
                    'F' : ['F2', 'F3', 'F6', 'F7']},
                    index = [2, 3, 6, 7])

In [9]:
result = pd.concat([df1, df4], axis = 1)
result
# 행 방향 Concat (axis = 1)
# concat() 은 index를 기준으로 병합하기 때문에 NaN 존재

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [10]:
result = pd.concat([df1, df4], axis = 0)
result
# 열 방향 Concat (axis = 0)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [11]:
result = pd.concat([df1, df4], axis = 1, join='inner')
result
# join 옵션 선택 가능

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [12]:
result = pd.concat([df1, df4], axis = 1).reindex(df1.index)
result
# .reindex 값으로 join할 인덱스 선택 가능

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [13]:
result = pd.concat([df1, df4], ignore_index=True)
result
# .reindex 값으로 join할 인덱스 선택 가능

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [14]:
result = pd.concat([df1, df4], ignore_index=True, axis = 1)
result
# ignore_index 옵션으로 인덱스 병합 무시 가능

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


# Merge

In [15]:
left = pd.DataFrame({'key' : ['K0', 'K4', 'K2','K3'],
                    'A' : ['A0', 'A1', 'A2', 'A3'],
                    'B' : ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key' : ['K0', 'K1', 'K2','K3'],
                    'C' : ['C0', 'C1', 'C2', 'C3'],
                    'D' : ['D0', 'D1', 'D2', 'D3']})

In [16]:
pd.merge(left, right, on='key')
# 'key'를 기준으로 inner join
# 두 데이터의 공통된 'key' 컬럼을 기준으로 merge 사용

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [17]:
pd.merge(left, right, how='left', on='key')
# how 옵션을 통해 'left' 데이터를 기준으로 join
# right의 값 중 key에 K4 값은 없으므로 NaN

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [18]:
pd.merge(left, right, how='right', on='key')
# how 옵션을 통해 'right' 데이터를 기준으로 join
# left의 값 중 key에 K1 값은 없으므로 NaN

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [19]:
pd.merge(left, right, how='outer', on='key')
# how='outer' 옵션을 통해 합집합과 같은 merge 가능
# 공통 요소가 아닌 데이터는 NaN 처리

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [20]:
pd.merge(left, right, how='inner', on='key')
# how='inner' 옵션을 통해 교집합과 같은 merge 가능
# NaN 값 제외한 merge 결과값 반환

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
