In [1]:
import pandas as pd

# CONCAT

In [2]:
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

In [3]:
df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
}, index=[4, 5, 6, 7])

In [4]:
df3 = pd.DataFrame({
    'A': ['A8', 'A9', 'A10', 'A11'],
    'B': ['B8', 'B9', 'B10', 'B11'],
    'C': ['C8', 'C9', 'C10', 'C11'],
    'D': ['D8', 'D9', 'D10', 'D11']
}, index=[8, 9, 10, 11])

----
데이터를 열 방향으로 단순하게 합치는 것은 **concat** 명령이다. 

In [5]:
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


`ignore_index=True` 옵션을 사용하면 열 방향으로 합치면서 각 DataFrame의 index를 무시하고 합친 후 다시 index를 부여한다.

In [16]:
result = pd.concat([df1, df4], sort=False, ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


----
`keys` 옵션으로 다중 Index를 이용해서 Level을 형성하도록 만들 수 있다. 

In [6]:
result = pd.concat([df1, df2, df3], keys=['A', 'B', 'C'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
A,0,A0,B0,C0,D0
A,1,A1,B1,C1,D1
A,2,A2,B2,C2,D2
A,3,A3,B3,C3,D3
B,4,A4,B4,C4,D4
B,5,A5,B5,C5,D5
B,6,A6,B6,C6,D6
B,7,A7,B7,C7,D7
C,8,A8,B8,C8,D8
C,9,A9,B9,C9,D9


In [7]:
# 다중 Index 확인하기 
result.index

MultiIndex(levels=[['A', 'B', 'C'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]],
           codes=[[0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

----

In [8]:
df4 = pd.DataFrame({
    'B': ['B2', 'B3', 'B6', 'B7'],
    'D': ['D2', 'D3', 'D6', 'D7'],
    'F': ['F2', 'F3', 'F6', 'F7']
}, index=[2, 3, 6, 7])

In [9]:
result = pd.concat([df1, df4], axis=1)

In [10]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


`axis=1` 옵션을 주게 되면, 컬럼을 축으로 합치게 된다.  
위와 같이 나오는 이유는 `concat`은 INDEX를 기준으로 합치기 때문이다.  
그래서 값을 가질 수 없는 곳은 `NaN`으로 표시된다.  
공통된 INDEX가 있는 행만 남기고 버리기 위해서는 `join='inner'` 옵션을 추가한다.

In [11]:
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


df1의 INDEX에 맞추도록 하려면 `join_axes=[df1.index]` 옵션을 사용한다.

In [13]:
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


# MERGE

In [22]:
left = pd.DataFrame({
    'key': ['K0', 'K4', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

In [23]:
right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

두 데이터에 공통으로 있는 key를 기준으로 merge 명령을 통해 합친다.

In [26]:
result = pd.merge(left, right, on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


어느쪽 DataFrame을 기준으로 병합할지 결정할 수 있다.

In [27]:
result = pd.merge(left, right, how='left', on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [28]:
result = pd.merge(left, right, how='right', on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


합집합을 만드는 것처럼 병합하려면 `how='outer'` 옵션을 사용한다.

In [29]:
result = pd.merge(left, right, how='outer', on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


교집합을 만드는 것철머 공통된 요소로만 병합하려면 `how='inner'`를 사용한다.

In [31]:
result = pd.merge(left, right, how='inner', on='key')
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
