# 1. DataFrame 병합하기

In [2]:
import pandas as pd

### 데이터프레임 생성

In [19]:
df1 = pd.DataFrame({'A' : ['A0', 'A1', 'A2', 'A3'],
                   'B' : ['B0', 'B1', 'B2', 'B3'],
                   'C' : ['C0', 'C1', 'C2', 'C3'],
                   'D' : ['D0', 'D1', 'D2', 'D3']},
                  index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A' : ['A4', 'A5', 'A6', 'A7'],
                   'B' : ['B4', 'B5', 'B6', 'B7'],
                   'C' : ['C4', 'C5', 'C6', 'C7'],
                   'D' : ['D4', 'D5', 'D6', 'D7']},
                  index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A' : ['A8', 'A9', 'A10', 'A11'],
                   'B' : ['B8', 'B9', 'B10', 'B11'],
                   'C' : ['C8', 'C9', 'C10', 'C11'],
                   'D' : ['D8', 'D9', 'D10', 'D11']},
                  index=[8, 9, 10, 11])

### 1.1 concat명령 : 데이터를 열 방향으로 단순 병합

In [21]:
# 단순 병합
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [22]:
# 다중index(level) 생성 병합
result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [32]:
# level 확인
result.index.get_level_values(0)
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

### df4생성 후 df1과 병합

In [44]:
df4 = pd.DataFrame({'B' : ['B2', 'B3', 'B6', 'B7'],
                   'D' : ['D2', 'D3', 'D6', 'D7'],
                   'F' : ['F2', 'F3', 'F6', 'F7']},
                  index=[2, 3, 6, 7])
result = pd.concat([df1, df4], axis=1) # axis=1은 오른쪽으로 병합하겠다는 의미 (<->axis=0)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [45]:
# join='inner' : 공통된 index로 합치고, 공통되지 않은 index의 데이터를 버림
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [46]:
# join_axes=[df1.index] : df1의 index에 맞춰서 병합
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [47]:
# ignore_index=True : 두 df의 index를 무시하고 새로운 index를 생성
result = pd.concat([df1, df4], ignore_index=True)
result

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


### 데이터 프레임 생성

In [50]:
left = pd.DataFrame({'key' : ['K0', 'K4', 'K2', 'K3'],
                    'A' : ['A0', 'A1', 'A2', 'A3'],
                    'B' : ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key' : ['K0', 'K1', 'K2', 'K3'],
                     'C' : ['C0', 'C1', 'C2', 'C3'],
                     'D' : ['D0', 'D1', 'D2', 'D3']})

### 1.2 merge 명령

In [52]:
# 'key'를 기준으로 두 데이터프레임을 병합, 공통된 key에 대해서만 병합한다.
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [55]:
# 한쪽 데이터를 기준으로 key를 잡아서 병합
pd.merge(left, right, how='left', on='key')
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


In [56]:
# 병합한 모든 데이터의 결과
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [57]:
# 병합 후 공통된 요소만 출력
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
