# concat 명령을 사용한 데이터 연결
#### pd.concat(objs, # Series, DataFrame, Panel object
#### axis=0, # 0: 위+아래로 합치기, 1: 왼쪽+오른쪽으로 합치기
#### join='outer', # 'outer': 합집합(union), 'inner': 교집합(intersection)
#### ignore_index=False, # False: 기존 index 유지, True: 기존 index 무시
#### keys=None, # 계층적 index 사용하려면 keys 튜플 입력)
##### - concat 명령을 사용하면 기준열 없이 데이터를 연결한다.
##### - 기본은 위 아래로 데이터 행 결합(row bind) axis 속성을 1로 설정하면 열 결합(column bind)을 수행한다
##### - 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

# 1. 행 병합
### axis = 0 (기본 값이라 따로 설정하지 않아도 됨)

In [4]:
# 모든 변수 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
import numpy as np

In [5]:
# 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']},
 index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
 'B': ['B4', 'B5', 'B6', 'B7'],
 'E': ['C4', 'C5', 'C6', 'C7'],
 'F': ['D4', 'D5', 'D6', 'D7']},
 index=[0, 1, 2, 3])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
 'B': ['B8', 'B9', 'B10', 'B11'],
 'C': ['C8', 'C9', 'C10', 'C11'],
 'O': ['D8', 'D9', 'D10', 'D11']},
 index=[1,2,3,4])
df1
df2
df3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Unnamed: 0,A,B,E,F
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


Unnamed: 0,A,B,C,O
1,A8,B8,C8,D8
2,A9,B9,C9,D9
3,A10,B10,C10,D10
4,A11,B11,C11,D11


In [9]:
# concat() : 위 아래로 단순 병합
result = pd.concat([df1, df2, df3])
result
result = pd.concat([df1, df2, df3], ignore_index = True)
result

# 인덱스가 중복되므로 멀티인덱스를 생성할 수도 있음
result=pd.concat([df1, df2, df3],keys=['x','y','z'])
result



Unnamed: 0,A,B,C,D,E,F,O
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,,,
3,A3,B3,C3,D3,,,
0,A4,B4,,,C4,D4,
1,A5,B5,,,C5,D5,
2,A6,B6,,,C6,D6,
3,A7,B7,,,C7,D7,
1,A8,B8,C8,,,,D8
2,A9,B9,C9,,,,D9


Unnamed: 0,A,B,C,D,E,F,O
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,,,
3,A3,B3,C3,D3,,,
4,A4,B4,,,C4,D4,
5,A5,B5,,,C5,D5,
6,A6,B6,,,C6,D6,
7,A7,B7,,,C7,D7,
8,A8,B8,C8,,,,D8
9,A9,B9,C9,,,,D9


Unnamed: 0,Unnamed: 1,A,B,C,D,E,F,O
x,0,A0,B0,C0,D0,,,
x,1,A1,B1,C1,D1,,,
x,2,A2,B2,C2,D2,,,
x,3,A3,B3,C3,D3,,,
y,0,A4,B4,,,C4,D4,
y,1,A5,B5,,,C5,D5,
y,2,A6,B6,,,C6,D6,
y,3,A7,B7,,,C7,D7,
z,1,A8,B8,C8,,,,D8
z,2,A9,B9,C9,,,,D9


In [11]:
# 3개의 데이터프레임에서 공통적으로 나타나는 열만 표현
# join='inner'
result = pd.concat([df1, df2, df3], join='inner',keys=['x','y','z'])
result

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
x,2,A2,B2
x,3,A3,B3
y,0,A4,B4
y,1,A5,B5
y,2,A6,B6
y,3,A7,B7
z,1,A8,B8
z,2,A9,B9


In [13]:
# 멀티인덱스 없이 기존 인덱스 무시하고 새로 인덱스 설정
result = pd.concat([df1, df2, df3], join='inner',ignore_index=True)
result

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
5,A5,B5
6,A6,B6
7,A7,B7
8,A8,B8
9,A9,B9


# 2. 열 병합
### concat을 이용한 열 병합
##### - axis=1 설정
##### - pd.concat([df1,df2],axis=1,join='inner/outer')
##### - 데이터프레임들의 열을 결합한다
##### - 모든행을 표시하고 해당 행의 데이터가 없는 열의 원소는 NaN으로 표시된다 : 기본설정(join ='outer')
##### - 병합하는 데이터프레임에 중복되는 인덱스의 행만 표시한다 : join='inner'

In [15]:
# df 생성
df1=pd.DataFrame(
 np.arange(6).reshape(3,2),
 index=['a','b','c'],
 columns=['데이터1','데이터2']
)
df1
df2=pd.DataFrame(
 5+np.arange(4).reshape(2,2),
 index=['a','c'],
 columns=['데이터2','데이터4']
)
df2

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


Unnamed: 0,데이터2,데이터4
a,5,6
c,7,8


In [16]:
# 열방향 결합
# join 방식 생략 : outer
pd.concat([df1, df2],axis=1)

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [20]:
# 행방향 결합(axis=0 생략 가능)
pd.concat([df1, df2],axis=0)

Unnamed: 0,데이터1,데이터2,데이터4
a,0.0,1,
b,2.0,3,
c,4.0,5,
a,,5,6.0
c,,7,8.0


In [21]:
# 열방향 결합
# inner로 설정하면 공통 행만 출력 됨
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5,6
c,4,5,7,8


In [22]:
test = pd.concat([df1,df2], axis=1, join='inner')
test.데이터2

Unnamed: 0,데이터2,데이터2.1
a,1,5
c,5,7


In [23]:
# 키 설정 가능
test = pd.concat([df1,df2], axis=1, join='inner',keys=['x','y'])
test

# 키 설정 후 원하는 데이터만 보기
test.x

Unnamed: 0_level_0,x,x,y,y
Unnamed: 0_level_1,데이터1,데이터2,데이터2,데이터4
a,0,1,5,6
c,4,5,7,8


Unnamed: 0,데이터1,데이터2
a,0,1
c,4,5
