In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({
    '주문번호': ['A001', 'A002', 'A003'],
    '상품명': ['펜', '지우개', '노트북'],
    '수량': [10, 5, 3]
})
df1

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3


In [3]:
df2 = pd.DataFrame({
    '주문번호': ['A004', 'A005'],
    '상품명': ['스티커', '색연필'],
    '수량': [8, 2]
})
df2

Unnamed: 0,주문번호,상품명,수량
0,A004,스티커,8
1,A005,색연필,2


## .concat()
- 결합. 연결.
- 데이터프레임을 결합, 연결하는 함수
- default는 행 방향 연결, 인덱스 유지

In [5]:
df_all = pd.concat([df1, df2])
df_all

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3
0,A004,스티커,8
1,A005,색연필,2


### Parameters
- https://pandas.pydata.org/docs/reference/api/pandas.concat.html

#### `objs` : a sequence or mapping of Series or DataFrame objectsobjs
- 연결할 Series 또는 DataFrame 객체의 시퀀스나 매핑
- 즉, 연결할 데이터프레임들을 리스트 형태로 전달.

#### `axis` : {0/'index', 1/'columns'}, 기본값 0
- 연결할 축을 지정. 
    - 기본값 0 행 방향으로 데이터프레임을 연결
    - 1을 지정하면 열 방향으로 데이터프레임을 연결

#### `join` : {'inner', 'outer'}, 기본값 'outer'
-  다른 축(또는 축들)의 인덱스를 처리하는 방법을 지정
    - 'outer' : 기본값. 합집합을 사용하여 인덱스를 처리
    - 'inner' : 교집합을 사용하여 인덱스를 처리. 같은 데이터 확인
    - 'outer' : 합집합을 이용
- 관련 문서 : https://pandas.pydata.org/docs/user_guide/merging.html#concatenating-objects

#### `ignore_index` : bool, 기본값 False
- False : 기본값. 인덱스를 유지
- True : 연결된 결과의 인덱스를 재설정하여 0부터 순차적으로 라벨을 할당

#### `keys` : 시퀀스, 기본값 None
- 여러 개의 레벨이 있는 경우, 튜플로 구성된 시퀀스를 전달하여 계층적 인덱스를 생성

#### `levels` : 시퀀스의 리스트, 기본값 None
- MultiIndex를 구성할 때 사용할 특정 레벨 지정
- 기본값인 None으로, 데이터의 key들로 레벨을 유추한다.
- 특정 레벨을 명시적으로 지정하고자 할 때는 시퀀스의 리스트를 전달하여 해당 레벨의 고유한 값들을 지정.

#### `names` : 리스트, 기본값 None
- 리스트를 전달하여 각 레벨에 대한 이름을 지정할 수 있습니다
- 기본값인 None은 이름이 지정하지 않는다.

#### `verify_integrity` : bool, 기본값 False
- False : 기본값. 중복 확인을 수행하지 않음
- True : 새로운 연결된 축에 중복된 값이 있는지 확인. 

#### `sort` : bool, 기본값 False
- False : 기본값. 정렬하지 않는다.
- True : 연결하지 않는 축이 정렬되지 않은 경우 이를 정렬.

#### `copy` : bool, 기본값 True
- True : 기본값. 데이터를 복사.
- False : 데이터를 복사하지 않는다.

In [6]:
# 기본 concat
pd.concat([df1, df2])

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3
0,A004,스티커,8
1,A005,색연필,2


In [9]:
# axis=1 columns방향
pd.concat([df1, df2], axis=1)

Unnamed: 0,주문번호,상품명,수량,주문번호.1,상품명.1,수량.1
0,A001,펜,10,A004,스티커,8.0
1,A002,지우개,5,A005,색연필,2.0
2,A003,노트북,3,,,


연결시 데이터가 부재되는 공간은 NA.

## keys=

In [11]:
pd.concat([df1, df2], keys=['강남역', '양재역'])

Unnamed: 0,Unnamed: 1,주문번호,상품명,수량
강남역,0,A001,펜,10
강남역,1,A002,지우개,5
강남역,2,A003,노트북,3
양재역,0,A004,스티커,8
양재역,1,A005,색연필,2


In [12]:
pd.concat([df1, df2], keys=['강남역', '양재역'], axis=1)

Unnamed: 0_level_0,강남역,강남역,강남역,양재역,양재역,양재역
Unnamed: 0_level_1,주문번호,상품명,수량,주문번호,상품명,수량
0,A001,펜,10,A004,스티커,8.0
1,A002,지우개,5,A005,색연필,2.0
2,A003,노트북,3,,,


## ignore_index= 

In [13]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3
3,A004,스티커,8
4,A005,색연필,2


In [14]:
# keys로 입력해도 무시
pd.concat([df1, df2], ignore_index=True, keys=['강남역', '양재역'])

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3
3,A004,스티커,8
4,A005,색연필,2


## index나 columns이 불일치 할 때

In [15]:
df1 = pd.DataFrame({
    '주문번호': ['A001', 'A002', 'A003'],
    '상품명': ['펜', '지우개', '노트북'],
    '수량': [10, 5, 3]
})
df1

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3


In [16]:
df2 = pd.DataFrame({
    '주문번호': ['A004', 'A005'],
    '상품명': ['스티커', '색연필'],
    '수량': [8, 2]}, index=[4, 5])
df2

Unnamed: 0,주문번호,상품명,수량
4,A004,스티커,8
5,A005,색연필,2


In [17]:
# axis 0
pd.concat([df1, df2])

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3
4,A004,스티커,8
5,A005,색연필,2


In [18]:
# axis 1
pd.concat([df1, df2], axis=1)

Unnamed: 0,주문번호,상품명,수량,주문번호.1,상품명.1,수량.1
0,A001,펜,10.0,,,
1,A002,지우개,5.0,,,
2,A003,노트북,3.0,,,
4,,,,A004,스티커,8.0
5,,,,A005,색연필,2.0


In [19]:
# index와 columns가 다를 때
df1 = pd.DataFrame({
    '주문번호': ['A001', 'A002', 'A003'],
    '상품명': ['펜', '지우개', '노트북'],
    '수량': [10, 5, 3]
})
df1

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3


In [20]:
df2 = pd.DataFrame({
    '주문번호': ['A004', 'A005'],
    '제품명': ['스티커', '색연필'],
    '수량': [8, 2]}, index=[4, 5])
df2

Unnamed: 0,주문번호,제품명,수량
4,A004,스티커,8
5,A005,색연필,2


In [21]:
# axis 0
pd.concat([df1, df2])

Unnamed: 0,주문번호,상품명,수량,제품명
0,A001,펜,10,
1,A002,지우개,5,
2,A003,노트북,3,
4,A004,,8,스티커
5,A005,,2,색연필


In [22]:
# axis 1
pd.concat([df1, df2], axis=1)

Unnamed: 0,주문번호,상품명,수량,주문번호.1,제품명,수량.1
0,A001,펜,10.0,,,
1,A002,지우개,5.0,,,
2,A003,노트북,3.0,,,
4,,,,A004,스티커,8.0
5,,,,A005,색연필,2.0


## join=
- inner : .dropna()

In [23]:
# axis 0 + inner join
pd.concat([df1, df2], join='inner')

Unnamed: 0,주문번호,수량
0,A001,10
1,A002,5
2,A003,3
4,A004,8
5,A005,2


In [24]:
# axis 1 + inner join
pd.concat([df1, df2], join='inner', axis=1)

Unnamed: 0,주문번호,상품명,수량,주문번호.1,제품명,수량.1


In [25]:
# index를 겹치게, columns은 안겹치게
df1 = pd.DataFrame({
    '주문번호': ['A001', 'A002', 'A003'],
    '상품명': ['펜', '지우개', '노트북'],
    '수량': [10, 5, 3]
})
df1

Unnamed: 0,주문번호,상품명,수량
0,A001,펜,10
1,A002,지우개,5
2,A003,노트북,3


In [26]:
df2 = pd.DataFrame({
    '주문번호': ['A004', 'A005'],
    '제품명': ['스티커', '색연필'],
    '수량': [8, 2]}, index=[2, 3])
df2

Unnamed: 0,주문번호,제품명,수량
2,A004,스티커,8
3,A005,색연필,2


In [None]:
# axis 1 + inner join
