In [1]:
import pandas as pd
import numpy as np


In [2]:
def make_df(cols, ind):
    """q빠르게 DataFrame 생성"""
    data = {c: [str(c) + str(i) for i in ind]
               for c in cols}
    return pd.DataFrame(data, ind)

# DataFrame 예제
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [4]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]

np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
x = [[1, 2],
    [3, 4]]

np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [6]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [8]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

print(df1); print(df2); print(pd.concat([df1, df2]))



    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [9]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,A.1,B.1
1,A1,B1,,
2,A2,B2,,
3,,,A3,B3
4,,,A4,B4


In [10]:
x = make_df('AB', [0, 1])
y= make_df('AB', [2,3])

y.index = x.index # 복제 인덱스 생성

print(x); print(y); print(pd.concat([x,y]))

# 인덱스가 그대로 유지된다

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [12]:
# 인덱스 중복 체크

try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


In [20]:
x = make_df('AB', [4, 5])
y= make_df('AB', [8,9])
print(x); print(y)


    A   B
4  A4  B4
5  A5  B5
    A   B
8  A8  B8
9  A9  B9


In [21]:
# 인덱스 자체가 중요하지 않을때 무시하고 새로운 정수 인덱스 생성


pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A4,B4
1,A5,B5
2,A8,B8
3,A9,B9


In [22]:
x = make_df('AB', [0, 1])
y= make_df('AB', [2,3])

y.index = x.index # 복제 인덱스 생성

print(x); print(y); print(pd.concat([x,y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [23]:
pd.concat([x, y], keys=['x', 'y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


In [24]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])

print(df5); print(df6); print(pd.concat([df5, df6]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [26]:
print(df5); print(df6); print(pd.concat([df5, df6], join='inner'))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [27]:
# deprecated
print(df5); print(df6); print(pd.concat([df5, df6], join_axes=[df5.columns]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


TypeError: concat() got an unexpected keyword argument 'join_axes'

In [28]:
# append 함수 더 자주 사용됨

print(df1); print(df2); print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [None]:
# append 함수는 원래 객체를 변경하지 않는 대신 결합된 데이터를 가지는 새로운 객체를 만듬
# 따라서 새 인덱스와 데이터 버퍼를 생성하기 때문에 매우 효율적인 방식이라고 보기는 어렵다.
# append 연산을 여러 번 수행할 계획이라면 일반적으로 DataFrame의 목록을 만들고 그것을 concat() 함수에 한번에 전달 하는것이 더 바람직함
