In [1]:
import pandas as pd
import numpy as np

In [9]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [6]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [2]:
x = [[1, 2],[3, 4]]
print(x)
np.concatenate([x, x], axis=1)

[[1, 2], [3, 4]]


array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [7]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2]) # pd.concat()은 Series나 DataFrame객체를 간단하게 연결할 때 사용할 수 있다

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [10]:
# pd.concat()을 이용하면  DataFrames 같은 고차원 객체를 연결할 수도 있다
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1);print( df2); print(pd.concat([df1, df2]))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [11]:
# DataFrame내에서 행 단위(즉, axis = 0 )로 일어난다. np.concatenate처럼 pd.concat도 어느 축을 따라 연결할 것인지 지정할 수 있다.
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4); print(pd.concat([df3, df4], axis=1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [12]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # 복제 인덱스 생성
print(x);print(y); print(pd.concat([x, y])) # Pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라도 인덱스를 유지한다는데 있다.
                                                                # 인덱스가 반복되는 것을 주목하자

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [13]:
#pd.concat()의 결과에서 인덱스가 겹치지 않는지 간단히 검증하고 싶으면 verify_integrity 프래그를 지정하면 된다
print(x)
print(y)
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


In [15]:
# 인덱스 자체가 중요하지 않은 경우에는 그냥 인덱스를 무시하고 싶을 것이다
print(x); print(y); print(pd.concat([x, y], ignore_index=True))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [19]:
#데이터 소스에 대한 레이블 지정하는데 keys옵션을 사용하는 것이다
print(x); print(y); print(pd.concat([x, y], keys=['x', 'y']))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


In [21]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6); print(pd.concat([df5, df6])) # 공유된 열이름으로 DataFrame을 연결했다
                                                                                #채울 값이 없는 항목은 기본적으로 NA값으로 채워진다

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [23]:
print(df5); print(df6); print(pd.concat([df5, df6], join='inner'))
# 조인은 입력 열의 합집합(join = ‘outer’)이지만, join = ‘inner’를 사용해 이를 열의 교집합으로 변경할 수 있다

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [52]:
#배열을 직접 연결하는 것이 매우 일반적이라서 Series와 DataFrame객체는 더 작은 키 입력으로 똑같은 작업을 수행할 수 있는 append메서드를 가지고 있다
print(df1); print(df2); print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
