In [2]:
import pandas as pd
import numpy as np

In [3]:
def make_df(cols, ind):
    """빠르게 DataFrame 생성하는 함수"""
    data = {c: [str(c) + str(i) for i in ind]
               for c in cols}
    return pd.DataFrame(data, ind)

make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


# 1. pd.concat을 이용한 간단한 연결

In [4]:
ser1 = pd.Series(['A', 'B', 'C'], index = [1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index = [4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [5]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2); print(pd.concat([df1, df2]))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [6]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4); print(pd.concat([df3, df4], axis = 1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


# 2. 인덱스 복제

In [12]:
"""
np.concatenate와 pd.concat의 중요한 차이는 Pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라고 인덱스를 유지한다는 것이다.
"""

x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index
print(x)
print()
print(y)
print()
print(pd.concat([x, y]))


"""
pd.concat()은 이 문제를 처리하는 몇 가지 방법을 제공한다.
"""

    A   B
0  A0  B0
1  A1  B1

    A   B
0  A2  B2
1  A3  B3

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


'\npd.concat()은 이 문제를 처리하는 몇 가지 방법을 제공한다.\n'

In [8]:
try:
    pd.concat([x,y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: [0, 1]


In [11]:
"""
1. 인덱스를 무시한다.
"""

print(x)
print()
print(y)
print()
print(pd.concat([x,y], ignore_index = True))

    A   B
0  A0  B0
1  A1  B1

    A   B
0  A2  B2
1  A3  B3

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [14]:
"""
2. 다중 인덱스 키를 추가한다.
"""

print(x)
print()
print(y)
print()
print(pd.concat([x,y], keys=['x', 'y']))

    A   B
0  A0  B0
1  A1  B1

    A   B
0  A2  B2
1  A3  B3

      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


# 3. 조인을 이용한 연결

In [15]:
df5 = make_df('ABC', [1,2])
df6 = make_df('BCD', [3,4])

print(df5)
print()
print(df6)
print()
print(pd.concat([df5, df6]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2

    B   C   D
3  B3  C3  D3
4  B4  C4  D4

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [16]:
print(df5)
print()
print(df6)
print()
print(pd.concat([df5, df6], join = 'inner'))

"""
join = 'inner' 를 사용하면 열의 교집합만 합쳐준다.
"""

    A   B   C
1  A1  B1  C1
2  A2  B2  C2

    B   C   D
3  B3  C3  D3
4  B4  C4  D4

    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [17]:
print(df5)
print()
print(df6)
print()
print(pd.concat([df5, df6], join_axes = [df5.columns]))

"""
join_axes를 사용해 합쳐질 열을 직접 선언할 수도 있다.
"""

    A   B   C
1  A1  B1  C1
2  A2  B2  C2

    B   C   D
3  B3  C3  D3
4  B4  C4  D4

     A   B   C
1   A1  B1  C1
2   A2  B2  C2
3  NaN  B3  C3
4  NaN  B4  C4


# 4. append() 메서드

In [18]:
print(df1)
print()
print(df2)
print()
print(df1.append(df2))

"""
append 연산을 여러 번 수행할 생각이라면 일반적으로 DataFrame의 목록을 만들고 그것들을 concat() 함수에 한 번에 전달하는 것이 더 바람직하다.
"""

    A   B
1  A1  B1
2  A2  B2

    A   B
3  A3  B3
4  A4  B4

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
