# Concat
pandas의 concat 함수는 여러 DataFrame이나 Series 객체를 하나로 이어 붙이는(concatenate) 데 사용되는 함수입니다. 이 함수는 특히 데이터 전처리 및 분석 과정에서 여러 개의 데이터를 하나의 객체로 합쳐야 할 때 유용하게 사용됩니다.

* 기본적인 행 방향 결합 (axis=0)

In [23]:
import pandas as pd

df1 = pd.read_csv("concat_1.csv")
df2 = pd.read_csv("concat_2.csv")
df3 = pd.read_csv("concat_3.csv")

In [24]:
df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [25]:
df2

Unnamed: 0,A,B,C,D
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [26]:
df3

Unnamed: 0,A,B,C,D
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


In [27]:
df = pd.concat([df1, df2, df3])
df

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [28]:
df.loc[0]

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
0,a4,b4,c4,d4
0,a8,b8,c8,d8


In [29]:
# ignore_index=True: 새로운 연속된 인덱스를 부여.
df = pd.concat([df1, df2, df3], ignore_index = True)
df

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [30]:
df2.columns = ['A', 'C', 'E', 'F']

# 같은 열이 없을때는, 새롭게 생성한 후 누락값으로 대체해서 병합.
df = pd.concat([df1, df2, df3])
df

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,c0,d0,,
1,a1,b1,c1,d1,,
2,a2,b2,c2,d2,,
3,a3,b3,c3,d3,,
0,a4,,b4,,c4,d4
1,a5,,b5,,c5,d5
2,a6,,b6,,c6,d6
3,a7,,b7,,c7,d7
0,a8,b8,c8,d8,,
1,a9,b9,c9,d9,,


In [36]:
# join='inner': 공통된 컬럼(또는 인덱스)만 결합. (기본은: outer)
pd.concat([df1, df2, df3], join = "inner")

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a4,b4
1,a5,b5
2,a6,b6
3,a7,b7
0,a8,c8
1,a9,c9


* 열 방향 결합 (axis=1)

In [12]:
df = pd.concat([df1, df2, df3], axis = 1)
df

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [13]:
df['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [22]:
df2.index = [0, 2, 4, 6]

# 없는 행이 있다면 새롭게 생성한 후, 누락값으로 채운 후 병합.
df = pd.concat([df1, df2, df3], axis = 1)
df

Unnamed: 0,A,B,C,D,A.1,C.1,E,F,A.2,B.1,C.2,D.1
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,a9,b9,c9,d9
2,a2,b2,c2,d2,a5,b5,c5,d5,a10,b10,c10,d10
3,a3,b3,c3,d3,,,,,a11,b11,c11,d11
4,,,,,a6,b6,c6,d6,,,,
6,,,,,a7,b7,c7,d7,,,,


In [9]:
pd.concat([df1, df2, df3], axis = 1, ignore_index = True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


* keys를 이용한 계층적 인덱스 생성

In [14]:
df = pd.concat([df1, df2], keys=['df1', 'df2'])
df

Unnamed: 0,Unnamed: 1,A,B,C,D
df1,0,a0,b0,c0,d0
df1,1,a1,b1,c1,d1
df1,2,a2,b2,c2,d2
df1,3,a3,b3,c3,d3
df2,0,a4,b4,c4,d4
df2,1,a5,b5,c5,d5
df2,2,a6,b6,c6,d6
df2,3,a7,b7,c7,d7


## 연습문제
1. 이 두 DataFrame을 행 방향으로(concatenate along rows) 합쳐보세요.

In [1]:
import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1'],
    'B': ['B0', 'B1']
})

df2 = pd.DataFrame({
    'A': ['A2', 'A3'],
    'B': ['B2', 'B3']
})

pd.concat([df1,df2])

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


2. 두 DataFrame을 열 방향(axis=1)으로 합쳐서 하나의 DataFrame을 만들어보세요.

In [3]:
df1 = pd.DataFrame({
    'A': ['A0', 'A1'],
    'B': ['B0', 'B1']
})

df3 = pd.DataFrame({
    'C': ['C0', 'C1']
})

pd.concat([df1,df3], axis = 1)

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1


3. df1과 df2를 합칠 때 기존의 인덱스를 무시하고, 새로운 연속된 인덱스를 부여하여 합쳐보세요.

In [4]:
pd.concat([df1,df2], ignore_index = True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


4. df1과 df2를 합칠 때, keys 옵션을 사용하여 각 DataFrame의 출처(예: 'df1', 'df2')를 표시하는 계층적 인덱스를 만들어보세요.

In [5]:
pd.concat([df1,df2], keys = ["df1","df2"])

Unnamed: 0,Unnamed: 1,A,B
df1,0,A0,B0
df1,1,A1,B1
df2,0,A2,B2
df2,1,A3,B3


5. 아래와 같이 컬럼이 다른 두 DataFrame df4와 df5가 있습니다. pd.concat을 사용하여 공통된 컬럼만 포함하는 DataFrame을 만들어보세요.

In [6]:
df4 = pd.DataFrame({
    'A': ['A0', 'A1'],
    'B': ['B0', 'B1']
})

df5 = pd.DataFrame({
    'B': ['B2', 'B3'],
    'C': ['C2', 'C3']
})

pd.concat([df4,df5], join = "inner")

Unnamed: 0,B
0,B0
1,B1
0,B2
1,B3


6. 위의 df4와 df5를 대상으로, join='outer' 옵션을 사용하여 합친 DataFrame을 만들어보세요.

In [7]:
pd.concat([df4,df5], join = "outer")      # join = "outer" 굳이 안적어도 default로 outer 적용됨

Unnamed: 0,A,B,C
0,A0,B0,
1,A1,B1,
0,,B2,C2
1,,B3,C3


7. 하나의 DataFrame df1과 Series s1이 있습니다. 이들을 열 방향으로 결합하여 하나의 DataFrame을 만들어보세요.

In [8]:
df1 = pd.DataFrame({
    'A': ['A0', 'A1'],
    'B': ['B0', 'B1']
})

s1 = pd.Series(['C0', 'C1'], name='C')

pd.concat([df1, s1], axis = 1)

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1


8. 두 개의 DataFrame df1과 df2를 df1는 "first" Key값으로, df2는 "second" Key값으로 설정한 딕셔너리를 만든 후, concat() 함수를 활용해 병합해보세요. 

In [20]:
# 못품 
dic = {"first" : df1, "second" : df2}     # 사실상 이렇게는 많이 하지 않음
pd.concat(dic)

Unnamed: 0,Unnamed: 1,A,B
first,0,A0,B0
first,1,A1,B1
second,0,A2,B2
second,1,A3,B3


9. 이들을 리스트로 전달하여 하나의 DataFrame으로 합치세요. 합친 결과의 shape, 인덱스, 컬럼 정보를 출력하여 확인해 보세요.

In [21]:
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
df3 = pd.DataFrame({'A': ['A4', 'A5'], 'B': ['B4', 'B5']})

A = pd.concat([df1,df2,df3])

A.shape, A.index, A.columns

((6, 2),
 Index([0, 1, 0, 1, 0, 1], dtype='int64'),
 Index(['A', 'B'], dtype='object'))