### concat: 결합

In [1]:
import pandas as pd

In [2]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])

In [3]:
pd.concat?

In [4]:
pd.concat([s1,s2]) #컬럼 기준이기 때문에 밑으로 붙여줌

0    a
1    b
0    c
1    d
dtype: object

In [5]:
pd.concat([s1,s2], ignore_index = True) #기존 인덱스 무시하고 순번대로 나오게함

0    a
1    b
2    c
3    d
dtype: object

In [7]:
# ignore_index=True 와 keys는 같이 쓸 수 없음
# keys : 멀티 인덱스(인덱스 앞에 또 인덱스 추가)

pd.concat([s1,s2], keys=['s1','s2'])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [8]:
# names = 상단에 컬럼명 추가할 때

pd.concat([s1,s2], keys=['s1','s2'], names=['Series name', 'Row id'])

Series name  Row id
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

In [10]:
#데이터 프레임에서 concat 사용하기
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [11]:
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [12]:
pd.concat([df1, df2]) #밑으로 데이터 추가

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [13]:
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal'])
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [15]:
pd.concat([df1, df3], sort=True) #컬럼명 기준으로 보여줌

Unnamed: 0,animal,letter,number
0,,a,1
1,,b,2
0,cat,c,3
1,dog,d,4


In [16]:
pd.concat([df1, df3], join="inner") #데이터 있는 기준으로 조인

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [17]:
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name'])
df4

Unnamed: 0,animal,name
0,bird,polly
1,monkey,george


In [19]:
pd.concat([df1, df4], axis=1)

Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


In [20]:
df5 = pd.DataFrame([1], index=['a'])
df5

Unnamed: 0,0
a,1


In [21]:
df6 = pd.DataFrame([2], index=['a'])
df6

Unnamed: 0,0
a,2


In [24]:
pd.concat([df5, df6], verify_integrity=True) #verify_integrity=True 검증

ValueError: Indexes have overlapping values: Index(['a'], dtype='object')

In [26]:
data1 = {
    "name" : ["John", "Nate", "Fred"],
    "job" : ["teacher", "student", "developer"]
}
data2 = {
    "name" : ["Ed", "Jack", "Ted"],
    "job" : ["dentist", "farmer", "designer"]
}
data3 = {
    "age" : [25,35,45],
    "contury" : ["U.S", "U.K", "Korea"]
}
data4 = {
    "name" : ["Ed", "Jack", "Ted"],
    "job" : ["dentist", "farmer", "designer"]
}

In [39]:
# dict 구조를 DataFrame 으로 생성하기
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)
df4 = pd.DataFrame(data4)

In [40]:
df1

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer


In [41]:
df2

Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [42]:
df3

Unnamed: 0,age,contury
0,25,U.S
1,35,U.K
2,45,Korea


In [43]:
df4

Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [44]:
# data1과 data2 를 같은 열끼리 합치기
pd.concat([df1, df2])

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [45]:
# data1과 data2를 함칠때 인덱스를 새로 지정하기

pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


In [49]:
# data3과 data4를 같은 행끼리 합치기

pd.concat([df3,df4], axis=1)

Unnamed: 0,age,contury,name,job
0,25,U.S,Ed,dentist
1,35,U.K,Jack,farmer
2,45,Korea,Ted,designer


In [50]:
# data3과 data4를 함칠 때 새로운 인덱스를 지정하기

pd.concat([df3, df4], ignore_index=True)

Unnamed: 0,age,contury,name,job
0,25.0,U.S,,
1,35.0,U.K,,
2,45.0,Korea,,
3,,,Ed,dentist
4,,,Jack,farmer
5,,,Ted,designer
