In [1]:
# 데이터 결합
# 머신러닝, 통계분석 툴을 사용할 때 요구되는 데이터 형식이 있음
# 요구되는 데이터 형식으로 변환시 데이터 "결합"이 사용될 수 있음.
# pd.concat()
# 결합하려는 데이터프레임의 행과 열의 개수가 맞지 않아도 NaN값이 채워짐

In [15]:
import pandas as pd
customer1 = pd.DataFrame({'id' : ['c01','c02','c03','c04'],
                           'last_name' : ["Lee", "Kim","Choi", "Park"]},
                            index = [0,1,2,3]
                        )

customer2 = pd.DataFrame({'Id' : ['c05','c06','c07'],
                           'Last_name' : ["Lee", "Bae","Kim"],
                            'age' : [23,34,45]},
                            index = [0,1,2])

In [16]:
customer1

Unnamed: 0,id,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park


In [17]:
customer2

Unnamed: 0,Id,Last_name,age
0,c05,Lee,23
1,c06,Bae,34
2,c07,Kim,45


In [18]:
pd.concat([customer1, customer2]) # 컬럼이름이 동일하지 않아, 열로 추가

Unnamed: 0,id,last_name,Id,Last_name,age
0,c01,Lee,,,
1,c02,Kim,,,
2,c03,Choi,,,
3,c04,Park,,,
0,,,c05,Lee,23.0
1,,,c06,Bae,34.0
2,,,c07,Kim,45.0


In [19]:
customer2.columns = ['id','last_name','age']

In [26]:
# 행 인덱스와 열 인덱스가 다른 데이터 프레임 합치기
# default : axis = 0 적용되어 행방향으로 데이터 프레임이 붙는다.
# ignore_index = True : 인덱스 재배열
# customer = pd.concat([customer1, customer2]).reset_index(drop = True)
customer = pd.concat([customer1, customer2], ignore_index = True)

In [27]:
customer

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
4,c05,Lee,23.0
5,c06,Bae,34.0
6,c07,Kim,45.0


In [35]:
# 열겹합
customer_col = pd.concat([customer1, customer2], axis = 1)


In [36]:
customer_col

Unnamed: 0,id,last_name,id.1,last_name.1,age
0,c01,Lee,c05,Lee,23.0
1,c02,Kim,c06,Bae,34.0
2,c03,Choi,c07,Kim,45.0
3,c04,Park,,,


In [37]:
customer_col = pd.concat([customer1, customer2], axis = 1, ignore_index = True) # 컬럼의 인덱스를 무시한다.

In [39]:
customer_col

Unnamed: 0,0,1,2,3,4
0,c01,Lee,c05,Lee,23.0
1,c02,Kim,c06,Bae,34.0
2,c03,Choi,c07,Kim,45.0
3,c04,Park,,,


In [41]:
# 시리즈를 데이터 프레임에 붙이기 : pd.concat()
# 시리즈 객체를 생성할 때 name은, 이 시리즈가 데이터프레임이 결합되었을 때의 열이름을 나타냄
grade = pd.Series(['A','B','C','A','D','C','B'], name = 'grade')
grade2 = pd.Series(['A','B','C','A','D','C'], name = 'grade')

In [43]:
result3 = pd.concat([grade, grade2], axis = 1)

In [44]:
result3

Unnamed: 0,grade,grade.1
0,A,A
1,B,B
2,C,C
3,A,A
4,D,D
5,C,C
6,B,


In [48]:
# 시리즈끼리 붙이기
sr1 = pd.Series(['e0','e1','e2','e3'], name = 'e')
sr2 = pd.Series(['g0','g1','g2','g3'], name = 'g')

# 열방향으로 시리즈를 연결하면 데이터프레임
result4 = pd.concat([sr1, sr2], axis = 1)
print(result4)
print(type(result4))

# 행방향으로 시리즈를 연결하면 시리즈 타입 유지
result5 = pd.concat([sr1, sr2], ignore_index = True)
print(result5)
print(type(result5))

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3
<class 'pandas.core.frame.DataFrame'>
0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object
<class 'pandas.core.series.Series'>


In [49]:
# merge
# 두 데이터프레임에 존재하는 고유값(key)를 기준으로 병합
# pd.merge(df_left, df_right, how = 'inner', on = None)이 default
# how에 들어갈 수 있는 매개변수 : 'inner', 'outer', 'left', 'right'

In [53]:
id_name = pd.DataFrame({'ID' : ['c01','c02','c03','c04', 'c05', 'c06', 'c07'],
                         'name' : ['Lee', 'Kim', 'Choi', 'Park', 'Lim', 'Bae', 'Kim']})

id_number = pd.DataFrame({'iD' : ['c03','c04','c05','c06', 'c07', 'c08', 'c09'],
                         'number' : [3,1,0,7,3,4,1]})

In [54]:
id_name

Unnamed: 0,ID,name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park
4,c05,Lim
5,c06,Bae
6,c07,Kim


In [55]:
id_number

Unnamed: 0,iD,number
0,c03,3
1,c04,1
2,c05,0
3,c06,7
4,c07,3
5,c08,4
6,c09,1


In [58]:
# 컬럼명 동일
id_number.columns = ['ID', 'number']

In [59]:
id_number

Unnamed: 0,ID,number
0,c03,3
1,c04,1
2,c05,0
3,c06,7
4,c07,3
5,c08,4
6,c09,1


In [60]:
pd.concat([id_name, id_number], axis = 1)

Unnamed: 0,ID,name,ID.1,number
0,c01,Lee,c03,3
1,c02,Kim,c04,1
2,c03,Choi,c05,0
3,c04,Park,c06,7
4,c05,Lim,c07,3
5,c06,Bae,c08,4
6,c07,Kim,c09,1


In [61]:
pd.merge(id_name, id_number, how = 'left', on ='ID')

Unnamed: 0,ID,name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0


In [62]:
pd.merge(id_name, id_number, how = 'right', on ='ID')

Unnamed: 0,ID,name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3
5,c08,,4
6,c09,,1


In [63]:
pd.merge(id_name, id_number, how = 'inner', on ='ID')

Unnamed: 0,ID,name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3


In [64]:
pd.merge(id_name, id_number, how = 'outer', on ='ID')

Unnamed: 0,ID,name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0
7,c08,,4.0
8,c09,,1.0
