In [2]:
# merge 명령을 이용한 데이터프레임 병합
# merge 명령은 두 데이터프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다.
# 이 때 기준이 되는 열, 행의 데이터를 키(Key)라 한다.
import pandas as pd
import numpy as np

In [3]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호','이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [4]:
df2 = pd.DataFrame({
    "고객번호": [1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호','금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [5]:
# merge 명령으로 위의 데이터프레임 df1, df2를 합치면 공통 열인 고객번호 열을 기준으로 데이터를
# 찾아서 합친다. 이때 기본적으로 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여주는
# inner join방식을 사용한다.
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [6]:
# outer join방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [7]:
# left, right 방식은 각각 첫번째, 혹은 두 번째 데이터프레임의 키 값을 모두 보여준다.
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [8]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


In [9]:
# 만약 테이블에 키 값이 같은  데이터가 여러 개 있는 경우에는 있을 수 있는 모든 경우의 수를 
# 따져서 조합을 만들어낸다.
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica','virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
}, columns=['품종','꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [10]:
df2 = pd.DataFrame({
    '품종':['setosa', 'virginica', 'virginica','versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]}, 
columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [11]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5
