## 두 DataFrame Merge

In [1]:
import numpy as np
import pandas as pd

In [10]:
# 두 DataFrame에서 공통열(PK, FK)이 필요
df1 = pd.DataFrame(
    {'번호' : [10, 20, 30, 40, 50, 60, 70],
     '이름' : ['홍길동', '임꺽정', '전우치', '손오공', '저팔계', '사오정', '삼장법사']},
    
)
df1

Unnamed: 0,번호,이름
0,10,홍길동
1,20,임꺽정
2,30,전우치
3,40,손오공
4,50,저팔계
5,60,사오정
6,70,삼장법사


In [11]:
df2 = pd.DataFrame(
    {'번호' : [10, 10, 20, 40, 50, 40, 40, 70, 80],
     '금액' : [1000, 2500, 4500, 3400, 1100, 230, 3400, 3550, 3511] }
)
df2

Unnamed: 0,번호,금액
0,10,1000
1,10,2500
2,20,4500
3,40,3400
4,50,1100
5,40,230
6,40,3400
7,70,3550
8,80,3511


In [12]:
pd.merge(df1, df2)  # inner join

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000
1,10,홍길동,2500
2,20,임꺽정,4500
3,40,손오공,3400
4,40,손오공,230
5,40,손오공,3400
6,50,저팔계,1100
7,70,삼장법사,3550


In [14]:
pd.merge(df1, df2, how='outer') #

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000.0
1,10,홍길동,2500.0
2,20,임꺽정,4500.0
3,30,전우치,
4,40,손오공,3400.0
5,40,손오공,230.0
6,40,손오공,3400.0
7,50,저팔계,1100.0
8,60,사오정,
9,70,삼장법사,3550.0


In [15]:
pd.merge(df1, df2, how='left') #

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000.0
1,10,홍길동,2500.0
2,20,임꺽정,4500.0
3,30,전우치,
4,40,손오공,3400.0
5,40,손오공,230.0
6,40,손오공,3400.0
7,50,저팔계,1100.0
8,60,사오정,
9,70,삼장법사,3550.0


In [16]:
pd.merge(df1, df2, how='right') #

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000
1,10,홍길동,2500
2,20,임꺽정,4500
3,40,손오공,3400
4,40,손오공,230
5,40,손오공,3400
6,50,저팔계,1100
7,70,삼장법사,3550
8,80,,3511


# Join on

In [25]:
# 두 DataFrame에서 공통열(PK, FK)이 필요
df1 = pd.DataFrame(
    {'번호' : [10, 20, 30, 40, 50, 60, 70],
     '이름' : ['홍길동', '임꺽정', '전우치', '손오공', '저팔계', '사오정', '삼장법사'],
     '타입' : ['우수', '일반', '우수','우수','일반','일반', '우수']
    }
    
)
df1

Unnamed: 0,번호,이름,타입
0,10,홍길동,우수
1,20,임꺽정,일반
2,30,전우치,우수
3,40,손오공,우수
4,50,저팔계,일반
5,60,사오정,일반
6,70,삼장법사,우수


In [26]:
df2 = pd.DataFrame(
    {'고객번호' : [10, 10, 20, 40, 50, 40, 40, 70, 80],
     '금액' : [1000, 2500, 4500, 3400, 1100, 230, 3400, 3550, 3511]
    }
)
df2

Unnamed: 0,고객번호,금액
0,10,1000
1,10,2500
2,20,4500
3,40,3400
4,50,1100
5,40,230
6,40,3400
7,70,3550
8,80,3511


In [29]:
pd.merge(df1, df2, left_on='번호', right_on='고객번호') # 공통컬럼명이 없을 경우 오류발생

Unnamed: 0,번호,이름,타입,고객번호,금액
0,10,홍길동,우수,10,1000
1,10,홍길동,우수,10,2500
2,20,임꺽정,일반,20,4500
3,40,손오공,우수,40,3400
4,40,손오공,우수,40,230
5,40,손오공,우수,40,3400
6,50,저팔계,일반,50,1100
7,70,삼장법사,우수,70,3550


In [24]:
pd.merge(df1, df2)

Unnamed: 0,번호,이름,타입,금액
0,10,홍길동,우수,1000
1,10,홍길동,우수,2500
2,20,임꺽정,일반,4500
3,40,손오공,우수,3400
4,40,손오공,우수,230
5,40,손오공,우수,3400
6,50,저팔계,일반,1100
7,70,삼장법사,우수,3550


## [ 연습 ] 

In [48]:
staff = pd.DataFrame([{'이름' : '홍길동', '부서' : '영업부'},
                      {'이름' : '임꺽정', '부서' : '개발팀'},
                      {'이름' : '전우치', '부서' : 'R&D'},
                      {'이름' : '손오공', '부서' : '개발팀'},
                      {'이름' : '저팔계', '부서' : '영업부'}
])
staff

Unnamed: 0,이름,부서
0,홍길동,영업부
1,임꺽정,개발팀
2,전우치,R&D
3,손오공,개발팀
4,저팔계,영업부


In [49]:
# 두 테이블 연결
pd.concat([staff, staff])

Unnamed: 0,이름,부서
0,홍길동,영업부
1,임꺽정,개발팀
2,전우치,R&D
3,손오공,개발팀
4,저팔계,영업부
0,홍길동,영업부
1,임꺽정,개발팀
2,전우치,R&D
3,손오공,개발팀
4,저팔계,영업부


In [32]:
education = pd.DataFrame([{'성명' : '홍길동', '학교' : '가나다대학교', '전공': '컴퓨터'},
                          {'성명' : '임꺽정', '학교' : '나다대학교', '전공': '미디어'},
                          {'성명' : '손오공', '학교' : '가다대학교', '전공': '통신'},
                          {'성명' : '저팔계', '학교' : '가나대학교', '전공': '전자정보'},
                          {'성명' : '사오정', '학교' : '파하대학교', '전공': '응용미술'},
])
education

Unnamed: 0,성명,학교,전공
0,홍길동,가나다대학교,컴퓨터
1,임꺽정,나다대학교,미디어
2,손오공,가다대학교,통신
3,저팔계,가나대학교,전자정보
4,사오정,파하대학교,응용미술


In [44]:
# 1) 이름 ,학교,전공, 부서
sample1 = pd.merge(staff, education, left_on='이름', right_on='성명')
sample1.loc[:, ['이름', '학교', '전공', '부서']]

Unnamed: 0,이름,학교,전공,부서
0,홍길동,가나다대학교,컴퓨터,영업부
1,임꺽정,나다대학교,미디어,개발팀
2,손오공,가다대학교,통신,개발팀
3,저팔계,가나대학교,전자정보,영업부
