### 데이터 프레임 합성

In [1]:
import numpy as np
import pandas as pd

- merge : 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블 합치기 / 기준이 되는 열, 행의 데이터를 키(key)라고 함

In [16]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [17]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [4]:
# inner join : 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여줌 / default
pd.merge(df1, df2)   # 공통 열인 고객번호 열을 기준으로 데이터를 찾아서 합침.

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [5]:
# full outer join
pd.merge(df1, df2, how='outer')   # 키 값이 한쪽에만 있어도 데이터를 보여줌

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [6]:
# left outer join
pd.merge(df1, df2, how='left')   # 첫번째 데이터프레임의 키 값을 모두 보여줌

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [7]:
# right outer join
pd.merge(df1, df2, how='right')   # 두번째 데이터프레임의 키 값을 모두 보여줌

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [8]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [9]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2


Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [10]:
pd.merge(df1, df2)

Unnamed: 0,고객명,날짜,데이터


In [11]:
pd.merge(df1, df2, on='고객명')   # 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙음

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


In [12]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [70, 80, 90]})
df1

Unnamed: 0,이름,성적
0,영희,70
1,철수,80
2,철수,90


In [13]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [40, 50, 60]})
df2

Unnamed: 0,성명,성적2
0,영희,40
1,영희,50
2,철수,60


In [14]:
pd.merge(df1, df2, left_on='이름', right_on="성명")

Unnamed: 0,이름,성적,성명,성적2
0,영희,70,영희,40
1,영희,70,영희,50
2,철수,80,철수,60
3,철수,90,철수,60


- join : merge 명령어 대신 join 메서드를 사용할 수도 있음

In [18]:
df1.set_index('고객번호', inplace=True)
df2.set_index('고객번호', inplace=True)
df1.join(df2, how='inner')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,둘리,10000
1001,둘리,20000
1001,둘리,30000
1005,희동,15000
1006,마이콜,5000


In [19]:
df1.join(df2, how='outer')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,둘리,10000.0
1001,둘리,20000.0
1001,둘리,30000.0
1002,도우너,
1003,또치,
1004,길동,
1005,희동,15000.0
1006,마이콜,5000.0
1007,영희,
1008,,100000.0


- concat : 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결