# 주요 입력
- left : 통합 대상 데이터 프레임 1
- right : 통합 대상 데이터 프레임 2
- on : 통합 기준 key 변수 및 변수 리스트(입력하지 않으면, 이름이 같은 변수가 key)
- left_on : 데이터 프레임 1의 key변수 및 변수 리스트
- right_on : 데이터 프레임 2의 key변수 및 변수 리스트
- left_index : 데이터 프레임 1의 인덱스를 key 변수로 사용할지 여부
- right_index : 데이터 프레임 2의 인덱스를 key 변수로 사용할지 여부

In [4]:
import os
import pandas as pd

In [6]:
df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_employee_hire_date.csv')

In [7]:
df1.head()

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [8]:
df2.head()

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [9]:
merged_df = pd.merge(df1,df2) # 칼럼명이 같아서 employee를 key로 인식
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## on을 사용한 경우

In [10]:
merged_df = pd.merge(df1,df2, on='employee')
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## left_on, right_on을 사용한 경우

In [11]:
df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_name_hire_date.csv')

In [12]:
df1.head()

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [13]:
df2.head() # employee와 name은 칼럼명만 다를 뿐 같은 데이터

Unnamed: 0,hire_date,name
0,2004,Lisa
1,2008,Bob
2,2012,Jake
3,2014,Sue


In [14]:
# df1에선 employee를 df2에선 name을 쓰겠다
merged_df = pd.merge(df1, df2, left_on = 'employee', right_on = 'name')
merged_df.head()

Unnamed: 0,employee,group,hire_date,name
0,Bob,Accounting,2008,Bob
1,Jake,Engineering,2012,Jake
2,Lisa,Engineering,2004,Lisa
3,Sue,HR,2014,Sue


In [15]:
# employee와 name이 모두 살아 있기 때문에 하나 제거
merged_df.drop('name', axis=1, inplace=True)
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## index를 사용한 데이터 통합

In [17]:
df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_name_hire_date.csv', index_col = 'name') # name을 인덱스로

In [18]:
df2.head()

Unnamed: 0_level_0,hire_date
name,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014


In [20]:
merged_df = pd.merge(df1, df2, left_on = 'employee', right_index = True)
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014
