In [1]:
import numpy as np
import pandas as pd

In [2]:
# Dataframe of number of sales made by an employee
sales = {'Tony': 103,
         'Sally': 202,
         'Randy': 380,
         'Ellen': 101,
         'Fred': 82
        }

In [3]:
# Dataframe of all employees and the region they work in
region = {'Tony': 'West',
          'Sally': 'South',
          'Carl': 'West',
          'Archie': 'North',
          'Randy': 'East',
          'Ellen': 'South',
          'Fred': np.nan,
          'Mo': 'East',
          'HanWei': np.nan,
         }

In [4]:
# Make dataframes
sales_df = pd.DataFrame.from_dict(sales, orient='index', 
                                  columns=['sales'])
region_df = pd.DataFrame.from_dict(region, orient='index', 
                                   columns=['region'])

In [5]:
#sales_df
sales_df.head()

Unnamed: 0,sales
Tony,103
Sally,202
Randy,380
Ellen,101
Fred,82


In [8]:
region_df.head()

Unnamed: 0,region
Tony,West
Sally,South
Carl,West
Archie,North
Randy,East


### 1) Join

In [9]:
# dataframe의 index를 확인하기 위해서 .index 함수를 사용
sales_df.index

Index(['Tony', 'Sally', 'Randy', 'Ellen', 'Fred'], dtype='object')

In [10]:
# Join을 사용할 때, 기준이 되는 테이블(left table)의 key로는 반드시 index를 사용할 필요없이 원하는 column을 사용할수 있다.
# 하지만 right table은 반드시 join key가 index여야 한다.

joined_df = region_df.join(sales_df, how='left')
joined_df

Unnamed: 0,region,sales
Tony,West,103.0
Sally,South,202.0
Carl,West,
Archie,North,
Randy,East,380.0
Ellen,South,101.0
Fred,,82.0
Mo,East,
HanWei,,


### 2) Merge

In [11]:
# Merge는 Join에 비해서 보다 다양한 방식으로 Join이 가능하다.
joined_df_merge = region_df.merge(sales_df, how='left', 
                                      left_index=True,
                                      right_index=True)
joined_df_merge

Unnamed: 0,region,sales
Tony,West,103.0
Sally,South,202.0
Carl,West,
Archie,North,
Randy,East,380.0
Ellen,South,101.0
Fred,,82.0
Mo,East,
HanWei,,


In [12]:
# Merge는 index가 아닌 다른 key로 두 테이블을 결합시킬 때 유용하다.
# 예를들어 우리가 각 직원들이 자신의 지역매출에 얼마나 기여했는지 알고 싶다고 하자.
# 이를 위해서는 먼저 지역별 매출 합을 구해야 한다.

grouped_df = joined_df_merge.groupby(by='region').sum()
#grouped_df = joined_df_merge.groupby('region').sum()

In [13]:
grouped_df.reset_index(inplace=True)
grouped_df

Unnamed: 0,region,sales
0,East,380.0
1,North,0.0
2,South,303.0
3,West,103.0


In [14]:
employee_contrib = joined_df_merge.merge(grouped_df, how='left', 
                                         left_on='region', 
                                         right_on='region',
                                         suffixes=('','_region'))

In [15]:
employee_contrib = employee_contrib.set_index(joined_df_merge.index)
employee_contrib

Unnamed: 0,region,sales,sales_region
Tony,West,103.0,103.0
Sally,South,202.0,303.0
Carl,West,,103.0
Archie,North,,0.0
Randy,East,380.0,380.0
Ellen,South,101.0,303.0
Fred,,82.0,
Mo,East,,380.0
HanWei,,,


## Conclusion

In [None]:
"""
우리는 두개의 dataframe을 결합하기 위해서 join 또는 merge를 사용할 수 있다.
Join은 각 dataframe의 index를 이용하여 dataframe을 결합시킨다.
Merge는 index 뿐 아니라 원하는 key를 이용하여 dataframe을 결합시킬 수 있다.
※ 만일 Merge의 결과로 dataframe의 index가 사라진다면, set_index를 사용하여 다시 index를 다시 설정할 수 있다.
(참고) https://uncoded9.tistory.com/11
"""