## 데이터프레임 병합

pd.concat()함수는 여러 데이터프레임을 이어 붙이듯 연결하는 것이라면, merge()함수는 SQL의 join멸령과 비슷한 방식으로 어떤 기준에 의해 두 데이터프레임을 병합하는 개념이다. 이때 기준이 되는 열이나 인덱스를 키라고 부른다. 키가되는 열이나 인덱스는 반드시 양쪽 데이터 프레임에 모두 존재해야한다.

예제로 여러 종목의 주가 정보를 담고 있는 Excel 파일과 주식의 벨류에이션 정보를 정리한 excel 파일을 활용한다. 

In [3]:
import pandas as pd

# Ipython 디스플레이 설정
# pd.set_option('diplay.max_columns',10) #출력할 최대 열의 개수
# pd.set_option('diplay.max_colwidth',20)#출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True) #유니코드사용 너비 조정

# 주식데이터프레임 만들기
df1 = pd.read_excel('./stock price.xlsx', engine='openpyxl')
df2 = pd.read_excel('./stock valuation.xlsx', engine='openpyxl')

In [4]:
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200


In [5]:
df2.head()

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627


병합하려는 두 데이터프레임을 merge() 함수에 전달한다.    
on=None 옵션과 how='inner' 옵션이 기본값으로 적용된다. on=None 옵션은 두 데이터프레임에 공통으로 속하는 모든 열을 기준으로 병합한다는 뜻(여기에는 id),    
how='inner'은 기준이 되는 열의 데이터가 양쪽데이터 프레임에 공통으로 존재하는 교집합일 경우에만 추출한다는 뜻이다. 예제에서는 id열을 기준으로 공통으로 존재하는 5개 종목에 대한 병합되어 출력된다.

In [6]:
merge_inner = pd.merge(df1,df2)
print(merge_inner)

       id    stock_name          value   price          name           eps  \
0  130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
1  139480        이마트  239230.833333  254500        이마트  18268.166667   
2  145990        삼양사   82750.000000   82000        삼양사   5741.000000   
3  185750        종근당   40293.666667  100500        종근당   3990.333333   
4  204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

      bps        per       pbr  
0   54068  15.695091  1.829178  
1  295780  13.931338  0.860437  
2  108090  14.283226  0.758627  
3   40684  25.185866  2.470259  
4    5335  40.802348  0.651359  


이번에는 on='id'옵션과 how='outer'옵션을 설정한다. on='id'옵션은 두 데이터프레임의 공통 열 중에서 id열을 키로 병합한다는 뜻이다. how='outer'옵션은 기준이되는 id열의 데이터가 데이터프레임 중 어느 한쪽에만 속하더라도 포함한다는 뜻이다.     
즉 id 열을 기준으로 모든 종목의 데이터가 포함된다. 어느 한쪽이라도 데이터가 없는 열에는 NaN값이 지정된다.

In [7]:
merge_outer = pd.merge(df1, df2, how='outer', on='id')
print(merge_outer)

        id    stock_name          value     price              name  \
0   128940      한미약품   59385.666667  421000.0               NaN   
1   130960        CJ E&M   58540.666667   98900.0            CJ E&M   
2   138250    엔에스쇼핑   14558.666667   13200.0               NaN   
3   139480        이마트  239230.833333  254500.0            이마트   
4   142280  녹십자엠에스     468.833333   10200.0               NaN   
5   145990        삼양사   82750.000000   82000.0            삼양사   
6   185750        종근당   40293.666667  100500.0            종근당   
7   192400    쿠쿠홀딩스  179204.666667  177500.0               NaN   
8   199800          툴젠   -2514.333333  115400.0               NaN   
9   204210  모두투어리츠    3093.333333    3475.0      모두투어리츠   
10  136480           NaN            NaN       NaN              하림   
11  138040           NaN            NaN       NaN    메리츠금융지주   
12  161390           NaN            NaN       NaN        한국타이어   
13  181710           NaN            NaN       NaN   NHN엔터테인먼트   
14  207

한편 how='left' 옵션을 설정하면 왼쪽 데이터프레임의 키 열에속하는 데이터값을 기준으로 병합한다. left_on과 right_on옵션을 사용하여 좌우 데이터프레임에 각각 다르게 키를 지정할 수 있다   
df1의 'stack_name'열과 df2의 'name'열을 기준으로 병합한다. 기준열이 아닌 id열의 경우 두 데이터프레임에 모두 존재하기 때문에 id_x, id_y와 값이 구분하여 표시된다.

In [9]:
merge_left = pd.merge(df1, df2, how='left', left_on='stock_name', right_on='name')
print(merge_left)

     id_x    stock_name          value   price      id_y          name  \
0  128940      한미약품   59385.666667  421000       NaN           NaN   
1  130960        CJ E&M   58540.666667   98900  130960.0        CJ E&M   
2  138250    엔에스쇼핑   14558.666667   13200       NaN           NaN   
3  139480        이마트  239230.833333  254500  139480.0        이마트   
4  142280  녹십자엠에스     468.833333   10200       NaN           NaN   
5  145990        삼양사   82750.000000   82000  145990.0        삼양사   
6  185750        종근당   40293.666667  100500  185750.0        종근당   
7  192400    쿠쿠홀딩스  179204.666667  177500       NaN           NaN   
8  199800          툴젠   -2514.333333  115400       NaN           NaN   
9  204210  모두투어리츠    3093.333333    3475  204210.0  모두투어리츠   

            eps       bps        per       pbr  
0           NaN       NaN        NaN       NaN  
1   6301.333333   54068.0  15.695091  1.829178  
2           NaN       NaN        NaN       NaN  
3  18268.166667  295780.0  13.931338  0.8

In [10]:
merge_right = pd.merge(df1, df2, how='right', left_on='stock_name', right_on='name')
print(merge_right)

       id_x    stock_name          value     price    id_y              name  \
0  130960.0        CJ E&M   58540.666667   98900.0  130960            CJ E&M   
1       NaN           NaN            NaN       NaN  136480              하림   
2       NaN           NaN            NaN       NaN  138040    메리츠금융지주   
3  139480.0        이마트  239230.833333  254500.0  139480            이마트   
4  145990.0        삼양사   82750.000000   82000.0  145990            삼양사   
5       NaN           NaN            NaN       NaN  161390        한국타이어   
6       NaN           NaN            NaN       NaN  181710   NHN엔터테인먼트   
7  185750.0        종근당   40293.666667  100500.0  185750            종근당   
8  204210.0  모두투어리츠    3093.333333    3475.0  204210      모두투어리츠   
9       NaN           NaN            NaN       NaN  207940  삼성바이오로직스   

            eps     bps        per       pbr  
0   6301.333333   54068  15.695091  1.829178  
1    274.166667    3551  11.489362  0.887074  
2   2122.333333   14894   6.313806  

merge() 함수를 불린 인덱싱과 함께 사용하면 원하는 데이터를 추출할 수 있다. 기본적으로 on=None, how='inner' 옵션이 기본값으로 적용되어있다.

In [12]:
price = df1[df1['price']< 50000]

print(price.head())
print('\n')

value = pd.merge(price, df2)
print(value)

       id    stock_name         value  price
2  138250    엔에스쇼핑  14558.666667  13200
4  142280  녹십자엠에스    468.833333  10200
9  204210  모두투어리츠   3093.333333   3475


       id    stock_name        value  price          name        eps   bps  \
0  204210  모두투어리츠  3093.333333   3475  모두투어리츠  85.166667  5335   

         per       pbr  
0  40.802348  0.651359  


## 데이터프레임 결합

join() 함수는 merge() 함수를 기반으로 만들어졌기 때문에 기본 작동방식이 서로 비슷하다. 다만 join() 메소드는 두 데이터프레임의 행 인덱스를 기준으로 결합하는 점에서 merge() 함수와 차이가 있다. on=keys 옵션을 설정하면 행 인덱스 대신 다른열을 기준으로 결합하는 것이 가능.

In [13]:
# IPyhton 디스플레이 설정 변경 
pd.set_option('display.max_columns', 10)                  # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)                 # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)   # 유니코드 사용 너비 조정

# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('./stock price.xlsx', index_col='id', engine= 'openpyxl')
df2 = pd.read_excel('./stock valuation.xlsx', index_col='id', engine= 'openpyxl')

In [14]:
df3 = df1.join(df2)
print(df3)

          stock_name          value   price          name           eps  \
id                                                                        
128940      한미약품   59385.666667  421000           NaN           NaN   
130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
138250    엔에스쇼핑   14558.666667   13200           NaN           NaN   
139480        이마트  239230.833333  254500        이마트  18268.166667   
142280  녹십자엠에스     468.833333   10200           NaN           NaN   
145990        삼양사   82750.000000   82000        삼양사   5741.000000   
185750        종근당   40293.666667  100500        종근당   3990.333333   
192400    쿠쿠홀딩스  179204.666667  177500           NaN           NaN   
199800          툴젠   -2514.333333  115400           NaN           NaN   
204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

             bps        per       pbr  
id                                     
128940       NaN        NaN       NaN  
130960   54068.0  15.695091  1.

df1에 join() 메소드를 적용하면 df2를 인자로 전달하면 왼쪽에 위치한 df1의 행 인덱스를 기준으로 결합하는 how='left'옵션이 기본 적용된다. 따라서 df1의 행 인덱스에 해당하는 10개 종목의 id를 기준으로 결합되는 것을 볼 수 있다.

In [17]:
df4 = df1.join(df2, how='inner')
print(df4)

          stock_name          value   price          name           eps  \
id                                                                        
130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
139480        이마트  239230.833333  254500        이마트  18268.166667   
145990        삼양사   82750.000000   82000        삼양사   5741.000000   
185750        종근당   40293.666667  100500        종근당   3990.333333   
204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

           bps        per       pbr  
id                                   
130960   54068  15.695091  1.829178  
139480  295780  13.931338  0.860437  
145990  108090  14.283226  0.758627  
185750   40684  25.185866  2.470259  
204210    5335  40.802348  0.651359  


how='inner' 옵션을 적용해서 두 데이터프레임에 공통으로 존재하는 행 인덱스를 기준으로 추출한다. id열을 기준으로 df1, df2에 공통으로 속하는 종목이 나오는 것이다.