# `merge()` : 데이터 프레임 병합

- `merge()` 함수는 SQL의 join 과 유사
- 기준되는 열/인덱스를 키
- 키 열이나 인덱스는 반드시 양쪽 데이터 프레임에 모두 존재


In [0]:
import numpy as np
import pandas as pd
import seaborn as sns
import xlrd

## `xlrd` : 엑셀 파일 읽기 위한 라이브러리

- 주식 데이터로 데이터 프레임 만들기

In [6]:
df1 = pd.read_excel('/content/stock price.xlsx')
df2 = pd.read_excel('/content/stock valuation.xlsx')

print (df1, '\n', type (df1), '\n')
print (df2, '\n')

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475 
 <class 'pandas.core.frame.DataFrame'> 

       id       name           eps     bps        per       pbr
0  130960     CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480         하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480        이마트  18268.166667  295780  13.931338  0.860437
4  145990        삼양사   5741.000000  108090  14.283226  0.758627
5  161390      한국타이어   5648.500000   51341   7.453306  0.820007
6  181710  NHN엔터테인먼트   211

## `pd.merge()`
- 기본 option : `on = 'None', how = 'inner'`
  *  `on = 'None'` : 두 데이터 프레임에 공통으로 속하는 열을 키로 병합

In [9]:
merge_inner = pd.merge(df1, df2)
display (merge_inner)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


- 왼쪽 dataframe 기준으로 키 값 분리
- `how='left'` : 왼쪽 df 키 열에 속하는 데이터 값 기준 병합
- `left_on='stock_name', right_on='name'` : 좌우 df에 각각 다르게 키 값 지정, `id_x`, `id_y` 구분하여 표시

In [10]:
merge_left = pd.merge(df1, df2, how='left', left_on='stock_name', right_on='name')
display (merge_left)

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [11]:
merge_right = pd.merge(df1, df2, how='right', left_on='stock_name', right_on='name')
display (merge_right)

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
2,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
3,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
4,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
5,,,,,136480,하림,274.166667,3551,11.489362,0.887074
6,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
7,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
8,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [13]:
price = df1[ df1['price']<50000]
display (price.head())

Unnamed: 0,id,stock_name,value,price
2,138250,엔에스쇼핑,14558.666667,13200
4,142280,녹십자엠에스,468.833333,10200
9,204210,모두투어리츠,3093.333333,3475


In [15]:
value = pd.merge(price, df2)
display (value)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [17]:
pcon = df2 [(df2.per > 30) & (df2.pbr > 0.8)]
display (pcon)

Unnamed: 0,id,name,eps,bps,per,pbr
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


# 데이터 결합

- pandas `join()` 은 `merge()` 기반으로 만들어졌기 떄문에 기본 작동방식 유사
- `join()` 은 두 데이터프레임의 행 인덱스를 기준으로 결합하는 점에서 `merge(()`와 차이 있으나, `on=keys` 옵션 설정하면 열 기준으로 병합

In [18]:
df1 = pd.read_excel('/content/stock price.xlsx', index_col='id')
df2 = pd.read_excel('/content/stock valuation.xlsx', index_col='id')

print (df1, '\n')
print (df2, '\n')

       stock_name          value   price
id                                      
128940       한미약품   59385.666667  421000
130960     CJ E&M   58540.666667   98900
138250      엔에스쇼핑   14558.666667   13200
139480        이마트  239230.833333  254500
142280     녹십자엠에스     468.833333   10200
145990        삼양사   82750.000000   82000
185750        종근당   40293.666667  100500
192400      쿠쿠홀딩스  179204.666667  177500
199800         툴젠   -2514.333333  115400
204210     모두투어리츠    3093.333333    3475 

             name           eps     bps        per       pbr
id                                                          
130960     CJ E&M   6301.333333   54068  15.695091  1.829178
136480         하림    274.166667    3551  11.489362  0.887074
138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
139480        이마트  18268.166667  295780  13.931338  0.860437
145990        삼양사   5741.000000  108090  14.283226  0.758627
161390      한국타이어   5648.500000   51341   7.453306  0.820007
181710  NHN엔터테인먼트 

In [21]:
display (df1.join(df2))

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [29]:
display (df1.join(df2, on='id', how='outer'))

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
128940.0,128940,한미약품,59385.666667,421000.0,,,,,
130960.0,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250.0,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
139480.0,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
142280.0,142280,녹십자엠에스,468.833333,10200.0,,,,,
145990.0,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
185750.0,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
192400.0,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
199800.0,199800,툴젠,-2514.333333,115400.0,,,,,
204210.0,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


# 그룹연산

- 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나누어서 관찰 가능, 이런 방식으로 분할 처리하는 것을 그룹 연산이라 함
- 그룹연산은 데이터를 집계, 변환, 필터링하는데 효율적, pandas `groupby()` 사용
- 그룹 객체 만들기 (분할)
- 그룹 연산 메소드 (적용-결합)

In [31]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex','class','fare','survived']]

print('승객 수 : ', len(df))
display(df.head())

승객 수 :  891


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [35]:
grouped = df.groupby(['class'])
print (grouped)
# list (grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f3c4a67f208>


In [39]:
for key, group in grouped :
    print (' - key : ', key)
    print (' - number : ', len(group))
    print (group.head(), '\n')

 - key :  First
 - number :  216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1 

 - key :  Second
 - number :  184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1 

 - key :  Third
 - number :  491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0 



In [44]:
print (grouped.mean(), '\n')
print (grouped.survived.mean(), '\n')

print (grouped.max (), '\n')
print (grouped.fare.max (), '\n')

print (grouped.min (), '\n')

              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.877630  20.662183  0.472826
Third   25.140620  13.675550  0.242363 

class
First     0.629630
Second    0.472826
Third     0.242363
Name: survived, dtype: float64 

         age   sex      fare  survived
class                                 
First   80.0  male  512.3292         1
Second  70.0  male   73.5000         1
Third   74.0  male   69.5500         1 

class
First     512.3292
Second     73.5000
Third      69.5500
Name: fare, dtype: float64 

         age     sex  fare  survived
class                               
First   0.92  female   0.0         0
Second  0.67  female   0.0         0
Third   0.42  female   0.0         0 

