## 데이터프레임 합치기

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns

#### 데이터프레임 연결(행, 열 이어 붙이기)

In [3]:
df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                    'b':['b0','b1','b2','b3'],
                    'c':['c0','c1','c2','c3']},
                    index=[0,1,2,3])

df2 = pd.DataFrame({'a':['a2','a3','a4','a5'],
                    'b':['b2','b3','b4','b5'],
                    'c':['c2','c3','c4','c5'],
                    'd':['d2','d3','d4','d5']},
                    index=[0,1,2,3])
print(df1, '\n')
print(df2, '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
0  a2  b2  c2  d2
1  a3  b3  c3  d3
2  a4  b4  c4  d4
3  a5  b5  c5  d5 



In [4]:
# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결
result1 = pd.concat([df1, df2])
print(result1, '\n')

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
0  a2  b2  c2   d2
1  a3  b3  c3   d3
2  a4  b4  c4   d4
3  a5  b5  c5   d5 



In [14]:
#ignore_index=True 옵션 설정
#행 변경
result2 = pd.concat([df1,df2], ignore_index=True)
print(result2, '\n')

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5 



In [15]:
# 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결
result3 = pd.concat([df1,df2], axis=1)
print(result3, '\n')

    a   b   c   a   b   c   d
0  a0  b0  c0  a2  b2  c2  d2
1  a1  b1  c1  a3  b3  c3  d3
2  a2  b2  c2  a4  b4  c4  d4
3  a3  b3  c3  a5  b5  c5  d5 



In [16]:
# join=inner 옵션 적용하기(교집합)
result3_in = pd.concat([df1,df2], axis=1, join='inner')
print(result3_in,'\n')

    a   b   c   a   b   c   d
0  a0  b0  c0  a2  b2  c2  d2
1  a1  b1  c1  a3  b3  c3  d3
2  a2  b2  c2  a4  b4  c4  d4
3  a3  b3  c3  a5  b5  c5  d5 



In [21]:
df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                    'b':['b0','b1','b2','b3'],
                    'c':['c0','c1','c2','c3']},
                    index=[0,1,2,3])

df2 = pd.DataFrame({'a':['a2','a3','a4','a5'],
                    'b':['b2','b3','b4','b5'],
                    'c':['c2','c3','c4','c5'],
                    'd':['d2','d3','d4','d5']},
                    index=[0,1,2,3])
print(df1, '\n')
print(df2, '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
0  a2  b2  c2  d2
1  a3  b3  c3  d3
2  a4  b4  c4  d4
3  a5  b5  c5  d5 



In [22]:
#시리즈 만들기
sr1 = pd.Series(['e0','e1','e2','e3'], name='e')
sr2 = pd.Series(['f0','f1','f2'], name='f', index=[3,4,5])
sr3 = pd.Series(['g0','g1','g2','g3'], name='g')

#df1과 .sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1,sr1], axis=1)
print(result4, '\n')

#df2과 sr2을 좌우 열 방향으로 연결하기
result5 = pd.concat([df2,sr2], axis=1, sort=True)
print(result5, '\n')

    a   b   c   e
0  a0  b0  c0  e0
1  a1  b1  c1  e1
2  a2  b2  c2  e2
3  a3  b3  c3  e3 

     a    b    c    d    f
0   a2   b2   c2   d2  NaN
1   a3   b3   c3   d3  NaN
2   a4   b4   c4   d4  NaN
3   a5   b5   c5   d5   f0
4  NaN  NaN  NaN  NaN   f1
5  NaN  NaN  NaN  NaN   f2 



In [23]:
#sr1과 sr3을 좌우 열 방향 연결하기
result6 = pd.concat([sr1,sr3], axis=1)
print(result6,'\n')

result7 = pd.concat([sr1,sr3], axis=0)
print(result7, '\n')

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3 

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object 



#### 데이터프레임 병합(기준에 의해 병합)

In [5]:
#Ipython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10)         #출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)        #출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)   #유니코드 사용 너비 조정

# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('데이터분석책/part6/stock price.xlsx', engine= 'openpyxl')
df2 = pd.read_excel('데이터분석책/part6/stock valuation.xlsx', engine= 'openpyxl')

print(df1)
print(df2)

       id    stock_name          value   price
0  128940      한미약품   59385.666667  421000
1  130960        CJ E&M   58540.666667   98900
2  138250    엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280  녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400    쿠쿠홀딩스  179204.666667  177500
8  199800          툴젠   -2514.333333  115400
9  204210  모두투어리츠    3093.333333    3475
       id              name           eps     bps        per       pbr
0  130960            CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480              하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480            이마트  18268.166667  295780  13.931338  0.860437
4  145990            삼양사   5741.000000  108090  14.283226  0.758627
5  161390        한국타이어   5648.500000   51341   7.453306  0.820007
6  181710   NHN엔터테인먼트   2110.166667   78434

In [6]:
#데이터프레임 합치기 - 교집합
merge_inner = pd.merge(df1, df2)    #on=None, how=inner 옵션이 기본값 
print(merge_inner)

       id    stock_name          value   price          name           eps  \
0  130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
1  139480        이마트  239230.833333  254500        이마트  18268.166667   
2  145990        삼양사   82750.000000   82000        삼양사   5741.000000   
3  185750        종근당   40293.666667  100500        종근당   3990.333333   
4  204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

      bps        per       pbr  
0   54068  15.695091  1.829178  
1  295780  13.931338  0.860437  
2  108090  14.283226  0.758627  
3   40684  25.185866  2.470259  
4    5335  40.802348  0.651359  


In [10]:
#데이터프레임 합치기 - 합집합
merge_outer = pd.merge(df1,df2, how='outer', on='id')
print(merge_outer)

        id    stock_name          value     price              name  \
0   128940      한미약품   59385.666667  421000.0               NaN   
1   130960        CJ E&M   58540.666667   98900.0            CJ E&M   
2   138250    엔에스쇼핑   14558.666667   13200.0               NaN   
3   139480        이마트  239230.833333  254500.0            이마트   
4   142280  녹십자엠에스     468.833333   10200.0               NaN   
5   145990        삼양사   82750.000000   82000.0            삼양사   
6   185750        종근당   40293.666667  100500.0            종근당   
7   192400    쿠쿠홀딩스  179204.666667  177500.0               NaN   
8   199800          툴젠   -2514.333333  115400.0               NaN   
9   204210  모두투어리츠    3093.333333    3475.0      모두투어리츠   
10  136480           NaN            NaN       NaN              하림   
11  138040           NaN            NaN       NaN    메리츠금융지주   
12  161390           NaN            NaN       NaN        한국타이어   
13  181710           NaN            NaN       NaN   NHN엔터테인먼트   
14  207

In [11]:
#데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 키 값 분리
merge_left = pd.merge(df1,df2, how='left', left_on='stock_name', right_on='name')
print(merge_left)

     id_x    stock_name          value   price      id_y          name  \
0  128940      한미약품   59385.666667  421000       NaN           NaN   
1  130960        CJ E&M   58540.666667   98900  130960.0        CJ E&M   
2  138250    엔에스쇼핑   14558.666667   13200       NaN           NaN   
3  139480        이마트  239230.833333  254500  139480.0        이마트   
4  142280  녹십자엠에스     468.833333   10200       NaN           NaN   
5  145990        삼양사   82750.000000   82000  145990.0        삼양사   
6  185750        종근당   40293.666667  100500  185750.0        종근당   
7  192400    쿠쿠홀딩스  179204.666667  177500       NaN           NaN   
8  199800          툴젠   -2514.333333  115400       NaN           NaN   
9  204210  모두투어리츠    3093.333333    3475  204210.0  모두투어리츠   

            eps       bps        per       pbr  
0           NaN       NaN        NaN       NaN  
1   6301.333333   54068.0  15.695091  1.829178  
2           NaN       NaN        NaN       NaN  
3  18268.166667  295780.0  13.931338  0.8

In [13]:
#데이터프레임 합치기 - 오른쪽 데이터프레임 기준, 키 값 분리
merge_right = pd.merge(df1,df2, how='right', left_on='stock_name', right_on='name')
print(merge_right)

       id_x    stock_name          value     price    id_y              name  \
0  130960.0        CJ E&M   58540.666667   98900.0  130960            CJ E&M   
1       NaN           NaN            NaN       NaN  136480              하림   
2       NaN           NaN            NaN       NaN  138040    메리츠금융지주   
3  139480.0        이마트  239230.833333  254500.0  139480            이마트   
4  145990.0        삼양사   82750.000000   82000.0  145990            삼양사   
5       NaN           NaN            NaN       NaN  161390        한국타이어   
6       NaN           NaN            NaN       NaN  181710   NHN엔터테인먼트   
7  185750.0        종근당   40293.666667  100500.0  185750            종근당   
8  204210.0  모두투어리츠    3093.333333    3475.0  204210      모두투어리츠   
9       NaN           NaN            NaN       NaN  207940  삼성바이오로직스   

            eps     bps        per       pbr  
0   6301.333333   54068  15.695091  1.829178  
1    274.166667    3551  11.489362  0.887074  
2   2122.333333   14894   6.313806  

In [15]:
# 불린 인덱싱과 결합하여 원하는 데이터 찾기
price = df1[df1['price'] < 50000]
print(price.head())
print('\n')

value = pd.merge(price,df2)
print(value)

       id    stock_name         value  price
2  138250    엔에스쇼핑  14558.666667  13200
4  142280  녹십자엠에스    468.833333  10200
9  204210  모두투어리츠   3093.333333   3475


       id    stock_name        value  price          name        eps   bps  \
0  204210  모두투어리츠  3093.333333   3475  모두투어리츠  85.166667  5335   

         per       pbr  
0  40.802348  0.651359  


#### 데이터프레임 결합(join() 함수)

In [18]:
#Ipython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10)         #출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)        #출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)   #유니코드 사용 너비 조정

# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('데이터분석책/part6/stock price.xlsx', index_col='id', engine= 'openpyxl')
df2 = pd.read_excel('데이터분석책/part6/stock valuation.xlsx', index_col='id',engine= 'openpyxl')

print(df1)
print(df2)

          stock_name          value   price
id                                         
128940      한미약품   59385.666667  421000
130960        CJ E&M   58540.666667   98900
138250    엔에스쇼핑   14558.666667   13200
139480        이마트  239230.833333  254500
142280  녹십자엠에스     468.833333   10200
145990        삼양사   82750.000000   82000
185750        종근당   40293.666667  100500
192400    쿠쿠홀딩스  179204.666667  177500
199800          툴젠   -2514.333333  115400
204210  모두투어리츠    3093.333333    3475
                    name           eps     bps        per       pbr
id                                                                 
130960            CJ E&M   6301.333333   54068  15.695091  1.829178
136480              하림    274.166667    3551  11.489362  0.887074
138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
139480            이마트  18268.166667  295780  13.931338  0.860437
145990            삼양사   5741.000000  108090  14.283226  0.758627
161390        한국타이어   5648.500000   51341   7.45

In [22]:
#데이터프레임 결합
df3 = df1.join(df2)
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [23]:
#데이터프레임 결합(join) -  교집합
df4 = df1.join(df2, how='inner')   #공통인행 출력
df4

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359
