# 데이터프레임 연결

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],'b':['b0','b1','b2','b3'],'c':['c0','c1','c2','c3']}, index=[0,1,2,3])
df2 = pd.DataFrame({'a':['a2','a3','a4','a5'],'b':['b2','b3','b4','b5'],'c':['c2','c3','c4','c5'],'d':['d2','d3','d4','d5']}, index=[2,3,4,5])

print(df1, '\n', df2, '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 
     a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5 



In [2]:
result = pd.concat([df1,df2], 
                   join='outer', # 합집합한 기준으로 연결, inner는 교집합을 기준으로 연결
                   axis=0) # 행 기준(세로방향)으로 연결, axis=1이면 가로방향으로 연결
result

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [3]:
result = pd.concat([df1,df2], ignore_index=True) # 기존 인덱스를 무시하고 연결 후 새로 인덱스 부여
result

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


In [4]:
result = pd.concat([df1,df2],axis=1) # join='outer'가 디폴트
result

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [5]:
result= pd.concat([df1,df2],join='inner',axis=1)
result

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


In [6]:
sr1 = pd.Series(['e0','e1','e2','e3'], name='e')
sr2 = pd.Series(['f0','f1','f2'], name='f', index=[3,4,5])
sr3 = pd.Series(['g0','g1','g2','g3'], name='g')

result= pd.concat([df1,sr1], axis=1) # 데이터프레임과 시리즈 간 연결 가능
result

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


In [7]:
result= pd.concat([df2,sr2], axis=1, sort=True) 
    # sotr=True는 인덱스를 기준으로 연결된 데이터프레임을 오름차순 정렬
result

Unnamed: 0,a,b,c,d,f
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,f0
4,a4,b4,c4,d4,f1
5,a5,b5,c5,d5,f2


In [8]:
result= pd.concat([sr1,sr3], axis=1) # 가로방향으로 시리즈+시리즈=데이터프레임
result

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [9]:
result= pd.concat([sr1,sr3], axis=0) # 세로방향으로 시리즈+시리즈=시리즈
result

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

In [10]:
result= pd.concat([sr1,sr2,sr3]) # 여러개도 가능
result

0    e0
1    e1
2    e2
3    e3
3    f0
4    f1
5    f2
0    g0
1    g1
2    g2
3    g3
dtype: object

# 데이터프레임 병합


In [11]:
# 출력 설정
pd.set_option('display.max_columns', 5) # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 10) # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True) # 유니코드 사용 너비

# 데이터 불러오기
df1 = pd.read_excel('./stock price.xlsx')
df2 = pd.read_excel('./stock valuation.xlsx')

print(df1, '\n')
print(df2, '\n')

       id       stock_name      value   price
0  128940   한미약품        59385....  421000
1  130960     CJ E&M        58540....   98900
2  138250  엔에스쇼핑....   14558....   13200
3  139480     이마트        239230...  254500
4  142280  녹십자엠에스...  468.83...   10200
5  145990     삼양사        82750....   82000
6  185750     종근당        40293....  100500
7  192400  쿠쿠홀딩스....   179204...  177500
8  199800       툴젠       -2514.3...  115400
9  204210  모두투어리츠...  3093.3...    3475 

       id             name  ...        per       pbr
0  130960     CJ E&M        ...  15.695091  1.829178
1  136480       하림        ...  11.489362  0.887074
2  138040  메리츠금융지...  ...   6.313806  0.899691
3  139480     이마트        ...  13.931338  0.860437
4  145990     삼양사        ...  14.283226  0.758627
5  161390  한국타이어....   ...   7.453306  0.820007
6  181710  NHN엔터테...     ...  30.755864  0.827447
7  185750     종근당        ...  25.185866  2.470259
8  204210  모두투어리츠...  ...  40.802348  0.651359
9  207940  삼성바이오로...  ...  89.

In [12]:
merge_inner = pd.merge(df1,df2, # 병합할 데이터프레임
                      on=None, # 병합할 데이터프레임에 공통으로 속하는 모든 컬럼을 기준으로 병합
                      how='inner') # 기준이 되는 컬럼의 데이터가 양쪽에 모두 존재할 때만 남김(교집합일때만 남음)
merge_inner

Unnamed: 0,id,stock_name,...,per,pbr
0,130960,CJ E&M,...,15.695091,1.829178
1,139480,이마트,...,13.931338,0.860437
2,145990,삼양사,...,14.283226,0.758627
3,185750,종근당,...,25.185866,2.470259
4,204210,모두투어리츠...,...,40.802348,0.651359


In [13]:
merge_outer = pd.merge(df1,df2, # 병합할 데이터프레임
                      on='id', # id 컬럼을 기준으로 병합
                      how='outer') # 기준이 되는 컬럼의 데이터를 모두 남김(합집합으로 남음), 없는 데이터는 NaN으로 채워짐
merge_outer

Unnamed: 0,id,stock_name,...,per,pbr
0,128940,한미약품,...,,
1,130960,CJ E&M,...,15.695091,1.829178
2,138250,엔에스쇼핑...,...,,
3,139480,이마트,...,13.931338,0.860437
4,142280,녹십자엠에스...,...,,
5,145990,삼양사,...,14.283226,0.758627
6,185750,종근당,...,25.185866,2.470259
7,192400,쿠쿠홀딩스...,...,,
8,199800,툴젠,...,,
9,204210,모두투어리츠...,...,40.802348,0.651359


In [14]:
merge_left = pd.merge(df1,df2, # 병합할 데이터프레임
                      how='left', # 왼쪽 데이터 프레임에 존재하는 데이터 값을 기준으로
                      left_on='stock_name', # 왼쪽 데이터프레임에서는 stock_name 컬럼이 기준
                      right_on='name') # 오른쪽 데이터프레임에서는 name 컬럼이 기준
merge_left

Unnamed: 0,id_x,stock_name,...,per,pbr
0,128940,한미약품,...,,
1,130960,CJ E&M,...,15.695091,1.829178
2,138250,엔에스쇼핑...,...,,
3,139480,이마트,...,13.931338,0.860437
4,142280,녹십자엠에스...,...,,
5,145990,삼양사,...,14.283226,0.758627
6,185750,종근당,...,25.185866,2.470259
7,192400,쿠쿠홀딩스...,...,,
8,199800,툴젠,...,,
9,204210,모두투어리츠...,...,40.802348,0.651359


In [15]:
merge_right = pd.merge(df1,df2, # 병합할 데이터프레임
                      how='right', # 오른쪽 데이터 프레임에 존재하는 데이터 값을 기준으로
                      left_on='stock_name', # 왼쪽 데이터프레임에서는 stock_name 컬럼이 기준
                      right_on='name') # 오른쪽 데이터프레임에서는 name 컬럼이 기준
merge_right

Unnamed: 0,id_x,stock_name,...,per,pbr
0,130960.0,CJ E&M,...,15.695091,1.829178
1,,,...,11.489362,0.887074
2,,,...,6.313806,0.899691
3,139480.0,이마트,...,13.931338,0.860437
4,145990.0,삼양사,...,14.283226,0.758627
5,,,...,7.453306,0.820007
6,,,...,30.755864,0.827447
7,185750.0,종근당,...,25.185866,2.470259
8,204210.0,모두투어리츠...,...,40.802348,0.651359
9,,,...,89.790059,6.938551


In [16]:
price = df1[df1['price'] < 50000] # df1의 price 컬럼의 값이 50000미만인 행만 추출하여 저장
print(price.head(), '\n')

value = pd.merge(price, df2) # on=None, how='inner'이 디폴트이므로 둘 다 존재하는 id컬럼을 기준으로 교집합이 되는 행만 남음
value

       id       stock_name      value  price
2  138250  엔에스쇼핑....   14558....  13200
4  142280  녹십자엠에스...  468.83...  10200
9  204210  모두투어리츠...  3093.3...   3475 



Unnamed: 0,id,stock_name,...,per,pbr
0,204210,모두투어리츠...,...,40.802348,0.651359


# 데이터프레임 결합

In [17]:
df1 = pd.read_excel('./stock price.xlsx', index_col='id')
df2 = pd.read_excel('./stock valuation.xlsx', index_col='id')

df3 = df1.join(df2) # 인덱스를 기준으로 결합
df3

Unnamed: 0_level_0,stock_name,value,...,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
128940,한미약품,59385....,...,,
130960,CJ E&M,58540....,...,15.695091,1.829178
138250,엔에스쇼핑...,14558....,...,,
139480,이마트,239230...,...,13.931338,0.860437
142280,녹십자엠에스...,468.83...,...,,
145990,삼양사,82750....,...,14.283226,0.758627
185750,종근당,40293....,...,25.185866,2.470259
192400,쿠쿠홀딩스...,179204...,...,,
199800,툴젠,-2514.3...,...,,
204210,모두투어리츠...,3093.3...,...,40.802348,0.651359


In [18]:
df4 = df1.join(df2,
              how='inner') # join()메소드는 how='left'가 디폴트
df4

Unnamed: 0_level_0,stock_name,value,...,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
130960,CJ E&M,58540....,...,15.695091,1.829178
139480,이마트,239230...,...,13.931338,0.860437
145990,삼양사,82750....,...,14.283226,0.758627
185750,종근당,40293....,...,25.185866,2.470259
204210,모두투어리츠...,3093.3...,...,40.802348,0.651359
