In [2]:
import pandas as pd
import seaborn as sns

### 데이터프레임

In [5]:
# 데이터프레임 만들기

df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                    'b': ['b2', 'b3', 'b4', 'b5'],
                    'c': ['c2', 'c3', 'c4', 'c5'],
                    'd': ['d2', 'd3', 'd4', 'd5']},
                    index=[2, 3, 4, 5])

# 두 데이터프레임을 합치기 pd.concat(데이터프레임 리스트)

In [7]:
pd.concat([df1, df2])         # 앞에 나오는 데이터프레임 밑에 다음 데이터프레임 냅다 붙이기
                              # 대신 다른 한 곳에 없던 데이터는 NaN으로 들어감
    
                              # pd.concat([]) 의 형태로 사용해야함.

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


# 기존의 인덱스를 무시하고 새로 인덱스 정리 : ignore_index = True

In [9]:
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


# 데이터프레임을 컬럼으로 붙이기(옆으로) 

In [10]:
pd.concat([df1, df2], axis = 1)           # 열이 늘어난다(axis = 1)

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


# 데이터프레임을 컬럼으로 붙이며, join = 'inner'로 사용 : 인덱스 기준으로 NaN 데이터 제외 출력

In [12]:
pd.concat([df1, df2], axis = 1, join = 'inner')

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


### 시리스

In [14]:
# 시리즈 만들기

sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

In [15]:
# df1과 sr1을 컬럼 방향으로 연결하기

pd.concat([df1, sr1], axis = 1)

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


In [18]:
# df2와 sr2를 컬럼 방향으로 연결하기

pd.concat([df2, sr2], axis = 1, sort = True)         # sort는 True로 되어있다.

Unnamed: 0,a,b,c,d,f
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,f0
4,a4,b4,c4,d4,f1
5,a5,b5,c5,d5,f2


In [19]:
# sr1과 sr2를 컬럼으로 연결

pd.concat([sr1, sr2], axis = 1)

Unnamed: 0,e,f
0,e0,
1,e1,
2,e2,
3,e3,f0
4,,f1
5,,f2


In [20]:
# sr1과 sr3를 컬럼으로 연결

pd.concat([sr1, sr3], axis = 1)

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [21]:
# sr1과 sr3를 행방향으로 연결

pd.concat([sr1, sr3], axis = 0, ignore_index = True)

0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object

# merge를 활용하여 데이터프레임 합치기

In [22]:
df1 = pd.read_excel('../dataset/stock_price.xlsx')  # 주식 가격, 수량
df2 = pd.read_excel('../dataset/stock_valuation.xlsx')   # 주식 비율

print(df1.columns)   # <- id, stock_name
print(df2.columns)   # <- id, name

Index(['id', 'stock_name', 'value', 'price'], dtype='object')
Index(['id', 'name', 'eps', 'bps', 'per', 'pbr'], dtype='object')


In [25]:
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200


In [26]:
df2.head()

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627


In [23]:
pd.merge(df1, df2)     # 양쪽 데이터프레임의 'id' 컬럼이 같은 자료만 병합, how = 'inner' 설정
                     
                       # merge()의 형태로 사용, concat과 달리 []을 사용하지 않는다.

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [27]:
pd.merge(df1, df2, how = 'left')         # df1 기준으로 df1은 모두 출력
                                         # 그리고 df2에 없으면 NaN
                                         # df2에도 있으면 id를 기준으로 병합

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,
1,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,
3,139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,
5,145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,
9,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [28]:
pd.merge(df1, df2, how = 'right')          # df2 기준으로 모두 출력, df1에 없으면 NaN

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,,,,하림,274.166667,3551,11.489362,0.887074
2,138040,,,,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090,14.283226,0.758627
5,161390,,,,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,,,,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,,,,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [29]:
pd.merge(df1, df2, how = 'outer', on = 'id')           # df1, df2 모두 출력, 자료가 없으면 NaN 
                                                # on ='key' 양쪽에 있는 컬럼명

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [30]:
pd.merge(df1, df2, how = 'cross')           # 왼쪽(df1) 첫 번째 자료에 오른쪽(df2) 자료를 전부 붙임
                                            # 끝나면 다음 자료로 넘어가며 끝까지 반복

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,128940,한미약품,59385.666667,421000,136480,하림,274.166667,3551,11.489362,0.887074
2,128940,한미약품,59385.666667,421000,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,128940,한미약품,59385.666667,421000,139480,이마트,18268.166667,295780,13.931338,0.860437
4,128940,한미약품,59385.666667,421000,145990,삼양사,5741.000000,108090,14.283226,0.758627
...,...,...,...,...,...,...,...,...,...,...
95,204210,모두투어리츠,3093.333333,3475,161390,한국타이어,5648.500000,51341,7.453306,0.820007
96,204210,모두투어리츠,3093.333333,3475,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
97,204210,모두투어리츠,3093.333333,3475,185750,종근당,3990.333333,40684,25.185866,2.470259
98,204210,모두투어리츠,3093.333333,3475,204210,모두투어리츠,85.166667,5335,40.802348,0.651359


In [31]:
# df1의 'stock_name', 'df2'의 'name' 컬럼의 값이 같은 자료를 병합

result = pd.merge(df1, df2, how = 'left', left_on = 'stock_name', right_on = 'name')
result                                       # 양 측의 컬럼명이 전부 다르면 left_on, right_on을 사용

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [32]:
r_data = result.loc[ : , ['id_x', 'stock_name', 'name', 'value', 'price', 'eps']]
r_data

Unnamed: 0,id_x,stock_name,name,value,price,eps
0,128940,한미약품,,59385.666667,421000,
1,130960,CJ E&M,CJ E&M,58540.666667,98900,6301.333333
2,138250,엔에스쇼핑,,14558.666667,13200,
3,139480,이마트,이마트,239230.833333,254500,18268.166667
4,142280,녹십자엠에스,,468.833333,10200,
5,145990,삼양사,삼양사,82750.0,82000,5741.0
6,185750,종근당,종근당,40293.666667,100500,3990.333333
7,192400,쿠쿠홀딩스,,179204.666667,177500,
8,199800,툴젠,,-2514.333333,115400,
9,204210,모두투어리츠,모두투어리츠,3093.333333,3475,85.166667


In [33]:
# df1의 price가 50000 미만인 금액의 자료와 df2을 결합

pd.merge(df1[df1['price'] < 50000], df2)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [35]:
s_name = df1[df1.price < 50000]['stock_name']
s_name

2     엔에스쇼핑
4    녹십자엠에스
9    모두투어리츠
Name: stock_name, dtype: object

In [36]:
df2['name'].isin(s_name)                 # isin에 시리즈를 사용한 경우

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8     True
9    False
Name: name, dtype: bool

In [None]:
# pd.merge(df1, df2, how = 'inner', on = 'key', left_on = 'df1의 컬럼', right_on = 'df2의 컬럼')
                                     # on : 양 쪽의 컬럼명이 같은 경우.  
                                                     # left, right_on : 양 쪽의 컬럼명이 다른 경우
                      # how = 'inner' : 교집합, 
                            # 'left' : df1 + 교집합, 
                            # 'right' : df2 + 교집합,
                            # 'outer' : 합집합

In [37]:
# 데이터프레임.join(데이터프레임, how = 'inner, left') : 인덱스를 기준으로 병합
# 두 데이터프레임의 인덱스가 설정되어 있어야 함

df1 = pd.read_excel('../dataset/stock_price.xlsx', index_col = 'id')
df2 = pd.read_excel('../dataset/stock_valuation.xlsx', index_col = 'id')

df3 = df1.join(df2, how = 'inner')   # join은 right 없음
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [None]:
# join이 merge 보다 살짝 제한적