In [2]:
import FinanceDataReader as fdr
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

pd.options.display.float_format = '{:,.3f}'.format

### **가설 - 위 꼬리가 긴 양봉이 자주 발생한다.**
위 꼬리는 종가보다 고가가 더 높이 위치해 있는 양봉입니다. 따라서 고가를 종가로 나눈 값이 1 보다 상당히 크면 위꼬리 양봉이라고 할 수 있습니다. 양봉의 조건은 종가가 시가보다 큰 것입니다. 이 것을 데이터로 표현합니다.



In [3]:
mdl_data = pd.read_pickle('mdl_data.pkl')
mdl_data.head()

Unnamed: 0_level_0,open,high,low,close,volume,change,code,name,kosdaq_return,return,win_market,close_r1,close_r2,close_r3,close_r4,close_r5,max_close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2021-01-04,2185,2320,2135,2260,588133,0.044,60310,3S,,,0,0.996,1.013,1.013,0.993,0.962,1.013
2021-01-05,2270,2285,2200,2250,410263,-0.004,60310,3S,1.008,0.996,0,1.018,1.018,0.998,0.967,0.971,1.018
2021-01-06,2225,2310,2215,2290,570349,0.018,60310,3S,0.996,1.018,1,1.0,0.98,0.95,0.954,0.95,1.0
2021-01-07,2290,2340,2240,2290,519777,0.0,60310,3S,1.008,1.0,0,0.98,0.95,0.954,0.95,0.959,0.98
2021-01-08,2300,2315,2225,2245,462568,-0.02,60310,3S,0.999,0.98,0,0.969,0.973,0.969,0.978,0.973,0.978


In [7]:
kosdaq_list = pd.read_pickle('kosdaq_list.pkl')

data_all_3 = pd.DataFrame()

for code in kosdaq_list['code']:

    data = mdl_data[mdl_data['code']==code].sort_index().copy()
    
    data['positive_candle'] = (data['close'] > data['open']).astype(int) # 양봉
    data['high/close'] = (data['positive_candle']==1)*(data['high']/data['close'] > 1.1).astype(int) # 양봉이면서 고가가 종가보다 높게 위치
    data['num_high/close'] =  data['high/close'].rolling(20).sum()
       
    data['max_close']  = data[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 5 영업일 종가 수익율 중 최고 값
    data.dropna(subset=['num_high/close','close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # missing 이 있는 행은 제거  
    
    data_all_3 = pd.concat([data, data_all_3], axis=0)

data_all_3.to_pickle('data_all_3.pkl')  

<br> 윗 꼬리가 긴 양봉이 많이 발생할 수 록 수익율에 좋은 영향을 주는 것으로 분석이 되었습니다.

In [9]:
data_all_7.groupby('num_high/close')['max_close'].agg(['count','mean'])

Unnamed: 0_level_0,count,mean
num_high/close,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,357946,1.031
1.0,38027,1.043
2.0,5170,1.05
3.0,829,1.073
4.0,161,1.048
5.0,10,1.168


<br> 윗 꼬리가 긴 양봉도 궁금하지만, 장대양봉은 어떨지도 궁금합니다. 이렇게 가설을 검증하는 과정에서 새로운 가설을 테스트하기도 합니다. 장대양봉이 과거 60일 동안 몇 번 발생했는지 카운트해보고, 장대양봉의 갯 수와 수익율 사이에 상관성이 있는 지 함 보겠습니다.

In [21]:
kosdaq_list = pd.read_pickle('kosdaq_list.pkl')

data_all_3 = pd.DataFrame()

for code in kosdaq_list['code']:

    data = mdl_data[mdl_data['code']==code].sort_index().copy()
    
    data['positive_candle'] = (data['close'] > data['open']).astype(int) # 양봉
    data['long_candle'] = (data['positive_candle']==1)*(data['high']==data['close'])*\
    (data['low']==data['open'])*(data['close']/data['open'] > 1.2).astype(int) # 장대 양봉을 데이터로 표현
    
    data['num_long'] =  data['long_candle'].rolling(60).sum() # 지난 20 일 동안 장대양봉의 갯 수
       
    data['max_close']  = data[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 5 영업일 종가 수익율 중 최고 값
    data.dropna(subset=['num_long','close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # missing 이 있는 행은 제거  
    
    data_all_3 = pd.concat([data, data_all_3], axis=0)

data_all_3.to_pickle('data_all_3.pkl')  

<br> 과거 60일 동안 장대양봉이 2 번 발생한 경우 상당히 좋은 수익율을 보여주고 있습니다.

In [23]:
data_all_3.groupby('num_long')['max_close'].agg(['count','mean'])

Unnamed: 0_level_0,count,mean
num_long,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,339691,1.031
1.0,5521,1.047
2.0,91,1.058
