In [1]:
import FinanceDataReader as fdr
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

pd.options.display.float_format = '{:,.3f}'.format

### 가설 검증을 위한 데이터 처리
앞서 만든 return_all 파일을 아래와 같이 로드하고, Missing Data 는 제거합니다. 


In [4]:
return_all = pd.read_pickle('return_all.pkl').dropna()  

In [5]:
return_all.head()

Unnamed: 0_level_0,open,high,low,close,volume,change,code,name,kosdaq_return,return,win_market
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-01-05,2270,2285,2200,2250,410263,-0.004,60310,3S,1.008,0.996,0
2021-01-06,2225,2310,2215,2290,570349,0.018,60310,3S,0.996,1.018,1
2021-01-07,2290,2340,2240,2290,519777,0.0,60310,3S,1.008,1.0,0
2021-01-08,2300,2315,2225,2245,462568,-0.02,60310,3S,0.999,0.98,0
2021-01-11,2230,2275,2130,2175,409057,-0.031,60310,3S,0.989,0.969,0


<br>일주일(5영업일)을 수익율의 관찰 기간으로 하고, 관찰 기간 동안 주가 상승이 있으면 저희가 세운 가설들을 유의미한 가설로 판단하겠습니다. 여기서 주가 상승의 기준은  "종가 매수 일부터 다음 5 영업일 동안 최고 종가 수익율" 하겠습니다. 

첫 번째 종목 060310 에 대하여 처리를 먼저 해 보겠습니다. shift(-1) 은 다음 영업일의 종가 수익율을 참조하고, shift(-2) 은 그 다음의 영업일의 종가 수익율을 참조합니다. 따라서 매수 후 2 영업일 후, 종가 수익율은 shift(-1)*shift(-2) 로 계산됩니다. 이렇게 1 영업일, 2 영업일, 3 영업일, 4 영업일, 5 영업일 후 종가 수익율을 새로운 컬럼에 생성하고, 그 중에서 가장 큰 수익율을 고르면 됩니다. 생성된 컬럼 중 가장 큰 값은 max(axis=1) 로 찾습니다. 참고로 max() 에서는 axis=0 이 Default 라서 axis=1 로 정해주지 않으면 열에서 가장 큰 값을 찾게 됩니다. 이 부분을 유의해 주세요.

In [6]:
s = '060310'
df = return_all[return_all['code']==s].sort_index().copy()

df['close_r1'] = df['close'].shift(-1)/df['close']
df['close_r2'] = df['close'].shift(-2)/df['close']
df['close_r3'] = df['close'].shift(-3)/df['close']
df['close_r4'] = df['close'].shift(-4)/df['close']
df['close_r5'] = df['close'].shift(-5)/df['close']

''' 위 코드와 같은 결과
df['return_1'] = df['return'].shift(-1)
df['return_2'] = df['return'].shift(-2)*df['return'].shift(-1)
df['return_3'] = df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
df['return_4'] = df['return'].shift(-4)*df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
df['return_5'] = df['return'].shift(-5)*df['return'].shift(-4)*df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
'''

df['target'] = df[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 주어지 컬럼에서 최대 값을 찾음
df.dropna(subset=['close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # 주어진 컬럼 중에 missing 값이 있으면 행을 제거(dropna)하고, 자신을 덮어 씀(inplace=True).

In [7]:
df.head(10)

Unnamed: 0_level_0,open,high,low,close,volume,change,code,name,kosdaq_return,return,win_market,close_r1,close_r2,close_r3,close_r4,close_r5,target
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2021-01-05,2270,2285,2200,2250,410263,-0.004,60310,3S,1.008,0.996,0,1.018,1.018,0.998,0.967,0.971,1.018
2021-01-06,2225,2310,2215,2290,570349,0.018,60310,3S,0.996,1.018,1,1.0,0.98,0.95,0.954,0.95,1.0
2021-01-07,2290,2340,2240,2290,519777,0.0,60310,3S,1.008,1.0,0,0.98,0.95,0.954,0.95,0.959,0.98
2021-01-08,2300,2315,2225,2245,462568,-0.02,60310,3S,0.999,0.98,0,0.969,0.973,0.969,0.978,0.973,0.978
2021-01-11,2230,2275,2130,2175,409057,-0.031,60310,3S,0.989,0.969,0,1.005,1.0,1.009,1.005,1.002,1.009
2021-01-12,2165,2225,2125,2185,244835,0.005,60310,3S,0.997,1.005,1,0.995,1.005,1.0,0.998,1.014,1.014
2021-01-13,2185,2210,2170,2175,127817,-0.005,60310,3S,1.006,0.995,0,1.009,1.005,1.002,1.018,1.023,1.023
2021-01-14,2180,2205,2150,2195,174996,0.009,60310,3S,1.001,1.009,0,0.995,0.993,1.009,1.014,1.03,1.03
2021-01-15,2190,2265,2185,2185,345872,-0.005,60310,3S,0.984,0.995,0,0.998,1.014,1.018,1.034,1.032,1.034
2021-01-18,2185,2220,2150,2180,251311,-0.002,60310,3S,0.98,0.998,0,1.016,1.021,1.037,1.034,1.053,1.053


<br>이제 모든 종목에 대하여 For loop 로 종가 매도시 수익율을 최대값을 생성합니다. 'max_close' 의 분포를 보니 평균은 1.033, 최소값 0.326, 최대값 3.703 입니다. 단, max_close 는 가설 검정으로 활용할 지표입니다. 매수 후, 몇 번 째 영업일이 최고 수익율인지 알 수 없기 때문에 기간 중 최고 수익율을 이용합니다.

In [10]:
kosdaq_list = pd.read_pickle('kosdaq_list.pkl')

mdl_data = pd.DataFrame()

for code in kosdaq_list['code']:
    df = return_all[return_all['code']==code].sort_index().copy()

    df['close_r1'] = df['close'].shift(-1)/df['close']
    df['close_r2'] = df['close'].shift(-2)/df['close']
    df['close_r3'] = df['close'].shift(-3)/df['close']
    df['close_r4'] = df['close'].shift(-4)/df['close']
    df['close_r5'] = df['close'].shift(-5)/df['close']

    df['max_close'] = df[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 주어지 컬럼에서 최대 값을 찾음
    df.dropna(subset=['close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # 주어진 컬럼 중에 missing 값이 있으면 행을 제거(dropna)하고, 자신을 덮어 씀(inplace=True).
    
    mdl_data = pd.concat([mdl_data, df], axis=0)    
    
mdl_data.to_pickle('mdl_data.pkl')

In [8]:
mdl_data = pd.read_pickle('mdl_data.pkl')
print(mdl_data['max_close'].describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9]))

count   429,142.000
mean          1.033
std           0.073
min           0.326
10%           0.982
20%           0.995
50%           1.016
80%           1.059
90%           1.097
max           3.703
Name: max_close, dtype: float64


### 가설 검증을 위한 데이터 처리

종목을 선정하는 날자를 기준일로 합니다. 기준일은 180일간의 일봉 관찰이 끝나는 날입니다. 기준일 기점으로 관찰기간과 결과기간(기준일 부터 7일 - 4 영업일)을 정해집니다. 모델링 데이터를 모으기 위해 기준일은 영업일로만 구성합니다. bdate_range 는 영업일만을 생성하는 함수입니다.  

기준일을 하나씩 증가하면서 관찰기간과 결과기간 데이터를 모읍니다. 코드 윗 부분 리스트는 관찰기간의 데이터를 종목별로 요약해서 하나씩 담기위해 미리 선언을 해 놓습니다. 입력데이터는 종목별 날짜별(오름차순)으로 되어 있다는 것을 기억하시면 이해하기 쉽습니다. 

<br>
요약된 변수(피쳐)는 아래와 같습니다.

- price_list: 관찰기간 마지막날 종가 
- price_mean_list: 관찰기간 종가들의 평균
- price_std_list: 관찰기간 가격의 표준편차 
- price_z_list: 기준일 가격 Z 값
- price_z out_list: 관찰기간 Z 값이 1.6 이상 된 날의 수 (90% 신뢰구간을 벗어난 날)
- price_5ma_list: 최근 5 영업일 종가의 평균

- volume_list: 관찰기간 마지막 날 거래량
- volume_mean_list: 관찰기간 거래량 평균
- volume_std_list: 관찰기간 거래량 표준편차
- volume_z_list: 기준일 거래량 Z 값
- volume_z_out_list: 관찰기간 Z 값이 1.6 이상 된 날의 수 (90% 신뢰구간을 벗어난 날)

- wins_60_list: 최근 60일 동안 지수보다 더 잘한 날의 합
- wins_180_list: 최근 180일 동안 지수보다 더 잘한 날의 합
- toptail_list: 양봉이면서 (고가/종가) 의 비율이 1.05 가 넘는 날의 수

<br>   
위에서 생성된 피쳐를 wins 라는 데이터프레임이 담습니다. 이 피쳐들은 가설검정을 하고, 유의미한 가설은 모델의 입력변수로 활용됩니다. 

그리고 기본 필터링으로서 num_wins_180 이 25 초과되는 종목만 추립니다. 기본 필터링이 없으면 너무 많은 종목이 추출됩니다. 우리는 기본적으로 주가 상승율이 높은 종목만 뽑아서 가설검정과 예측모델을 구현할 것 입니다.

필터링된 종목을 candidates 라는 데이터 프레임에 저장합니다. candiate 파일은 종목 레벨로된 요약된 피쳐를 가지고 있는 데이터입니다. 다음 candidate 파일에서 한개의 레코드(한 종목과 요약된 피처들)씩 빼옵니다. 이때 iterrows() 가 활용되었습니다. iterrows() 는 데이터프레임에서 한 줄씩 row 를 꺼내오고 싶을 때 쓰는 방법입니다. 이번에는 각 종목별로 결과기간의 수익율 정보를 추가합니다. 그 부분이 for index, row in candidates.iterrows() 아래에 해당합니다. outcome 이라는 데이터프레임에 관찰기간에 요약한 피처를 담습니다. 
또한 기준일 다음날(매수일) 이 저가가 기준일 종가보다 -1.5% 이하로 내려갔는지 봅니다. 만약 내려가면 매수하겠습니다. 이렇게 하는 이유는 종가로 곧바로 매수를 하면 -4% 수익율이 되어도 많이 부답스럽습니다. 하지만, 익일 종가의 -1.5% 가격으로 지정가 매수를 하면, 실질적으로 전일 종가보다 -4% 가 빠진 경우에도 수익율은 -2.5% (- 4% + 1.5%) 가 됩니다. 물론, 이렇게 지정가 매수를 함으로써 매수를 못하는 종목도 자주 발생하게 됩니다. 하지만 계좌관리를 위해 매수를 보수적으로 할 계획입니다. 

그리고 당일 고가가 원하는 익절라인을 초과하면 profit_sell 이란 컬럼에 1 을 표시하고, 종가가 손절라인 아래로 내려갔으면 loss_sell 이라는 컬럼에 1 을 표시합니다. 최종적으로 어떤 모양의 데이터가 되었는지 head 로 outcome 를 찍어보았습니다. 

기준일 2021년 5월 3일과 4일, 2 일만 테스트 해 보겠습니다. 

이와같이 데이터를 모으면 가설검증을 위한 모든 데이터를 얻게 됩니다. 각 가설이 결과기간의 수익율을 결정하는데 얼마나 변별력이 있는지 하나씩 검증할 것입니다. 

In [77]:
'''
def data_processing(start_date, end_date):

    w_days = list(pd.bdate_range(start_date, end_date)) # 백테스트할 날짜모음
    
    outcome_all = pd.DataFrame()   

    for dt in w_days: # 날짜를 하루 하루 증가시키면서 시뮬레이션 

        obs_end = datetime.datetime.strftime(dt, "%Y-%m-%d") # 파이썬 날짜를 YYYY-MM-DD 형식으로 변경. loc [] 에 넣어 날짜로 구간을 자르기 위함. strftime 은 날짜 데이터를 문자열 형식으로 변경해줌
        start_date = datetime.datetime.strptime(obs_end, "%Y-%m-%d") - datetime.timedelta(days=180) # 총 180 일 관찰기간. strptime 은 문자열을 날짜 데이터로 변경해줌 
        obs_start = datetime.datetime.strftime(start_date, "%Y-%m-%d")      

        # 각 리스트에 들어가는 값은 종목별로 요약된 데이터. 일부는 모델의 입력 피쳐로 사용
        code_list = []
        
        price_list = []
        price_mean_list = []
        price_std_list = []
        price_z_list = []
        price_z_out_list = []
        price_5ma_list = []
        
        volume_list = []
        volume_mean_list = []
        volume_std_list = []
        volume_z_list = []
        volume_z_out_list = []
        
        wins_60_list = []
        wins_180_list = []

        toptail_list = []
        
        for code in kosdaq_list['code']:
            s = return_all[return_all['code']==code].loc[obs_start:obs_end]

            if (s['volume'].sum() < 1000000) or (s['close'].std() == 0):  # 6 개월간 총 거래량이 백만은 넘겠지... 아주 기본적인 필터링은 해 주자
                continue

            code_list.append(code)

            price_list.append(s['close'].tail(1).max()) # 마지막날 종가
            price_mean_list.append(s['close'].mean()) # 종가 평균
            price_std_list.append(s['close'].std()) # 종가 표준편차
            price_z =  (s['close'].tail(1).max() - s['close'].mean()) / s['close'].std() # 어제 Z 값
            price_z_out =  np.where( ((s['close'] - s['close'].mean()) / s['close'].std()) > 1.6, 1, 0) # 특이하게 높은 값 기록 - 90% 신뢰구간(원래 Z 값은 1.645)을 벗어나는 값인 경우는 1, 아니면 0
            price_5ma_list.append(s['close'].tail(5).mean()) # 5일 이동평균선

            volume_list.append(s['volume'].tail(1).max()) # 마지막날 거래량
            volume_mean_list.append(s['volume'].mean()) # 거래량 평균
            volume_std_list.append(s['volume'].std()) # 거래량 표준편차
            volume_z = (s['volume'].tail(1).max() - s['volume'].mean()) / s['volume'].std()  # 어제 Z 값
            volume_z_out = np.where( ((s['volume'] - s['volume'].mean()) / s['volume'].std()) > 1.6, 1, 0) # 특이하게 거래량 높은 날 기록 - 90% 신뢰구간을(원래 Z 값은 1.645) 벗어나는 값인 경우는 1, 아니면 0

            price_z_list.append(price_z) 
            volume_z_list.append(volume_z)

            price_z_out_list.append(price_z_out.sum())
            volume_z_out_list.append(volume_z_out.sum())

            wins_60_list.append(s['win_market'].tail(60).sum()) # 지난 60일 동안 코스닥 인덱스 수익율이 1 보다 작을 때 종목의 수익율이 1 보다 큰 날짜 수
            wins_180_list.append(s['win_market'].sum()) # 지난 18일 동안 코스닥 인덱스보다 잘 한 날짜 수 전부 합하기
            
            toptail = (s['close'] > s['open'])*((s['high']/s['close'])>1.05).astype('int') # 양봉이고 5% 이상 위 꼬리 상승. 꼭 5% 가 아니여도 됨
            toptail_list.append(toptail.sum()) # 양봉이고 5% 이상 위 꼬리 상승한 날자의 합
            

        # 데이터프레임으로 전환 - wins 는 종목 레벨 데이터임 !!
        wins = pd.DataFrame({'code': code_list, 'price': price_list, 'price_mean': price_mean_list, 'price_std': price_std_list, 'price_z': price_z_list,'price_z_out': price_z_out_list, 'price_5ma': price_5ma_list,\
                             'volume': volume_list, 'volume_mean': volume_mean_list, 'volume_std': volume_std_list, 'volume_z': volume_z_list, 'volume_z_out': volume_z_out_list,\
                             'num_wins_60': wins_60_list, 'num_wins_180': wins_180_list, 'num_toptail': toptail_list})


        wins['buy_price'] = wins['price']*0.985 # 매수 가격은 마지막날 종가에서 1.5% 빠진 가격. 그냥 종가로 매수 하면 심리적으로 어려움

        c1 = (wins['num_wins_180'] > 25)  # 지난 180일 동안 코스닥 인덱스보다 잘 한 날짜 수 > 20 (한달 영영일)
        candidates = wins[ c1 ] # 위 조건을 만족
        

        out_start =  datetime.datetime.strftime(datetime.datetime.strptime(obs_end, "%Y-%m-%d") + datetime.timedelta(days=1), "%Y-%m-%d") # 매수시작일
        out_end  =  datetime.datetime.strftime(datetime.datetime.strptime(obs_end, "%Y-%m-%d") + datetime.timedelta(days=7), "%Y-%m-%d") # 보유 최대 기간
        
        profit_sell = 1.08 # 익절라인
        loss_sell = 0.96 # 손절라인
      
        for index, row in candidates.iterrows():

            outcome = return_all[return_all['code']==row['code']].loc[out_start : out_end][['code', 'low', 'high', 'close']] # 필요한 컬럼만
            outcome['buy_price'] = int(row['buy_price']) # 어제 종가
            outcome['highest'] = outcome['high'].max()
            outcome['lowest'] = outcome['low'].min()
            outcome['price_z'] = row['price_z'] # 어제 정보
            outcome['volume_z'] = row['volume_z'] # 어제 정보
            outcome['price_z_out'] = row['price_z_out'] # 180일 요약 정보
            outcome['price_5ma'] = row['price_5ma'] # 5일 요약 정보
            outcome['volume_z_out'] = row['volume_z_out'] # 180일 요약 정보
            outcome['num_wins_60'] = row['num_wins_60'] # 60일 요약 정보
            outcome['num_wins_180'] = row['num_wins_180'] # 180일 요약 어제 정보    
            outcome['num_toptail'] = row['num_toptail'] # 180일 요약 어제 정보    
            outcome['num_wins_trend'] = outcome['num_wins_60'] / outcome['num_wins_180']
            outcome['price_from_5ma'] = outcome['buy_price'] / outcome['price_5ma']
            outcome['yymmdd'] = obs_end  # 기준일 종목선정 하는 날          
                        
            outcome['buy'] = np.where(outcome['low'].head(1).max() < outcome['buy_price'].max(), 1, 0) # 당일(out start) 저가가 매수할 가격보다 내려갔나?
            
            outcome['return_close'] = outcome['close'] / outcome['buy_price'] # 종가 수익율: (오늘 종가 / 매수가격)
            outcome['return_high'] = outcome['high'] / outcome['buy_price'] # 최고가 수익율: 최고가 / 매수가격)   
            outcome['return_low'] = outcome['low'] / outcome['buy_price'] # 최저가 수익율: 최저가 / 매수가격)                                                                                                                                                                                    
            
            outcome['profit_sell'] = np.where(outcome['return_high'] > profit_sell, 1, 0)  # 고가 수익율이 악절라인 도달?
            outcome['loss_sell'] = np.where(outcome['return_close'] < loss_sell, 1, 0)  # 종가 수익율이 손절라인 도달?     
                                                 
            outcome_all = pd.concat([outcome_all, outcome], axis=0)         
                                          
    return outcome_all
                                            
outcome_all = data_processing('2021-05-04', '2021-05-04')
'''

In [86]:
'''
print('\n','--------------- 데이터가 어떤 모양인지 알아봄 ------------------','\n')
outcome_all[outcome_all['buy']==1][['yymmdd','code','return_close','return_high', 'return_low', 'profit_sell', 'loss_sell']].head()

print('\n','--------------- 익절(8%)로 매도하는 경우의 데이터 ------------------','\n')
outcome_all[(outcome_all['buy']==1) & (outcome_all['code']=='034230')][['yymmdd','code','buy_price','return_close', 'return_high', 'return_low', 'profit_sell', 'loss_sell']]


print('\n','---------------  손절(-4%)로 매도하는 경우의 데이터 ------------------','\n')
outcome_all[(outcome_all['buy']==1) & (outcome_all['code']=='001000')][['yymmdd','code','return_close', 'return_high', 'return_low', 'profit_sell', 'loss_sell']]

print('\n','--------------- 마지막날 종가로 처리하는 경우의 데이터. 즉 손절이나 익절라인에 도달하지 않음 ------------------','\n')
outcome_all[(outcome_all['buy']==1) & (outcome_all['code']=='049550')][['yymmdd','code','return_close', 'return_high', 'return_low', 'profit_sell', 'loss_sell']]
'''