In [1]:
import FinanceDataReader as fdr
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

pd.options.display.float_format = '{:,.3f}'.format

### 가설 검증을 위한 데이터 처리
앞서 만든 return_all 파일을 아래와 같이 로드하고, Missing Data 는 제거합니다. 


In [4]:
return_all = pd.read_pickle('return_all.pkl').dropna()  

In [5]:
return_all.head()

Unnamed: 0_level_0,open,high,low,close,volume,change,code,name,kosdaq_return,return,win_market
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-01-05,2270,2285,2200,2250,410263,-0.004,60310,3S,1.008,0.996,0
2021-01-06,2225,2310,2215,2290,570349,0.018,60310,3S,0.996,1.018,1
2021-01-07,2290,2340,2240,2290,519777,0.0,60310,3S,1.008,1.0,0
2021-01-08,2300,2315,2225,2245,462568,-0.02,60310,3S,0.999,0.98,0
2021-01-11,2230,2275,2130,2175,409057,-0.031,60310,3S,0.989,0.969,0


<br>일주일(5영업일)을 수익율의 관찰 기간으로 하고, 관찰 기간 동안 주가 상승이 있으면 저희가 세운 가설들을 유의미한 가설로 판단하겠습니다. 여기서 주가 상승의 기준은  "종가 매수 일부터 다음 5 영업일 동안 최고 종가 수익율" 하겠습니다. 

첫 번째 종목 060310 에 대하여 처리를 먼저 해 보겠습니다. shift(-1) 은 다음 영업일의 종가 수익율을 참조하고, shift(-2) 은 그 다음의 영업일의 종가 수익율을 참조합니다. 따라서 매수 후 2 영업일 후, 종가 수익율은 shift(-1)*shift(-2) 로 계산됩니다. 이렇게 1 영업일, 2 영업일, 3 영업일, 4 영업일, 5 영업일 후 종가 수익율을 새로운 컬럼에 생성하고, 그 중에서 가장 큰 수익율을 고르면 됩니다. 생성된 컬럼 중 가장 큰 값은 max(axis=1) 로 찾습니다. 참고로 max() 에서는 axis=0 이 Default 라서 axis=1 로 정해주지 않으면 열에서 가장 큰 값을 찾게 됩니다. 이 부분을 유의해 주세요.

In [6]:
s = '060310'
df = return_all[return_all['code']==s].sort_index().copy()

df['close_r1'] = df['close'].shift(-1)/df['close']
df['close_r2'] = df['close'].shift(-2)/df['close']
df['close_r3'] = df['close'].shift(-3)/df['close']
df['close_r4'] = df['close'].shift(-4)/df['close']
df['close_r5'] = df['close'].shift(-5)/df['close']

''' 위 코드와 같은 결과
df['return_1'] = df['return'].shift(-1)
df['return_2'] = df['return'].shift(-2)*df['return'].shift(-1)
df['return_3'] = df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
df['return_4'] = df['return'].shift(-4)*df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
df['return_5'] = df['return'].shift(-5)*df['return'].shift(-4)*df['return'].shift(-3)*df['return'].shift(-2)*df['return'].shift(-1)
'''

df['target'] = df[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 주어지 컬럼에서 최대 값을 찾음
df.dropna(subset=['close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # 주어진 컬럼 중에 missing 값이 있으면 행을 제거(dropna)하고, 자신을 덮어 씀(inplace=True).

In [7]:
df.head(10)

Unnamed: 0_level_0,open,high,low,close,volume,change,code,name,kosdaq_return,return,win_market,close_r1,close_r2,close_r3,close_r4,close_r5,target
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2021-01-05,2270,2285,2200,2250,410263,-0.004,60310,3S,1.008,0.996,0,1.018,1.018,0.998,0.967,0.971,1.018
2021-01-06,2225,2310,2215,2290,570349,0.018,60310,3S,0.996,1.018,1,1.0,0.98,0.95,0.954,0.95,1.0
2021-01-07,2290,2340,2240,2290,519777,0.0,60310,3S,1.008,1.0,0,0.98,0.95,0.954,0.95,0.959,0.98
2021-01-08,2300,2315,2225,2245,462568,-0.02,60310,3S,0.999,0.98,0,0.969,0.973,0.969,0.978,0.973,0.978
2021-01-11,2230,2275,2130,2175,409057,-0.031,60310,3S,0.989,0.969,0,1.005,1.0,1.009,1.005,1.002,1.009
2021-01-12,2165,2225,2125,2185,244835,0.005,60310,3S,0.997,1.005,1,0.995,1.005,1.0,0.998,1.014,1.014
2021-01-13,2185,2210,2170,2175,127817,-0.005,60310,3S,1.006,0.995,0,1.009,1.005,1.002,1.018,1.023,1.023
2021-01-14,2180,2205,2150,2195,174996,0.009,60310,3S,1.001,1.009,0,0.995,0.993,1.009,1.014,1.03,1.03
2021-01-15,2190,2265,2185,2185,345872,-0.005,60310,3S,0.984,0.995,0,0.998,1.014,1.018,1.034,1.032,1.034
2021-01-18,2185,2220,2150,2180,251311,-0.002,60310,3S,0.98,0.998,0,1.016,1.021,1.037,1.034,1.053,1.053


<br>이제 모든 종목에 대하여 For loop 로 종가 매도시 수익율을 최대값을 생성합니다. 'max_close' 의 분포를 보니 평균은 1.033, 최소값 0.326, 최대값 3.703 입니다. 단, max_close 는 가설 검정으로 활용할 지표입니다. 매수 후, 몇 번 째 영업일이 최고 수익율인지 알 수 없기 때문에 기간 중 최고 수익율을 이용합니다.

In [10]:
kosdaq_list = pd.read_pickle('kosdaq_list.pkl')

mdl_data = pd.DataFrame()

for code in kosdaq_list['code']:
    df = return_all[return_all['code']==code].sort_index().copy()

    df['close_r1'] = df['close'].shift(-1)/df['close']
    df['close_r2'] = df['close'].shift(-2)/df['close']
    df['close_r3'] = df['close'].shift(-3)/df['close']
    df['close_r4'] = df['close'].shift(-4)/df['close']
    df['close_r5'] = df['close'].shift(-5)/df['close']

    df['max_close'] = df[['close_r1','close_r2','close_r3','close_r4','close_r5']].max(axis=1) # 주어지 컬럼에서 최대 값을 찾음
    df.dropna(subset=['close_r1','close_r2','close_r3','close_r4','close_r5'], inplace=True) # 주어진 컬럼 중에 missing 값이 있으면 행을 제거(dropna)하고, 자신을 덮어 씀(inplace=True).
    
    mdl_data = pd.concat([mdl_data, df], axis=0)    
    
mdl_data.to_pickle('mdl_data.pkl')

In [8]:
mdl_data = pd.read_pickle('mdl_data.pkl')
print(mdl_data['max_close'].describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9]))

count   429,142.000
mean          1.033
std           0.073
min           0.326
10%           0.982
20%           0.995
50%           1.016
80%           1.059
90%           1.097
max           3.703
Name: max_close, dtype: float64
