# Intraday_price_pattern matching

국채선물 10년물의 전일자 일중 가격변화 패턴을 바탕으로 과거의 패턴과 비교하여,
가장 유사도가 높은 n개의 일자들의 다음날 가격변화를 차트로 보여주는 예제입니다.


2011년~2019년의 국채선물 10년물 1분단위 데이터를 기반으로 n분단위로 resample해서 비교합니다.

In [None]:
# 필요한 라이브러리들을 불러옵니다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import math

In [None]:
# 10년 국채선물 1분단위 데이터를 불러옵니다.
df = pd.read_csv("LKTB_infomax_1m_20200521.csv")
df

In [None]:
# 분리되어 있는 날짜(DATE)와 시간(TIME)열을 합치는 작업
df['DATETIME'] = pd.to_datetime(df['DATE'] + ' ' + df['TIME'])
df = df.drop(['DATE', 'TIME'], axis=1)
df = df.set_index('DATETIME')
df

In [None]:
# 주요 변수 세팅
daycount_match = 2 # 매칭할 대상 기간 : 이틀치를 가지고 비교합니다.
daycount_forecast = 1 # 전망할 날짜 수 :  다음날 하루의 패턴을 보여줍니다.
resample_minutes = 10 # 가격주기 : 10분 단위 데이터를 기반으로 합니다.

In [None]:
# 1분단위로 되어있는 데이터를 resample_minutes(10) 주기로 resample 해준다.
df = df.resample(str(resample_minutes) + 'T', closed='right').agg({
    'OPEN': 'first',
    'HIGH': 'max',
    'LOW': 'min',
    'CLOSE': 'last',
    'VOLUME': 'sum',
    'OPENINTEREST': 'last'
    }).dropna()
df

In [None]:
# 날짜의 목록을 만들어준다.
list_day = df.resample('D') \
    .last() \
        .dropna() \
            .drop(['OPEN', 'HIGH', 'LOW', 'VOLUME','OPENINTEREST'], axis=1) \
                .reset_index()['DATETIME'] \
                    .dt.date \
                        .to_numpy().tolist()
print(len(list_day), list_day[-1])

In [None]:
# 매칭할 날짜 설정
x_end_date = list_day[-1] # data중 마지막 날짜로 세팅하는 경우

# %% 날짜 list에서 패턴 매칭대상 start_date, end_date 가져오기
x_start_date = list_day[(list_day.index(x_end_date) - daycount_match + 1)]

print(x_start_date, x_end_date)

In [None]:
# 패턴매칭해볼 대상인 기간의 dataframe
df_x = df.loc[x_start_date.isoformat():x_end_date.isoformat()]
df_x

In [None]:
# 패턴매칭대상 가격 moves 만들기
np_moves_target = df_x['CLOSE'].to_numpy()

np_moves_target

In [None]:
# 가져온 moves 를 z 표준화
np_moves_target_z = stats.zscore(np_moves_target)
np_moves_target_z

In [None]:
# 매칭할 전체 가격 moves의 개수
len(np_moves_target_z)

In [None]:
# %% 기준일과 매칭할 날짜 수 setting
daycount_match = 2 # 매칭할 대상 기간 : 2 days
daycount_forecast = 1 # 전망할 날짜 수 :  1 day
resample_minutes = 10 # 가격주기 : 10 mins

date_split = '2019-01-01'

In [None]:
# df를 이틀치씩(daycount_match)으로 분리하기위한 날짜 목록(시작일,종료일) list를 만든다.
list_start_date = []
list_end_date = []

for i in range(len(list_day)-daycount_match + 1):
    if list_day[i + daycount_match - 1] < x_end_date: #자기 자신 패턴을 피하기 위해
        list_start_date.append(list_day[i])
        list_end_date.append(list_day[i + daycount_match - 1])

In [None]:
print(list_start_date[-1], list_end_date[-1])

In [None]:
# 위의 날짜목록에 해당하는 가격변화(moves)를 분리해낸다.
list_moves = []
for i in range(len(list_start_date)):
# for i in range(10):
    list_moves.append(df.loc[list_start_date[i].isoformat():list_end_date[i].isoformat()]['CLOSE'].to_numpy())

print(len(list_moves))


In [None]:
# DTW(Dynamic Time Warping) 두개의 시계열 데이터간의 유사도를 계산하는 DTW 알고리즘을 사용
list_dtw = []

from dtw import accelerated_dtw
from tqdm import tqdm

# 대상패턴과 각 가격변화들의 dtw거리를 산출하여 list_dtw 리스트를 만든다.
for np_moves_data in tqdm(list_moves):
    d, _, _, _ = accelerated_dtw(np_moves_target_z, stats.zscore(np_moves_data), 'euclidean')
    list_dtw.append(d)

In [None]:
for i in range(10):
    print(list_dtw[i])

In [None]:
# dtw값이 적은 순서대로 순위 매기기(stats.rankdata)
list_rank = stats.rankdata(list_dtw).tolist()

for i in range(10):
    print(list_rank[i])

In [None]:
# 기간, dtw거리, 순위가 모두 포함된 결과 dataframe 만들기
df_result = pd.DataFrame(list(zip(list_start_date, list_end_date, list_dtw, list_rank)),
                         columns = ['start', 'end', 'dtw', 'rank'])
df_result

In [None]:
# rank가 낮은것(유사도가 높은것)부터 순서대로 10(max_rank)개 차트를 그립니다.
max_rank = 10

f1 = plt.figure(figsize=(15, 10))
plt.grid(b=True)

# 하루중 장 시간이 달랐던 적이 있어서(장 30분 연장, 1월2일 등) 맞춰주기 위한 조정
minutes_per_day = 405 
points_per_day = math.ceil(minutes_per_day / resample_minutes)
points_before = points_per_day * daycount_match
points_after = points_per_day * daycount_forecast

x = np.linspace(-points_before + 1,points_after, points_before + points_after )

for rank in range(1,max_rank+1):
    index = list_rank.index(rank)
    dtw = list_dtw[index]
    moves_before = df.loc[list_start_date[index].isoformat():list_end_date[index].isoformat()]['CLOSE'].to_numpy()
    moves_after = df.loc[list_day[list_day.index(list_end_date[index]) + 1].isoformat():
                         list_day[min(list_day.index(list_end_date[index]) + daycount_forecast, len(list_day) - 1)].isoformat()]['CLOSE'].to_numpy()
    pivot_price = moves_before[-1]
    moves_before_scaled = moves_before - pivot_price
    moves_after_scaled = moves_after - pivot_price
    moves = np.concatenate((
        [np.nan]*(points_before - len(moves_before_scaled)),
        moves_before_scaled,
        moves_after_scaled,
        [np.nan]*(points_after - len(moves_after_scaled))
        ))
    plt.plot(x,moves,  label=(list_end_date[index].isoformat(),rank, round(dtw,1)))

# %%

# target moves plotting
pivot_price_target = np_moves_target[-1]
moves_target_before_scaled = np_moves_target - pivot_price_target
moves_target_after_scaled = []
moves_target_scaled = np.concatenate((
    [np.nan]*(points_before-len(moves_target_before_scaled)),
    moves_target_before_scaled,
    moves_target_after_scaled,
    [np.nan]*(points_after-len(moves_target_after_scaled))
    ))

plt.plot(x, moves_target_scaled,'r-', label=x_end_date, linewidth=3.0)
plt.legend(loc='best')
plt.show()

유사도가 높은 것부터 일자, 순위, dtw거리 를 나타냅니다.