# 주문집행 시뮬레이션
- 크레프트 태크놀로지스 AXE 팀은 주문집행 문제를 강화학습을 통해 해결합니다.
- 하지만 기존의 toy project와는 다르게, 실제 상황에 강화학습을 적용하는 시도는 생각보다 많은 장애물을 마주하게 됩니다.
- 이 샘플 태스크는 그 응용력을 아주 간단한 범위에서 시험합니다.

**주의 : '완벽하게' 푸는 것이 이 태스크의 목적은 아닙니다. 무엇보다, 자신의 생각을 코드로 구현하려는 시도가 중요합니다.**


In [1]:
# 주문집행 시뮬레이션 모듈 import
from env import OrderSimulation1, OrderSimulation2

In [2]:
# 주문 집행 시뮬레이션 인스턴스입니다.
# 각 reset마다 랜덤으로 (사야하는 주식의 수 / 타임 스텝) 을 설정합니다.
# 목표는, 최소 비용으로 주식을 구매하는 것 입니다.
env = OrderSimulation1()

## 함수 스펙 설명

In [3]:
# reset -> 초기 호가정보 반환[5개의 time frame][매수 3호가 ~ 매도 3호가]
order_books = env.reset()
print("호가창 길이: {}".format(len(order_books)))
order_books[-1]

호가창 길이: 5


326000    131
327000    172
328000     10
329000    193
330000     26
331000     17
dtype: int64

In [4]:
# mission_info -> 현재 episode 의 목표 구매 수량과 maximum time step
env.mission_info()

{'total_step': 10, 'mission_buy': 269}

In [5]:
# step -> action(매수 1호가 주문, 매수 2호가 주문, 매수 3호가 주문, 시장가 주문) 을 받아 시뮬레이션을 처리
# 편의상 step 후 체결되지 않은 주문은 모두 취소함을 가정합니다.
# 반환 : 새로운 호가창 시퀀스(1~4번쨰는 이전 시퀀스의 2~5번쨰 항목과 동일), 이번 기 매수체결 정보, 전체 기 매수체결 정보.
# 모든 주문은 기존에 호가창에 있는 대기 잔량이 체결된 후에 체결됩니다. 주문이 무조건적으로 체결되는 것이 아닙니다.
# 필요 수량 이상으로 주문하는 경우 에러가 발생합니다.
order_books, executed_this_step, executed_every_step = env.step([30, 10, 20, 5])
executed_this_step

326000    20
327000    10
328000    30
329000     5
dtype: int64

In [6]:
# get_left_observation() 은 일종의 치트 메소드 입니다.
# 현재부터 episode의 끝까지 발생할 다음 호가창 상태를 미리 알려줍니다.
# (이 환경은 상태전이와 action의 독립을 가정하고 있습니다)
env.get_left_observation()

[325000     70
 326000    151
 327000    172
 328000    144
 329000     67
 330000      8
 dtype: int64,
 324000     39
 325000     84
 326000    184
 327000     79
 328000     82
 329000    122
 dtype: int64,
 323000     32
 324000     68
 325000     67
 326000     22
 327000    132
 328000    154
 dtype: int64,
 324000    120
 325000    121
 326000    165
 327000    167
 328000     12
 329000     53
 dtype: int64,
 324000    191
 325000    107
 326000     85
 327000     73
 328000    134
 329000     80
 dtype: int64,
 324000     97
 325000    159
 326000     68
 327000    156
 328000      4
 329000    172
 dtype: int64,
 325000    126
 326000     75
 327000     79
 328000     90
 329000     17
 330000    182
 dtype: int64,
 325000     80
 326000     92
 327000    160
 328000     38
 329000     90
 330000    124
 dtype: int64,
 323000     43
 324000    176
 325000    188
 326000     55
 327000     53
 328000    137
 dtype: int64]

# Task - 리워드가 없는데요
강화학습의 핵심은 reward입니다. <br/>
하지만 보시다 시피 주문집행에서 reset과 step은 명시적인 reward를 반환하지 않습니다.(사소하지만 done 역시 마찬가지입니다.) <br/>
기존 OrderSimulation class를 이용, 아래 형식에 맞추어 Gym 환경을 다시 정의해보십시오.<br/>


*HINT* : 이 simulation은 학습을 위한 gym입니다. <br/>
action을 결정하는 데는 사용해서는 안 되지만, reward를 계산하는 데 미래 데이터를 쓰는데 주저하지 마십시오!

*WARNING* : 정답은 없습니다. 그럴 듯한 학습 목표를 세우는 데 초점을 맞추시면 됩니다.

In [None]:
class OrderGym:
    
    # TODO
    # return: state, reward, done, info
    def reset(self, action):
        raise NotImplementedError

    # TODO
    # return: state, reward, done, info
    def step(self, action):
        raise NotImplementedError