In [1]:
import gym
import numpy as np
import math
from stable_baselines3.common.vec_env import DummyVecEnv
import matplotlib.pyplot as plt
from runstats import *
import runstats

np.random.seed(1234)

In [2]:
# использование дискретного пространства действий, аналогичного документу «Создание рынка с помощью обучения с подкреплением»
actions_num = 21   # таким образом, диапазон возможностей составляет от 0,3% до 3% от TOB
max_abs_dif = 4
max_abs_spread = 20


s0 = 100
T = 1. # Общее время.
sigma = 2.  # Среднеквадратичное отклонение.
dt = .005  # Шаг времени.
beta = 0.5
kappa = beta * 2
k = 1.5
A = 137.45

def spread(beta, sigma, T_t, k):
    return beta*sigma**2*(T_t) + 2/beta*np.log(1+beta/k)

def r(beta, sigma, T_t, s, q):
    return s - q*beta*sigma**2*(T_t)

def l(A, k, d):
    '''
    A : float
        в Avellaneda A = \lambda/\alpha, где alpha такая же, как указано выше, 
        lambda — постоянная частота рыночных ордеров на покупку и продажу.
    k : float
        в Avellaneda k = alpha*K, где alpha ~ 1.5, и K таково, что \delta p ~ Kln(Q) для рыночного ордера размера Q
    d : float
        в Avellaneda, d=расстояние до средней цены
    
    l : float:
        в Avellaneda, l = lambda = интенсивность Пуассона, при которой выполняются приказы нашего агента.
    '''
    return A*np.exp(-k*d)   

class AvellanedaEnv:
    def __init__(self, s0, T, dt, sigma, beta, k, A, kappa, seed=0, is_discrete=True):
        '''
        Parameters
        ----------
        s : float
            Начальное значение цены фьючерса/акции.
        b : float
            Начальное значение «бреча».
        T : float
            Общее время.
        dt : float
            Шаг времени.
        sigma : float
            Волатильность цен.
        gamma : float
            Фактор дисконта.
        k : float
            в Avellaneda k = alpha*K, где alpha ~ 1.5, и K таково, что \delta p ~ Kln(Q) для рыночного ордера размера Q
        A : float
            в Avellaneda A = \lambda/\alpha, где alpha такая же, как указано выше, 
            lambda — постоянная частота рыночных ордеров на покупку и продажу.
    
        '''
        self.s0 = s0
        self.T = T
        self.dt = dt
        self.sigma = sigma
        self.beta = beta
        self.k = k
        self.A = A
        self.sqrtdt = np.sqrt(dt)
        self.kappa = kappa
        self.is_discrete = is_discrete
        self.stats = runstats.ExponentialStatistics(decay=0.999)
        np.random.seed(seed)

        # пространство наблюдения: s (цена), q, T-t (оставшееся время)
        self.observation_space = gym.spaces.Box(low=np.array([0.0, -math.inf, 0.0]),
                                     high=np.array([math.inf, math.inf,T]),
                                     dtype=np.float32)
        # пространство действия: spread, ds
        self.action_space = gym.spaces.Discrete(actions_num)
        self.reward_range = (-math.inf,math.inf)
        
    def reset(self,seed=0):
        self.s = self.s0
        self.q = 0.0
        self.t = 0.0
        self.w = 0.0
        self.n = int(T/dt)
        self.c_ = 0.0
        return np.array((self.s,self.q,self.T))
        
    def step(self, action):
        if self.is_discrete:
            despl = (action-(actions_num-1)/2)*max_abs_dif/(actions_num-1)
        else:
            despl = action
        ba_spread = spread(self.beta,self.sigma,self.T-self.t,self.k)

        bid = self.s - despl - ba_spread/2
        ask = self.s - despl + ba_spread/2
                
        db = self.s - bid
        da = ask - self.s
        
        lb = l(A, k, db)
        la = l(A, k, da)
        
        dnb = 1 if np.random.uniform() <= lb * self.dt else 0
        dna = 1 if np.random.uniform() <= la * self.dt else 0
        self.q += dnb - dna

        self.c_ += -dnb * bid + dna * ask # заработок

        self.s += self.sigma * self.sqrtdt *(1 if np.random.uniform() < 0.5 else -1)

        previous_w = self.w
        self.w = self.c_ + self.q * self.s
                
        dw = (self.w - previous_w)
        self.stats.push(dw)

        reward = dw - self.kappa/2 * (dw - self.stats.mean())**2
        
        self.t += self.dt
            
        return np.array((self.s,self.q,self.T-self.t)), reward, self.t >= self.T, {'w':self.w}
    
env = AvellanedaEnv(s0, T, dt, sigma, beta, k, A,kappa)



In [3]:
# Загрузите расширение ноутбука TensorBoard
%load_ext tensorboard
%tensorboard --logdir logs

ERROR: Could not find `tensorboard`. Please ensure that your PATH
contains an executable `tensorboard` program, or explicitly specify
the path to a TensorBoard binary by setting the `TENSORBOARD_BINARY`
environment variable.

In [4]:
from stable_baselines3 import PPO, DQN, A2C
from stable_baselines3.common.callbacks import CheckpointCallback
from stable_baselines3.common.callbacks import EvalCallback

eval_callback = EvalCallback(env, best_model_save_path='./logs/',
                             log_path='./logs/', eval_freq=500,
                             deterministic=True, render=False)


print("Model not found! Starting training...")
policy_kwargs = dict(net_arch=[10,10])
model = DQN('MlpPolicy', env, policy_kwargs=policy_kwargs, verbose=1, gamma=1.0, tensorboard_log="./logs/")
total_timesteps = 200000
model.learn(total_timesteps=total_timesteps,callback=eval_callback)

AttributeError: 'AvellanedaEnv' object has no attribute 'metadata'

In [5]:
from stable_baselines3 import PPO, DQN, A2C

model = DQN.load("./logs/best_model.zip")

ValueError: unsupported pickle protocol: 5