# Постановка задачи

## Тема: Flow internalization in crypto market

Цель работы в том, чтобы найти оптимальный способ сдвигания цен.

Модель на основе обучения с подкреплением (DQN).

Общая структура модели описана в статье по [ссылке](https://www.notion.so/Internalization-907cd477edc449c79a935263167ba49e#574c2dfa049247a29e7cfde5cf5fae54).

Предлагаю взять базовый каркас модели, описанный на страницах 1-3 и обогатить его чем-нибудь со страницы 4.

Стоит использовать практический подход к решению задачи, т.е. вместо выписывания и решения уравнения Бэллмана специфицировать и обучить RL модель на реальных данных.

# Презентация

## Price Skewing / Ценовой сдвиг

## Простая модель для изменения курса доллара к рублю
$A, B, M, S$ - рыночная ставка, ask, mid, spread

$a, b$ - наша bid и ask

Дискретное время $t$. Размер order - $s, q$.

Вероятность выполнения (execution probability):

$p(a)=exp(k*(A-a)/S), k>0$

$PnL=(a-M)*p(a)+(M-b)*p(b)$

$Risk=|Q|$

Целевая функция в момент времени $t$:
$$F = PnL(a,b) - r*Risk(Q)$$
$a, b$ --- управляющие переменные, $Q$ --- переменная состояния.

Эволюция состояния:
Если мы продадим $q$ в момент времени $t$, то $Q(t+1) = Q(t)-q$.

Value function:
$$ V \left( Q(t) \right) = \max_{a, b} \left[ \sum_t \left( \beta^t \times F(t+1) \right) \right]$$
Уравнение Беллмана:
$$V \left( Q(t) \right) = \max_{a,b} \left[ F + \beta \times V \left( Q(t+1) \right) \right]$$

## Возможные осложнения:

● Размер заказа не всегда равен $q$. В действительности $q_a$ и $q_b$ контролируют возрастные переменные.

● Если мы разместим заказ размером $q$, то мы можем получить сделку размером $<q$.

● Время непрерывно

● Середина не является постоянной

● Вероятность выполнения $p(a)$ и $p(b)$ может быть более сложной

● Рыночный спред развивается с течением времени

● У нас есть несколько валют. В этом случае $Q$ - это вектор. И $Risk(Q)$ может
выглядеть так: $Risk(Q) = (Q^T \times \Omega \times Q)^u$, $u>0$

● $A(t)$, $B(t)$ и $P(t)$ могут быть процессами с памятью

● У нас могут быть транзакционные издержки, например, комиссионные

● Мы можем ввести задержку исполнения. Например, мы принимаем решение в момент времени $t$, но
цена будет изменена только при $t + 2$.

## Вычислительные эксперименты

Данные лежат вот [тут](https://drive.google.com/drive/folders/1uVRv8l_x0dqWZdODL89usxaOzh5XRImK).

## Запуск модели

### Общий подход следующий.
Мы итерируемся по данным от начала и до конца. Модель выставляет биды и офера в стакан, отменяет их или переставляет на более предпочтительные места. По ходу дела она собирает фидбэк и учится ставить ордера по оптимальным ценам.

Для каждого выставленного ордера надо понять, исполнится он или нет. Ордер может исполниться по двум причинам.

1) Если рынок пошел в его сторону. Например, мы выставили офер по $61.25$. А через $1$ мс рыночный бид стал $61.30$. Для этого анализа понадобятся цены из файлов $tob*$.

2) Если на рынке произошла сделка по цене, пересекающей наш ордер. Например, мы выставили офер по $61.25$. А через $1$ мс произошла сделка по цене $61.26$. Это значит, что эта сделка вызвана ордером, который смэтчился бы с нашим ордером.

При итерировании по данным не требуется данные никак группировать. Просто применяем все апдейты по очереди. Данных много, поэтому код на python скорее всего будет работать довольно медленно. Лучше писать симуляцию на каком-то компилируемом языке на ваш выбор. Либо как-то ускорять python (например [вот так](https://github.com/exaloop/codon)).

Модель при принятии решения может использовать как данные из сырого биржевого стакана, так и синтетические котировки. Синтетика кратко описана [вот тут](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/d4d72bdb-ce29-4b26-9deb-93239db48022/Synthetic_liquidity.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20230207%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20230207T161651Z&X-Amz-Expires=86400&X-Amz-Signature=e02511b9e677f9981304370d66ba6c2c4426d98d1311ebe3926bb3dcff8bf459&X-Amz-SignedHeaders=host&response-content-disposition=filename%3D%22Synthetic%2520liquidity.pdf%22&x-id=GetObject). 

# Реализация

## Материалы по python

[Ссылка](https://www.tensorflow.org/guide/keras/save_and_serialize?hl=ru) на керас в тензорфлоу

[Ссылка](https://www.tensorflow.org/agents/api_docs/python/tf_agents/agents/DdpgAgent): from rl.agents import DDPGAgent. Вот [это](https://www.tensorflow.org/agents/api_docs/python/tf_agents/agents/DqnAgent) не стоит делать, т.к. конечное кол-во состояний.

[Ссылка](https://www.tensorflow.org/api_docs/python/tf/keras/Sequential): from rl.memory import SequentialMemory tf.keras.Sequential

[Ссылка](https://github.com/e-dorigatti/inverted-pendulum/blob/master/ddpg.py) на процесс Орнштейна-Улинбека: from rl.random import OrnsteinUhlenbeckProcess

## Размышления о реализации

Лучше реализовывать DDPGAgent, а не классический DQN с конечным количеством действий.

Если реализовывать классический DQN, то можно руководствоваться следующими соображениями: 
1. Торговать бесконечное кол-во денег мы не можем (денег во всем мире ограничено);
2. Торговать $\sqrt{2}$ денег мы тоже не можем;
3. Можно "аппроксимировать" наши сделки, округлив их, например до 100\$.
4. Ограничить сделки сверху (соотвественно снизу для продаж), например, 10 млн.\$

НО! Тогда получим сетку $\sim 2*10^6*$(кол-во валют), что уже является большим пространством состояний. Поэтому лучше реализовывать как модель с непрерывным простраством действий.

## Проверка среды на работоспособность

In [None]:
# Do you using Colab?
try:
    from google.colab import drive
    %tensorflow_version 2.x
    COLAB = True
    print("Note: using Google CoLab")
except:
    print("Note: not using Google CoLab")
    COLAB = False

if COLAB:
    !sudo apt-get install xvfb ffmpeg x11-utils
    !pip install 'gym==0.17.3'
    !pip install 'imageio==2.4.0'
    !pip install PILLOW
    !pip install 'pyglet==1.3.2'
    !pip install pyvirtualdisplay
    !pip install 'tf-agents==0.12.0'
    !pip install imageio-ffmpeg
    print("Note: done for Colab!")
else:
    print("Note: done for PC!")

In [None]:
# What version of Python do we have?
import sys

import tensorflow.keras
import pandas as pd
import sklearn as sk
import tensorflow as tf
import platform
import numpy as np
import gym

print(f"Python Platform: {platform.platform()}")
print(f"Tensor Flow Version: {tf.__version__}")
print(f"Keras Version: {tensorflow.keras.__version__}")
print()
print(f"Python {sys.version}")
print(f"Pandas {pd.__version__}")
print(f"Scikit-Learn {sk.__version__}")
print(f"Numpy {np.__version__}")
print(f"Gym {gym.__version__}")
gpu = len(tf.config.list_physical_devices('GPU'))>0
print("GPU is", "available" if gpu else "NOT AVAILABLE")

## Реализация DDPG

In [None]:
import tensorflow as tf

from tf_agents.agents.ddpg import actor_network
from tf_agents.agents.ddpg import critic_network
from tf_agents.agents.ddpg import ddpg_agent

from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment

from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.trajectories import trajectory

Тестирование среды

In [None]:
env_name = 'market_maker-v0'
env = gym.make(env_name)

env.reset()
done = False

i = 0
env.verbose = False
while not done:
    i += 1
    state, reward, done, _ = env.step([1, 1, 2000, 3000])
    env.render()

env.close()

Гиперпараметры

In [None]:
# How long should training run?
num_iterations = 3000
# How often should the program provide an update.
log_interval = 500

# How many initial random steps, before training start, to
# collect initial data.
initial_collect_steps = 1000
# How many steps should we run each iteration to collect
# data from.
collect_steps_per_iteration = 50
# How much data should we store for training examples.
replay_buffer_max_length = 100000

batch_size = 64

# How many episodes should the program use for each evaluation.
num_eval_episodes = 100
# How often should an evaluation occur.
eval_interval = 5000

Instantiate the Environment

In [None]:
env_name = 'market_maker-v0'
env = suite_gym.load(env_name)

In [None]:
env.reset()
PIL.Image.fromarray(env.render())

Создаем две среды:
1. Для обучения
2. Для оценки

In [None]:
train_py_env = suite_gym.load(env_name)
eval_py_env = suite_gym.load(env_name)

train_env = tf_py_environment.TFPyEnvironment(train_py_env)
eval_env = tf_py_environment.TFPyEnvironment(eval_py_env)

Создаем нейронную сеть

In [None]:
actor_fc_layers = (400, 300)
critic_obs_fc_layers = (400,)
critic_action_fc_layers = None
critic_joint_fc_layers = (300,)
ou_stddev = 0.2
ou_damping = 0.15
target_update_tau = 0.05
target_update_period = 5
dqda_clipping = None
td_errors_loss_fn = tf.compat.v1.losses.huber_loss
gamma = 0.995
reward_scale_factor = 1.0
gradient_clipping = None

actor_learning_rate = 1e-4
critic_learning_rate = 1e-3
debug_summaries = False
summarize_grads_and_vars = False

global_step = tf.compat.v1.train.get_or_create_global_step()

actor_net = actor_network.ActorNetwork(
    train_env.time_step_spec().observation,
    train_env.action_spec(),
    fc_layer_params=actor_fc_layers,
)

critic_net_input_specs = (train_env.time_step_spec().observation,
                          train_env.action_spec())

critic_net = critic_network.CriticNetwork(
    critic_net_input_specs,
    observation_fc_layer_params=critic_obs_fc_layers,
    action_fc_layer_params=critic_action_fc_layers,
    joint_fc_layer_params=critic_joint_fc_layers,
)

tf_agent = ddpg_agent.DdpgAgent(
    train_env.time_step_spec(),
    train_env.action_spec(),
    actor_network=actor_net,
    critic_network=critic_net,
    actor_optimizer=tf.compat.v1.train.AdamOptimizer(
        learning_rate=actor_learning_rate),
    critic_optimizer=tf.compat.v1.train.AdamOptimizer(
        learning_rate=critic_learning_rate),
    ou_stddev=ou_stddev,
    ou_damping=ou_damping,
    target_update_tau=target_update_tau,
    target_update_period=target_update_period,
    dqda_clipping=dqda_clipping,
    td_errors_loss_fn=td_errors_loss_fn,
    gamma=gamma,
    reward_scale_factor=reward_scale_factor,
    gradient_clipping=gradient_clipping,
    debug_summaries=debug_summaries,
    summarize_grads_and_vars=summarize_grads_and_vars,
    train_step_counter=global_step)
tf_agent.initialize()


### Metrics and Evaluation

In [None]:
def compute_avg_return(environment, policy, num_episodes=10):

    total_return = 0.0
    for _ in range(num_episodes):

        time_step = environment.reset()
        episode_return = 0.0

        while not time_step.is_last():
            action_step = policy.action(time_step)
            time_step = environment.step(action_step.action)
            episode_return += time_step.reward
        total_return += episode_return

    avg_return = total_return / num_episodes
    return avg_return.numpy()[0]


### Сбор данных

Теперь выполняем случайную политику в среде в течение нескольких шагов, записывая данные в буфер воспроизведения.

In [None]:
def collect_step(environment, policy, buffer):
    time_step = environment.current_time_step()
    action_step = policy.action(time_step)
    next_time_step = \
        environment.step(action_step.action)
    traj = trajectory.from_transition(\
        time_step, action_step,\
        next_time_step)

    # Add trajectory to the replay buffer
    buffer.add_batch(traj)


def collect_data(env, policy, buffer, steps):
    for _ in range(steps):
        collect_step(env, policy, buffer)


random_policy = random_tf_policy.RandomTFPolicy(\
    train_env.time_step_spec(),\
    train_env.action_spec())

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    data_spec=tf_agent.collect_data_spec,
    batch_size=train_env.batch_size,
    max_length=replay_buffer_max_length)

collect_data(train_env, random_policy, replay_buffer, steps=100)

# Dataset generates trajectories with shape [Bx2x...]
dataset = replay_buffer.as_dataset(
    num_parallel_calls=3,
    sample_batch_size=batch_size,
    num_steps=2).prefetch(3)


### Обучение агента

In [None]:
iterator = iter(dataset)

# (Optional) Optimize by wrapping some of the code in a graph using
# TF function.
tf_agent.train = common.function(tf_agent.train)

# Reset the train step
tf_agent.train_step_counter.assign(0)

# Evaluate the agent's policy once before training.
avg_return = compute_avg_return(eval_env, tf_agent.policy,
                                num_eval_episodes)
returns = [avg_return]

for _ in range(num_iterations):

    # Collect a few steps using collect_policy and 
    # save to the replay buffer.
    for _ in range(collect_steps_per_iteration):
        collect_step(train_env, tf_agent.collect_policy, replay_buffer)

    # Sample a batch of data from the buffer and update the
    # agent's network.
    experience, unused_info = next(iterator)
    train_loss = tf_agent.train(experience).loss

    step = tf_agent.train_step_counter.numpy()

    if step % log_interval == 0:
        print('step = {0}: loss = {1}'.format(step, train_loss))

    if step % eval_interval == 0:
        avg_return = compute_avg_return(eval_env, tf_agent.policy,
                                        num_eval_episodes)
        print('step = {0}: Average Return = {1}'.format(step, avg_return))
        returns.append(avg_return)


### Визуализация

In [None]:
# HIDE OUTPUT
def embed_mp4(filename):
    """Embeds an mp4 file in the notebook."""
    video = open(filename, 'rb').read()
    b64 = base64.b64encode(video)
    tag = '''
  <video width="640" height="480" controls>
    <source src="data:video/mp4;base64,{0}" type="video/mp4">
  Your browser does not support the video tag.
  </video>'''.format(b64.decode())

    return IPython.display.HTML(tag)


def create_policy_eval_video(policy, filename, num_episodes=5, fps=30):
    filename = filename + ".mp4"
    with imageio.get_writer(filename, fps=fps) as video:
        for _ in range(num_episodes):
            time_step = eval_env.reset()
            video.append_data(eval_py_env.render())
            while not time_step.is_last():
                action_step = policy.action(time_step)
                time_step = eval_env.step(action_step.action)
                video.append_data(eval_py_env.render())
    return embed_mp4(filename)


create_policy_eval_video(tf_agent.policy, "trained-agent")


## Итерирование по данным

In [None]:
tob_iterator = df_tob.iterrows()
trade_iterator = df_trade.iterrows()
"""
Применение:
a = next(tob_iterator)
row_df_tob = pd.DataFrame(next(tob_iterator)[1]).T
выдает строчку из df_tob
"""