<center><h1>Aprendizaje por Refuerzo Hands-On</h1></center>
<center>
Autor: <cite><a href="https://www.linkedin.com/in/aoteog/">Oteo García, Alberto</a></cite>
</center>
<center>
Autor: <cite><a href="https://www.linkedin.com/in/jesus-sanz/">Sanz del Real, Jesús</a></cite>
</center>

----------------


<center><h1>Summary</h1></center>

<center>

<p style="width:80%">
    En este notebook se presenta el taller de aprendizaje por refuerzo aplicado a un caso real para finanzas. El objetivo es plantear la resolución del problema de <b>mejor ejecución</b> a través del uso
    de técnicas de aprendizaje por refuerzo desde cero. Para ello, durante el taller se ha de completar el entorno básico <b>BestExecutionEnv</b> donde los asistentes desarrollarán las partes claves del
    código para obtener un simulador de mercado que, aunque relativamente naive, será funcional. Posteriormente, los participantes tendrán de aplicar algoritmos clasicos y basados en inteligencia artificial (IA) para la
    resolución del problema. 
</p>
<p style="width:80%">
    En términos sencillos el problema de <b>mejor ejecución</b> trata sobre la ejecución de órdenes con un tamaño suficiente como para que su ejecución suponga un <b><i>'problema'</i></b> como se comenta durante la clase 6 de máster. La resolución de la ejecución de estas órdenes (ordenes CARE) se puede realizar utilizando diferentes aproximaciónes. En el caso de este taller, queremos optimizar el <b><i>timing</i></b> de nuestras órdenes para minimizar el impacto de mercado, es decir, buscaremos trocear la orden CARE para comprar (vender) a los menores precios (mayores precios) de la sesión en la que se ejecuta la orden CARE. Como baseline para saber si nuestra ejecución es buena o mala utilizaremos el baseline habitual en el sector, el VWAP:
</p>   
$$\frac{\sum_{i=1}^T p_i\cdot v_i}{\sum_{i=1}^Tv_i}$$

</center>

---

<center><h1>Datos</h1></center>

<center>
<p style="width:80%">
Los datos para este taller se han extraido tomando como referencia los activos Repsol y Santander. Para mantener la simplicidad del problema contamos con la primera posicion del libro de ordenes tanto el bid como del ask y el volumen acumulado agrupado por 5 segundos. El tiempo del libro de ordenes comprende las 13:00 y las 17:25 de los días bursatiles seleccionados. El conjunto de datos esta partindo en 3 partes:
</p>
    
</center> 
<center>
    <p style="width:30%"><b>Train</b>: Primeros 60 días hábiles de 2018</p>
  <p style="width:30%"><b>Validación</b>: Primeros 30 días hábiles de 2019</p>
  <p style="width:30%"><b>Test</b>: Intevalo de los días hábiles del 31 al 60 de 2019</p>
</center>

In [None]:
from collections import deque
import pickle
import sys
from typing import Any, List, Sequence, Tuple
from collections import  deque

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

sys.path.append("../src/")
from agents.dqn import DDQNAgent
from report.report import plot_results

In [None]:
with open("../data/rep_data.pickle", "rb") as f:
        df = pickle.load(f)
data = df["train"]

In [None]:
df.keys()

---
# Entorno

In [None]:
class BestExecutionEnv:
    """
    
    """
    def __init__(self, data, look_back=60):
        """Inicialización de la clase del entorno que simula
        el libro de ordenes.
        ----------------------------------------------------
        Input:
            - data: 
                Dataframe con los datos previamente
                agrupados del libro de órdenes.
            
            - look_back: 
                Ventana para la generación de features
                roladas en el instante t=0 del episodio.
                Esta ventana representa el rango máximo para
                la construcción de features.
        ----------------------------------------------------
        Variables Internas:
            - episode_bins:
                Número de bines (steps) del episodio.
            - episode_full_len:
                Es igual a look_back + episode_bins.
            - vol_care:
                Volúmen total (en títulos) de la orden care.
            - actions_fn:
                Diccionario con las posibles acciones del agente.
                Las claves acceden a la función que evalúa  la acción
                tomada por el agente.
            - n_actions:
                Número de acciones posibles.
            - n_features:
                Número de características de los estados.
            - episode:
                Dataframe que contiene los steps y estados del episodio.
            - episode_full:
                Es el episode añadiendo el look_back antes del comienzo 
                del episodio.
            - episode_vwap:
                VWAP de mercado al final del episodio.
            - market_ep_vol:
                Volumen (títulos) ejecutado por el mercado en cada bin del episodio.
            - state_pos:
                Número de step en el que nos encontramos.
            - exec_vol:
                Acumulado de títulos ejecutados por el algoritmo.
            - action_hist:
                Lista de acciones tomadas por el algoritmo en cada step.
            - market_vwap_hist:
                Lista de VWAP de mercado en cada step.
            - reward_hist:
                Lista de rewards obtenidas en cada step.
            - price_hist:
                Lista de precios ejecutados en cada step.
            - vol_hist:
                Lista de títulos ejecutados en cada step.                
        """
        
        # Fixed params
        self.data = data
        self.look_back = look_back
        self.episode_bins = None
        self.episode_full_len = None
        self.vol_care = None
        
        self.actions_fn = {
            0: self._do_nothing,
            1: self._agg_action,
        }
        
        self.n_actions = len(self.actions_fn)
        self.n_features = self._detect_num_feat()

        # Data variables
        self.episode = None
        self.episode_full = None
        
        # Env variables
        self.episode_vwap = None
        self.market_ep_vol = None
        self.state_pos = 0
        self.exec_vol = 0
        self.actions_hist = []
        self.algo_vwap_hist = []
        self.market_vwap_hist = []
        self.reward_hist = []
        self.price_hist = []
        self.vol_hist = []
        
    def _detect_num_feat(self):
        """Detecta el número de variables del estado.
        Función necesaria para adaptarse automaticamente a los
        cambios en las variables de observation_builder.
        """
        self._reset_env_episode_params()
        self._generate_episode()
        s = self.observation_builder()
        return s.shape[0]
        
    def _reset_env_episode_params(self):
        """
        Reset del episodio e inicialización de los parámetros.
        Las variables internas vuelven a sus valores originales.
        """
        self.episode_full_len = None
        self.episode = None
        self.episode_full = None
        self.episode_vwap = None
        self.market_ep_vol = None
        self.state_pos = 0
        self.algo_vwap = 0
        self.exec_vol = 0
        self.actions_hist = []
        self.algo_vwap_hist = []
        self.market_vwap_hist = []
        self.reward_hist = []
        self.price_hist = []
        self.vol_hist = []
        
    def _generate_episode_params(self):
        """Se determinan las características de la orden a ejecutar.
        La órden queda definida por: 
         - episode_bins:
             Obtención de un número entero aleatorio [400, 600] 
             con una distribución uniforme.
         - vol_care:
             Obtención del porcentaje de steps en el que hay que 
             ejecutar una órden para cubrir la órden care. 
             vol_care responde a un valor uniforme [0.075, 0.125]
             multiplicado por el número self.episode_bins. 
             Lo convertimos a entero.
        """
        # TODO: Int aleatorio entre 400 y 600 como un objeto numpy
        self.episode_bins = np.random.randint(low=400, high=600)
        # TODO: Float aleatorio entre 0.075 y 0.125
        pct_bins = np.random.uniform(low=0.075, high=0.125)
        # TODO: Int multiplicacion pct_bins y episode_bins
        self.vol_care = int(pct_bins * self.episode_bins)
        
        self.episode_full_len = self.episode_bins + self.look_back
        
        assert self.episode_bins <= 600
        assert self.episode_bins >= 400
        assert self.vol_care <= int(self.episode_bins * 0.125)
        assert self.vol_care >= int(self.episode_bins * 0.075)
        assert isinstance(self.vol_care, int)
        
    def _generate_episode(self):
        """Obtenemos el día y hora en el que comienza el episodio.
        """
        self._generate_episode_params()
        
        lenght_episode = 0
        while lenght_episode != self.episode_full_len:
            # TODO: Selección de un dia entre los posibles.
            # Clue: Usa np.random.choice y los dias data.keys
            selected_day = np.random.choice(
                    list(self.data.keys()
                )
            )
            
            # TODO: Extrae selected_day de data
            data_day = self.data[selected_day]
            
            # TODO: selecciona una hora de inicio aleatoria
            init_time = np.random.choice(data_day.index)
            
            hour_pos = data_day.index.get_loc(init_time)
            initial_position = hour_pos - self.look_back
            final_position = hour_pos + self.episode_bins
            
            if initial_position < 0:
                continue
            else:
                # TODO: Filtra data_day entre por initial_position y final_position
                self.episode_full = data_day.iloc[initial_position:final_position, :]
                
                # TODO: Filtra data_day entre por hour_pos y final_position
                self.episode = data_day.iloc[hour_pos:final_position, :]
                
                lenght_episode = self.episode_full.shape[0]
        
            
    def reset(self) -> np.array:
        """Reinicialización del episodio junto con los parámetros.
        Devuelve la primera observación del nuevo episodio.
        """  
        self._reset_env_episode_params()     
        self._generate_episode()
        self._compute_episode_market_feat()
        
        return self.observation_builder()
    
    def observation_builder(self) -> np.array:
        """ Función para la construcción de las observaciones del estado.
            ------------------------------------------------------------
            Default:
                - Primera característica es tiempo restante en porcentaje.
                - Seguna característica es el volumen restante en porcentaje.
        """
        # TODO: Construye el vector con las dos características de la descripción
        # Clue: Utiliza episode_bins, state_pos, exec_vol ,vol_care
        time_left = (self.episode_bins - self.state_pos) / self.episode_bins
        vol_left = 1 - (self.exec_vol / self.vol_care)
        obs  = np.array([time_left, vol_left])
        
        return obs
    
    def _compute_episode_market_feat(self) -> Tuple[float, float]:
        """Cáculo de los valores VWAP y Market Vol del episodio.
        Como no tenemos las ejecuciones de mercado, asumimos que el 
        precio es el mid price de cada step.
        """
        # TODO: Calcula el mid price utilizando ask1 y bid1 de episode
        # Opcional: Utiliza un precio más realista para el mkt VWAP
        mid = (self.episode["ask1"] + self.episode["bid1"]) / 2
        # TODO: Calcula market_ep_vol
        self.market_ep_vol = self.episode.cumvol.diff()
        self.market_ep_vol[0] = 0
        # TODO: calcula el volumen acumulado del mercado en todo el episodio
        cum_vol = self.market_ep_vol.sum()
        # TODO: calcula el episode_vwap
        self.episode_vwap = (mid[:-1] * self.market_ep_vol[1:]).sum() / cum_vol
        
        return self.episode_vwap, self.market_ep_vol
    
    def _compute_algo_vwap(self) -> float:
        """Cálculo del VWAP del algoritmo hasta el step actual.
        """
        # TODO: Calcula el algo_vwap
        # Clue: utiliza price_hist, vol_hist
        p_arr = np.array(self.price_hist)
        v_arr = np.array(self.vol_hist)
        algo_vwap = np.sum(p_arr * v_arr) / np.sum(v_arr)
        return algo_vwap
    
    def _compute_reward(self, price: float, vol: float) -> float:
        """Función de diseño de los rewards y penalizaciónes que 
        recibe el algoritmo al tomar las acciones.
        --------------------------------------------------------
        Default:
            - El reward es el ratio de la diferencia entre el episode_vwap y
              el precio de la acción tomada, dividido entre episode_vwap.
        """
        # TODO: Establece y devuelve un reward cuando vol == 0
        if vol == 0:
            reward = 0
            return reward
        # TODO: Calcula y devuelve el reward cuando vol > 0
        # Clue: Utiliza episode_vwap y price para la reward por defecto
        # Opcional: Utiliza el self y elimina los parámetros de la función
        reward = (self.episode_vwap - price) / self.episode_vwap
        return reward
    
    def _compute_stop_conditions(self) -> Tuple[bool, bool]:
        """Define las condiciones de parada del episodio
        Return:
            Tiempo agotado, orden completada
        """
        # TODO: Calcula las variables de parada y devuélvelas en el orden apropiado
        is_bins_complete = self.state_pos == self.episode_bins
        is_ord_complete = self.exec_vol == self.vol_care
        return is_bins_complete, is_ord_complete
    
    def _compute_done_reward(self) -> float:
        # TODO: Free style
        _, is_ord_complete = self._compute_stop_conditions()
        rwd_factor = not is_ord_complete
        done_reward = -1 * rwd_factor
        return done_reward
    
    def _agg_action(self) -> float:
        """Acción agresiva de compra de un título a precio de episode['ask1'].
        Devolvemos el reward asociado a esa acción.
        """
        # TODO: obtén el precio de la accion agresiva (ask1) en el state_pos
        price = self.episode["ask1"].values[self.state_pos]
        # TODO: guarda price en price_hist, añade 1 a exec_vol y añade 1 a vol_hist
        self.price_hist.append(price)
        exec_vol = 1
        self.exec_vol += exec_vol
        self.vol_hist.append(exec_vol)
        
        # TODO: utiliza la función apropiada para calcula el algo_vwap
        algo_vwap = self._compute_algo_vwap()
        # guarda el algo_vwap en algo_vwap_hist
        self.algo_vwap_hist.append(algo_vwap)
        # TODO: calcula el reward utilizando la función apropiada
        reward = self._compute_reward(price, exec_vol)
        return reward

    def _do_nothing(self) -> float:
        """No hacer nada y devolvemos el reward asociado a la acción
        """
        # TODO: Repite el proceso de _agg_action
        # Clue: Precio y volumen ejecutado = 0
        price = 0
        exec_vol = 0
        self.price_hist.append(price)
        self.vol_hist.append(exec_vol)
        algo_vwap = self.algo_vwap_hist[-1]
        self.algo_vwap_hist.append(algo_vwap)
        reward = self._compute_reward(price, exec_vol)
        
        return reward
    
    def _compute_market_vwap(self) -> float:
        """Cálculo del VWAP del mercado hasta el step actual.
        """
        # TODO: Establece un para el vol ejecutado por el mkt en cada step
        # Clue: puedes fijarte en _compute_episode_market_feat
        mid_p = (self.episode["ask1"] + self.episode["bid1"]) / 2
        mkt_p = (mid_p + mid_p.shift(-1).ffill()) / 2
        # Calcula todos los vwap del mkt hasta el step actual incluido
        v = self.episode["cumvol"].diff().shift(-1)
        p_arr = mkt_p.values[:self.state_pos + 1]
        v_arr = v.values[:self.state_pos + 1]
        sum_vol = np.sum(v_arr)
        # Si el mkt vol hasta el step == 0, devuelve el último precio hasta el step
        if sum_vol == 0:
            return p_arr[-1]
        # Calcula y devuelve el vwap acumulado hasta el step
        market_vwap = np.sum(p_arr * v_arr) / sum_vol
        return market_vwap
    
    def _compute_done(self) -> bool:
        """ Reglas de finalización del episodio.
        """
        # TODO: Calcula las condiciones de parada utilizando la función adecuada
        conditions = self._compute_stop_conditions()
        is_bins_complete = conditions[0]
        is_ord_complete = conditions[1]
        # TODO: Devuelve done == True si se cumplen cualquiera de las condiciones
        done = is_bins_complete or is_ord_complete
        return done

    def step(self, action) -> Tuple[np.array, float, bool, dict]:
        """ Evalua la accián, calcula la recompensa, devuelve el 
        nuevo estado y si el episodio ha terminado.
        """
        
        market_vwap = self._compute_market_vwap()
        act_fn = self.actions_fn.get(a)
        if act_fn is None:
            raise ValueError(
                f"Invalid action {a}. Valid actions {self.actions_fn.keys()}"
            )
        
        reward = act_fn()

        self.market_vwap_hist.append(market_vwap)
        self.reward_hist.append(reward)
        
        self.state_pos += 1
        
        done = self._compute_done()
        
        if done:
            reward += self._compute_done_reward()
            return None, reward, done, {}
        
        observation = self.observation_builder()
        
        return np.array(observation), reward, done, {}
    
    def action_sample(self):
        """
        Devuelve una acción aleatoria. El valor ha de corresponder 
        con las keys de actions_fn.
        """
        # TODO: Toma una acción aleatoria
        # Opcional: ¿Qué distribución de prob es mejor para la exploración?
        p = self.vol_care / self.episode.shape[0]
        action = np.random.choice([0, 1], p=[1-p, p])
        return action

    def stats_df(self):
        """Información para el gráfico de resultados de la ejecución
        """
        
        my_df = pd.DataFrame(
            {"vwap": self.algo_vwap_hist, "vol": self.vol_hist},
            index=list(self.episode.index)[:len(self.algo_vwap_hist)]
        )
        my_df = my_df.reindex(self.episode.index)
        my_df["vol"] = my_df["vol"].fillna(0)
        my_df["vwap"] = my_df["vwap"].ffill()
            
        
        p = self.episode["ask1"]
        v = self.episode["cumvol"].diff().shift(-1)
        last_v = self.episode_full["cumvol"].diff()[-1]
        v.iloc[-1] = last_v
        market_vwap = (p * v).cumsum() / v.cumsum()
        market_df = pd.DataFrame(
            {"vwap": market_vwap, "vol": v},
            index=v.index
        )
        
        mpx = (self.episode["ask1"] + self.episode["bid1"]) / 2
        
        return my_df, market_df, mpx
        
        

---
<center><h1>TWAP</h1></center>

<center>
<p style="width:80%">
El <b><i>time weighted average price</i></b> (TWAP) es un algoritmo tradicional de negociación basado en el precio medio ponderado utilizado para la ejecución de órdenes más grandes sin un impacto excesivo en el precio de mercado. Básicamente, se trocea la orden de manera que ejecute las ordenes en un tiempo equidistante durante la sesión en la que se pide la ejecución de la orden CARE. Puede ser fácil adivinar el patrón de negociación de la estrategia en ejecución si sus órdenes no se modifican de una manera especial, por lo que los parámetros se pueden ajustar para hacer que la estrategia sea más difícil de rastrear. Las soluciones más comunes son la distribución aleatoria del tamaño de los pedidos y / o el tiempo de demora entre ellos. Es posible limitar la cantidad para que no exceda un porcentaje definido del volumen de participación, para minimizar el impacto de las estrategias en el mercado.
</p>  
<p style="width:80%">
Dada las caracteristicas del taller, se pide a los participantes implementar un TWAP sin la necesidad de realizar ninguna modificación. El agente TWAP ha de trocear y ejecutar las órdenes hijas de la orden CARE equidistantes en el tiempo. 
</p>

In [None]:
class TWAP(DDQNAgent):
    def act(self, s):
        # TODO: Configura un TWAP determinista utilizando s
        if s[1] >= s[0]:
            return 1
        return 0

------------------
<center><h1>Parametrización del Problema</h1></center>

<center>
<p style="width:80%">
Una vez definido el entorno que vamos a utilizar como simulador de mercado necesitamos definir el agente que va a encargarse de aprender a ejecutar las órdenes CARE. El agente es el <b><i>cerebro</i></b> del sistema y puede tener o no tener inteligencia artificial implementada. Por ejemplo, la clase TWAP anteriormente implementada depende unicamente de una regla determinista. Por otro lado, los algoritmos vistos durante el bloque de Aprendizaje por Refuerzo dependeran de la construcción de un modelo de aprendizaje y por tanto requerirán de la parametrización de estos. Los parámetros e hiperparámetros del modelo dependerán de la aproximación y modelo que elijamos.
</p>

---
<center >
<p style="width:80%">
    <b>Epsilon</b>: Parámetro de exploración para los algoritmos basados en funciones valor (por ejemplo, los deep Q-learning). Puede tomar valores entre [0,1].
</p> 
</center>
<center>
<p style="width:80%">
    <b>Min Epsilon</b>: Valor mínimo del epsilon por si se quier dejar aleatoriedad durante procesos de entrenamiento muy largos en los que el <b>epsilon</b> decaería hasta cero.
</p> 
</center>
<center>
<p style="width:80%">
    <b>Espilon_decay</b>: Valor numérico mediante el cual se reduce el valor de epsilon cada determinado número de episodios.
</p> 
</center>
<center>
<p style="width:80%">
    <b>Gamma</b>: Término de descuento para el calculo de los retornos acumulados con descuento. Dado que nuestro MDP se define con tareas episódicas gamma podrá tomar valores en el intervalo [0,1].
</p> 
</center>
<center>
<p style="width:80%">
    <b>Alpha</b>: Step-size, término indicando el tamaño de las actualizaciones durante el aprendizaje. Dado que nuestro problema es no estacionario (el sistema evoluciona en el tiempo) el alpha será un valor estático o adaptativo pero nunca un valor no descendente a cero en el tiempo.
</p> 
</center>

<center>
<p style="width:80%">
    <b>Buffer Size</b>: Tamaño de la memoria encargada de obtener un conjunto de datos que aproximadamente sea independiente e identicamente distribuido (i.i.d).
</p> 
</center>

---
<center>
<p style="width:80%">
<b>Nota</b>: Los parametros que definen la arquitectura de la red dependen de lo flexible y compleja que se contruyan en los agentes. Los agentes ofrecidos para el taller mantienen la filosofia del mismo y se mantendrán sencillos.
</p> 
</center>
<center>
<p style="width:80%">
    <b>Batch size</b>: Tamaño de los paquetes de datos que se envian al modelo durante su aprendizaje.
</p> 
</center>

<center>
<p style="width:80%">
    <b>Hidden_neurons</b>: Número de neuronas en las capatas ocultas de los modelos.
</p> 
</center>

---
<center>
<p style="width:80%">
    <b>Nepisodes</b>: Número de sessiones de trading (episodios) que se vana realizar para el entrenamiento del modelo.
</p> 
</center>
<center>
<p style="width:80%">
    <b>N_log</b>: Valor numérico indicando cada cuantos episodios se realiza un log de la situación actual del aprendizaje.
</p> 
</center>
<center>
<p style="width:80%">
    <b>Learn_after</b>: Valor numérico indicando cada cuantos steps se realiza un aprendizaje por parte de las redes.
</p> 
</center>

In [None]:
"""
    Agent Params
"""
# TODO: Selecciona un epsilon inicial para el entrenamiento
epsilon = 1
# TODO: Selecciona un min_epsilon para el entrenamiento
min_epsilon = 0.05
# TODO: Selecciona un gamma para el aprendizaje
gamma = 1
# TODO: Selecciona un alpha para el aprendizaje
alpha = 0.0001
# TODO: Selecciona un buffer_size para el aprendizaje
buffer_size = 80000
# TODO: Selecciona un batch_size para el aprendizaje
batch_size = 256
# TODO: Selecciona el número de nueronas para el modelo
hidden_neurons = 240

"""
    Training Params
"""
# TODO: Selecciona el número de episodios
nepisodes = 1000
n_log = 25
#TODO: Determina el epsilon_decay para el proceso de entrenamiento
epsilon_decay = (epsilon - min_epsilon) / (nepisodes * 0.95)
learn_after = batch_size

env = BestExecutionEnv(data, 60)

<center><h3>Inicialización del agente</h3></center>

In [None]:
agent = DDQNAgent(
    env, gamma=gamma, epsilon=epsilon, alpha=alpha,
    batch_size=batch_size, buffer_size=buffer_size,
    hidden_neurons=hidden_neurons, trainable=True
)

<center><h1>Recolección de los Episodios para el Buffer</h1></center>
<center>
<p style="width:80%">
Antes de empezar el entrenamiento, para que el modelo tenga experiencias de las que aprender y poder tomar acciones greedy con cierto criterio ha de tener muestras para entrenar. Para ello vamos a llenar el buffer con experiencias siguendo una política estocástica con el objetivo de explorar entorno inicialmente.
</p>

In [None]:
# En este punto eps es 1 -> actuando random
s = env.reset()
for exps in range(buffer_size):  
    a = agent.act(s)
    s1, r, done, _ = env.step(a)
    agent.experience(s, a, r, s1, done)
    s = s1

    if not exps % 10000:
        print(f'buffer exps: {exps}')
    if done:
        s = env.reset()

#### Train Algo

In [None]:
agent.set_trainable(True)
learn_counter = 0
history_steps = []
history_rewards = []
history_disc_rewards = []
history_losses = []

list_df = []
list_market_df = []
list_mpx = []

for episode in range(nepisodes):
    s = env.reset()
    step = 0
    cum_reward = 0
    dis_cum_reward = 0
    episode_losses = []
    while True:
        a = agent.act(s)
        s1, r, done, _ = env.step(a)
        agent.experience(s, a, r, s1, done)
        learn_counter += 1
        cum_reward += r
        dis_cum_reward += agent.gamma ** step * r
        s = s1
        step += 1
        if not learn_counter % learn_after:
            mse = agent.learn()
        if done:
            agent.epsilon = max([agent.epsilon - epsilon_decay, min_epsilon])
            history_rewards.append(cum_reward)
            history_disc_rewards.append(dis_cum_reward)
            history_losses.append(mse)
            history_steps.append(step)
            
            res = env.stats_df()
            list_df.append(res[0])
            list_market_df.append(res[1])
            list_mpx.append(res[2])
            
            if not episode % n_log:
                mse = agent.learn()
                print(
                    f'Episode: {episode}, '
                    f'steps: {np.round(np.mean(history_steps[-n_log:]), 2)}, '
                    f'rew: {np.round(np.mean(history_rewards[-n_log:]), 2)}, '
                    f'mse: {np.round(mse)}, '
                    f'eps: {np.round(agent.epsilon, 2)}'
                )
            break

#### Plot Results

In [None]:
agent.set_trainable(False)
cum_reward = 0
step = 0
env = BestExecutionEnv(df["test"], 60)
s = env.reset()
a = 1
s, r, done, _ = env.step(a)
step += 1
cum_reward += agent.gamma ** step * r
while True:
    a = agent.act(s)
    s, r, done, _ = env.step(a)
    step += 1
    cum_reward += agent.gamma ** step * r
    if done:
        break
plot_results(env)

In [None]:
a,b,c = env.stats_df()
grupo_ = pd.cut(b.index, 400)
b["grupo"] = grupo_
b = b.loc[:, ["vwap", "grupo"]]
b = b.groupby(["grupo"]).mean().bfill()
a["grupo"] = grupo_
a = a.loc[:, ["vol", "grupo"]]
a = a.groupby(["grupo"]).max().bfill()

In [None]:
import matplotlib.pyplot as plt
fig, ax1 = plt.subplots()
ax1.plot(b.values, color='red')
ax2 = ax1.twinx()
ax2.plot(a.values, color='blue')
fig.tight_layout()
plt.show()

In [None]:
env.exec_vol

In [None]:
env.vol_care

In [None]:
pd.DataFrame(history_rewards).rolling(20).mean().plot()

In [None]:
res_markets = []
for market_df in list_market_df:
    grupo = pd.cut(market_df.index, 400)
    market_df["grupo"] = grupo
    market_df = market_df.loc[:, ["vwap", "grupo"]]
    market_df = market_df.groupby(["grupo"]).mean().bfill()
    res_markets.append(market_df)

In [None]:
df_fin = res_markets[0].values
for i in res_markets[1:]:
    df_fin += i.values

In [None]:
plt.plot(df_fin)