# Curso - Trading Algorítmico con Python

**Docente**: Frank Ygnacio Rosas (MFM Candidate, School of Mathematics, University of Minnesota) | fsyr.quantmoon@gmail.com

**Asistente de cátedra:** Helí González (MSc Estadística, Universidad Nacional Agraria La Molina) |  heligonzalespe@gmail.com


-------------------- Ficha del proyecto --------------------

**Fecha límite de entrega**: _Domingo 17 de noviembre a las 23:59 hrs (GMT-5)_.

**Audiencia**: Edúcate Perú Consultores 

-----------------------Fin de Ficha-------------------------

Octubre, 2024
******************

## Título de proyecto: 

$$\text{Desarrollo de Sistema Algorítmico ``algoTrading"}$$ 

### 1) Contexto General


El presente proyecto tiene por fin el desarrollo y puesta en práctica del sistema algorítmico `algoTrading` trabajado para el curso. Este sistema algorítmico  deberá incluir los procesos de:

- Lectura de archivos `.zarr`
- Construcción de barras y etiquetas
- Construcción de features
- Selección de features
- Combinatorial Backtest y almacenamiento de información
- Conexión a Cloud
- Live (Paper) Trading

Tal y como se trabajó en clase, estas etapas están basadas en el libro `Advances in Financial Machine Learning` (1st Ed., 2018) de Marcos López de Prado.

### 2) Criterio de Evaluación

El criterio de evaluación se basará en dos aspectos clave: **integridad** y **funcionalidad**. En ese sentido, se evaluará que el sistema algorítmico incluya todos los archivos proporcionados en clase, correctamente organizados y almacenados, así como nuevos archivos que el alumno desee incluir en sus sitema. Asimismo, se evaluará el cumplimiento del sistema algorítmico en el *live (paper) trading*. La puntuación máxima es de 20 puntos. Las especificaciones para cada criterio se detallarán en la sección siguiente.

### 3) Especificaciones (20 pts)

Cada uno de las especificaciones mencionadas formarán parte de la evaluación. En ese sentido, estas son:

#### 3.1. Archivos (Puntaje: 8 pts)

El sistema algorítmico deberá presentarse en un folder llamado `algoTrading`. Este folder deberá contener, _como mínimo_, los siguientes archivos y folders:

1. Archivos `[nombre]Computation.py`: estos son archivos ejecutables por el usuario para una etapa en específica del sistema; por ejemplo, un archivo `barsComputation.py` permitiría ejecutar _únicamente_ la computación de las barras y etiquetas.
3. Archivos `[nombre]Stage.py`: estos son archivos no-ejecutables, los cuales reúnen los procesos que serán llamados en los archivos `[nombre]Computation.py`; por ejemplo, el archivo `barsStage.py` contendrá todas los paquetes, funciones, y clases llamadas en el archivo `barsComputation.py` por el usuario para el cómputo de las barras y etiquetas.
4. Folders:
   1. `backtestResults`: folder con los `.csv` con los resultados del backtest. Asimismo, este folder deberá contener los archivos pickle (`.pkl`) del modelo endógeno (size) y exógeno (side). 
   2. `bars`: folder con los `.csv` con los archivos conteniendo las barras y las etiquetas por acción por cada archivo `.zarr` utilizado en el sistema. Por ejemplo, si se utiliza `MCD US Equity.zarr`, debería almacenarse en esta carpeta un archivo `MCD US Equity.csv`. 
   3. Folder `processedFeatures`. Este folder contendrá:
      1. Archivos `.csv` con los features generales por acción. Por ejemplo, `MCD US Equity_Features_Global.csv`.
      2. Archivos `.csv` con los features seleccionados por acción. Por ejemplo, `MCD US Equity_Features_Selected.csv`.
      3. Archivo `.pkl` del proceso de escalamiento.
      4. Archivos `.csv` con la información útil para el proceso de backtesting. Esto es:
         1. Archivo `aligned_tprices.csv` con los precios de la matriz stackeada (precios de `entry` y `exit`).
         2. Archivo `aligned_labels.csv` con las etiquetas de la matriz stackeada.
         3. Archivo `stacked_scaled_features.csv` con las columnas de features de la matriz stackeada.
         Noten que en este caso pueden haber más de un archivo (es decir, diferentes insumos para el backtestings).
    4. Folder `tickData` con los archivos `.zarr`.
    5. Folder `tSystem` con los archivos `.py` adicionales para el funcionamiento del sistema.
  
Adicionalmente, para los fines del proyecto, el alumno deberá crear lo siguiente:

- **Archivo `mainTSystem.py`:** Este archivo será el único que el evaluador ejecutará para generar la interfaz de usuario. Deberá permitir al usuario llevar a cabo tres procesos principales, encapsulados en los archivos `[nombre]Computation.py`: la generación de barras y etiquetas, el cálculo y selección de *features*, y el ajuste de modelos junto con el *backtest*.

    **Recomendación:** Se sugiere al estudiante crear un archivo `baseTSystem.py` que contenga una clase llamada `TradingSystem`. Esta clase debería integrar los procesos mencionados anteriormente, utilizando diversos *inputs*. Luego, el archivo `mainTSystem.py` debería instanciar y utilizar esta clase `TradingSystem`.

    **Interfaz de Usuario:** El evaluador (usuario) deberá poder llamar al archivo `mainTSystem.py` desde la consola y ver una interfaz interactiva. Este le deberá permitir ingresar *inputs*, seleccionar opciones, y abrir o cerrar el sistema. _El alumno es libre de crear la interfaz bajo el estilo y funcionalidad que crea conveniente_. Un ejemplo visual de lo que es una interfaz desde la consola es el siguiente (en este caso, para un programa de simulaciones de Monte Carlo):

![Screenshot_1.jpg](attachment:7c2091a3-6cdd-4966-bca9-ed024f92c00e.jpg)

* Finalmente, el alumno es libre de incluir cualquier otro archivo/folder adicional, especialmente los que se requieran para asegurar la conexión a cloud (de utilizarse).

#### 3.2. Funcionalidad (Puntaje: 7 pts)

Esta parte de la evaluación se basa en la correcta funcionalidad del archivo `mainTSystem.py`. 

En ese sentido, al ejecutar `mainTSystem.py` desde el terminal, el usuario (evaluador) no debe encontrar ningún problema (bug) que impida la ejecución del archivo. Asimismo, una vez terminada la ejecución, debe poder visualizar los archivos `.csv` y `.pkl` organizados adecuadamente en las carpetas especificadas en la sección **3.1. Archivos**. Además, el evaluador deberá poder abrir estos archivos manualmente y revisar que la estructura y los datos almacenados sean coherentes (por ejemplo, evitar ratios de Sharpe inusuales como $700$ o valores de etiquetas poco razonables como $1.0015$).

En caso de emplearse una conexión a la nube, el evaluador debe ser capaz de transferir la carpeta `algoTrading` a una máquina virtual y ejecutar la interfaz sin problemas. Por lo tanto, el estudiante tiene la libertad de modificar los archivos detallados en **3.1. Archivos** para asegurar una conexión óptima con la nube.

#### 3.3. Live (Paper) Trading (Puntaje: 5 pts)

Finalmente, la evaluación de la conexión a *Live Trading* se realizará a través de un archivo en formato `.pdf` titulado `[nombre_alumno]liveTrading.pdf`. Este documento debe incluir una descripción detallada que integre visualizaciones tanto de la cuenta de *Live Trading* en Interactive Brokers como del terminal de operaciones. Noten que cada cuenta de paperTrading en Interactive Brokers tiene un ID asociado; este ID asociado deberá ser compartido en el archivo folder (por ejemplo, `U2513008`). Finalmente, el estudiante debe incluir gráficos (especialmente del *backtesting*) que evidencien la efectividad y precisión del algoritmo implementado. Este archivo `.pdf` debe tener, como mínimo 3 y como máximo 5 páginas de contenido (sin contar anexos y visualizaciones); las especificaciones a utilizarse son Times New Roman 12, interlineado 1pt.

En ese sentio, **el objetivo principal de este reporte es conocer el mejor modelo de *Machine Learning* obtenido por el estudiante**. El estudiante es completamente autónomo en utilizar el criterio de selección que desee, ya sea automatizado o manual. Asimismo, el reporte debe explicar **los resultados obtenidos durante el live trading**. Se recomienda a los estudiantes que, más que enfocarse en obtener retornos positivos, se centren en analizar y comprender los fenómenos subyacentes que ocurren en sus algoritmos.

Este archivo `.pdf` deberá incluirse en la carpeta `algoTrading`.

### 4) Indicaciones para la subida de archivos a GitHub para la evaluación del proyecto

Los estudiantes deberán crear una cuenta en [GitHub](https://github.com/) y establecer un repositorio titulado `algoTrading`. Se recomienda que el repositorio sea privado. Además, deberán agregar como colaborador al docente, utilizando el correo `fsyr.quantmoon@gmail.com` (usuario: frankstack).

La fecha límite para la subida de archivos es el domingo 17 de noviembre a las 23:59 hrs. Recuerden que GitHub registra cada *commit* y *push* (subida de archivos) realizado, por lo que el colaborador podrá ver la hora de cada actualización de archivos.

Para saber más sobre github, pueden visitar:
- https://docs.github.com/es

### 5) Recomendación final

Finalmente, se recomienda el uso de una conexión a *Cloud* para optimizar tanto la velocidad de procesamiento como la profundidad de los cálculos. La ejecución en un entorno en la nube permitirá procesar el universo completo de más de 200 acciones proporcionadas, lo cual aporta una mayor riqueza de información. En entornos locales, es probable que solo se puedan procesar alrededor de 100 acciones o, en el mejor de los casos, todas, pero con un rendimiento mucho más lento.

En ese sentido, aunque *la conexión a la nube es opcional*, los resultados pueden ser inestables y poco confiables si el análisis se realiza solo sobre un universo reducido de menos de 50 acciones. Por lo tanto, en estos casos, **el uso de la nube es sumamente recomendado** para garantizar la estabilidad y la precisión de los resultados obtenidos.

**Recuerden que pueden contactarse con el docente o el asistente de cátedra a sus correos respectivos!**

Asimismo, **recuerden que el uso de AI's como ChatGPT o Copilot son bienvenidos!**

> ## Happy coding! :)

# 1 barsComputation.py

In [5]:
"""
Main file for Bars Computation

Information flow: 

    tsystem.dataprocess > barsStage > barsComputation 
"""

import ray
from barsStage import ExecuteDataBundle

# Inicializa Ray | num_cpus es un parametro IMPORTANTE!
ray.init(include_dashboard=False, ignore_reinit_error=True, num_cpus=2)

# Define los parámetros
pathFiles = "./tickdata/"
pathSaveFeatures = "./bars/"
init_date = '2024-08-01'
last_date = '2024-08-31'

# Define parámetros de barras para estandar_volume
typeBar = "estandar_volume"
labels = True
# init_ema_window = 20  # No utilizado para estandar_volume
alphaCalibrationValue = 1000 # Umbral de volumen para barras estandar
max_holding_period = 900  # Es en segundos
pt_factor = 1.5
sl_factor = 1.5
tripleBarrierLabels = (1, -1, 0, 0, 0, 2)

# Ejecuta la función para procesar y guardar las barras estandar_volume
result_messages = ExecuteDataBundle(pathFiles = pathFiles, 
                      pathSaveFeatures = pathSaveFeatures, 
                      init_date = init_date, 
                      last_date = last_date,
                      typeBar=typeBar, 
                      labels=labels, 
                      #init_ema_window=20,
                      alphaCalibrationValue=alphaCalibrationValue, 
                      max_holding_period=max_holding_period,
                      pt_factor=pt_factor, 
                      sl_factor=sl_factor,
                      tripleBarrierLabels=tripleBarrierLabels,
                      show_progress=False)

# Imprime los resultados
for message in result_messages:
    print(message)

# Cierra Ray
ray.shutdown()


2024-11-30 19:52:06,285	INFO worker.py:1816 -- Started a local Ray instance.


[36m(process_and_save pid=10936)[0m > Bar Computation Process:::
[36m(process_and_save pid=10936)[0m >>>>> Equity: NFLX US Equity.zarr


Estandar Bars Construction | Processing Ticks Info:   0%|          | 0/30730 [00:00<?, ?it/s]
Estandar Bars Construction | Processing Ticks Info:   3%|▎         | 1040/30730 [00:00<00:02, 10342.21it/s]
Estandar Bars Construction | Processing Ticks Info:   7%|▋         | 2075/30730 [00:00<00:03, 7169.02it/s] 
Estandar Bars Construction | Processing Ticks Info:  10%|█         | 3124/30730 [00:00<00:03, 8366.11it/s]
Estandar Bars Construction | Processing Ticks Info:  14%|█▍        | 4309/30730 [00:00<00:02, 9555.01it/s]
Estandar Bars Construction | Processing Ticks Info:  18%|█▊        | 5431/30730 [00:00<00:02, 10078.65it/s]
Estandar Bars Construction | Processing Ticks Info:  21%|██        | 6478/30730 [00:00<00:02, 9928.33it/s] 
Estandar Bars Construction | Processing Ticks Info:  24%|██▍       | 7497/30730 [00:00<00:02, 9689.91it/s]
Estandar Bars Construction | Processing Ticks Info:  28%|██▊       | 8484/30730 [00:00<00:02, 9722.51it/s]
Estandar Bars Construction | Processing Ticks 

>> Process Finilized - Procesado y guardado: NFLX US Equity.csv


# 2 featComputation.py

In [1]:
"""
Main file for Features Computation & Features Importance

Information flow: 

    tsystem.dataprocess > featuresStage > featComputation 
"""

# main_feature_script.py
from tsystem.utils import *
from featuresStage import classExecuteFeature

# Define los parámetros
pathFiles = "./bars/"
pathSaveFeatures = "./ProcessedFeatures/" 
features_list = full_features_list  # O especifica una lista personalizada

# Inicializa la clase ExecuteFeature
execute_feature = classExecuteFeature(pathSaveFeatures, features_list=features_list)

# Ejecuta la función para computar y seleccionar features
result_messages = execute_feature.ExecuteFeature(
    pathFiles=pathFiles,
    save_part1=True,  # Computar y Guardar features globales
    save_part2=True,   # Seleccionar y Guardar features importantes
    n_estimators = 100,
    rs_value=42,
    importance_method = 'mdi'
)

# Imprime los resultados
for message in result_messages:
    print(message)

2024-11-30 20:04:17,713	INFO worker.py:1816 -- Started a local Ray instance.
Computing Features:   0%|          | 0/35 [00:00<?, ?it/s]
Computing Features:  60%|██████    | 21/35 [00:02<00:01, 10.30it/s]
Computing Features:  60%|██████    | 21/35 [00:20<00:01, 10.30it/s]
Computing Features:  63%|██████▎   | 22/35 [01:07<00:55,  4.25s/it]
Computing Features:  69%|██████▊   | 24/35 [01:13<00:44,  4.03s/it]
Computing Features: 100%|██████████| 35/35 [01:17<00:00,  2.22s/it]


>>> Scalling Process Initialized
>>> Scaling Process Finalized
:::>>> Feature Importance | Procedure: mdi | Status: Active
----------> Input Features Matrix Shape: (30238, 44)
:::>>> Feature Importance | Procedure: mdi | Status: Finalized
NFLX US Equity_Features_Global.csv
Features seleccionados y guardados correctamente.


# 3 backtestComputation.py

In [2]:
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 19 14:37:39 2024

@author: frank
"""
# Importamos funcionalidades del stage Backtest
from backtestStage import organizingData, tradingEco

# Importamos modelos de Scikit-Learn
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression


# I) Leemos los .csv de features, labels y precios
genPath = "./ProcessedFeatures"
features_filename = "stacked_scaled_features.csv"
labels_filename = "aligned_labels.csv"
prices_filename = "aligned_tprices.csv"

#    Almacenamos la informacion
features, labels, prices = organizingData(
    genPath, features_filename, labels_filename, prices_filename
    )


# II) Inicializamos la clase con los datos de features, labels y precios
trader = tradingEco(features=features, labels=labels.TripleBarrier, prices=prices)

#    Definimos modelos exógenos y sus grids de parámetros para el tuning
dict_exo_models = {
    'RandomForest': (
        RandomForestClassifier(random_state=42), 
        {
            'n_estimators': [50, 100],
            'max_depth': [10, 30, 50]
        }
    ),
    'LogisticRegression': (
        LogisticRegression(max_iter=1000, random_state=42), 
        {
            'C': [0.1, 10],
            'solver': ['liblinear']
        }
    )
}

#   Definimos el modelo endógeno para BetSize (usualmente, un mod. de arboles)
endogenous_model = RandomForestClassifier(random_state=42, n_estimators=100)

# III) Definimos los parámetros del backtest
N = 3 # Grupos
k = 2 # Particiones
capital = 10000 # Capital inicial (en USD)
commissions = 0 # Comisiones (en USD)
activate_tuning = True  # False solo cuando ya se tiene los modelos tuneados
path_location = "./backtestResults"  # Reemplazar con la ruta deseada
name_model_pickle_file = 'exogenous_model_testn1.pkl'  # Nombre de Archivo pickle si activate_tuning=False
num_cpus = 2 # CPU's a utilizarse con RAY

# Ejecutar el proceso 
trader.get_multi_process(
    dict_exo_models=dict_exo_models,
    endogenous_model=endogenous_model,
    N=N,
    k=k,
    capital=capital,
    commissions=commissions,
    activate_tuning=activate_tuning,
    path_location=path_location,
    #name_model_pickle_file=name_model_pickle_file,
    num_cpus=num_cpus
)

> Iniciando proceso de backtest


2024-11-30 21:58:22,343	INFO worker.py:1816 -- Started a local Ray instance.


> Tuning de modelos exógenos
::>> Tuning modelo exógeno: RandomForest




Mejores parámetros: {'max_depth': 10, 'n_estimators': 100}
Mejor score: 0.6230910174094811
::>> Tuning modelo exógeno: LogisticRegression




Mejores parámetros: {'C': 10, 'solver': 'liblinear'}
Mejor score: 0.622264122836721
> Seleccionando el mejor modelo exógeno basado en accuracy completa
::>> Modelo: RandomForest, Accuracy: 0.7125471261326808
::>> Modelo: LogisticRegression, Accuracy: 0.626298035584364
> Mejor modelo exógeno: RandomForest con accuracy 0.7125471261326808
::>> Modelo exógeno guardado en ./backtestResults/exogenous_model_RandomForest.pkl
> Entrenando el modelo endógeno para BetSize
::>> Modelo endógeno guardado en ./backtestResults/endogenous_model.pkl
> Ejecutando backtest con Combinatorial Cross-Validation


------> Ejecutando splits de backtest:   0%|          | 0/3 [00:00<?, ?it/s]

::>> Split 1/3


------> Ejecutando splits de backtest:  33%|███▎      | 1/3 [00:07<00:14,  7.27s/it]

::>> Split 2/3


------> Ejecutando splits de backtest:  67%|██████▋   | 2/3 [00:13<00:06,  6.93s/it]

::>> Split 3/3


------> Ejecutando splits de backtest: 100%|██████████| 3/3 [00:20<00:00,  6.86s/it]

> Resultados del backtest guardados en ./backtestResults/backtest_results_20241130_220107.csv



