In [1]:
# Carrega as variáveis de embiente usadas pelo notebook. Estas variáveis devem ser criadas no arquivo .env, localizada no mesmo diretório do notebook
%load_ext dotenv
%dotenv
%load_ext autoreload
%autoreload 2

## Objetivo do Nobook 
<p>O objetivo deste notebook é extrair o histórico de preços de ações de banco de dados relacional, acrescentar os indicadores técnicos e gravá-los no formato <b>parquet</b> para que sejam usados no processo de preparação dos dados para o treinamento do modelo de machine learning. O primeiro passo é obter os dados históricos de negociação de cada ativo gravá-los como arquivos individuais em disco. Estes arquivos devem conter as seguintes colunas:</p>
<ul>
<li>ticker - Código de negociação do ativo</li>
<li>dt_price - Data de negociação</li>
<li>open - Preço de abertura no dia</li>
<li>close - Preço de fechameto no dia</li>
<li>high - Preço máximo no dia</li>
<li>low - Preço mínimo no dia</li>
<li>volume - Volume financeiro negociado do ativo no dia</li>
</ul>
<p>É fundamental que os arquivos contenham exatamente estas colunas, pois a biblioteca TA-Lib (utilizada para calcularos indicadores técnicos) espera estes nomes como parâmetros de entrada para suas funções.</p>
<p><b>Exemplo</b>:</p>
<p>Lista de ativos recuperados do banco de dados: [PETR4, ITUB4, VALE3, ABEV3]</p>
<p>Arquivos gerados:</p>
<ul>
<li> PETR4.parquet </li>
<li> ITUB4.parquet </li>
<li> VALE3.parquet </li>
<li> ABEV3.parquet </li>
<ul>

### Imports

In [2]:
import os
import pandas as pd
import json
import multiprocessing as mp
from data_preparation import PreProcess, PROFTABILITY_TYPE
from db_access import StockHistory, ExportToParquet
from datetime import timedelta
from typing import List

pd.options.display.max_columns = 200

### Geração dos arquivos apenas com o a série histórica de preços

In [3]:
# Obtem o historico de precos dos ativos 
str_conn = os.environ.get("STR_CON")
raw_file_path = os.environ.get("RAW_DATA_PATH")
data_file_path = os.environ.get("DATASET_PATH")
exporter = ExportToParquet()
dbo = StockHistory(str_conn)
df = dbo.select()
df["dt_price"] = df["dt_price"].astype('datetime64[ns]')
# Grava os arquivos com o histórico de preços em formato parquet em um diretório local
print(f"Gerando arquivos de preço")
for stock in df['ticker'].unique():
    df_aux = df.loc[df['ticker'] == stock]
    exporter.export(df_aux, raw_file_path, stock)
print(f"Arquivos de preço gerados com sucesso")

<p>Uma vez que os arquivos com os dados históricos tenham sido gerados, o segudo passo da preparação dos datasets é iniciado. Neste passo serão incluídos indicadores técnicos ao histórico de preço de cada ativo para montar as estratégias de negociação que serão usados como entrada para os modelos. Uma estratégia de negociação nada mais é do que a combinação de indicadores técnicos que serão usados como features em modelos de machine learning. Durante o processo de treinamento serão usadas diversas combinações de indicadores e períodos diferentes com o objetivo de encontrar a configuração que obtenha a melhor acurácia na seleção dos ativos mais rentáveis.</p>
<p>Para automatizar o processo, as estratégias de negociação são configuradas em um arquivo json com a seguinte estrutura:</p>
<code>
<pre>
    "&lt;nome da estrategia&gt;":{
        "description": "&lt;Descrição da estratégia&gt;",
        "historic_period": &lt;Número inteiro que irá definir o total dias usados pelo modelo. Por exemplo, o modelo receberá um histórico de preço de 
                            60 dias para classificar o ativo&gt;,
        "profit_period": &lt;Número inteiro que definirá o período usado para calcular a rentabilidade do ativo (será usado para definir seu label).
                          Por exemplo, o modelo reberá 60 dias de cotação para classificar o ativo, se este parâmetro for setado para 10, a rentablidade 
                          usada para definir o label será calclada como: 
                          preço 10 dias após a o último dia da série de entrada/preço do último dia da série de entrada - 1&gt;,
        "shift_days": &lt;Número inteiro que define quantos dias serão "pulados" durante a geração das series temporais de preços. Por exemplo, um modelo
                       poderá ser treinado com um histórico de preços de 30 dias, a primeira série histórica será do dia 01 até o dia 30 do mês, se
                       shift_days for igual a 5 dias, a segunda série será do dia 6 (cinco dias após o início da série anterior) até o dia 6 mais 30
                       dias&gt;,
        "profit": &lt;Rentabilidade usada para definir o label de classificação de cada registro enviado para o modelo durante o treinamento. Por exemplo,
                   Se o objetivo do modelo for identificar ativos que possuam rentabiliade superior a 5% em um período de 20 dias, o valor atribuído para
                   este parâmetro deve ser 0.05&gt;,
        "functions": { -- Lista de funções que fazem parte da estratégia de negociação
            "&lt;nome "fantasia" da função&gt;":{
                "function": "&lt;nome da função na biblioteca TA-Lib, será usado para chamar a função no código&gt;",
                "params":{ -- Lista de parâmetros da função (parâmetros relacionados ao preço do ativo não devem ser listados aqui)
                    "&lt;nome da parâmetro&gt;": &lt;valor&gt;
                }                
            }
        }
    }
</pre>
</code>
<p>Exemplo de configuração:</p>
<p>Neste exemplo, a estratégia considera 90 dias de histórico de preço do ativo para classificar ativos que tenham rentabilidade superior a 5% em um período de 22 dias e para fazer isso, utiliza além do histórico de cotações os indicadores: Média móvel exponencial de 7 e 21 dias e o OBV.</p>
<code>
<pre>
{
    "EMA_7_21_OBV":{
        "description": "Combinacao de 2 medias moveis (7 e 21 dias) e OBV ",
        "historic_period": 90,
        "profit_period": 22,
        "shift_days": 5,
        "profit": 0.05,
        "functions": {
            "EMA_7":{
                "function": "EMA",
                "params":{
                    "timeperiod": 7
                }
            },
            "EMA_21": {
                "function": "EMA",
                "params":{
                    "timeperiod": 21
                }            
            },
            "OBV":{
                "function": "OBV"                  
            }
        }
    }
}
</pre>
</code>

### Adiciona os indicadores técnicos, a rentabilidade e o label às séries históricas

In [5]:
pre_process = PreProcess()
exporter = ExportToParquet()

raw_file_path = os.environ.get("RAW_DATA_PATH")
data_file_path = os.environ.get("DATASET_PATH")

path_content = os.listdir(raw_file_path)
# Filtra os arquivos parquet do diretório
path_content = [file for file in path_content if file.endswith(".parquet")]

for file in path_content:
    print(f"Processando arquivo: {raw_file_path}/{file}")
    df_raw = pd.read_parquet(os.path.join(raw_file_path, file))
    df_raw = df_raw.set_index("dt_price", drop=False)

    # Calcula os indicadores técnicos definidos nas estratégias para cada ativo
    for strategy_name, strategy, df_tech in pre_process.calculate_strategy("strategies.json", df_raw):
        window_size = strategy["historic_period"]
        shift = strategy["shift_days"]
        profit_period = strategy["profit_period"]
        profit = strategy["profit"]

        # Remove os valores nulos do DataFrame
        df_tech.dropna(inplace=True)

        # Faz a transposição dos valores para montar o data set de treino
        df_transp = pre_process.transpose_columns(df_tech, window_size, shift)
        del(df_tech)
        # Calcula a rentabilidade do período futuro
        df_transp["proftability"] = [pre_process.calculate_proftability(df_raw, element, profit_period, PROFTABILITY_TYPE.LOG) for element in df_transp["end_dt_price"]]
        # Define o label de cada registro do data set de treino
        df_transp["label"] = [1 if val else 0 for val in df_transp["proftability"] >= profit]
        # Exporta o data set como um arquivo parquet
        exporter.export(df_transp, os.path.join(data_file_path, strategy_name), file.split('.')[0])

Processando arquivo: data/raw/CPFE3.parquet
Processing strategy: Combinacao de 2 medias moveis (7 e 21 dias) e OBV 
Calculating EMA_7...
Calculating EMA_21...
Calculating OBV...
Processing strategy: Combinacao de Bolinger Bands (14, 2, 2), ADX e OBV 
Calculating BBANDS_14_2_2_EMA...
Calculating ADX...
Calculating OBV...
Processing strategy: Combinacao Preço Médio de 14 dias, Média Móvel Exponencial de 14 dias e OBV 
Calculating MIDPRICE_14...
Calculating KMA_14...
Calculating OBV...
Processando arquivo: data/raw/PMAM3.parquet
Processing strategy: Combinacao de 2 medias moveis (7 e 21 dias) e OBV 
Calculating EMA_7...
Calculating EMA_21...
Calculating OBV...
Processing strategy: Combinacao de Bolinger Bands (14, 2, 2), ADX e OBV 
Calculating BBANDS_14_2_2_EMA...
Calculating ADX...
Calculating OBV...
Processing strategy: Combinacao Preço Médio de 14 dias, Média Móvel Exponencial de 14 dias e OBV 
Calculating MIDPRICE_14...
Calculating KMA_14...
Calculating OBV...
Processando arquivo: dat

In [56]:
data_file_path = os.environ.get("DATASET_PATH")
data_file_path
df_raw = pd.read_parquet(os.path.join(raw_file_path, "BBDC4.parquet"))
df_raw["ticker"].unique()[0]

'BBDC4'