<a href="https://colab.research.google.com/github/CarolBw/Piloto_Day_Trade/blob/main/Piloto_Day_Trade.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%%writefile /content/MVP_Objetivo.md
#@title **Objetivo do Projeto**

### 1. Propósito do MVP

Este projeto tem como objetivo principal a criação de um pipeline para extração, transformação, carga, análise e previsão da movimentação intradiária dos preços de um ativo financeiro em intervalos de 5 minutos. O modelo preditivo central será baseado em redes neurais recorrentes (LSTM), mas outras abordagens serão exploradas. O MVP visa garantir previsões para embasar decisões estratégicas de day trade.

### 2. Problema a Ser Resolvido

A alta volatilidade dos mercados financeiros exige ferramentas robustas para antecipação de movimentos de preço. A dificuldade está em capturar padrões de curto prazo e projetá-los com precisão. Traders e investidores necessitam de um modelo que consiga interpretar os padrões históricos e transformá-los em previsões úteis.

### 3. Pipeline do Projeto

O projeto será estruturado em sete etapas principais:

1. **Extração e armazenamento dos dados brutos:** Coleta de dados históricos de ativos financeiros em intervalos de 15 minutos utilizando a API do Yahoo Finance (yfinance). Os dados serão armazenados em um repositório GitHub sincronizado com Google Colab, garantindo acesso remoto e backup na nuvem.

2. **Limpeza e organização dos dados:** Padronização de colunas, tratamento de dados ausentes, eliminação de duplicatas e organização cronológica. Resultado salvo como `dados_limpos.csv`.

3. **Transformação e engenharia de features:** Adição de indicadores técnicos (como médias móveis, RSI, MACD), criação de variáveis de lag e retornos. Resultado salvo como `dados_transformados.csv`.

4. **Modelagem e estruturação do banco de dados:**

   a) Organização em arquivos CSV:

   - `dados_brutos.csv`: dados originais extraídos da API.
   - `dados_limpos.csv`: após limpeza e padronização.
   - `dados_transformados.csv`: após adição de features técnicas.
   - `dados_final.csv`: versão padronizada e normalizada dos dados.

   b) Banco de dados dimensional:

   - **Fato**: `fato_precos`, contendo os valores de fechamento e chaves para dimensões.
   - **Dimensões**:
     - `dim_tempo`: atributos temporais.
     - `dim_indicadores`: indicadores técnicos.
     - `dim_lags`: variações e lags recentes.

   Um **Catálogo de Dados** será elaborado com descrição, domínio, categorias e linhagem de cada variável.

5. **Carga e Pipeline ETL:** Pipeline estruturado com as seguintes etapas:

   - **Extração:** via API do Yahoo Finance.
   - **Limpeza:** tratamento e estruturação básica.
   - **Transformação:** geração de variáveis técnicas e derivadas.
   - **Carga:** integração dos dados transformados no banco dimensional (fato e dimensões).

6. **Treinamento e ajuste do modelo:** Implementação e ajuste de modelos preditivos (LSTM como baseline), com avaliação por métricas como MSE e R².

7. **Interpretação dos resultados e resposta às perguntas:** Validação das previsões, análise de variáveis relevantes e contribuição dos resultados para decisões de trading.

### 4. Perguntas a Serem Respondidas

- É possível prever com precisão a movimentação intradiária de um ativo a cada 15 minutos?
- Os dados do dia anterior fornecem informações suficientes para a previsão do dia seguinte?
- A modelagem com LSTM captura corretamente as tendências de curto prazo?
- A previsão da movimentação intradiária também permite derivar com precisão as targets globais do dia (abertura, mínima, máxima e fechamento)?
- Quais indicadores técnicos e features são mais relevantes para melhorar a acurácia do modelo?
- Como considerar corretamente as quebras de fim de semana (exemplo: prever a segunda-feira usando os dados de sexta-feira)?
- A normalização e padronização das variáveis melhora a precisão do modelo?

### 5. Critérios de Sucesso

Para que o MVP seja considerado bem-sucedido o esperado é que:

1. O pipeline de extração, transformação e previsão funcione de forma eficiente.
2. O modelo consiga prever a movimentação dos preços com um erro médio aceitável (avaliado por MSE ou R2).
3. A previsão de targets globais (abertura, máxima, mínima, fechamento) seja consistente com os valores reais.
4. O modelo consiga lidar corretamente com fins de semana e feriados.
5. As previsões sejam suficientes para auxiliar na tomada de decisão de trading.



Writing /content/MVP_Objetivo.md


In [2]:
#@title ## Escrevendo variáveis sensiveis

%%writefile /content/.env

PROJECT_NAME=Piloto_Day_Trade

# Variáveis de ambiente para o Github
GITHUB_USERNAME=CarolBw
GITHUB_TOKEN =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
EMAIL=carolbrescowitt@yahoo.com.br



Writing /content/.env


In [3]:
#@title ## Instalando dependências
'''
Usamos `-q` para ocultar a saída detalhada e mostrar apenas a barra de progresso

'''
!pip install -q tensorflow > /dev/null  # Framework para redes neurais e deep learning
!pip install -q keras > /dev/null  # Biblioteca de alto nível para redes neurais
!pip install -q pandas > /dev/null  # Manipulação e análise de dados
!pip install -q numpy > /dev/null  # Computação numérica eficiente
!pip install -q matplotlib > /dev/null  # Visualização de gráficos e análise exploratória
!pip install -q scikit-learn > /dev/null  # Ferramentas para pré-processamento e métricas de avaliação
!pip install -q gitpython > /dev/null  # Gerenciamento de repositórios Git via Python
!pip install -q python-dotenv > /dev/null  # Manipulação de variáveis de ambiente
!pip install -q seaborn > /dev/null  # Biblioteca de visualização estatística baseada no Matplotlib
!pip install -q yfinance > /dev/null  # Coleta de dados financeiros diretamente do Yahoo Finance
!pip install -q sqlalchemy > /dev/null  # ORM para interagir com bancos de dados relacionais
!pip install -q dotenv > /dev/null # Manipulação de variáveis de ambiente

# Importações das bibliotecas
import pandas as pd  # Manipulação de DataFrames
import numpy as np  # Cálculos numéricos e matrizes
import matplotlib.pyplot as plt  # Geração de gráficos
import sqlite3  # Integração com banco de dados SQLite

# Pré-processamento dos dados
from sklearn.preprocessing import StandardScaler, MinMaxScaler  # Normalização e padronização dos dados
from sklearn.model_selection import train_test_split  # Divisão dos dados em treino e teste
from sklearn.metrics import mean_absolute_error, mean_squared_error  # Avaliação do desempenho do modelo

# Construção do modelo preditivo
from keras.models import Sequential  # Modelo sequencial de rede neural
from keras.layers import Dense  # Camada densa para aprendizado profundo

# Controle de versão e variáveis de ambiente
import git  # Gerenciamento do repositório Git
import dotenv  # Carregamento de variáveis de ambiente

import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


In [4]:
# Capturamdo todas as dependencias do ambiente nesta primeira etapa
!pip freeze > requirements.txt

In [5]:
#@title ## Configurando sincronização com Github

%%writefile /content/configurar_git.py

import os
from dotenv import load_dotenv

def git_config():
    """Configura o Git localmente e sincroniza com o repositório remoto no GitHub."""

    # Carregar variáveis de ambiente do arquivo .env
    load_dotenv(dotenv_path='/content/.env')

    # Obter as variáveis de ambiente do .env para o GitHub
    GITHUB_USERNAME = os.getenv('GITHUB_USERNAME')
    EMAIL = os.getenv('EMAIL')
    GITHUB_TOKEN = os.getenv('GITHUB_TOKEN')
    PROJECT_NAME = os.getenv('PROJECT_NAME')
    REPO_URL = f"https://{GITHUB_USERNAME}:{GITHUB_TOKEN}@github.com/{GITHUB_USERNAME}/{PROJECT_NAME}.git"

    # Configurar o Git localmente com as credenciais
    os.system(f'git config --global user.name "{GITHUB_USERNAME}"')
    os.system(f'git config --global user.email "{EMAIL}"')

    # Verificar se o diretório do projeto já existe e se é um repositório Git válido
    if os.path.isdir(PROJECT_NAME):
        print(f"O diretório '{PROJECT_NAME}' já existe. Entrando no diretório e sincronizando...")

        os.chdir(PROJECT_NAME)  # Entrar na pasta do projeto

        # Garantir que estamos na branch main
        os.system("git branch -M main")

        # Remover qualquer configuração errada do repositório remoto e adicionar novamente
        os.system("git remote remove origin")
        os.system("git remote add origin " + REPO_URL)

        # Puxar as últimas atualizações do GitHub, tratando históricos não relacionados
        os.system("git pull origin main --allow-unrelated-histories --no-rebase")
    else:
        print(f"Clonando o repositório '{PROJECT_NAME}'...")

        # Clonar o repositório remoto
        os.system(f"git clone {REPO_URL}")
        os.chdir(PROJECT_NAME)  # Entrar no diretório após o clone

        # Inicializar o repositório Git local (se necessário) e configurar remoto
        os.system("git branch -M main")
        os.system("git remote add origin " + REPO_URL)

        # Realizar o pull inicial para garantir que a branch main está sincronizada
        os.system("git pull origin main --allow-unrelated-histories --no-rebase")

    print(f"Configuração do Git concluída e sincronizada com a branch main do repositório{REPO_URL}")


if __name__ == "__main__":
    git_config()




Writing /content/configurar_git.py


In [6]:
#@title Sincronizando repositório

from configurar_git import git_config
git_config()

Clonando o repositório 'Piloto_Day_Trade'...
Configuração do Git concluída e sincronizada com a branch main do repositóriohttps://CarolBw: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@github.com/CarolBw/Piloto_Day_Trade.git


In [7]:
#@title ## Definindo estrutura de pastas do projeto

"""
Estrutura inicial do repositório Piloto_Day_Trade:

|- notebooks/         → Jupyter Notebooks para exploração e análises
|- scripts/           → Funções reutilizáveis (pré-processamento, modelagem, avaliação, etc.)
   |-modelagem_machine_learning
   |-operacional
   |-pipeline
|- data/              → Dados organizados em 3 níveis:
   |- raw/            → Dados brutos extraídos diretamente de fontes externas
   |- cleaned/        → Dados limpos com tratamento básico (ex: datas, nulos, nomes de colunas)
   |- transformed/    → Dados com features criadas e prontos para modelagem
|- modelagem/         → Modelagem do banco de dados.
   |- database/       → Banco de dados
   |- catalog/        → Catálogo de dados
   |- esquema/        → Esquema do banco de dados
|- .github/
   |-workflows
|- models/            → Modelos treinados
|- reports/           → Resultados, gráficos, relatórios de performance
|- MVP_Objetivo.md    → Documento explicando o objetivo do projeto
|- README.md          → Instruções gerais do projeto
|-.env                → Variáveis de ambiente e configurações sensíveis
|- requirements.txt   → Lista de dependências
|- LICENSE            → Licença do projeto
"""

# Criar estrutura de diretórios
%cd /content/

!mkdir -p /content/Piloto_Day_Trade/notebooks
!mkdir -p /content/Piloto_Day_Trade/scripts/modelagem_machine_learning
!mkdir -p /content/Piloto_Day_Trade/scripts/operacional
!mkdir -p /content/Piloto_Day_Trade/scripts/pipeline
!mkdir -p /content/Piloto_Day_Trade/data/raw
!mkdir -p /content/Piloto_Day_Trade/data/cleaned
!mkdir -p /content/Piloto_Day_Trade/data/transformed
!mkdir -p /content/Piloto_Day_Trade/modelagem/catalog
!mkdir -p /content/Piloto_Day_Trade/modelagem/esquema
!mkdir -p /content/Piloto_Day_Trade/modelagem/database
!mkdir -p /content/Piloto_Day_Trade/models
!mkdir -p /content/Piloto_Day_Trade/reports
!mkdir -p /content/Piloto_Day_Trade/.github/workflows

# Criar arquivos principais
!touch /content/Piloto_Day_Trade/.gitignore
!touch /content/Piloto_Day_Trade/README.md


/content


In [8]:
# Mover arquivos existentes (ajuste conforme seus arquivos reais)
!mv /content/.env /content/Piloto_Day_Trade/.env
!mv /content/configurar_git.py /content/Piloto_Day_Trade/scripts/operacional/configurar_git.py
!mv /content/requirements.txt /content/Piloto_Day_Trade/requirements.txt
!mv /content/MVP_Objetivo.md /content/Piloto_Day_Trade/MVP_Objetivo.md

In [9]:
# Ver estrutura de diretórios
!apt-get install tree -y > /dev/null 2>&1 # Instala o tree e oculta a saida da instalação
!tree /content/Piloto_Day_Trade -d


[01;34m/content/Piloto_Day_Trade[0m
├── [01;34mdata[0m
│   ├── [01;34mcleaned[0m
│   ├── [01;34mraw[0m
│   └── [01;34mtransformed[0m
├── [01;34mmodelagem[0m
│   ├── [01;34mcatalog[0m
│   ├── [01;34mdatabase[0m
│   └── [01;34mesquema[0m
├── [01;34mmodels[0m
│   ├── [01;34mLSTM[0m
│   │   └── [01;34mscalers[0m
│   └── [01;34mXGBoost[0m
├── [01;34mnotebooks[0m
├── [01;34mreports[0m
└── [01;34mscripts[0m
    ├── [01;34mmodelagem_machine_learning[0m
    │   └── [01;34m__pycache__[0m
    ├── [01;34moperacional[0m
    ├── [01;34mpipeline[0m
    │   └── [01;34m__pycache__[0m
    └── [01;34m__pycache__[0m

21 directories


In [10]:
#@title Função operacional para atualizar o repositório
# facilmente ao longo do desenvolvimento sem erros de sincronização

import os
import subprocess

def atualizar_repo(commit_message):
    """Atualiza o repositório remoto e mostra quantos arquivos foram comitados."""
    repo_path = "/content/Piloto_Day_Trade"

    if not os.path.exists(os.path.join(repo_path, ".git")):
        print("Este diretório não é um repositório Git.")
        return

    os.chdir(repo_path)

    # Adiciona todos os arquivos
    subprocess.run(["git", "add", "."], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

    # Executa o commit e captura a saída completa (stdout + stderr)
    result = subprocess.run(
        ["git", "commit", "-m", commit_message],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        text=True
    )

    # Juntamos as saídas para análise
    output = result.stdout + result.stderr

    if "files changed" in output:
        # Procura a linha com o resumo da alteração
        for linha in output.splitlines():
            if "files changed" in linha:
                print(f"{linha}")
                break
    elif "nothing to commit" in output:
        print("ℹNenhuma alteração para comitar.")
    else:
        print("Resultado inesperado do Git:")
        print(output)

    # Envia para o repositório remoto
    subprocess.run(["git", "push", "origin", "main"], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
    print("Repositório atualizado.")


In [11]:
#@title ## Extração de dados

%%writefile /content/Piloto_Day_Trade/scripts/pipeline/extracao_dados.py

import yfinance as yf
import pandas as pd
from datetime import datetime, timedelta
import os
import dotenv

dotenv.load_dotenv()

def extrair_dados(ticker, dias, intervalo, dados_brutos):
    """Extrai e organiza dados do Yahoo Finance no intervalo correto."""

    df_total = pd.DataFrame()  # DataFrame para armazenar os dados
    data_inicio = datetime.today() - timedelta(days=dias)  # Data inicial
    data_fim = datetime.today() + timedelta(days=1)

    # Verifica se o arquivo de dados brutos existe
    if os.path.exists(dados_brutos):
        df = pd.read_csv(dados_brutos, index_col=0, parse_dates=True)

        if not df.empty:
            # Atualiza a data de início para a última data disponível nos dados brutos
            ultima_data = pd.to_datetime(df.index.max())
            data_inicio = ultima_data + timedelta(minutes=30)

    print(f"Extraindo dados de {data_inicio.strftime('%Y-%m-%d %H:%M:%S')} até {data_fim.strftime('%Y-%m-%d %H:%M:%S')}")

    # Extrai os dados do Yahoo Finance
    df_novo = yf.download(
        ticker,
        start=data_inicio.strftime("%Y-%m-%d"),
        end=data_fim.strftime("%Y-%m-%d"),
        interval=intervalo,
        progress=True
    )

    if not df_novo.empty:
        # Apenas converte para "America/Sao_Paulo" se já tiver timezone
        if df_novo.index.tzinfo is not None:
            df_novo.index = df_novo.index.tz_convert("America/Sao_Paulo")

        # Concatena os novos dados com os existentes e remove duplicatas
        df_total = pd.concat([df_total, df_novo]).drop_duplicates().sort_index()

        # Remove linhas com mais de 50% de valores nulos
        df_total = df_total.dropna(thresh=df_total.shape[1] * 0.5)

        # Salva os dados atualizados no arquivo CSV
        df_total.to_csv(dados_brutos)
        print("Dados salvos com sucesso.")

    # Filtra os dados para o horário entre 10:00 e 18:00
    df_filtrado = df_total.between_time("10:00", "18:00")

    # Exibe os 10 primeiros e os 10 últimos registros
    print("Últimos 10 dados filtrados:")
    print(df_filtrado.tail(10))
    print("Primeiros 10 dados filtrados:")
    print(df_filtrado.head(10))

    return df_filtrado

if __name__ == "__main__":
    ticker = "BBDC4.SA"  # Ticker da ação
    intervalo = "5m"  # Intervalo de tempo (5 minutos)
    dias = 45  # Número de dias a partir de hoje para buscar os dados
    dados_brutos = "/content/Piloto_Day_Trade/data/raw/dados_brutos.csv"  # Caminho do arquivo de dados brutos
    df = extrair_dados(ticker, dias, intervalo, dados_brutos)


Overwriting /content/Piloto_Day_Trade/scripts/pipeline/extracao_dados.py


In [12]:
#@title Executando extração de dados extração de dados
from Piloto_Day_Trade.scripts.pipeline.extracao_dados import extrair_dados

ticker = "BBDC4.SA"  # Ticker da ação
intervalo = "5m"  # Intervalo de tempo
dias = 45  # Número de dias a partir de hoje para buscar os dados
dados_brutos = "/content/Piloto_Day_Trade/data/raw/dados_brutos1104.csv"  # Caminho do arquivo de dados brutos para extração atual
df = extrair_dados(ticker, dias, intervalo, dados_brutos)

  df = pd.read_csv(dados_brutos, index_col=0, parse_dates=True)


DateParseError: Unknown datetime string format, unable to parse: Ticker, at position 0

In [None]:
#@title ## Limpeza de dados

%%writefile /content/Piloto_Day_Trade/scripts/pipeline/limpeza_dados.py

import pandas as pd

def limpeza_dados(df, path_dados_limpos):
    # Verificar se os dados estão corretos
    print("Dados originais:")
    print(df.head())
    print(df.info())

    # Remover as primeiras duas linhas (com 'Ticker' e 'Datetime')
    df = df.iloc[2:].copy()

    # Verificar após a remoção
    print("Após remoção das duas primeiras linhas:")
    print(df.head())

    # Garantir que o índice esteja no formato de data e hora (timezone UTC)
    df.index = pd.to_datetime(df.index, utc=True)

    # Definir o fuso horário como "America/Sao_Paulo"
    df.index = df.index.tz_convert("America/Sao_Paulo")

    # Remover a referência de fuso horário
    df.index = df.index.tz_localize(None)

    # Criar a coluna 'hora' com base no índice
    df['hora'] = df.index.strftime('%H:%M:%S')

    # Renomear o índice para 'data'
    df.index.name = 'data'

    # Resetar o índice para transformar o Datetime em uma coluna normal
    df = df.reset_index()

    # Verificar após a transformação do índice
    print("\nApós conversão de índice:")
    print(df.head())

    # Remover o horário da coluna 'data', mantendo apenas a data
    df['data'] = df['data'].dt.date

    # Mapeamento das colunas para nomes padronizados
    mapeamento_colunas = {
        'Close': 'fechamento',
        'High': 'maximo',
        'Low': 'minimo',
        'Open': 'abertura',
        'Volume': 'volume'
    }

    # Renomear as colunas
    df.rename(columns=mapeamento_colunas, inplace=True)

    # Converte e arredonda as colunas numéricas
    for col in ['abertura', 'minimo', 'maximo', 'fechamento']:
        df[col] = pd.to_numeric(df[col], errors='coerce').round(2)

    # Converte a coluna 'volume' para número inteiro
    df['volume'] = pd.to_numeric(df['volume'], errors='coerce', downcast='integer')

    # Reorganiza as colunas na ordem desejada
    df = df[['data', 'hora', 'abertura', 'minimo', 'maximo', 'fechamento', 'volume']]

    # Verificar após reorganizar as colunas
    print("\nApós reorganizar as colunas:")
    print(df.head())

    # Verificar e remover duplicatas mantendo a primeira ocorrência
    df = df.drop_duplicates(keep='first')

    # Remover as linhas com 50% ou mais de valores nulos
    df = df.dropna(thresh=df.shape[1] * 0.5)

    # Verificar após remoção de duplicatas e nulos
    print("\nApós remover duplicatas e nulos:")
    print(df.head())

    # Garantir que 'data' e 'hora' estejam no formato datetime
    df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')
    df['hora'] = pd.to_datetime(df['hora'], format='%H:%M:%S').dt.time

    # Filtra apenas os dias úteis (segunda a sexta)
    df = df[df['data'].dt.weekday < 5]

    # Verificar após filtrar dias úteis
    print("\nApós filtrar apenas os dias úteis:")
    print(df.head())

    # Filtra apenas horários entre 09:55 e 18:05
    df = df[(df['hora'] >= pd.to_datetime('09:55:00').time()) &
            (df['hora'] <= pd.to_datetime('18:05:00').time())]

    # Verificar após filtrar o intervalo de horário
    print("\nApós filtrar o intervalo de horário (09:55-18:05):")
    print(df.head())

    # Caso o DataFrame fique vazio, informar o motivo
    if df.empty:
        print("O DataFrame ficou vazio após o filtro de horário. Verifique se os dados estão dentro do intervalo de 09:55-18:05.")
    else:
        print("\nLimpeza de dados concluída com sucesso.")

    # Ordenar os dados
    df = df.sort_values(["data", "hora"], ascending=[False, True])
    print("\nDados limpos e ordenados:")
    print(df.head(10))

    # Salva os dados limpos em CSV
    df.to_csv(path_dados_limpos, index=False)
    print(f"\nOs dados foram limpos e salvos em csv.")

    return df


if __name__ == "__main__":
    # Ler os dados brutos
    dados_brutos = pd.read_csv(f"/content/Piloto_Day_Trade/data/raw/dados_brutos.csv", index_col=0, parse_dates=True, dayfirst=True)
    path_dados_limpos = '/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv'
    # Aplicar limpeza nos dados
    df_limpo = limpeza_dados(dados_brutos, path_dados_limpos)




In [None]:
#@title Aplicando limpeza de dados a primeira versao dos dados brutos
from Piloto_Day_Trade.scripts.pipeline.limpeza_dados import limpeza_dados

dados_brutos = pd.read_csv(f"/content/Piloto_Day_Trade/data/raw/dados_brutos.csv", index_col=0, parse_dates=True, dayfirst=True)
path_dados_limpos = '/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv'
df_limpo = limpeza_dados(dados_brutos, path_dados_limpos)



In [None]:
#@title ## Transformação de dados
%%writefile /content/Piloto_Day_Trade/scripts/pipeline/transformacao_dados.py

"""
Função de Transformação de Dados para Modelagem Preditiva
Processa e transforma os dados para análise e previsão, gerando um conjunto
de características para serem utilizadas no treinamento dos modelos.

Objetivos:
- Criar um dataset com variáveis relevantes para o modelo.
- Incluir indicadores técnicos, estatísticas de volatilidade, médias móveis e outras features.
- Permitir a experimentação com diferentes combinações de features.

Estratégia:
- Durante os testes de parametrização e treinamento, serão geradas diferentes versões do dataset,
refinando a seleção de features a medida que geramos acurácia.

"""

import os
import pandas as pd
import numpy as np
from dotenv import load_dotenv

# Carregar variáveis de ambiente
load_dotenv()

def carregar_dados(arquivo):
    """Carrega um CSV e retorna um DataFrame, ou um DataFrame vazio se o arquivo não existir."""
    if isinstance(arquivo, pd.DataFrame):
        return arquivo  # Se já for um DataFrame, retorna diretamente

    if not os.path.exists(arquivo):
        print(f"O arquivo {arquivo} não existe. Criando um novo DataFrame vazio.")
        return pd.DataFrame()

    try:
        df = pd.read_csv(arquivo, parse_dates=["data"])
        print(f"Arquivo {arquivo} carregado com {len(df)} linhas.")
        return df if not df.empty else pd.DataFrame()
    except Exception as e:
        print(f"Erro ao carregar {arquivo}: {e}")
        return pd.DataFrame()

def obter_ultima_data(df):
    """Retorna a última data disponível nos dados."""
    if "data" in df.columns and not df.empty:
        ultima_data = df["data"].max()
        print(f"Última data encontrada nos dados: {ultima_data}")
        return ultima_data
    return None

def filtrar_novos_dados(df, ultima_data):
    """Filtra os dados para incluir apenas os novos registros."""
    if df.empty:
        print("Nenhum dado limpo disponível.")
        return pd.DataFrame()

    if ultima_data:
        df_novo = df[df["data"] > ultima_data]
        print(f"Dados novos filtrados: {len(df_novo)} registros encontrados.")
        return df_novo
    return df

def calcular_indicadores(df):
    """Calcula indicadores técnicos e gera novas features para análise de dados financeiros."""

    if df.empty:
        print("Nenhum dado disponível para calcular indicadores.")
        return df

    colunas_necessarias = ["data", "hora", "abertura", "minimo", "maximo", "fechamento", "volume"]

    if not all(col in df.columns for col in colunas_necessarias):
        print("Dados insuficientes para cálculo de indicadores.")
        return df

    # Ordenação correta dos dados
    df = df.sort_values(by=['data', 'hora'], ascending=[True, True])

    # Cálculo do retorno percentual e volatilidade
    df['retorno'] = df['fechamento'].pct_change()
    df['volatilidade'] = df['retorno'].rolling(20).std()

    # Médias móveis
    df['SMA_10'] = df['fechamento'].rolling(10).mean()
    df['EMA_10'] = df['fechamento'].ewm(span=10, adjust=False).mean()

    # MACD e linha de sinal
    df['MACD'] = df['fechamento'].ewm(span=12).mean() - df['fechamento'].ewm(span=26).mean()
    df['Signal_Line'] = df['MACD'].ewm(span=9).mean()

    # RSI (Índice de Força Relativa)
    ganho = df['retorno'].clip(lower=0)
    perda = -df['retorno'].clip(upper=0)
    media_ganho = ganho.ewm(span=14).mean()
    media_perda = perda.ewm(span=14).mean() + 1e-10
    df['rsi'] = 100 - (100 / (1 + (media_ganho / media_perda)))

    # OBV (On Balance Volume)
    df['OBV'] = (df['volume'] * np.sign(df['fechamento'].diff())).fillna(0).cumsum()

    # Criar lags para fechamento, retorno e volume
    for lag in range(1, 4):
        df[f'fechamento_lag{lag}'] = df['fechamento'].shift(lag)
        df[f'retorno_lag{lag}'] = df['retorno'].shift(lag)
        df[f'volume_lag{lag}'] = df['volume'].shift(lag)

    # Substituir NaN por zero onde necessário
    df.fillna(0, inplace=True)

    # Ordenação final
    df = df.sort_values(by=['data', 'hora'], ascending=[False, True])

    print(f"Indicadores calculados. Tamanho final do DataFrame: {len(df)} linhas.")
    return df

def adicionar_features_temporais(df):
    """Adiciona colunas temporais para análise de séries temporais."""

    if df.empty:
        print("Nenhum dado disponível para processamento.")
        return df

    # Converter 'data' para datetime se necessário
    df['data'] = pd.to_datetime(df['data'], errors='coerce')

    # Criar coluna do dia da semana para entrada e previsão
    df['dia_da_semana_entrada'] = df['data'].dt.weekday  # 0 = Segunda, 6 = Domingo
    df['data_previsao'] = df['data'] + pd.DateOffset(days=1)
    df['dia_da_semana_previsao'] = df['data_previsao'].dt.weekday

    # Ajustar casos de sexta-feira para segunda-feira
    df.loc[df['dia_da_semana_entrada'] == 4, 'data_previsao'] += pd.DateOffset(days=2)
    df['dia_da_semana_previsao'] = df['data_previsao'].dt.weekday

    # Verificar se 'hora' está presente e converter corretamente
    if 'hora' in df.columns:
        df['hora'] = pd.to_datetime(df['hora'].astype(str), format='%H:%M:%S', errors='coerce').dt.time

        # Criar colunas de hora e minuto
        df['hora_num'] = df['hora'].apply(lambda x: x.hour if pd.notnull(x) else np.nan)
        df['minuto'] = df['hora'].apply(lambda x: x.minute if pd.notnull(x) else np.nan)

        # Criar coluna indicando se o mercado está aberto (entre 10h e 17h)
        df['mercado_aberto'] = ((df['hora_num'] >= 10) & (df['hora_num'] <= 17)).astype(int)
    else:
        df['hora_num'] = np.nan
        df['minuto'] = np.nan
        df['mercado_aberto'] = 0

    return df

def transformar_dados(dados_limpos, dados_transformados):
    """Executa o processo de transformação dos dados."""

    df_transformado = carregar_dados(dados_transformados)
    df_limpo = carregar_dados(dados_limpos)


    if df_transformado.empty:
        print("Nenhum dado transformado encontrado. Criando novo DataFrame.")

    ultima_data = obter_ultima_data(df_transformado)
    novos_dados = filtrar_novos_dados(df_limpo, ultima_data)

    if not novos_dados.empty:
        novos_dados = calcular_indicadores(novos_dados)
        novos_dados = adicionar_features_temporais(novos_dados)
        df_final = pd.concat([df_transformado, novos_dados], ignore_index=True) if not df_transformado.empty else novos_dados

        pasta = os.path.dirname(dados_transformados)
        if not os.path.exists(pasta):
            os.makedirs(pasta)
            print(f"Criando diretório: {pasta}")

        df_final.to_csv(dados_transformados, index=False)
        print(f"Dados transformados salvos em {dados_transformados} ({len(df_final)} registros)")
        print(f"Última data disponível nos dados: {df_final['data'].max()}")
        print(f"df_final: {df_final.head(5)}")
        return df_final
    else:
        print("⏭Nenhum novo dado para processar.")
        print(f"Última data disponível nos dados: {df_transformado['data'].max()}")
        print(f"df_transformado: {df_transformado.head(5)}")
        return df_transformado

if __name__ == "__main__":
    path_dados_limpos = '/content/Piloto_Day_Trade/data/dados_limpos.csv'
    path_dados_transformados = '/content/Piloto_Day_Trade/data/dados_transformados_3103.csv'
    df_transformado =transformar_dados(path_dados_limpos, path_dados_transformados)



In [None]:
from Piloto_Day_Trade.scripts.pipeline.transformacao_dados import transformar_dados

#@title Aplicando transformação de dados
path_dados_limpos = '/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv'
path_dados_transformados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'
df_transformado = transformar_dados(path_dados_limpos, path_dados_transformados)


In [None]:
# Carregando os dados
df_transformado = pd.read_csv('/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv')


In [None]:
# Verificando os tipos de dados
df_transformado.dtypes

## Banco de dados

In [None]:
%%writefile /content/Piloto_Day_Trade/modelagem/definicao_esquema_estrela.md

#@title Definição do esquema - Modelo Estrela

O modelo estrela foi escolhido por sua simplicidade e clareza na organização dos dados para análise. Ele é ideal para consultas rápidas e análise preditiva. No nosso projeto, temos um único fato (preços OHLC) e múltiplas variáveis explicativas que os influenciam.

A estrutura facilita agregações temporais e análises do comportamento dos preços, sendo também eficiente para alimentar o pipeline de machine learning. Ao organizar as variáveis preditoras ao redor das medidas de preço, conseguimos isolar responsabilidades e tornar as análises mais precisas e escaláveis.

## Tabela Fato: `fato_precos`
| Coluna         | Tipo   | Descrição                                   |
|----------------|--------|---------------------------------------------|
| id_fato_precos | int    | PK, identificador único da linha            |
| id_tempo       | int    | FK para a dimensão tempo                    |
| abertura       | float  | Preço de abertura                           |
| minimo         | float  | Preço mínimo                                |
| maximo         | float  | Preço máximo                                |
| fechamento     | float  | Preço de fechamento (variável alvo)         |

## Dimensão: `dim_tempo`
| Coluna                | Tipo   | Descrição                                 |
|------------------------|--------|-------------------------------------------|
| id_tempo              | int    | PK                                        |
| data                  | object | Data da observação                        |
| hora                  | object | Hora da observação                        |
| dia_da_semana_entrada | int    | Dia da semana da entrada (0=Seg, 6=Dom)   |

## Dimensão: `dim_indicadores`
| Coluna       | Tipo   | Descrição                                       |
|--------------|--------|--------------------------------------------------|
| id_indicadores | int  | PK                                               |
| id_tempo     | int    | FK para a dimensão tempo                        |
| SMA_10       | float  | Média móvel simples de 10 períodos              |
| EMA_10       | float  | Média móvel exponencial de 10 períodos          |
| MACD         | float  | Moving Average Convergence Divergence           |
| Signal_Line  | float  | Linha de sinal do MACD                          |
| rsi          | float  | Índice de força relativa                        |
| OBV          | float  | On-Balance Volume                               |
| retorno      | float  | Retorno do período                              |
| volatilidade | float  | Volatilidade do período                         |

## Dimensão: `dim_lags`
| Coluna          | Tipo   | Descrição                                       |
|-----------------|--------|--------------------------------------------------|
| id_lags         | int    | PK                                              |
| id_tempo        | int    | FK para a dimensão tempo                        |
| fechamento_lag1 | float  | Fechamento no candle anterior (1 lag)          |
| retorno_lag1    | float  | Retorno do candle anterior (1 lag)             |
| volume_lag1     | float  | Volume do candle anterior (1 lag)              |
| fechamento_lag2 | float  | Fechamento dois candles atrás (2 lags)         |
| retorno_lag2    | float  | Retorno dois candles atrás (2 lags)            |
| volume_lag2     | float  | Volume dois candles atrás (2 lags)             |
| fechamento_lag3 | float  | Fechamento três candles atrás (3 lags)         |
| retorno_lag3    | float  | Retorno três candles atrás (3 lags)            |
| volume_lag3     | float  | Volume três candles atrás (3 lags)             |

## Dimensão: `dim_operacional`
| Coluna                 | Tipo   | Descrição                                      |
|------------------------|--------|------------------------------------------------|
| id_operacional         | int    | PK                                             |
| id_tempo               | int    | FK para a dimensão tempo                       |
| data_previsao          | object | Data prevista para o modelo                    |
| dia_da_semana_previsao | int    | Dia da semana da previsão                      |
| hora_num               | int    | Hora como número inteiro                       |
| minuto                 | int    | Minuto da observação                           |
| mercado_aberto         | int    | Indicador binário (1=aberto, 0=fechado)        |


In [None]:
%%writefile /content/Piloto_Day_Trade/scripts/pipeline/gerar_catalogo_dados.py

#@title Script para gerar o catálogo de dados
"""
Catálogo de Dados contendo minimamente uma descrição detalhada dos dados e seus domínios,
contendo valores mínimos e máximos esperados para dados numéricos, e possíveis categorias para dados categóricos.

Este modelo deve também descrever a linhagem dos dados, de onde os mesmos foram baixados
e qual técnica foi utilizada para compor o conjunto de dados, caso haja.
"""

from pathlib import Path
import pandas as pd

# Define colunas de cada tabela com tipos
tabelas = {
    "fato_precos": {
        "id_fato_precos": "int",
        "id_tempo": "int",
        "abertura": "float",
        "minimo": "float",
        "maximo": "float",
        "fechamento": "float"
    },
    "dim_tempo": {
        "id_tempo": "int",
        "data": "object",
        "hora": "object",
        "dia_da_semana_entrada": "int"
    },
    "dim_indicadores": {
        "id_indicadores": "int",
        "id_tempo": "int",
        "SMA_10": "float",
        "EMA_10": "float",
        "MACD": "float",
        "Signal_Line": "float",
        "rsi": "float",
        "OBV": "float",
        "retorno": "float",
        "volatilidade": "float"
    },
    "dim_lags": {
        "id_lags": "int",
        "id_tempo": "int",
        "fechamento_lag1": "float",
        "retorno_lag1": "float",
        "volume_lag1": "float",
        "fechamento_lag2": "float",
        "retorno_lag2": "float",
        "volume_lag2": "float",
        "fechamento_lag3": "float",
        "retorno_lag3": "float",
        "volume_lag3": "float"
    },
    "dim_operacional": {
        "id_operacional": "int",
        "id_tempo": "int",
        "data_previsao": "object",
        "dia_da_semana_previsao": "int",
        "hora_num": "int",
        "minuto": "int",
        "mercado_aberto": "int"
    }
}

def dominio(col, tipo):
    if tipo in ["float", "int"]:
        if "retorno" in col:
            return "-0.05 a 0.05 (retorno percentual por intervalo de 5 min)"
        elif "volatilidade" in col:
            return "0 a 0.1 (desvio padrão do retorno por janela de tempo)"
        elif "abertura" in col or "fechamento" in col or "minimo" in col or "maximo" in col:
            return "10.0 a 50.0 (valores típicos para BBDC4)"
        elif "MACD" in col or "Signal" in col:
            return "-5 a 5"
        elif "rsi" in col:
            return "0 a 100"
        elif "OBV" in col:
            return "valor acumulativo, depende do ativo"
        elif "volume" in col:
            return "0 a 1.000.000 (valores inteiros positivos)"
        elif "dia_da_semana" in col:
            return "0=Segunda, ..., 6=Domingo"
        elif "mercado_aberto" in col:
            return "0=Fechado, 1=Aberto"
        else:
            return "valores numéricos contínuos"
    elif tipo == "object":
        if "data" in col:
            return "formato YYYY-MM-DD"
        elif "hora" in col:
            return "formato HH:MM:SS"
        else:
            return "texto livre"
    return "não especificado"

def descricao(col):
    descricoes = {
        "abertura": "Preço de abertura do ativo BBDC4 no intervalo de 5 minutos",
        "minimo": "Menor preço do ativo BBDC4 no intervalo de 5 minutos",
        "maximo": "Maior preço do ativo BBDC4 no intervalo de 5 minutos",
        "fechamento": "Preço de fechamento do ativo BBDC4 no intervalo de 5 minutos",
        "retorno": "Retorno percentual do ativo no intervalo de 5 minutos",
        "volatilidade": "Volatilidade dos retornos do ativo em janela deslizante",
        "SMA_10": "Média móvel simples de 10 períodos calculada sobre os preços",
        "EMA_10": "Média móvel exponencial de 10 períodos",
        "MACD": "Moving Average Convergence Divergence, indicador técnico",
        "Signal_Line": "Linha de sinal do MACD",
        "rsi": "Índice de força relativa (RSI), oscilador técnico",
        "OBV": "On Balance Volume, indicador técnico baseado em volume",
        "hora_num": "Hora expressa como número inteiro",
        "minuto": "Minuto do intervalo de tempo",
        "mercado_aberto": "Indica se o mercado está aberto no horário (1) ou não (0)"
    }
    for key in descricoes:
        if key in col:
            return descricoes[key]
    if "lag" in col:
        return f"Valor defasado de {col.replace('_lag', '')}"
    if "dia_da_semana" in col:
        return "Dia da semana correspondente à data"
    if "id_" in col:
        return "Identificador único para relacionar com outras tabelas"
    return ""

def tecnica(col):
    if any(ind in col for ind in ["SMA", "EMA", "MACD", "Signal", "rsi", "OBV"]):
        return "calculado internamente via engenharia de features técnicas"
    if "lag" in col:
        return "calculado como valor defasado (lag)"
    if col in ["data", "hora", "hora_num", "minuto", "dia_da_semana_entrada", "dia_da_semana_previsao"]:
        return "extraído de data/hora original"
    if col == "mercado_aberto":
        return "derivado da data/hora com base em calendário de mercado"
    return "cópia ou identificador"

linhagem = "Fonte: Yahoo Finance via yfinance"

linhas = []
for tabela, colunas in tabelas.items():
    for col, tipo in colunas.items():
        linhas.append({
            "tabela": tabela,
            "coluna": col,
            "tipo": tipo,
            "descricao": descricao(col),
            "dominio": dominio(col, tipo),
            "tecnica": tecnica(col),
            "linhagem": linhagem
        })

catalogo_df = pd.DataFrame(linhas)
catalogo_df.to_csv("/content/Piloto_Day_Trade/modelagem/catalogo_dados.csv", index=False)


In [None]:
#@title Executar a geração do Catalogo de dados
!python /content/Piloto_Day_Trade/scripts/pipeline/gerar_catalogo_dados.py


In [None]:
atualizar_repo("Gerando catálogo de dados")

In [25]:
# @title Script para criar banco de dados e tabelas
%%writefile /content/Piloto_Day_Trade/scripts/pipeline/criar_banco_dimensional.py

import sqlite3
import os

def criar_banco(db_path):
    os.makedirs(os.path.dirname(db_path), exist_ok=True)

    # Conecta ao banco (cria se não existir)
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()

    # Comandos SQL para criar as tabelas
    sql_script = """
    -- Criação da Tabela Fato
    CREATE TABLE IF NOT EXISTS fato_precos (
        id_fato_precos INTEGER PRIMARY KEY,
        id_tempo INTEGER,
        abertura REAL,
        minimo REAL,
        maximo REAL,
        fechamento REAL,
        FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
    );

    -- Criação da Dimensão Tempo
    CREATE TABLE IF NOT EXISTS dim_tempo (
        id_tempo INTEGER PRIMARY KEY,
        data TEXT,
        hora TEXT,
        dia_da_semana_entrada INTEGER
    );

    -- Criação da Dimensão Indicadores Técnicos
    CREATE TABLE IF NOT EXISTS dim_indicadores (
        id_indicadores INTEGER PRIMARY KEY,
        id_tempo INTEGER,
        SMA_10 REAL,
        EMA_10 REAL,
        MACD REAL,
        Signal_Line REAL,
        rsi REAL,
        OBV REAL,
        retorno REAL,
        volatilidade REAL,
        FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
    );

    -- Criação da Dimensão Lags
    CREATE TABLE IF NOT EXISTS dim_lags (
        id_lags INTEGER PRIMARY KEY,
        id_tempo INTEGER,
        fechamento_lag1 REAL,
        retorno_lag1 REAL,
        volume_lag1 REAL,
        fechamento_lag2 REAL,
        retorno_lag2 REAL,
        volume_lag2 REAL,
        fechamento_lag3 REAL,
        retorno_lag3 REAL,
        volume_lag3 REAL,
        FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
    );

    -- Criação da Dimensão Operacional
    CREATE TABLE IF NOT EXISTS dim_operacional (
        id_operacional INTEGER PRIMARY KEY,
        id_tempo INTEGER,
        data_previsao TEXT,
        dia_da_semana_previsao INTEGER,
        hora_num INTEGER,
        minuto INTEGER,
        mercado_aberto INTEGER,
        FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
    );
    """

    # Executa o script SQL
    cursor.executescript(sql_script)

    # Confirma e fecha
    conn.commit()
    conn.close()
    print("Banco e tabelas criados com sucesso.")


Writing /content/Piloto_Day_Trade/scripts/pipeline/criar_banco_dimensional.py


In [None]:
#@title Excecutar criar banco e tabelas
!python /content/Piloto_Day_Trade/scripts/pipeline/criar_banco_dimensional.py

In [23]:
# Verificar criação do banco
import sqlite3

conn = sqlite3.connect("/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db")
cursor = conn.cursor()

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
print(cursor.fetchall())

conn.close()


[('fato_precos',), ('dim_tempo',), ('dim_indicadores',), ('dim_lags',), ('dim_operacional',)]


In [None]:
# Verificar colunas
import sqlite3

conn = sqlite3.connect("/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db")
cursor = conn.cursor()
cursor.execute("PRAGMA table_info(dim_tempo);")
print(cursor.fetchall())

conn.close()


In [None]:
%%writefile /content/Piloto_Day_Trade/scripts/pipeline/carga_dados.py

#@title ## Definindo script de carga de dados

import sqlite3
import pandas as pd
import os

# Função para carregar dados
def carregar_dados(df: pd.DataFrame):
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()

    registros_inseridos = 0

    for _, row in df.iterrows():
        # Verifica se já existe registro com a mesma data e hora na dim_tempo
        cursor.execute("""
            SELECT id_tempo FROM dim_tempo WHERE data = ? AND hora = ?
        """, (row['data'], row['hora']))
        resultado = cursor.fetchone()

        if resultado:
            continue  # Já existe, pula

        # Gerar próximo id_tempo
        cursor.execute("SELECT MAX(id_tempo) FROM dim_tempo")
        max_id = cursor.fetchone()[0]
        id_tempo = 1 if max_id is None else max_id + 1

        # 1. Inserir na dim_tempo
        cursor.execute("""
            INSERT INTO dim_tempo (id_tempo, data, hora, dia_da_semana_entrada)
            VALUES (?, ?, ?, ?)
        """, (id_tempo, row['data'], row['hora'], row['dia_da_semana_entrada']))

        # 2. Inserir na dim_indicadores
        cursor.execute("""
            INSERT INTO dim_indicadores (id_indicadores, id_tempo, SMA_10, EMA_10, MACD, Signal_Line, rsi, OBV, retorno, volatilidade)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['SMA_10'], row['EMA_10'], row['MACD'], row['Signal_Line'], row['rsi'],
              row['OBV'], row['retorno'], row['volatilidade']))

        # 3. Inserir na dim_lags
        cursor.execute("""
            INSERT INTO dim_lags (id_lags, id_tempo, fechamento_lag1, retorno_lag1, volume_lag1,
                                  fechamento_lag2, retorno_lag2, volume_lag2,
                                  fechamento_lag3, retorno_lag3, volume_lag3)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo,
              row['fechamento_lag1'], row['retorno_lag1'], row['volume_lag1'],
              row['fechamento_lag2'], row['retorno_lag2'], row['volume_lag2'],
              row['fechamento_lag3'], row['retorno_lag3'], row['volume_lag3']))

        # 4. Inserir na dim_operacional
        cursor.execute("""
            INSERT INTO dim_operacional (id_operacional, id_tempo, data_previsao, dia_da_semana_previsao, hora_num, minuto, mercado_aberto)
            VALUES (?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['data_previsao'], row['dia_da_semana_previsao'],
              row['hora_num'], row['minuto'], row['mercado_aberto']))

        # 5. Inserir na fato_precos
        cursor.execute("""
            INSERT INTO fato_precos (id_fato_precos, id_tempo, abertura, minimo, maximo, fechamento)
            VALUES (?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['abertura'], row['minimo'], row['maximo'], row['fechamento']))

        registros_inseridos += 1

    conn.commit()
    conn.close()
    print(f"Carga incremental concluída. {registros_inseridos} novos registros inseridos.")

if __name__ == "__main__":
  # Caminho para o banco de dados
    db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"
    assert os.path.exists(db_path), f"Banco de dados não encontrado em {db_path}"

    # Leitura dos dados a serem carregados
    df = pd.read_csv("/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv")
    carregar_dados(df)


In [None]:
#@title Executar realizar a carga de dados
!python /content/Piloto_Day_Trade/scripts/pipeline/carga_dados.py


In [None]:
# Verificando a carga de dados

import sqlite3

# Caminho para o banco
db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"

# Conexão e cursor
conn = sqlite3.connect(db_path)
cursor = conn.cursor()

# Consulta nas tabelas principais
tabelas = ['dim_tempo', 'dim_indicadores', 'dim_lags', 'dim_operacional', 'fato_precos']
for tabela in tabelas:
    cursor.execute(f"SELECT COUNT(*) FROM {tabela}")
    count = cursor.fetchone()[0]
    print(f"{tabela}: {count} registros")

conn.close()


In [None]:
# Visualizar os primeiros 5 registros da fato_precos
import pandas as pd

conn = sqlite3.connect(db_path)
df_check = pd.read_sql_query("SELECT * FROM fato_precos LIMIT 5", conn)
print(df_check)
conn.close()


In [31]:
# Consulta com JOIN para verificar o relacionamento entre as tabelas
query = """
SELECT
    ft.id_fato_precos,
    dt.data,
    dt.hora,
    ft.abertura,
    ft.fechamento,
    di.SMA_10,
    dl.fechamento_lag1,
    do.data_previsao,
    do.mercado_aberto
FROM fato_precos ft
JOIN dim_tempo dt ON ft.id_tempo = dt.id_tempo
JOIN dim_indicadores di ON ft.id_tempo = di.id_tempo
JOIN dim_lags dl ON ft.id_tempo = dl.id_tempo
JOIN dim_operacional do ON ft.id_tempo = do.id_tempo
LIMIT 5;
"""

# Executando e exibindo
conn = sqlite3.connect(db_path)
df_verificacao = pd.read_sql_query(query, conn)
print(df_verificacao)
conn.close()


   id_fato_precos        data      hora  abertura  fechamento  SMA_10  \
0               1  2025-04-08  10:00:00     12.47       12.41  12.379   
1               2  2025-04-08  10:05:00     12.41       12.41  12.384   
2               3  2025-04-08  10:10:00     12.41       12.44  12.389   
3               4  2025-04-08  10:15:00     12.44       12.39  12.390   
4               5  2025-04-08  10:20:00     12.40       12.43  12.397   

   fechamento_lag1 data_previsao  mercado_aberto  
0            12.40    2025-04-09               1  
1            12.41    2025-04-09               1  
2            12.41    2025-04-09               1  
3            12.44    2025-04-09               1  
4            12.39    2025-04-09               1  


In [13]:
#@title Escrevendo o Readme do projeto
%%writefile /content/Piloto_Day_Trade/README.md

# Objetivo do Projeto

## 1. Propósito do MVP

Este projeto tem como objetivo principal a criação de um pipeline para extração, transformação, carga, análise e previsão da movimentação intradiária dos preços de um ativo financeiro em intervalos de 5 minutos. O modelo preditivo central será baseado em redes neurais recorrentes (LSTM), mas outras abordagens serão exploradas. O MVP visa garantir previsões para embasar decisões estratégicas de day trade.

## 2. Problema a Ser Resolvido

A alta volatilidade dos mercados financeiros exige ferramentas robustas para antecipação de movimentos de preço. A dificuldade está em capturar padrões de curto prazo e projetá-los com precisão. Traders e investidores necessitam de um modelo que consiga interpretar os padrões históricos e transformá-los em previsões úteis.

## 3. Pipeline do Projeto

O pipeline está estruturado em sete etapas principais:

### 3.1. Extração e armazenamento dos dados brutos
- Coleta de dados históricos do ativo BBDC4 em intervalos de 5 minutos, via API do Yahoo Finance (yfinance).
- Armazenamento dos dados no GitHub sincronizado com Google Colab, com backup em nuvem.
- Salvo como `dados_brutos.csv`

### 3.2. Limpeza e organização dos dados
- Padronização dos tipos de dados
- Padronização dos nomes de colunas
- Remoção de valores nulos ou duplicados
- Remoção de colunas desnecessárias
- Ordenação cronológica
- Salvo como `dados_limpos.csv`

### 3.3. Transformação de dados e engenharia de features
- Cálculo de indicadores técnicos (SMA, EMA, MACD, RSI, OBV)
- Cálculo de retornos e variância (volatilidade)
- Criação de variáveis de lag de preço, volume e retorno
- Adição de variáveis temporais (hora, dia da semana, mercado aberto)
- Salvo como `dados_transformados.csv`

### 3.4. Modelagem e estruturação do banco dimensional
- **Fato**: `fato_precos` com preços e chave para `dim_tempo`
- **Dimensões**:
  - `dim_tempo`: data, hora, dia da semana
  - `dim_indicadores`: indicadores técnicos
  - `dim_lags`: lags de preço, volume, retorno
  - `dim_operacional`: hora, minuto, data da previsão, mercado aberto
- Banco gerado em SQLite via script automatizado (`banco_dimensional.db`)

### 3.5. Carga (ETL)
- **Extração:** via API (automatizada)
- **Limpeza:** padronização, remoção de nulos/duplicatas
- **Transformação:** features técnicas e derivadas
- **Carga:** população das tabelas do banco dimensional
- ETL organizado em scripts Python e automatizado

### 3.6. Treinamento e ajuste do modelo preditivo
- **Preparação dos dados**:
  - Padronização com StandardScaler para retornos e indicadores
  - Normalização com MinMaxScaler para preços e volumes
  - Separar features (X) e targets (y)
  - Divisão treino/teste com base em dias útis
- **Modelo base:** LSTM com duas camadas ocultas, camada densa e MSE como perda
- **Avaliação:** Métricas de MSE, R², comparação com targets reais

### 3.7. Análise dos resultados
- Comparativo entre preços previstos vs. reais
- Validação das previsões para abertura, máxima, mínima e fechamento
- Importância das variáveis
- Interpretação dos erros e possíveis melhorias

## 4. Perguntas a Serem Respondidas
- É possível prever com precisão a movimentação intradiária a cada 5 minutos?
- Os dados do dia anterior são suficientes para prever o comportamento do dia seguinte?
- O modelo LSTM é eficaz para padrões de curtíssimo prazo?
- É viável derivar os targets globais do dia a partir das previsões intradiárias?
- Quais indicadores mais contribuem para a previsão?
- Como lidar corretamente com fins de semana e feriados?
- A padronização/normalização das variáveis afeta o desempenho?

## 5. Critérios de Sucesso
- Pipeline funcional de extração → transformação → carga → previsão
- Modelo com bom desempenho em MSE e R²
- Targets globais coerentes com valores reais
- Correta gestão de datas (incluindo segundas-feiras)
- Previsões utilizáveis para tomada de decisão



Overwriting /content/Piloto_Day_Trade/README.md


In [14]:
#@title Escrevendo Licença do projeto
%%writefile /content/Piloto_Day_Trade/LICENSE

Copyright (c) 2025 Carolina Brescowitt

Todos os direitos reservados.

Este software é fornecido gratuitamente apenas para uso **pessoal, acadêmico e de pesquisa**.

O uso comercial deste software é estritamente proibido sem uma **licença comercial paga**, a ser negociada com o autor.

Empresas, startups, desenvolvedores ou qualquer entidade que deseje utilizar este código em produtos, serviços ou plataformas comerciais devem entrar em contato com o autor para **negociar os termos de licenciamento** (incluindo percentual, royalties ou valores fixos).

É proibida a redistribuição ou sublicenciamento sem autorização por escrito.

Para mais informações, entre em contato: carolbrescowitt@yahoo.com.br



Overwriting /content/Piloto_Day_Trade/LICENSE


# Modelagem de dados

In [15]:
%%writefile /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/preparar_dados_modelagem_LSTM.py
#@title Preparar dados modelagem LSTM

"""
Script de preparação de dados para modelagem com LSTM:
- Aplica normalização e padronização
- Salva scaler de preço
- Salva versão tratada em CSV
- Cria sequências de entrada e saída
- Divide em treino e teste
"""

import os
import numpy as np
import pandas as pd
import joblib
from sklearn.preprocessing import StandardScaler, MinMaxScaler

def preparar_dados(path_dados):
    caminho_scaler_preco = '/content/Piloto_Day_Trade/models/LSTM/scalers/scaler_normalizacao_preco.pkl'
    os.makedirs(os.path.dirname(caminho_scaler_preco), exist_ok=True)
    df = pd.read_csv(path_dados)

    df['data'] = pd.to_datetime(df['data'], errors='coerce')
    df['data_previsao'] = pd.to_datetime(df['data_previsao'], errors='coerce')

    preco_cols = ['abertura', 'maximo', 'minimo', 'fechamento']
    df = df.dropna(subset=preco_cols)

    scaler_preco = MinMaxScaler()
    scaler_preco.fit(df[preco_cols])
    joblib.dump(scaler_preco, caminho_scaler_preco)

    padronizar_cols = ['retorno', 'volatilidade', 'MACD', 'Signal_Line', 'rsi']
    normalizar_cols = [
        'abertura', 'minimo', 'maximo', 'fechamento', 'volume', 'SMA_10', 'EMA_10', 'OBV',
        'fechamento_lag1', 'retorno_lag1', 'volume_lag1',
        'fechamento_lag2', 'retorno_lag2', 'volume_lag2',
        'fechamento_lag3', 'retorno_lag3', 'volume_lag3'
    ]

    df[padronizar_cols] = StandardScaler().fit_transform(df[padronizar_cols])
    df[normalizar_cols] = MinMaxScaler().fit_transform(df[normalizar_cols])

    categorias = ['dia_da_semana_entrada', 'dia_da_semana_previsao', 'hora_num', 'minuto', 'mercado_aberto']
    df[categorias] = df[categorias].astype(int)

    df = df.select_dtypes(include='number').dropna()

    caminho_preparado = '/content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv'
    os.makedirs(os.path.dirname(caminho_preparado), exist_ok=True)
    df.to_csv(caminho_preparado, index=False)
    print(f"Dados preparados salvos em: {caminho_preparado}")

    return df

def criar_sequencias(df, tam_seq=96):
    entradas, saidas = [], []
    for i in range(len(df) - 2*tam_seq):
        entrada = df.iloc[i : i + tam_seq].values
        saida = df.iloc[i + tam_seq : i + 2*tam_seq][['abertura', 'maximo', 'minimo', 'fechamento']].values
        entradas.append(entrada)
        saidas.append(saida)
    return np.array(entradas), np.array(saidas)

def dividir_treino_teste(X, y, tx_treino=0.8):
    tamanho_treino = int(tx_treino * len(X))
    return X[:tamanho_treino], X[tamanho_treino:], y[:tamanho_treino], y[tamanho_treino:]

def preparar_dados_lstm(path_dados, tam_seq=96, tx_treino=0.8):
    df_preparado = preparar_dados(path_dados)
    X, y = criar_sequencias(df_preparado, tam_seq)
    X_treino, X_teste, y_treino, y_teste = dividir_treino_teste(X, y, tx_treino)
    return X_treino, X_teste, y_treino, y_teste

if __name__ == "__main__":
    path_dados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'
    X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(path_dados, tam_seq=96, tx_treino=0.8)

    print("Dados de treino e teste prontos:")
    print(f"X_treino: {X_treino.shape}, y_treino: {y_treino.shape}")
    print(f"X_teste: {X_teste.shape}, y_teste: {y_teste.shape}")


Overwriting /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/preparar_dados_modelagem_LSTM.py


In [16]:
#@title Executar preparar dados
from Piloto_Day_Trade.scripts.modelagem_machine_learning.preparar_dados_modelagem_LSTM import preparar_dados_lstm

X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
    path_dados='/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv',
    tam_seq=96,
    tx_treino=0.8
)


Dados preparados salvos em: /content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv


In [17]:
%%writefile /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/criar_modelo_LSTM.py
#@title Definindo Script para criar o modelo LSTM

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, TimeDistributed

def LSTM_model(input_shape):
    """
    Cria um modelo LSTM com:
    - 2 camadas LSTM com Dropout
    - Uma camada TimeDistributed com 4 saídas por timestep (abertura, maximo, minimo, fechamento)
    - Compilado com otimizador Adam e perda MSE

    Args:
        input_shape (tuple): formato da entrada (timesteps, n_features)

    Returns:
        model (tf.keras.Model): modelo compilado pronto para treino
    """
    model = Sequential()

    # Primeira camada LSTM com 64 neurônios e retorno de sequência
    model.add(LSTM(units=64, return_sequences=True, input_shape=input_shape))
    model.add(Dropout(0.2))  # Dropout para evitar overfitting

    # Segunda camada LSTM com 32 neurônios
    model.add(LSTM(units=32, return_sequences=True))
    model.add(Dropout(0.2))

    # Camada final: 4 saídas (abertura, max, min, fechamento) por timestep
    model.add(TimeDistributed(Dense(4)))

    # Compilando o modelo
    model.compile(optimizer='adam', loss='mse')

    return model


Overwriting /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/criar_modelo_LSTM.py


In [39]:
#@title Criar, treinar e salvar modelo LSTM v1

# Importar função para criar modelo e preparar dados
from scripts.modelagem_machine_learning.criar_modelo_LSTM import LSTM_model
from scripts.modelagem_machine_learning.preparar_dados_modelagem_LSTM import preparar_dados_lstm
import os

# Preparar os dados de entrada e saída para a LSTM
X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
    path_dados='/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv',
    tam_seq=96,      # Janela de 96 passos de tempo (8 horas em dados de 5 minutos)
    tx_treino=0.8    # Proporção para treino
)

# Definir o formato de entrada para a rede LSTM: (timesteps, n_features)
input_shape = (X_treino.shape[1], X_treino.shape[2])

# Criar instância do modelo com os parâmetros padrão
modelo_v1 = LSTM_model(input_shape=input_shape)

# Treinar o modelo
modelo_v1.fit(
    X_treino, y_treino,
    epochs=20,           # Número de épocas
    batch_size=32,       # Tamanho do batch
    verbose=1            # Mostrar progresso
)

# Criar diretório onde o modelo será salvo (caso não exista)
os.makedirs('/content/Piloto_Day_Trade/models/LSTM', exist_ok=True)

# Salvar o modelo treinado como versão 1
modelo_v1.save('/content/Piloto_Day_Trade/models/LSTM/modelo_LSTM_v1.keras')

print("Modelo LSTM v1 treinado e salvo com sucesso!")


Dados preparados salvos em: /content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv
Epoch 1/20


  super().__init__(**kwargs)


[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 168ms/step - loss: 0.1607
Epoch 2/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 127ms/step - loss: 0.0510
Epoch 3/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 142ms/step - loss: 0.0270
Epoch 4/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 128ms/step - loss: 0.0206
Epoch 5/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 112ms/step - loss: 0.0175
Epoch 6/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 115ms/step - loss: 0.0155
Epoch 7/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 136ms/step - loss: 0.0132
Epoch 8/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 154ms/step - loss: 0.0120
Epoch 9/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 112ms/step - loss: 0.0107
Epoch 10/20
[1m57/57[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 152ms/step - loss: 0.

In [18]:
atualizar_repo("Incluindo Modelo LSTM")

 2 files changed, 0 insertions(+), 0 deletions(-)
Repositório atualizado.


In [19]:
#@title Calcular métricas e avaliar modelo LSTM
%%writefile /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/calcular_metricas_avaliar_modelo_LSTM.py

import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

def avaliar_modelo_lstm(modelo, X_teste, y_teste, caminho_scaler='/content/Piloto_Day_Trade/models/LSTM/scalers/scaler_normalizacao_preco.pkl'):
    """
    Avalia o modelo LSTM, imprimindo as principais métricas e comparação entre previsões e valores reais.
    """
    print("Realizando previsões...")
    y_previsto = modelo.predict(X_teste)

    print("Carregando scaler de preços para inversão...")
    scaler_precos = joblib.load(caminho_scaler)
    colunas_precos = ['abertura', 'maximo', 'minimo', 'fechamento']

    y_previsto_reshape = y_previsto.reshape(-1, 4)
    y_teste_reshape = y_teste.reshape(-1, 4)

    y_previsto_original = scaler_precos.inverse_transform(y_previsto_reshape)
    y_teste_original = scaler_precos.inverse_transform(y_teste_reshape)

    df_previsto = pd.DataFrame(y_previsto_original, columns=colunas_precos)
    df_real = pd.DataFrame(y_teste_original, columns=colunas_precos)

    comparacao = pd.DataFrame({
        'Abertura_Real': df_real['abertura'],
        'Abertura_Prevista': df_previsto['abertura'],
        'Maximo_Real': df_real['maximo'],
        'Maximo_Previsto': df_previsto['maximo'],
        'Minimo_Real': df_real['minimo'],
        'Minimo_Previsto': df_previsto['minimo'],
        'Fechamento_Real': df_real['fechamento'],
        'Fechamento_Previsto': df_previsto['fechamento']
    })

    print("\nComparação de previsões (valores reais):")
    print(comparacao.head(10))

    def calcular_metricas(y_real, y_previsto, nome):
        mae = mean_absolute_error(y_real, y_previsto)
        mse = mean_squared_error(y_real, y_previsto)
        r2 = r2_score(y_real, y_previsto)
        print(f"{nome} - MAE: {mae:.4f}, MSE: {mse:.4f}, R²: {r2:.4f}")

    print("\n Métricas de desempenho por coluna:")
    calcular_metricas(df_real['abertura'], df_previsto['abertura'], "Abertura")
    calcular_metricas(df_real['maximo'], df_previsto['maximo'], "Máximo")
    calcular_metricas(df_real['minimo'], df_previsto['minimo'], "Mínimo")
    calcular_metricas(df_real['fechamento'], df_previsto['fechamento'], "Fechamento")

    return df_real, df_previsto, comparacao


if __name__ == "__main__":
    print("Importando scripts de modelo e dados...")
    from tensorflow.keras.models import load_model
    from scripts.modelagem_machine_learning.preparar_dados_modelagem_LSTM import preparar_dados_lstm

    print("Preparando dados para avaliação...")
    X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
        path_dados='/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv',
        tam_seq=96,
        tx_treino=0.8
    )

    print("📡 Carregando modelo salvo...")
    modelo_lstm_v1 = load_model('/content/Piloto_Day_Trade/models/LSTM/modelo_LSTM_v1.keras')

    print("Avaliando modelo...")
    df_real, df_previsto, comparacao = avaliar_modelo_lstm(
        modelo=modelo_lstm_v1,
        X_teste=X_teste,
        y_teste=y_teste
    )


Overwriting /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/calcular_metricas_avaliar_modelo_LSTM.py


In [34]:
#@title Avaliar o modelo LSTM v1 treinado
from scripts.modelagem_machine_learning.calcular_metricas_avaliar_modelo_LSTM import avaliar_modelo_lstm
from scripts.modelagem_machine_learning.preparar_dados_modelagem_LSTM import preparar_dados_lstm
from tensorflow.keras.models import load_model

# Preparar os dados
X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
    path_dados='/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv',
    tam_seq=96,
    tx_treino=0.8
)

# Carregar o modelo salvo
modelo_lstm_v1 = load_model('/content/Piloto_Day_Trade/models/LSTM/modelo_LSTM_v1.keras')

# Avaliar o modelo
df_real, df_previsto, comparacao = avaliar_modelo_lstm(
    modelo=modelo_lstm_v1,
    X_teste=X_teste,
    y_teste=y_teste,
    caminho_scaler='/content/Piloto_Day_Trade/models/LSTM/scalers/scaler_normalizacao_preco.pkl'
)


Dados preparados salvos em: /content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv
Realizando previsões...
[1m15/15[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 102ms/step
Carregando scaler de preços para inversão...

Comparação de previsões (valores reais):
   Abertura_Real  Abertura_Prevista  Maximo_Real  Maximo_Previsto  \
0          11.35          11.770454        11.37        11.856690   
1          11.36          11.607411        11.37        11.674302   
2          11.35          11.472589        11.36        11.518727   
3          11.36          11.380248        11.37        11.402222   
4          11.36          11.400326        11.38        11.411223   
5          11.34          11.424469        11.35        11.433488   
6          11.33          11.449021        11.34        11.458927   
7          11.33          11.460655        11.37        11.472838   
8          11.35          11.467196        11.42        11.481082   
9          11.34 

In [30]:
atualizar_repo("Finalizando Modelo LSTM")

Resultado inesperado do Git:
[main 5c324f6] Finalizando Modelo LSTM
 1 file changed, 2545 insertions(+)
 create mode 100644 data/raw/dados_brutos_teste.csv

Repositório atualizado.


# Pipeline de dados

In [21]:
import os

def listar_arquivos_em_subpastas(pasta_base):
    for raiz, subpastas, arquivos in os.walk(pasta_base):
        nivel = raiz.replace(pasta_base, '').count(os.sep)
        indent = ' ' * 4 * nivel
        print(f"{indent}{os.path.basename(raiz)}/")
        subindent = ' ' * 4 * (nivel + 1)
        for arquivo in arquivos:
            print(f"{subindent}{arquivo}")

# Caminho da pasta onde estão os scripts
pasta_scripts = "/content/Piloto_Day_Trade/scripts"
listar_arquivos_em_subpastas(pasta_scripts)


scripts/
    modelagem_machine_learning/
        calcular_metricas_avaliar_modelo_LSTM.py
        preparar_dados_modelagem_LSTM.py
        criar_modelo_LSTM.py
        modelo_LSTM_v1.py
        __pycache__/
            calcular_metricas_avaliar_modelo_LSTM.cpython-311.pyc
            criar_modelo_LSTM.cpython-311.pyc
            preparar_dados_modelagem_LSTM.cpython-311.pyc
    .ipynb_checkpoints/
        modelagem_dados_XGBoot.py
    __pycache__/
        extracao_dados_v2.cpython-311.pyc
        limpeza_dados.cpython-311.pyc
        limpeza_basica_dadosv2.cpython-311.pyc
        gerar_catalogo.cpython-311.pyc
        transformacao_dados_v2.cpython-311.pyc
        gerar_catalogo_dados.cpython-311.pyc
        transformacao_dados.cpython-311.pyc
        calcular_metricas_avaliar_modelo.cpython-311.pyc
        preparar_dados_modelagem_LSTM.cpython-311.pyc
        extracao_dados.cpython-311.pyc
    pipeline/
        gerar_catalogo_dados.py
        extracao_dados.py
        executar_pipelin

In [22]:
%%writefile /content/Piloto_Day_Trade/scripts/pipeline/executar_pipeline.py

import os
import pandas as pd

from scripts.pipeline.extracao_dados import extrair_dados
from scripts.pipeline.limpeza_dados import limpeza_dados
from scripts.pipeline.transformacao_dados import transformar_dados
from scripts.pipeline.carga_dados import carregar_dados
from scripts.pipeline.criar_banco_dimensional import criar_banco
from scripts.modelagem_machine_learning.preparar_dados_modelagem_LSTM import preparar_dados_lstm

def executar_pipeline(ticker, intervalo, dias, caminho_bruto, caminho_limpo, caminho_transformado, db_path, tam_seq, tx_treino):
    print("\nIniciando execução completa do pipeline...")

    # Etapa 1: Extração
    print("Executando: Extração de dados")
    extrair_dados(ticker, dias, intervalo, caminho_bruto)

    # Etapa 2: Limpeza
    print("Executando: Limpeza de dados")
    df_bruto = pd.read_csv(caminho_bruto, index_col=0, parse_dates=True, dayfirst=True)
    limpeza_dados(df_bruto, caminho_limpo)

    # Etapa 3: Transformação
    print("Executando: Transformação de dados")
    transformar_dados(caminho_limpo, caminho_transformado)

    # Etapa 4: Criar banco dimensional
    print("Executando: Criação do banco dimensional")
    criar_banco(db_path)  # Passando db_path para a função

    # Etapa 5: Carga de dados
    print("Executando: Carga de dados")
    df_transformado = pd.read_csv(caminho_transformado)
    carregar_dados(df_transformado)

    # Etapa 7: Preparação dos dados para modelagem
    print("Executando: Preparação de dados para LSTM")
    preparar_dados_lstm(
        path_dados=caminho_transformado,
        tam_seq=tam_seq,
        tx_treino=tx_treino
    )

    print("\nPipeline finalizado com sucesso.")

if __name__ == "__main__":
    # Chamada com parâmetros do projeto
    ticker = "BBDC4.SA"
    intervalo = "5m"
    dias = 45
    caminho_bruto = "/content/Piloto_Day_Trade/data/raw/dados_brutos.csv"
    caminho_limpo = "/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv"
    caminho_transformado = "/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv"
    db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"
    tam_seq = 96
    tx_treino = 0.8

    executar_pipeline(ticker, intervalo, dias, caminho_bruto, caminho_limpo, caminho_transformado, db_path, tam_seq, tx_treino)


Writing /content/Piloto_Day_Trade/scripts/pipeline/executar_pipeline.py


In [None]:
# @title ## Testar pipeline

# Importando a função do pipeline
from Piloto_Day_Trade.scripts.pipeline.executar_pipeline import executar_pipeline

# Definindo os parâmetros a serem passados
ticker = "BBDC4.SA"
intervalo = "5m"
dias = 45
caminho_bruto = "/content/Piloto_Day_Trade/data/raw/dados_brutos_teste.csv"
caminho_limpo = "/content/Piloto_Day_Trade/data/cleaned/dados_limpos_teste.csv"
caminho_transformado = "/content/Piloto_Day_Trade/data/transformed/dados_transformados_teste.csv"
db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional_teste.db"
tam_seq = 96
tx_treino = 0.8

# Executando o pipeline com os parâmetros definidos
executar_pipeline(ticker, intervalo, dias, caminho_bruto, caminho_limpo, caminho_transformado, db_path, tam_seq, tx_treino)


In [None]:
%%writefile /content/Piloto_Day_Trade/.github/workflows/pipeline.yml

name: Executar Pipeline Completo

on:
  push:
    branches: [main]
  pull_request:
    branches: [main]

jobs:
  pipeline:
    runs-on: ubuntu-latest

    steps:
      - name: Clonar repositório
        uses: actions/checkout@v3

      - name: Configurar Python
        uses: actions/setup-python@v4
        with:
          python-version: '3.11'

      - name: Instalar dependências
        run: |
          python -m pip install --upgrade pip
          pip install -r requirements.txt

      - name: Executar pipeline
        run: |
          python scripts/pipeline/executar_pipeline_completo.py


In [None]:
%%writefile /content/Piloto_Day_Trade/.github/workflows/workflow_doc.md

#@title Definindo Documentação do workflow completo para Execução do Pipeline

## Objetivo

Este documento descreve o fluxo de trabalho para a execução automatizada do pipeline de dados, utilizando o GitHub Actions. O pipeline abrange desde a extração até a modelagem de dados, e foi estruturado para garantir a automação da execução do processo, facilitando atualizações contínuas e execuções programadas no repositório GitHub.

## Estrutura do Pipeline

O pipeline é composto por várias etapas que são executadas em sequência. Cada uma das etapas envolve um script específico para garantir a correta manipulação dos dados:

1. **Extração de Dados:** Obtém os dados brutos de uma fonte externa, como o Yahoo Finance ou qualquer outra fonte configurada.
2. **Limpeza de Dados:** Realiza a limpeza e formatação dos dados brutos.
3. **Transformação de Dados:** Aplica transformações necessárias para deixar os dados prontos para a modelagem.
4. **Criação de Banco Dimensional:** Estrutura os dados de maneira que sejam facilmente analisáveis.
5. **Carga de Dados:** Carrega os dados transformados para o banco de dados.
6. **Geração de Catálogo de Dados:** Cria um catálogo de metadados para facilitar o uso futuro dos dados.
7. **Preparação de Dados para Modelagem LSTM:** Prepara os dados específicos para alimentar o modelo de LSTM.
8. **Modelagem e Avaliação:** Treina e avalia o modelo LSTM.

### Scripts Responsáveis por Cada Etapa

1. **`extracao_dados.py`:** Extração dos dados brutos.
2. **`limpeza_dados.py`:** Limpeza e pré-processamento dos dados brutos.
3. **`transformacao_dados.py`:** Aplicação das transformações necessárias nos dados.
4. **`criar_banco_dimensional.py`:** Criação do banco dimensional para armazenar os dados.
5. **`carga_dados.py`:** Carga dos dados transformados no banco dimensional.
6. **`gerar_catalogo_dados.py`:** Geração do catálogo de dados.
7. **`preparar_dados_modelagem_LSTM.py`:** Preparação final dos dados para treinamento do modelo LSTM.

## GitHub Actions: Workflow

O objetivo é configurar um workflow automatizado no GitHub Actions para que ele execute todo o pipeline a cada novo push ou evento programado. Para isso, criamos um arquivo YAML no repositório do GitHub.

### Workflow: `pipeline.yml`

Este workflow será responsável por orquestrar todas as etapas de execução. Abaixo está o conteúdo do arquivo YAML:

```yaml
name: Pipeline Completo de Dados

on:
  push:
    branches:
      - main
  schedule:
    - cron: '0 0 * * 1'  # Executa toda segunda-feira às 00:00 (UTC)

jobs:
  run_pipeline:
    runs-on: ubuntu-latest

    steps:
    - name: Checkout do repositório
      uses: actions/checkout@v2

    - name: Configurar Python
      uses: actions/setup-python@v2
      with:
        python-version: '3.8'

    - name: Instalar dependências
      run: |
        python -m pip install --upgrade pip
        pip install -r requirements.txt

    - name: Executar Extração de Dados
      run: python scripts/pipeline/extracao_dados.py

    - name: Executar Limpeza de Dados
      run: python scripts/pipeline/limpeza_dados.py

    - name: Executar Transformação de Dados
      run: python scripts/pipeline/transformacao_dados.py

    - name: Criar Banco Dimensional
      run: python scripts/pipeline/criar_banco_dimensional.py

    - name: Carregar Dados
      run: python scripts/pipeline/carga_dados.py

    - name: Gerar Catálogo de Dados
      run: python scripts/pipeline/gerar_catalogo_dados.py

    - name: Preparar Dados para Modelagem LSTM
      run: python scripts/modelagem_machine_learning/preparar_dados_modelagem_LSTM.py

    - name: Avaliar Modelo LSTM
      run: python scripts/modelagem_machine_learning/calcular_metricas_avaliar_modelo_LSTM.py


  ### Explicação do Workflow:

    - Evento de Acionamento:

    O workflow é acionado por dois eventos principais:

    Push para a branch main: Sempre que um novo commit for enviado para a branch main, o pipeline será executado automaticamente.

    Agendamento Semanal: O pipeline é executado toda segunda-feira às 00:00 UTC, garantindo que os dados sejam atualizados regularmente.

    - Jobs:

    run_pipeline: Este job é o responsável por executar todas as etapas do pipeline.

    Ele é executado em uma máquina virtual Ubuntu, configurada com Python 3.8.

    - Etapas:

    Checkout do Repositório: Faz o checkout do código do repositório.

    Configuração do Python: Configura o ambiente Python necessário.

    Instalação de Dependências: Instala as dependências listadas no requirements.txt.

    Execução das Etapas do Pipeline: Cada etapa do pipeline é executada com o comando python apontando para o script correspondente.

    - Requisitos para o Workflow:
    requirements.txt: Um arquivo contendo todas as dependências necessárias para rodar o pipeline. Ele deve estar no repositório e ser mantido atualizado.

    Acesso ao Repositório: O repositório deve conter todos os scripts e arquivos de dados necessários para a execução do pipeline.


In [None]:
atualizar_repo("Finalizando Pipeline")