<a href="https://colab.research.google.com/github/CarolBw/Piloto_Day_Trade/blob/main/Piloto_Day_Trade.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%%writefile /content/MVP_Objetivo.md
#@title **Objetivo do Projeto**

### 1. Prop√≥sito do MVP

Este projeto tem como objetivo principal a cria√ß√£o de um pipeline para extra√ß√£o, transforma√ß√£o, carga, an√°lise e previs√£o da movimenta√ß√£o intradi√°ria dos pre√ßos de um ativo financeiro em intervalos de 5 minutos. O modelo preditivo central ser√° baseado em redes neurais recorrentes (LSTM), mas outras abordagens ser√£o exploradas. O MVP visa garantir previs√µes para embasar decis√µes estrat√©gicas de day trade.

### 2. Problema a Ser Resolvido

A alta volatilidade dos mercados financeiros exige ferramentas robustas para antecipa√ß√£o de movimentos de pre√ßo. A dificuldade est√° em capturar padr√µes de curto prazo e projet√°-los com precis√£o. Traders e investidores necessitam de um modelo que consiga interpretar os padr√µes hist√≥ricos e transform√°-los em previs√µes √∫teis.

### 3. Pipeline do Projeto

O projeto ser√° estruturado em sete etapas principais:

1. **Extra√ß√£o e armazenamento dos dados brutos:** Coleta de dados hist√≥ricos de ativos financeiros em intervalos de 15 minutos utilizando a API do Yahoo Finance (yfinance). Os dados ser√£o armazenados em um reposit√≥rio GitHub sincronizado com Google Colab, garantindo acesso remoto e backup na nuvem.

2. **Limpeza e organiza√ß√£o dos dados:** Padroniza√ß√£o de colunas, tratamento de dados ausentes, elimina√ß√£o de duplicatas e organiza√ß√£o cronol√≥gica. Resultado salvo como `dados_limpos.csv`.

3. **Transforma√ß√£o e engenharia de features:** Adi√ß√£o de indicadores t√©cnicos (como m√©dias m√≥veis, RSI, MACD), cria√ß√£o de vari√°veis de lag e retornos. Resultado salvo como `dados_transformados.csv`.

4. **Modelagem e estrutura√ß√£o do banco de dados:**

   a) Organiza√ß√£o em arquivos CSV:

   - `dados_brutos.csv`: dados originais extra√≠dos da API.
   - `dados_limpos.csv`: ap√≥s limpeza e padroniza√ß√£o.
   - `dados_transformados.csv`: ap√≥s adi√ß√£o de features t√©cnicas.
   - `dados_final.csv`: vers√£o padronizada e normalizada dos dados.

   b) Banco de dados dimensional:

   - **Fato**: `fato_precos`, contendo os valores de fechamento e chaves para dimens√µes.
   - **Dimens√µes**:
     - `dim_tempo`: atributos temporais.
     - `dim_indicadores`: indicadores t√©cnicos.
     - `dim_lags`: varia√ß√µes e lags recentes.

   Um **Cat√°logo de Dados** ser√° elaborado com descri√ß√£o, dom√≠nio, categorias e linhagem de cada vari√°vel.

5. **Carga e Pipeline ETL:** Pipeline estruturado com as seguintes etapas:

   - **Extra√ß√£o:** via API do Yahoo Finance.
   - **Limpeza:** tratamento e estrutura√ß√£o b√°sica.
   - **Transforma√ß√£o:** gera√ß√£o de vari√°veis t√©cnicas e derivadas.
   - **Carga:** integra√ß√£o dos dados transformados no banco dimensional (fato e dimens√µes).

6. **Treinamento e ajuste do modelo:** Implementa√ß√£o e ajuste de modelos preditivos (LSTM como baseline), com avalia√ß√£o por m√©tricas como MSE e R¬≤.

7. **Interpreta√ß√£o dos resultados e resposta √†s perguntas:** Valida√ß√£o das previs√µes, an√°lise de vari√°veis relevantes e contribui√ß√£o dos resultados para decis√µes de trading.

### 4. Perguntas a Serem Respondidas

- √â poss√≠vel prever com precis√£o a movimenta√ß√£o intradi√°ria de um ativo a cada 15 minutos?
- Os dados do dia anterior fornecem informa√ß√µes suficientes para a previs√£o do dia seguinte?
- A modelagem com LSTM captura corretamente as tend√™ncias de curto prazo?
- A previs√£o da movimenta√ß√£o intradi√°ria tamb√©m permite derivar com precis√£o as targets globais do dia (abertura, m√≠nima, m√°xima e fechamento)?
- Quais indicadores t√©cnicos e features s√£o mais relevantes para melhorar a acur√°cia do modelo?
- Como considerar corretamente as quebras de fim de semana (exemplo: prever a segunda-feira usando os dados de sexta-feira)?
- A normaliza√ß√£o e padroniza√ß√£o das vari√°veis melhora a precis√£o do modelo?

### 5. Crit√©rios de Sucesso

Para que o MVP seja considerado bem-sucedido o esperado √© que:

1. O pipeline de extra√ß√£o, transforma√ß√£o e previs√£o funcione de forma eficiente.
2. O modelo consiga prever a movimenta√ß√£o dos pre√ßos com um erro m√©dio aceit√°vel (avaliado por MSE ou R2).
3. A previs√£o de targets globais (abertura, m√°xima, m√≠nima, fechamento) seja consistente com os valores reais.
4. O modelo consiga lidar corretamente com fins de semana e feriados.
5. As previs√µes sejam suficientes para auxiliar na tomada de decis√£o de trading.



Writing /content/MVP_Objetivo.md


In [2]:
#@title ## Escrevendo vari√°veis sensiveis

%%writefile /content/.env

PROJECT_NAME=Piloto_Day_Trade

# Vari√°veis de ambiente para o Github
GITHUB_USERNAME=CarolBw
GITHUB_TOKEN =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
EMAIL=carolbrescowitt@yahoo.com.br



Writing /content/.env


In [3]:
#@title ## Instalando depend√™ncias
'''
Usamos `-q` para ocultar a sa√≠da detalhada e mostrar apenas a barra de progresso

'''
!pip install -q tensorflow > /dev/null  # Framework para redes neurais e deep learning
!pip install -q keras > /dev/null  # Biblioteca de alto n√≠vel para redes neurais
!pip install -q pandas > /dev/null  # Manipula√ß√£o e an√°lise de dados
!pip install -q numpy > /dev/null  # Computa√ß√£o num√©rica eficiente
!pip install -q matplotlib > /dev/null  # Visualiza√ß√£o de gr√°ficos e an√°lise explorat√≥ria
!pip install -q scikit-learn > /dev/null  # Ferramentas para pr√©-processamento e m√©tricas de avalia√ß√£o
!pip install -q gitpython > /dev/null  # Gerenciamento de reposit√≥rios Git via Python
!pip install -q python-dotenv > /dev/null  # Manipula√ß√£o de vari√°veis de ambiente
!pip install -q seaborn > /dev/null  # Biblioteca de visualiza√ß√£o estat√≠stica baseada no Matplotlib
!pip install -q yfinance > /dev/null  # Coleta de dados financeiros diretamente do Yahoo Finance
!pip install -q sqlalchemy > /dev/null  # ORM para interagir com bancos de dados relacionais
!pip install -q dotenv > /dev/null # Manipula√ß√£o de vari√°veis de ambiente

# Importa√ß√µes das bibliotecas
import pandas as pd  # Manipula√ß√£o de DataFrames
import numpy as np  # C√°lculos num√©ricos e matrizes
import matplotlib.pyplot as plt  # Gera√ß√£o de gr√°ficos
import sqlite3  # Integra√ß√£o com banco de dados SQLite

# Pr√©-processamento dos dados
from sklearn.preprocessing import StandardScaler, MinMaxScaler  # Normaliza√ß√£o e padroniza√ß√£o dos dados
from sklearn.model_selection import train_test_split  # Divis√£o dos dados em treino e teste
from sklearn.metrics import mean_absolute_error, mean_squared_error  # Avalia√ß√£o do desempenho do modelo

# Constru√ß√£o do modelo preditivo
from keras.models import Sequential  # Modelo sequencial de rede neural
from keras.layers import Dense  # Camada densa para aprendizado profundo

# Controle de vers√£o e vari√°veis de ambiente
import git  # Gerenciamento do reposit√≥rio Git
import dotenv  # Carregamento de vari√°veis de ambiente

import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


In [4]:
# Capturamdo todas as dependencias do ambiente nesta primeira etapa
!pip freeze > requirements.txt

In [5]:
#@title ## Configurando sincroniza√ß√£o com Github

%%writefile /content/configurar_git.py

import os
from dotenv import load_dotenv

def git_config():
    """Configura o Git localmente e sincroniza com o reposit√≥rio remoto no GitHub."""

    # Carregar vari√°veis de ambiente do arquivo .env
    load_dotenv(dotenv_path='/content/.env')

    # Obter as vari√°veis de ambiente do .env para o GitHub
    GITHUB_USERNAME = os.getenv('GITHUB_USERNAME')
    EMAIL = os.getenv('EMAIL')
    GITHUB_TOKEN = os.getenv('GITHUB_TOKEN')
    PROJECT_NAME = os.getenv('PROJECT_NAME')
    REPO_URL = f"https://{GITHUB_USERNAME}:{GITHUB_TOKEN}@github.com/{GITHUB_USERNAME}/{PROJECT_NAME}.git"

    # Configurar o Git localmente com as credenciais
    os.system(f'git config --global user.name "{GITHUB_USERNAME}"')
    os.system(f'git config --global user.email "{EMAIL}"')

    # Verificar se o diret√≥rio do projeto j√° existe e se √© um reposit√≥rio Git v√°lido
    if os.path.isdir(PROJECT_NAME):
        print(f"O diret√≥rio '{PROJECT_NAME}' j√° existe. Entrando no diret√≥rio e sincronizando...")

        os.chdir(PROJECT_NAME)  # Entrar na pasta do projeto

        # Garantir que estamos na branch main
        os.system("git branch -M main")

        # Remover qualquer configura√ß√£o errada do reposit√≥rio remoto e adicionar novamente
        os.system("git remote remove origin")
        os.system("git remote add origin " + REPO_URL)

        # Puxar as √∫ltimas atualiza√ß√µes do GitHub, tratando hist√≥ricos n√£o relacionados
        os.system("git pull origin main --allow-unrelated-histories --no-rebase")
    else:
        print(f"Clonando o reposit√≥rio '{PROJECT_NAME}'...")

        # Clonar o reposit√≥rio remoto
        os.system(f"git clone {REPO_URL}")
        os.chdir(PROJECT_NAME)  # Entrar no diret√≥rio ap√≥s o clone

        # Inicializar o reposit√≥rio Git local (se necess√°rio) e configurar remoto
        os.system("git branch -M main")
        os.system("git remote add origin " + REPO_URL)

        # Realizar o pull inicial para garantir que a branch main est√° sincronizada
        os.system("git pull origin main --allow-unrelated-histories --no-rebase")

    print(f"‚úÖ Configura√ß√£o do Git conclu√≠da e sincronizada com a branch main do reposit√≥rio{REPO_URL}")


if __name__ == "__main__":
    git_config()




Writing /content/configurar_git.py


In [6]:
#@title Sincronizando reposit√≥rio

from configurar_git import git_config
git_config()

Clonando o reposit√≥rio 'Piloto_Day_Trade'...
‚úÖ Configura√ß√£o do Git conclu√≠da e sincronizada com a branch main do reposit√≥riohttps://CarolBw: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@github.com/CarolBw/Piloto_Day_Trade.git


In [7]:
#@title ## Definindo estrutura de pastas do projeto

"""
Estrutura inicial do reposit√≥rio Piloto_Day_Trade:

|- notebooks/         ‚Üí Jupyter Notebooks para explora√ß√£o e an√°lises
|- scripts/           ‚Üí Fun√ß√µes reutiliz√°veis (pr√©-processamento, modelagem, avalia√ß√£o, etc.)
|- data/              ‚Üí Dados organizados em 3 n√≠veis:
   |- raw/            ‚Üí Dados brutos extra√≠dos diretamente de fontes externas
   |- cleaned/        ‚Üí Dados limpos com tratamento b√°sico (ex: datas, nulos, nomes de colunas)
   |- transformed/    ‚Üí Dados com features criadas e prontos para modelagem
|- modelagem/         ‚Üí Modelagem do banco de dados.
   |- database/       ‚Üí Banco de dados
   |- catalog/        ‚Üí Cat√°logo de dados
   |- esquema/        ‚Üí Esquema do banco de dados
|- workflows/         ‚Üí Pipelines
|- models/            ‚Üí Modelos treinados
   |- scalers/        ‚Üí Scalers salvos (MinMaxScaler, StandardScaler, etc.)
|- reports/           ‚Üí Resultados, gr√°ficos, relat√≥rios de performance
|- MVP_Objetivo.md    ‚Üí Documento explicando o objetivo do projeto
|- README.md          ‚Üí Instru√ß√µes gerais do projeto
|-.env                ‚Üí Vari√°veis de ambiente e configura√ß√µes sens√≠veis
|- requirements.txt   ‚Üí Lista de depend√™ncias
|- LICENCE            ‚Üí Licen√ßa do projeto
"""

# Criar estrutura de diret√≥rios
%cd /content/

!mkdir -p /content/Piloto_Day_Trade/notebooks
!mkdir -p /content/Piloto_Day_Trade/scripts
!mkdir -p /content/Piloto_Day_Trade/data/raw
!mkdir -p /content/Piloto_Day_Trade/data/cleaned
!mkdir -p /content/Piloto_Day_Trade/data/transformed
!mkdir -p /content/Piloto_Day_Trade/modelagem/catalog
!mkdir -p /content/Piloto_Day_Trade/modelagem/esquema
!mkdir -p /content/Piloto_Day_Trade/modelagem/database
!mkdir -p /content/Piloto_Day_Trade/models
!mkdir -p /content/Piloto_Day_Trade/models/scalers
!mkdir -p /content/Piloto_Day_Trade/reports
!mkdir -p /content/Piloto_Day_Trade/workflows

# Criar arquivos principais
!touch /content/Piloto_Day_Trade/.gitignore
!touch /content/Piloto_Day_Trade/README.md
!touch /content/Piloto_Day_Trade/LICENCE



/content


In [8]:
# Mover arquivos existentes (ajuste conforme seus arquivos reais)
!mv /content/.env /content/Piloto_Day_Trade/.env
!mv /content/configurar_git.py /content/Piloto_Day_Trade/scripts/Operacional/configurar_git.py
!mv /content/requirements.txt /content/Piloto_Day_Trade/requirements.txt
!mv /content/MVP_Objetivo.md /content/Piloto_Day_Trade/MVP_Objetivo.md

In [77]:
# Ver estrutura de diret√≥rios
!apt-get install tree -y > /dev/null 2>&1 # Instala o tree e oculta a saida da instala√ß√£o
!tree /content/Piloto_Day_Trade -d


[01;34m/content/Piloto_Day_Trade[0m
‚îú‚îÄ‚îÄ [01;34mdata[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mcleaned[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mraw[0m
‚îÇ¬†¬† ‚îî‚îÄ‚îÄ [01;34mtransformed[0m
‚îú‚îÄ‚îÄ [01;34mmodelagem[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mcatalog[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mdatabase[0m
‚îÇ¬†¬† ‚îî‚îÄ‚îÄ [01;34mesquema[0m
‚îú‚îÄ‚îÄ [01;34mmodels[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mLSTM_v1[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mscalers[0m
‚îÇ¬†¬† ‚îî‚îÄ‚îÄ [01;34mXGBoost_v1[0m
‚îú‚îÄ‚îÄ [01;34mnotebooks[0m
‚îú‚îÄ‚îÄ [01;34mreports[0m
‚îú‚îÄ‚îÄ [01;34mscripts[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mModelagem_machine_learning[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mOperacional[0m
‚îÇ¬†¬† ‚îú‚îÄ‚îÄ [01;34mPipelines[0m
‚îÇ¬†¬† ‚îî‚îÄ‚îÄ [01;34m__pycache__[0m
‚îî‚îÄ‚îÄ [01;34mworkflows[0m

20 directories


In [72]:
#@title Fun√ß√£o operacional
# para atualizar o reposit√≥rio facilmente ao longo do desenvolvimento sem erros de sincroniza√ß√£o

import os
import subprocess

def atualizar_repo(commit_message):
    """Atualiza o reposit√≥rio remoto e mostra quantos arquivos foram comitados."""
    repo_path = "/content/Piloto_Day_Trade"

    if not os.path.exists(os.path.join(repo_path, ".git")):
        print("üö´ Este diret√≥rio n√£o √© um reposit√≥rio Git.")
        return

    os.chdir(repo_path)

    # Adiciona todos os arquivos
    subprocess.run(["git", "add", "."], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

    # Executa o commit e captura a sa√≠da completa (stdout + stderr)
    result = subprocess.run(
        ["git", "commit", "-m", commit_message],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        text=True
    )

    # Juntamos as sa√≠das para an√°lise
    output = result.stdout + result.stderr

    if "files changed" in output:
        # Procura a linha com o resumo da altera√ß√£o
        for linha in output.splitlines():
            if "files changed" in linha:
                print(f"üìù {linha}")
                break
    elif "nothing to commit" in output:
        print("‚ÑπÔ∏è Nenhuma altera√ß√£o para comitar.")
    else:
        print("‚ö†Ô∏è Resultado inesperado do Git:")
        print(output)

    # Envia para o reposit√≥rio remoto
    subprocess.run(["git", "push", "origin", "main"], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
    print("‚úÖ Reposit√≥rio atualizado.")


In [12]:
#@title ## Extra√ß√£o de dados

%%writefile /content/Piloto_Day_Trade/scripts/Pipeline/extracao_dados.py

import yfinance as yf
import pandas as pd
from datetime import datetime, timedelta
import os
import dotenv

dotenv.load_dotenv()

def extrair_dados(ticker, dias, intervalo, dados_brutos):
    """Extrai e organiza dados do Yahoo Finance no intervalo correto."""

    df_total = pd.DataFrame()  # DataFrame para armazenar os dados
    data_inicio = datetime.today() - timedelta(days=dias)  # Data inicial
    data_fim = datetime.today() + timedelta(days=1)

    # Verifica se o arquivo de dados brutos existe
    if os.path.exists(dados_brutos):
        df = pd.read_csv(dados_brutos, index_col=0, parse_dates=True)

        if not df.empty:
            # Atualiza a data de in√≠cio para a √∫ltima data dispon√≠vel nos dados brutos
            ultima_data = pd.to_datetime(df.index.max())
            data_inicio = ultima_data + timedelta(minutes=30)

    print(f"üîÑ Extraindo dados de {data_inicio.strftime('%Y-%m-%d %H:%M:%S')} at√© {data_fim.strftime('%Y-%m-%d %H:%M:%S')}")

    # Extrai os dados do Yahoo Finance
    df_novo = yf.download(
        ticker,
        start=data_inicio.strftime("%Y-%m-%d"),
        end=data_fim.strftime("%Y-%m-%d"),
        interval=intervalo,
        progress=True
    )

    if not df_novo.empty:
        # Apenas converte para "America/Sao_Paulo" se j√° tiver timezone
        if df_novo.index.tzinfo is not None:
            df_novo.index = df_novo.index.tz_convert("America/Sao_Paulo")

        # Concatena os novos dados com os existentes e remove duplicatas
        df_total = pd.concat([df_total, df_novo]).drop_duplicates().sort_index()

        # Remove linhas com mais de 50% de valores nulos
        df_total = df_total.dropna(thresh=df_total.shape[1] * 0.5)

        # Salva os dados atualizados no arquivo CSV
        df_total.to_csv(dados_brutos)
        print("‚úÖ Dados salvos com sucesso.")

    # Filtra os dados para o hor√°rio entre 10:00 e 18:00
    df_filtrado = df_total.between_time("10:00", "18:00")

    # Exibe os 10 primeiros e os 10 √∫ltimos registros
    print("√öltimos 10 dados filtrados:")
    print(df_filtrado.tail(10))
    print("Primeiros 10 dados filtrados:")
    print(df_filtrado.head(10))

    return df_filtrado

if __name__ == "__main__":
    ticker = "BBDC4.SA"  # Ticker da a√ß√£o
    intervalo = "5m"  # Intervalo de tempo (5 minutos)
    dias = 45  # N√∫mero de dias a partir de hoje para buscar os dados
    dados_brutos = "/content/Piloto_Day_Trade/data/dados_brutos.csv"  # Caminho do arquivo de dados brutos
    df = extrair_dados(ticker, dias, intervalo, dados_brutos)


Overwriting /content/Piloto_Day_Trade/scripts/extracao_dados.py


In [None]:
#@title Executando extra√ß√£o de dados extra√ß√£o de dados
from Piloto_Day_Trade.scripts.Pipeline.extracao_dados import extrair_dados

ticker = "BBDC4.SA"  # Ticker da a√ß√£o
intervalo = "5m"  # Intervalo de tempo
dias = 45  # N√∫mero de dias a partir de hoje para buscar os dados
dados_brutos = "/content/Piloto_Day_Trade/data/dados_brutos.csv"  # Caminho do arquivo de dados brutos
df = extrair_dados(ticker, dias, intervalo, dados_brutos)

In [13]:
#@title ## Limpeza de dados

%%writefile /content/Piloto_Day_Trade/scripts/Pipeline/limpeza_dados.py

import pandas as pd

def limpeza_dados(df):
    # Verificar se os dados est√£o corretos
    print("Dados originais:")
    print(df.head())
    print(df.info())

    # Remover as primeiras duas linhas (com 'Ticker' e 'Datetime')
    df = df.iloc[2:].copy()

    # Verificar ap√≥s a remo√ß√£o das linhas iniciais
    print("Ap√≥s remo√ß√£o das duas primeiras linhas:")
    print(df.head())

    # Garantir que o √≠ndice esteja no formato de data e hora (timezone UTC)
    df.index = pd.to_datetime(df.index, utc=True)

    # Definir o fuso hor√°rio como "America/Sao_Paulo"
    df.index = df.index.tz_convert("America/Sao_Paulo")

    # Remover a refer√™ncia de fuso hor√°rio (deixar o hor√°rio local sem informa√ß√£o de timezone)
    df.index = df.index.tz_localize(None)

    # Criar a coluna 'hora' com base no √≠ndice
    df['hora'] = df.index.strftime('%H:%M:%S')

    # Renomear o √≠ndice para 'data'
    df.index.name = 'data'

    # Resetar o √≠ndice para transformar o Datetime em uma coluna normal
    df = df.reset_index()

    # Verificar ap√≥s a transforma√ß√£o do √≠ndice
    print("\nAp√≥s convers√£o de √≠ndice:")
    print(df.head())

    # Remover o hor√°rio da coluna 'data', mantendo apenas a data
    df['data'] = df['data'].dt.date

    # Mapeamento das colunas para nomes padronizados
    mapeamento_colunas = {
        'Close': 'fechamento',
        'High': 'maximo',
        'Low': 'minimo',
        'Open': 'abertura',
        'Volume': 'volume'
    }

    # Renomear as colunas
    df.rename(columns=mapeamento_colunas, inplace=True)

    # Converte e arredonda as colunas num√©ricas
    for col in ['abertura', 'minimo', 'maximo', 'fechamento']:
        df[col] = pd.to_numeric(df[col], errors='coerce').round(2)

    # Converte a coluna 'volume' para n√∫mero inteiro
    df['volume'] = pd.to_numeric(df['volume'], errors='coerce', downcast='integer')

    # Reorganiza as colunas na ordem desejada
    df = df[['data', 'hora', 'abertura', 'minimo', 'maximo', 'fechamento', 'volume']]

    # Verificar ap√≥s reorganizar as colunas
    print("\nAp√≥s reorganizar as colunas:")
    print(df.head())

    # Verificar e remover duplicatas mantendo a primeira ocorr√™ncia
    df = df.drop_duplicates(keep='first')

    # Remover as linhas com 50% ou mais de valores nulos
    df = df.dropna(thresh=df.shape[1] * 0.5)

    # Verificar ap√≥s remo√ß√£o de duplicatas e nulos
    print("\nAp√≥s remover duplicatas e nulos:")
    print(df.head())

    # Garantir que 'data' e 'hora' estejam no formato datetime
    df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')
    df['hora'] = pd.to_datetime(df['hora'], format='%H:%M:%S').dt.time

    # Filtra apenas os dias √∫teis (segunda a sexta)
    df = df[df['data'].dt.weekday < 5]

    # Verificar ap√≥s filtrar dias √∫teis
    print("\nAp√≥s filtrar apenas os dias √∫teis:")
    print(df.head())

    # Filtra apenas hor√°rios entre 09:55 e 18:05
    df = df[(df['hora'] >= pd.to_datetime('09:55:00').time()) &
            (df['hora'] <= pd.to_datetime('18:05:00').time())]

    # Verificar ap√≥s filtrar o intervalo de hor√°rio
    print("\nAp√≥s filtrar o intervalo de hor√°rio (09:55-18:05):")
    print(df.head())

    # Caso o DataFrame fique vazio, informar o motivo
    if df.empty:
        print("O DataFrame ficou vazio ap√≥s o filtro de hor√°rio. Verifique se os dados est√£o dentro do intervalo de 09:55-18:05.")
    else:
        print("\nLimpeza de dados conclu√≠da com sucesso.")

    # Ordenar os dados
    df = df.sort_values(["data", "hora"], ascending=[False, True])
    print("\nDados limpos e ordenados:")
    print(df.head(10))

    # Salva os dados limpos em CSV
    df.to_csv(f"/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv", index=False)
    print(f"\nOs dados foram limpos e salvos em csv.")

    return df


if __name__ == "__main__":
    # Ler os dados brutos
    dados_brutos = pd.read_csv(f"/content/Piloto_Day_Trade/data/dados_brutos.csv", index_col=0, parse_dates=True, dayfirst=True)
    # Aplicar limpeza nos dados
    df_limpo = limpeza_dados(dados_brutos)




Overwriting /content/Piloto_Day_Trade/scripts/limpeza_dados.py


In [None]:
#@title Aplicando limpeza de dados
from Piloto_Day_Trade.scripts.Pipeline.limpeza_dados import limpeza_dados

dados_brutos = pd.read_csv(f"/content/Piloto_Day_Trade/data/raw/dados_brutos.csv", index_col=0, parse_dates=True, dayfirst=True)
df_limpo = limpeza_dados(dados_brutos)



In [14]:
#@title ## Transforma√ß√£o de dados
%%writefile /content/Piloto_Day_Trade/scripts/Pipeline/transformacao_dados.py

"""
Fun√ß√£o de Transforma√ß√£o de Dados para Modelagem Preditiva
Processa e transforma os dados para an√°lise e previs√£o, gerando um conjunto
de caracter√≠sticas para serem utilizadas no treinamento dos modelos.

Objetivos:
- Criar um dataset com vari√°veis relevantes para o modelo.
- Incluir indicadores t√©cnicos, estat√≠sticas de volatilidade, m√©dias m√≥veis e outras features.
- Permitir a experimenta√ß√£o com diferentes combina√ß√µes de features.

Estrat√©gia:
- Durante os testes de parametriza√ß√£o e treinamento, ser√£o geradas diferentes vers√µes do dataset,
refinando a sele√ß√£o de features a medida que geramos acur√°cia.

"""

import os
import pandas as pd
import numpy as np
from dotenv import load_dotenv

# Carregar vari√°veis de ambiente
load_dotenv()

def carregar_dados(arquivo):
    """Carrega um CSV e retorna um DataFrame, ou um DataFrame vazio se o arquivo n√£o existir."""
    if isinstance(arquivo, pd.DataFrame):
        return arquivo  # Se j√° for um DataFrame, retorna diretamente

    if not os.path.exists(arquivo):
        print(f"‚ö†Ô∏è O arquivo {arquivo} n√£o existe. Criando um novo DataFrame vazio.")
        return pd.DataFrame()

    try:
        df = pd.read_csv(arquivo, parse_dates=["data"])
        print(f"‚úÖ Arquivo {arquivo} carregado com {len(df)} linhas.")
        return df if not df.empty else pd.DataFrame()
    except Exception as e:
        print(f"‚ùå Erro ao carregar {arquivo}: {e}")
        return pd.DataFrame()

def obter_ultima_data(df):
    """Retorna a √∫ltima data dispon√≠vel nos dados."""
    if "data" in df.columns and not df.empty:
        ultima_data = df["data"].max()
        print(f"üìÖ √öltima data encontrada nos dados: {ultima_data}")
        return ultima_data
    return None

def filtrar_novos_dados(df, ultima_data):
    """Filtra os dados para incluir apenas os novos registros."""
    if df.empty:
        print("‚ö†Ô∏è Nenhum dado limpo dispon√≠vel.")
        return pd.DataFrame()

    if ultima_data:
        df_novo = df[df["data"] > ultima_data]
        print(f"üìä Dados novos filtrados: {len(df_novo)} registros encontrados.")
        return df_novo
    return df

def calcular_indicadores(df):
    """Calcula indicadores t√©cnicos e gera novas features para an√°lise de dados financeiros."""

    if df.empty:
        print("‚ö†Ô∏è Nenhum dado dispon√≠vel para calcular indicadores.")
        return df

    colunas_necessarias = ["data", "hora", "abertura", "minimo", "maximo", "fechamento", "volume"]

    if not all(col in df.columns for col in colunas_necessarias):
        print("‚ùå Dados insuficientes para c√°lculo de indicadores.")
        return df

    # Ordena√ß√£o correta dos dados
    df = df.sort_values(by=['data', 'hora'], ascending=[True, True])

    # C√°lculo do retorno percentual e volatilidade
    df['retorno'] = df['fechamento'].pct_change()
    df['volatilidade'] = df['retorno'].rolling(20).std()

    # M√©dias m√≥veis
    df['SMA_10'] = df['fechamento'].rolling(10).mean()
    df['EMA_10'] = df['fechamento'].ewm(span=10, adjust=False).mean()

    # MACD e linha de sinal
    df['MACD'] = df['fechamento'].ewm(span=12).mean() - df['fechamento'].ewm(span=26).mean()
    df['Signal_Line'] = df['MACD'].ewm(span=9).mean()

    # RSI (√çndice de For√ßa Relativa)
    ganho = df['retorno'].clip(lower=0)
    perda = -df['retorno'].clip(upper=0)
    media_ganho = ganho.ewm(span=14).mean()
    media_perda = perda.ewm(span=14).mean() + 1e-10
    df['rsi'] = 100 - (100 / (1 + (media_ganho / media_perda)))

    # OBV (On Balance Volume)
    df['OBV'] = (df['volume'] * np.sign(df['fechamento'].diff())).fillna(0).cumsum()

    # Criar lags para fechamento, retorno e volume
    for lag in range(1, 4):
        df[f'fechamento_lag{lag}'] = df['fechamento'].shift(lag)
        df[f'retorno_lag{lag}'] = df['retorno'].shift(lag)
        df[f'volume_lag{lag}'] = df['volume'].shift(lag)

    # Substituir NaN por zero onde necess√°rio
    df.fillna(0, inplace=True)

    # Ordena√ß√£o final
    df = df.sort_values(by=['data', 'hora'], ascending=[False, True])

    print(f"‚úÖ Indicadores calculados. Tamanho final do DataFrame: {len(df)} linhas.")
    return df

def adicionar_features_temporais(df):
    """Adiciona colunas temporais para an√°lise de s√©ries temporais."""

    if df.empty:
        print("‚ö†Ô∏è Nenhum dado dispon√≠vel para processamento.")
        return df

    # Converter 'data' para datetime se necess√°rio
    df['data'] = pd.to_datetime(df['data'], errors='coerce')

    # Criar coluna do dia da semana para entrada e previs√£o
    df['dia_da_semana_entrada'] = df['data'].dt.weekday  # 0 = Segunda, 6 = Domingo
    df['data_previsao'] = df['data'] + pd.DateOffset(days=1)
    df['dia_da_semana_previsao'] = df['data_previsao'].dt.weekday

    # Ajustar casos de sexta-feira para segunda-feira
    df.loc[df['dia_da_semana_entrada'] == 4, 'data_previsao'] += pd.DateOffset(days=2)
    df['dia_da_semana_previsao'] = df['data_previsao'].dt.weekday

    # Verificar se 'hora' est√° presente e converter corretamente
    if 'hora' in df.columns:
        df['hora'] = pd.to_datetime(df['hora'].astype(str), format='%H:%M:%S', errors='coerce').dt.time

        # Criar colunas de hora e minuto
        df['hora_num'] = df['hora'].apply(lambda x: x.hour if pd.notnull(x) else np.nan)
        df['minuto'] = df['hora'].apply(lambda x: x.minute if pd.notnull(x) else np.nan)

        # Criar coluna indicando se o mercado est√° aberto (entre 10h e 17h)
        df['mercado_aberto'] = ((df['hora_num'] >= 10) & (df['hora_num'] <= 17)).astype(int)
    else:
        df['hora_num'] = np.nan
        df['minuto'] = np.nan
        df['mercado_aberto'] = 0

    return df

def transformar_dados(dados_limpos, dados_transformados):
    """Executa o processo de transforma√ß√£o dos dados."""

    df_transformado = carregar_dados(dados_transformados)
    df_limpo = carregar_dados(dados_limpos)


    if df_transformado.empty:
        print("üìÇ Nenhum dado transformado encontrado. Criando novo DataFrame.")

    ultima_data = obter_ultima_data(df_transformado)
    novos_dados = filtrar_novos_dados(df_limpo, ultima_data)

    if not novos_dados.empty:
        novos_dados = calcular_indicadores(novos_dados)
        novos_dados = adicionar_features_temporais(novos_dados)
        df_final = pd.concat([df_transformado, novos_dados], ignore_index=True) if not df_transformado.empty else novos_dados

        pasta = os.path.dirname(dados_transformados)
        if not os.path.exists(pasta):
            os.makedirs(pasta)
            print(f"üìÇ Criando diret√≥rio: {pasta}")

        df_final.to_csv(dados_transformados, index=False)
        print(f"‚úÖ Dados transformados salvos em {dados_transformados} ({len(df_final)} registros)")
        print(f"üìÖ √öltima data dispon√≠vel nos dados: {df_final['data'].max()}")
        print(f"df_final: {df_final.head(5)}")
        return df_final
    else:
        print("‚è≠Ô∏è Nenhum novo dado para processar.")
        print(f"üìÖ √öltima data dispon√≠vel nos dados: {df_transformado['data'].max()}")
        print(f"df_transformado: {df_transformado.head(5)}")
        return df_transformado

if __name__ == "__main__":
    path_dados_limpos = '/content/Piloto_Day_Trade/data/dados_limpos.csv'
    path_dados_transformados = '/content/Piloto_Day_Trade/data/dados_transformados_3103.csv'
    df_transformado =transformar_dados(path_dados_limpos, path_dados_transformados)



Overwriting /content/Piloto_Day_Trade/scripts/transformacao_dados.py


In [None]:
from Piloto_Day_Trade.scripts.transformacao_dados import transformar_dados

#@title Aplicando transforma√ß√£o de dados
path_dados_limpos = '/content/Piloto_Day_Trade/data/cleaned/dados_limpos.csv'
path_dados_transformados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'
df_transformado = transformar_dados(path_dados_limpos, path_dados_transformados)


In [15]:
# Carregando os dados
df_transformado = pd.read_csv('/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv')


In [16]:
# Verificando os tipos de dados
df_transformado.dtypes

Unnamed: 0,0
data,object
hora,object
abertura,float64
minimo,float64
maximo,float64
fechamento,float64
volume,int64
retorno,float64
volatilidade,float64
SMA_10,float64


## Banco de dados

In [17]:
%%writefile /content/Piloto_Day_Trade/modelagem/definicao_esquema_estrela.md

#@title Defini√ß√£o do esquema - Modelo Estrela

O modelo estrela foi escolhido por sua simplicidade e clareza na organiza√ß√£o dos dados para an√°lise. Ele √© ideal para consultas r√°pidas e an√°lise preditiva. No nosso projeto, temos um √∫nico fato (pre√ßos OHLC) e m√∫ltiplas vari√°veis explicativas que os influenciam.

A estrutura facilita agrega√ß√µes temporais e an√°lises do comportamento dos pre√ßos, sendo tamb√©m eficiente para alimentar o pipeline de machine learning. Ao organizar as vari√°veis preditoras ao redor das medidas de pre√ßo, conseguimos isolar responsabilidades e tornar as an√°lises mais precisas e escal√°veis.

## Tabela Fato: `fato_precos`
| Coluna         | Tipo   | Descri√ß√£o                                   |
|----------------|--------|---------------------------------------------|
| id_fato_precos | int    | PK, identificador √∫nico da linha            |
| id_tempo       | int    | FK para a dimens√£o tempo                    |
| abertura       | float  | Pre√ßo de abertura                           |
| minimo         | float  | Pre√ßo m√≠nimo                                |
| maximo         | float  | Pre√ßo m√°ximo                                |
| fechamento     | float  | Pre√ßo de fechamento (vari√°vel alvo)         |

## Dimens√£o: `dim_tempo`
| Coluna                | Tipo   | Descri√ß√£o                                 |
|------------------------|--------|-------------------------------------------|
| id_tempo              | int    | PK                                        |
| data                  | object | Data da observa√ß√£o                        |
| hora                  | object | Hora da observa√ß√£o                        |
| dia_da_semana_entrada | int    | Dia da semana da entrada (0=Seg, 6=Dom)   |

## Dimens√£o: `dim_indicadores`
| Coluna       | Tipo   | Descri√ß√£o                                       |
|--------------|--------|--------------------------------------------------|
| id_indicadores | int  | PK                                               |
| id_tempo     | int    | FK para a dimens√£o tempo                        |
| SMA_10       | float  | M√©dia m√≥vel simples de 10 per√≠odos              |
| EMA_10       | float  | M√©dia m√≥vel exponencial de 10 per√≠odos          |
| MACD         | float  | Moving Average Convergence Divergence           |
| Signal_Line  | float  | Linha de sinal do MACD                          |
| rsi          | float  | √çndice de for√ßa relativa                        |
| OBV          | float  | On-Balance Volume                               |
| retorno      | float  | Retorno do per√≠odo                              |
| volatilidade | float  | Volatilidade do per√≠odo                         |

## Dimens√£o: `dim_lags`
| Coluna          | Tipo   | Descri√ß√£o                                       |
|-----------------|--------|--------------------------------------------------|
| id_lags         | int    | PK                                              |
| id_tempo        | int    | FK para a dimens√£o tempo                        |
| fechamento_lag1 | float  | Fechamento no candle anterior (1 lag)          |
| retorno_lag1    | float  | Retorno do candle anterior (1 lag)             |
| volume_lag1     | float  | Volume do candle anterior (1 lag)              |
| fechamento_lag2 | float  | Fechamento dois candles atr√°s (2 lags)         |
| retorno_lag2    | float  | Retorno dois candles atr√°s (2 lags)            |
| volume_lag2     | float  | Volume dois candles atr√°s (2 lags)             |
| fechamento_lag3 | float  | Fechamento tr√™s candles atr√°s (3 lags)         |
| retorno_lag3    | float  | Retorno tr√™s candles atr√°s (3 lags)            |
| volume_lag3     | float  | Volume tr√™s candles atr√°s (3 lags)             |

## Dimens√£o: `dim_operacional`
| Coluna                 | Tipo   | Descri√ß√£o                                      |
|------------------------|--------|------------------------------------------------|
| id_operacional         | int    | PK                                             |
| id_tempo               | int    | FK para a dimens√£o tempo                       |
| data_previsao          | object | Data prevista para o modelo                    |
| dia_da_semana_previsao | int    | Dia da semana da previs√£o                      |
| hora_num               | int    | Hora como n√∫mero inteiro                       |
| minuto                 | int    | Minuto da observa√ß√£o                           |
| mercado_aberto         | int    | Indicador bin√°rio (1=aberto, 0=fechado)        |


Writing /content/Piloto_Day_Trade/modelagem/definicao_esquema_estrela.md


In [18]:
%%writefile /content/Piloto_Day_Trade/scripts/gerar_catalogo_dados.py

#@title Script para gerar o cat√°logo de dados
"""
Cat√°logo de Dados contendo minimamente uma descri√ß√£o detalhada dos dados e seus dom√≠nios,
contendo valores m√≠nimos e m√°ximos esperados para dados num√©ricos, e poss√≠veis categorias para dados categ√≥ricos.

Este modelo deve tamb√©m descrever a linhagem dos dados, de onde os mesmos foram baixados
e qual t√©cnica foi utilizada para compor o conjunto de dados, caso haja.
"""

from pathlib import Path
import pandas as pd

# Define colunas de cada tabela com tipos
tabelas = {
    "fato_precos": {
        "id_fato_precos": "int",
        "id_tempo": "int",
        "abertura": "float",
        "minimo": "float",
        "maximo": "float",
        "fechamento": "float"
    },
    "dim_tempo": {
        "id_tempo": "int",
        "data": "object",
        "hora": "object",
        "dia_da_semana_entrada": "int"
    },
    "dim_indicadores": {
        "id_indicadores": "int",
        "id_tempo": "int",
        "SMA_10": "float",
        "EMA_10": "float",
        "MACD": "float",
        "Signal_Line": "float",
        "rsi": "float",
        "OBV": "float",
        "retorno": "float",
        "volatilidade": "float"
    },
    "dim_lags": {
        "id_lags": "int",
        "id_tempo": "int",
        "fechamento_lag1": "float",
        "retorno_lag1": "float",
        "volume_lag1": "float",
        "fechamento_lag2": "float",
        "retorno_lag2": "float",
        "volume_lag2": "float",
        "fechamento_lag3": "float",
        "retorno_lag3": "float",
        "volume_lag3": "float"
    },
    "dim_operacional": {
        "id_operacional": "int",
        "id_tempo": "int",
        "data_previsao": "object",
        "dia_da_semana_previsao": "int",
        "hora_num": "int",
        "minuto": "int",
        "mercado_aberto": "int"
    }
}

def dominio(col, tipo):
    if tipo in ["float", "int"]:
        if "retorno" in col:
            return "-0.05 a 0.05 (retorno percentual por intervalo de 5 min)"
        elif "volatilidade" in col:
            return "0 a 0.1 (desvio padr√£o do retorno por janela de tempo)"
        elif "abertura" in col or "fechamento" in col or "minimo" in col or "maximo" in col:
            return "10.0 a 50.0 (valores t√≠picos para BBDC4)"
        elif "MACD" in col or "Signal" in col:
            return "-5 a 5"
        elif "rsi" in col:
            return "0 a 100"
        elif "OBV" in col:
            return "valor acumulativo, depende do ativo"
        elif "volume" in col:
            return "0 a 1.000.000 (valores inteiros positivos)"
        elif "dia_da_semana" in col:
            return "0=Segunda, ..., 6=Domingo"
        elif "mercado_aberto" in col:
            return "0=Fechado, 1=Aberto"
        else:
            return "valores num√©ricos cont√≠nuos"
    elif tipo == "object":
        if "data" in col:
            return "formato YYYY-MM-DD"
        elif "hora" in col:
            return "formato HH:MM:SS"
        else:
            return "texto livre"
    return "n√£o especificado"

def descricao(col):
    descricoes = {
        "abertura": "Pre√ßo de abertura do ativo BBDC4 no intervalo de 5 minutos",
        "minimo": "Menor pre√ßo do ativo BBDC4 no intervalo de 5 minutos",
        "maximo": "Maior pre√ßo do ativo BBDC4 no intervalo de 5 minutos",
        "fechamento": "Pre√ßo de fechamento do ativo BBDC4 no intervalo de 5 minutos",
        "retorno": "Retorno percentual do ativo no intervalo de 5 minutos",
        "volatilidade": "Volatilidade dos retornos do ativo em janela deslizante",
        "SMA_10": "M√©dia m√≥vel simples de 10 per√≠odos calculada sobre os pre√ßos",
        "EMA_10": "M√©dia m√≥vel exponencial de 10 per√≠odos",
        "MACD": "Moving Average Convergence Divergence, indicador t√©cnico",
        "Signal_Line": "Linha de sinal do MACD",
        "rsi": "√çndice de for√ßa relativa (RSI), oscilador t√©cnico",
        "OBV": "On Balance Volume, indicador t√©cnico baseado em volume",
        "hora_num": "Hora expressa como n√∫mero inteiro",
        "minuto": "Minuto do intervalo de tempo",
        "mercado_aberto": "Indica se o mercado est√° aberto no hor√°rio (1) ou n√£o (0)"
    }
    for key in descricoes:
        if key in col:
            return descricoes[key]
    if "lag" in col:
        return f"Valor defasado de {col.replace('_lag', '')}"
    if "dia_da_semana" in col:
        return "Dia da semana correspondente √† data"
    if "id_" in col:
        return "Identificador √∫nico para relacionar com outras tabelas"
    return ""

def tecnica(col):
    if any(ind in col for ind in ["SMA", "EMA", "MACD", "Signal", "rsi", "OBV"]):
        return "calculado internamente via engenharia de features t√©cnicas"
    if "lag" in col:
        return "calculado como valor defasado (lag)"
    if col in ["data", "hora", "hora_num", "minuto", "dia_da_semana_entrada", "dia_da_semana_previsao"]:
        return "extra√≠do de data/hora original"
    if col == "mercado_aberto":
        return "derivado da data/hora com base em calend√°rio de mercado"
    return "c√≥pia ou identificador"

linhagem = "Fonte: Yahoo Finance via yfinance"

linhas = []
for tabela, colunas in tabelas.items():
    for col, tipo in colunas.items():
        linhas.append({
            "tabela": tabela,
            "coluna": col,
            "tipo": tipo,
            "descricao": descricao(col),
            "dominio": dominio(col, tipo),
            "tecnica": tecnica(col),
            "linhagem": linhagem
        })

catalogo_df = pd.DataFrame(linhas)
catalogo_df.to_csv("/content/Piloto_Day_Trade/modelagem/catalogo_dados.csv", index=False)


Writing /content/Piloto_Day_Trade/scripts/gerar_catalogo_dados.py


In [19]:
#@title Executar a gera√ß√£o do Catalogo de dados
!python /content/Piloto_Day_Trade/scripts/gerar_catalogo_dados.py


In [20]:
atualizar_repo("Gerando cat√°logo de dados")

‚úÖ Atualiza√ß√£o do reposit√≥rio conclu√≠da!


In [22]:
%%writefile /content/Piloto_Day_Trade/scripts/criar_banco_dimensional.py

# @title Script para criar banco de dados e tabelas

import sqlite3
import os

# Caminho para o banco
db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"
os.makedirs(os.path.dirname(db_path), exist_ok=True)

# Conecta ao banco (cria se n√£o existir)
conn = sqlite3.connect(db_path)
cursor = conn.cursor()

# Comandos SQL para criar as tabelas
sql_script = """
-- Cria√ß√£o da Tabela Fato
CREATE TABLE IF NOT EXISTS fato_precos (
    id_fato_precos INTEGER PRIMARY KEY,
    id_tempo INTEGER,
    abertura REAL,
    minimo REAL,
    maximo REAL,
    fechamento REAL,
    FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
);

-- Cria√ß√£o da Dimens√£o Tempo
CREATE TABLE IF NOT EXISTS dim_tempo (
    id_tempo INTEGER PRIMARY KEY,
    data TEXT,
    hora TEXT,
    dia_da_semana_entrada INTEGER
);

-- Cria√ß√£o da Dimens√£o Indicadores T√©cnicos
CREATE TABLE IF NOT EXISTS dim_indicadores (
    id_indicadores INTEGER PRIMARY KEY,
    id_tempo INTEGER,
    SMA_10 REAL,
    EMA_10 REAL,
    MACD REAL,
    Signal_Line REAL,
    rsi REAL,
    OBV REAL,
    retorno REAL,
    volatilidade REAL,
    FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
);

-- Cria√ß√£o da Dimens√£o Lags
CREATE TABLE IF NOT EXISTS dim_lags (
    id_lags INTEGER PRIMARY KEY,
    id_tempo INTEGER,
    fechamento_lag1 REAL,
    retorno_lag1 REAL,
    volume_lag1 REAL,
    fechamento_lag2 REAL,
    retorno_lag2 REAL,
    volume_lag2 REAL,
    fechamento_lag3 REAL,
    retorno_lag3 REAL,
    volume_lag3 REAL,
    FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
);

-- Cria√ß√£o da Dimens√£o Operacional
CREATE TABLE IF NOT EXISTS dim_operacional (
    id_operacional INTEGER PRIMARY KEY,
    id_tempo INTEGER,
    data_previsao TEXT,
    dia_da_semana_previsao INTEGER,
    hora_num INTEGER,
    minuto INTEGER,
    mercado_aberto INTEGER,
    FOREIGN KEY (id_tempo) REFERENCES dim_tempo(id_tempo)
);
"""

# Executa o script SQL
cursor.executescript(sql_script)

# Confirma e fecha
conn.commit()
conn.close()
print("‚úÖ Banco e tabelas criados com sucesso.")


Writing /content/Piloto_Day_Trade/scripts/criar_banco_dimensional.py


In [29]:
#@title Excecutar criar banco e tabelas
!python /content/Piloto_Day_Trade/scripts/criar_banco_dimensional.py

‚úÖ Banco e tabelas criados com sucesso.


In [30]:
# Verificar cria√ß√£o do banco
import sqlite3

conn = sqlite3.connect("/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db")
cursor = conn.cursor()

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
print(cursor.fetchall())

conn.close()


[('fato_precos',), ('dim_tempo',), ('dim_indicadores',), ('dim_lags',), ('dim_operacional',)]


In [31]:
# Verificar colunas
import sqlite3

conn = sqlite3.connect("/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db")
cursor = conn.cursor()
cursor.execute("PRAGMA table_info(dim_tempo);")
print(cursor.fetchall())

conn.close()


[(0, 'id_tempo', 'INTEGER', 0, None, 1), (1, 'data', 'TEXT', 0, None, 0), (2, 'hora', 'TEXT', 0, None, 0), (3, 'dia_da_semana_entrada', 'INTEGER', 0, None, 0)]


In [32]:
#@title ## Definindo script de carga de dados

%%writefile /content/Piloto_Day_Trade/scripts/carga_dados.py

import sqlite3
import pandas as pd
import os

# Caminho para o banco de dados
db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"
assert os.path.exists(db_path), f"Banco de dados n√£o encontrado em {db_path}"
# Leitura dos dados a serem carregados
df = pd.read_csv("/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv")

# Fun√ß√£o para carregar dados
def carregar_dados(df: pd.DataFrame):
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()

    for idx, row in df.iterrows():
        id_tempo = idx + 1

        # 1. Inserir na dim_tempo
        cursor.execute("""
            INSERT INTO dim_tempo (id_tempo, data, hora, dia_da_semana_entrada)
            VALUES (?, ?, ?, ?)
        """, (id_tempo, row['data'], row['hora'], row['dia_da_semana_entrada']))

        # 2. Inserir na dim_indicadores
        cursor.execute("""
            INSERT INTO dim_indicadores (id_indicadores, id_tempo, SMA_10, EMA_10, MACD, Signal_Line, rsi, OBV, retorno, volatilidade)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['SMA_10'], row['EMA_10'], row['MACD'], row['Signal_Line'], row['rsi'],
              row['OBV'], row['retorno'], row['volatilidade']))

        # 3. Inserir na dim_lags
        cursor.execute("""
            INSERT INTO dim_lags (id_lags, id_tempo, fechamento_lag1, retorno_lag1, volume_lag1,
                                  fechamento_lag2, retorno_lag2, volume_lag2,
                                  fechamento_lag3, retorno_lag3, volume_lag3)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo,
              row['fechamento_lag1'], row['retorno_lag1'], row['volume_lag1'],
              row['fechamento_lag2'], row['retorno_lag2'], row['volume_lag2'],
              row['fechamento_lag3'], row['retorno_lag3'], row['volume_lag3']))

        # 4. Inserir na dim_operacional
        cursor.execute("""
            INSERT INTO dim_operacional (id_operacional, id_tempo, data_previsao, dia_da_semana_previsao, hora_num, minuto, mercado_aberto)
            VALUES (?, ?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['data_previsao'], row['dia_da_semana_previsao'],
              row['hora_num'], row['minuto'], row['mercado_aberto']))

        # 5. Inserir na fato_precos
        cursor.execute("""
            INSERT INTO fato_precos (id_fato_precos, id_tempo, abertura, minimo, maximo, fechamento)
            VALUES (?, ?, ?, ?, ?, ?)
        """, (id_tempo, id_tempo, row['abertura'], row['minimo'], row['maximo'], row['fechamento']))

    conn.commit()
    conn.close()
    print(f"‚úÖ Carga conclu√≠da com {len(df)} registros.")

if __name__ == "__main__":
    carregar_dados(df)



Overwriting /content/Piloto_Day_Trade/scripts/carga_dados.py


In [33]:
#@title Executar realizar a carga de dados
!python /content/Piloto_Day_Trade/scripts/carga_dados.py


‚úÖ Carga conclu√≠da com 2462 registros.


In [34]:
# Verificando a carga de dados

import sqlite3

# Caminho para o banco
db_path = "/content/Piloto_Day_Trade/modelagem/database/banco_dimensional.db"

# Conex√£o e cursor
conn = sqlite3.connect(db_path)
cursor = conn.cursor()

# Consulta nas tabelas principais
tabelas = ['dim_tempo', 'dim_indicadores', 'dim_lags', 'dim_operacional', 'fato_precos']
for tabela in tabelas:
    cursor.execute(f"SELECT COUNT(*) FROM {tabela}")
    count = cursor.fetchone()[0]
    print(f"{tabela}: {count} registros")

conn.close()


dim_tempo: 2462 registros
dim_indicadores: 2462 registros
dim_lags: 2462 registros
dim_operacional: 2462 registros
fato_precos: 2462 registros


In [35]:
# Visualizar os primeiros 5 registros da fato_precos
import pandas as pd

conn = sqlite3.connect(db_path)
df_check = pd.read_sql_query("SELECT * FROM fato_precos LIMIT 5", conn)
print(df_check)
conn.close()


   id_fato_precos  id_tempo  abertura  minimo  maximo  fechamento
0               1         1     12.47   12.40   12.47       12.41
1               2         2     12.41   12.37   12.45       12.41
2               3         3     12.41   12.41   12.46       12.44
3               4         4     12.44   12.38   12.45       12.39
4               5         5     12.40   12.39   12.45       12.43


In [36]:
# Consulta com JOIN para verificar o relacionamento entre as tabelas
query = """
SELECT
    ft.id_fato_precos,
    dt.data,
    dt.hora,
    ft.abertura,
    ft.fechamento,
    di.SMA_10,
    dl.fechamento_lag1,
    do.data_previsao,
    do.mercado_aberto
FROM fato_precos ft
JOIN dim_tempo dt ON ft.id_tempo = dt.id_tempo
JOIN dim_indicadores di ON ft.id_tempo = di.id_tempo
JOIN dim_lags dl ON ft.id_tempo = dl.id_tempo
JOIN dim_operacional do ON ft.id_tempo = do.id_tempo
LIMIT 5;
"""

# Executando e exibindo
conn = sqlite3.connect(db_path)
df_verificacao = pd.read_sql_query(query, conn)
print(df_verificacao)
conn.close()


   id_fato_precos        data      hora  abertura  fechamento  SMA_10  \
0               1  2025-04-08  10:00:00     12.47       12.41  12.379   
1               2  2025-04-08  10:05:00     12.41       12.41  12.384   
2               3  2025-04-08  10:10:00     12.41       12.44  12.389   
3               4  2025-04-08  10:15:00     12.44       12.39  12.390   
4               5  2025-04-08  10:20:00     12.40       12.43  12.397   

   fechamento_lag1 data_previsao  mercado_aberto  
0            12.40    2025-04-09               1  
1            12.41    2025-04-09               1  
2            12.41    2025-04-09               1  
3            12.44    2025-04-09               1  
4            12.39    2025-04-09               1  


In [42]:
#@title Escrevendo o Readme do projeto
%%writefile /content/Piloto_Day_Trade/README.md

# Objetivo do Projeto

## 1. Prop√≥sito do MVP

Este projeto tem como objetivo principal a cria√ß√£o de um pipeline para extra√ß√£o, transforma√ß√£o, carga, an√°lise e previs√£o da movimenta√ß√£o intradi√°ria dos pre√ßos de um ativo financeiro em intervalos de 5 minutos. O modelo preditivo central ser√° baseado em redes neurais recorrentes (LSTM), mas outras abordagens ser√£o exploradas. O MVP visa garantir previs√µes para embasar decis√µes estrat√©gicas de day trade.

## 2. Problema a Ser Resolvido

A alta volatilidade dos mercados financeiros exige ferramentas robustas para antecipa√ß√£o de movimentos de pre√ßo. A dificuldade est√° em capturar padr√µes de curto prazo e projet√°-los com precis√£o. Traders e investidores necessitam de um modelo que consiga interpretar os padr√µes hist√≥ricos e transform√°-los em previs√µes √∫teis.

## 3. Pipeline do Projeto

O pipeline est√° estruturado em sete etapas principais:

### 3.1. Extra√ß√£o e armazenamento dos dados brutos
- Coleta de dados hist√≥ricos do ativo BBDC4 em intervalos de 5 minutos, via API do Yahoo Finance (yfinance).
- Armazenamento dos dados no GitHub sincronizado com Google Colab, com backup em nuvem.
- Salvo como `dados_brutos.csv`

### 3.2. Limpeza e organiza√ß√£o dos dados
- Padroniza√ß√£o dos tipos de dados
- Padroniza√ß√£o dos nomes de colunas
- Remo√ß√£o de valores nulos ou duplicados
- Remo√ß√£o de colunas desnecess√°rias
- Ordena√ß√£o cronol√≥gica
- Salvo como `dados_limpos.csv`

### 3.3. Transforma√ß√£o de dados e engenharia de features
- C√°lculo de indicadores t√©cnicos (SMA, EMA, MACD, RSI, OBV)
- C√°lculo de retornos e vari√¢ncia (volatilidade)
- Cria√ß√£o de vari√°veis de lag de pre√ßo, volume e retorno
- Adi√ß√£o de vari√°veis temporais (hora, dia da semana, mercado aberto)
- Salvo como `dados_transformados.csv`

### 3.4. Modelagem e estrutura√ß√£o do banco dimensional
- **Fato**: `fato_precos` com pre√ßos e chave para `dim_tempo`
- **Dimens√µes**:
  - `dim_tempo`: data, hora, dia da semana
  - `dim_indicadores`: indicadores t√©cnicos
  - `dim_lags`: lags de pre√ßo, volume, retorno
  - `dim_operacional`: hora, minuto, data da previs√£o, mercado aberto
- Banco gerado em SQLite via script automatizado (`banco_dimensional.db`)

### 3.5. Carga (ETL)
- **Extra√ß√£o:** via API (automatizada)
- **Limpeza:** padroniza√ß√£o, remo√ß√£o de nulos/duplicatas
- **Transforma√ß√£o:** features t√©cnicas e derivadas
- **Carga:** popula√ß√£o das tabelas do banco dimensional
- ETL organizado em scripts Python e automatizado

### 3.6. Treinamento e ajuste do modelo preditivo
- **Prepara√ß√£o dos dados**:
  - Padroniza√ß√£o com StandardScaler para retornos e indicadores
  - Normaliza√ß√£o com MinMaxScaler para pre√ßos e volumes
  - Separar features (X) e targets (y)
  - Divis√£o treino/teste com base em dias √∫tis
- **Modelo base:** LSTM com duas camadas ocultas, camada densa e MSE como perda
- **Avalia√ß√£o:** M√©tricas de MSE, R¬≤, compara√ß√£o com targets reais

### 3.7. An√°lise dos resultados
- Comparativo entre pre√ßos previstos vs. reais
- Valida√ß√£o das previs√µes para abertura, m√°xima, m√≠nima e fechamento
- Import√¢ncia das vari√°veis
- Interpreta√ß√£o dos erros e poss√≠veis melhorias

## 4. Perguntas a Serem Respondidas
- √â poss√≠vel prever com precis√£o a movimenta√ß√£o intradi√°ria a cada 5 minutos?
- Os dados do dia anterior s√£o suficientes para prever o comportamento do dia seguinte?
- O modelo LSTM √© eficaz para padr√µes de curt√≠ssimo prazo?
- √â vi√°vel derivar os targets globais do dia a partir das previs√µes intradi√°rias?
- Quais indicadores mais contribuem para a previs√£o?
- Como lidar corretamente com fins de semana e feriados?
- A padroniza√ß√£o/normaliza√ß√£o das vari√°veis afeta o desempenho?

## 5. Crit√©rios de Sucesso
- Pipeline funcional de extra√ß√£o ‚Üí transforma√ß√£o ‚Üí carga ‚Üí previs√£o
- Modelo com bom desempenho em MSE e R¬≤
- Targets globais coerentes com valores reais
- Correta gest√£o de datas (incluindo segundas-feiras)
- Previs√µes utiliz√°veis para tomada de decis√£o



Writing /content/Piloto_Day_Trade/README.md


In [68]:
#@title Escrevendo Licen√ßa do projeto
%%writefile /content/Piloto_Day_Trade/LICENSE

Copyright (c) 2025 Carolina Brescowitt

Todos os direitos reservados.

Este software √© fornecido gratuitamente apenas para uso **pessoal, acad√™mico e de pesquisa**.

O uso comercial deste software √© estritamente proibido sem uma **licen√ßa comercial paga**, a ser negociada com o autor.

Empresas, startups, desenvolvedores ou qualquer entidade que deseje utilizar este c√≥digo em produtos, servi√ßos ou plataformas comerciais devem entrar em contato com o autor para **negociar os termos de licenciamento** (incluindo percentual, royalties ou valores fixos).

√â proibida a redistribui√ß√£o ou sublicenciamento sem autoriza√ß√£o por escrito.

Para mais informa√ß√µes, entre em contato: carolbrescowitt@yahoo.com.br



Writing /content/Piloto_Day_Trade/LICENSE


# Modelagem de dados

In [52]:
#@title # Prepara√ß√£o de dados para LSTM
%%writefile /content/Piloto_Day_Trade/scripts/modelagem_machine_learning/preparar_dados_modelagem_LSTM.py

"""
Fun√ß√£o que prepara os dados transformados para modelagem com LSTM:
- Aplica normaliza√ß√£o e padroniza√ß√£o
- Cria sequ√™ncias de entrada e sa√≠da
- Divide em treino e teste
- Salva o scaler de pre√ßo para uso posterior nas previs√µes

Retorna:
    X_treino, X_teste, y_treino, y_teste: arrays prontos para modelagem LSTM
"""

import os
import numpy as np
import pandas as pd
import joblib
from sklearn.preprocessing import StandardScaler, MinMaxScaler

def preparar_dados_lstm(
    path_dados,       # Caminho do CSV com os dados
    tam_seq=32,       # Tamanho da sequ√™ncia para entrada na LSTM
    tx_treino=0.8     # Propor√ß√£o dos dados para treino
):
    # Caminho do scaler
    caminho_scaler_preco = '/content/Piloto_Day_Trade/models/scalers/scaler_normalizacao_preco.pkl'

    # Criar diret√≥rio do scaler se n√£o existir
    os.makedirs(os.path.dirname(caminho_scaler_preco), exist_ok=True)

    # Carregar dados transformados
    df = pd.read_csv(path_dados)

    # Garantir colunas de data como datetime
    df['data'] = pd.to_datetime(df['data'], errors='coerce')
    df['data_previsao'] = pd.to_datetime(df['data_previsao'], errors='coerce')

    # Definir colunas de pre√ßo
    preco_cols = ['abertura', 'maximo', 'minimo', 'fechamento']

    # Garantir que n√£o h√° valores ausentes nos pre√ßos
    df = df.dropna(subset=preco_cols)

    # Salvar scaler de pre√ßo com base nos valores reais (antes da normaliza√ß√£o)
    scaler_preco = MinMaxScaler()
    scaler_preco.fit(df[preco_cols])
    joblib.dump(scaler_preco, caminho_scaler_preco)

    print("Scaler de pre√ßo salvo com sucesso.")

    # Definir colunas para padroniza√ß√£o e normaliza√ß√£o
    padronizar_cols = ['retorno', 'volatilidade', 'MACD', 'Signal_Line', 'rsi']
    normalizar_cols = ['abertura', 'minimo', 'maximo', 'fechamento', 'volume', 'SMA_10', 'EMA_10', 'OBV',
                       'fechamento_lag1', 'retorno_lag1', 'volume_lag1',
                       'fechamento_lag2', 'retorno_lag2', 'volume_lag2',
                       'fechamento_lag3', 'retorno_lag3', 'volume_lag3']

    # Inicializar scalers
    scaler_standard = StandardScaler()
    scaler_minmax = MinMaxScaler()

    # Aplicar transforma√ß√µes
    df[padronizar_cols] = scaler_standard.fit_transform(df[padronizar_cols])
    df[normalizar_cols] = scaler_minmax.fit_transform(df[normalizar_cols])

    # Converter colunas categ√≥ricas para int
    categorias = ['dia_da_semana_entrada', 'dia_da_semana_previsao', 'hora_num', 'minuto', 'mercado_aberto']
    df[categorias] = df[categorias].astype(int)

    # Manter apenas colunas num√©ricas
    df = df.select_dtypes(include=['number'])
    df = df.dropna()

    # Salvar versao dados preparados
    caminho_csv_preparado = '/content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv'
    df.to_csv(caminho_csv_preparado, index=False)
    print(f"‚úÖ Dados preparados salvos em: {caminho_csv_preparado}")


    # Fun√ß√£o para criar sequ√™ncias
    def criar_sequencias(dados, tam_seq):
        entradas, saidas = [], []
        for i in range(len(dados) - tam_seq - 1):
            entradas.append(dados.iloc[i:i+tam_seq].values)
            saidas.append(dados.iloc[i+1:i+1+tam_seq][['abertura', 'maximo', 'minimo', 'fechamento']].values)
        return np.array(entradas), np.array(saidas)

    # Gerar X e y
    X, y = criar_sequencias(df, tam_seq)

    # Dividir entre treino e teste
    tamanho_treino = int(tx_treino * len(X))
    X_treino, X_teste = X[:tamanho_treino], X[tamanho_treino:]
    y_treino, y_teste = y[:tamanho_treino], y[tamanho_treino:]

    return X_treino, X_teste, y_treino, y_teste


# Execu√ß√£o direta
if __name__ == "__main__":
    path_dados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'
    X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
        path_dados=path_dados,
        tam_seq=96,
        tx_treino=0.8
    )


Overwriting /content/Piloto_Day_Trade/scripts/preparar_dados_modelagem_LSTM.py


In [53]:
from Piloto_Day_Trade.scripts.preparar_dados_modelagem_LSTM import preparar_dados_lstm

path_dados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'

X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
    path_dados=path_dados,
    tam_seq=96,
    tx_treino=0.8
)


Scaler de pre√ßo salvo com sucesso.


In [54]:
#@title Criar e treinar o modelo LSTM (Movimenta√ß√£o Intradi√°ria)
# %%writefile /content/Piloto_Day_Trade/scripts/modelo_LSTM_v1.py

# Tentativa inicial - Modelo base LSTM para previs√£o intradi√°ria de pre√ßos

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

# üîß Constru√ß√£o do modelo
LSTM_model = Sequential([

    # Camada LSTM 1:
    # - 100 unidades (aumentado para maior capacidade de captura de padr√µes temporais)
    # - return_sequences=True para passar a sequ√™ncia completa para a pr√≥xima camada
    # - input_shape: (32, n√∫mero de features) - sequ√™ncia de 32 timesteps com n features
    LSTM(100, return_sequences=True, input_shape=(X_treino.shape[1], X_treino.shape[2])),

    # Dropout leve para reduzir overfitting sem perder muito sinal
    Dropout(0.1),

    # Camada LSTM 2:
    # - Outra LSTM com 100 unidades
    # - Tamb√©m retorna sequ√™ncia, pois a sa√≠da √© uma sequ√™ncia (32 timestamps com 4 pre√ßos)
    LSTM(100, return_sequences=True),

    # Outro Dropout leve
    Dropout(0.1),

    # Camada densa intermedi√°ria:
    # - 64 neur√¥nios com ativa√ß√£o ReLU
    # - Introduz n√£o-linearidade e ajuda a refinar a sa√≠da da LSTM antes da previs√£o final
    Dense(64, activation='relu'),

    # Camada de sa√≠da:
    # - 4 unidades: prevendo abertura, m√°xima, m√≠nima e fechamento por timestamp
    # - Sem ativa√ß√£o, sa√≠da cont√≠nua (valores de pre√ßos normalizados)
    Dense(4)
])

# üß† Compila√ß√£o do modelo
# - Otimizador Adam, bom para problemas n√£o estacion√°rios como s√©ries temporais
# - Fun√ß√£o de perda MSE (erro quadr√°tico m√©dio), apropriado para regress√£o
LSTM_model.compile(optimizer='adam', loss='mse')

# üöÇ Treinamento do modelo
# - 20 √©pocas: n√∫mero inicial para observar o desempenho
# - batch_size=16: menor para atualizar pesos com frequ√™ncia e lidar com varia√ß√£o dos dados
historico = LSTM_model.fit(
    X_treino, y_treino,
    validation_data=(X_teste, y_teste),
    epochs=20,
    batch_size=16
)


Epoch 1/20


  super().__init__(**kwargs)


[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m18s[0m 122ms/step - loss: 0.0654 - val_loss: 0.0076
Epoch 2/20
[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m14s[0m 118ms/step - loss: 0.0059 - val_loss: 0.0049
Epoch 3/20
[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m20s[0m 118ms/step - loss: 0.0033 - val_loss: 0.0041
Epoch 4/20
[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m20s[0m 118ms/step - loss: 0.0023 - val_loss: 0.0040
Epoch 5/20
[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m14s[0m 118ms/step - loss: 0.0019 - val_loss: 0.0025
Epoch 6/20
[1m119/119[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m14s[0m 118ms/step - loss: 0.0015 - val_loss: 0.0026
Epoch 7/20
[1m119/119[0m [32m‚

In [79]:
atualizar_repo("Incluindo Modelo LSTM")

‚ÑπÔ∏è Nenhuma altera√ß√£o para comitar.
‚úÖ Reposit√≥rio atualizado.


In [56]:
#@title Salvar LSTM versao 1
# Criar diret√≥rio para modelos, se n√£o existir
import os
path_modelo = '/content/Piloto_Day_Trade/models/LSTM_v1'
os.makedirs(path_modelo, exist_ok=True)

# Salvar o modelo completo (estrutura + pesos + otimizador)
LSTM_model.save(f'{path_modelo}/modelo_completo.keras')

print("‚úÖ Modelo LSTM_v1 salvo com sucesso!")



‚úÖ Modelo LSTM_v1 salvo com sucesso!


In [59]:
%%writefile /content/Piloto_Day_Trade/scripts/calcular_metricas_avaliar_modelo_LSTM.py

#@title Calcular m√©tricas e avaliar modelo LSTM

import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

def avaliar_modelo_lstm(modelo, X_teste, y_teste, caminho_scaler='/content/Piloto_Day_Trade/models/scalers/scaler_normalizacao_preco.pkl'):
    """
    Avalia um modelo LSTM fornecido, imprimindo as principais m√©tricas e compara√ß√£o entre previs√µes e valores reais.

    Par√¢metros:
        modelo: modelo LSTM treinado
        X_teste: dados de entrada de teste
        y_teste: dados reais (targets) correspondentes ao teste
        caminho_scaler: caminho do scaler salvo para invers√£o da normaliza√ß√£o
    """

    # Fazer previs√µes
    y_previsto = modelo.predict(X_teste)

    # Carregar o scaler de pre√ßos
    scaler_precos = joblib.load(caminho_scaler)

    # Colunas de pre√ßo
    colunas_precos = ['abertura', 'maximo', 'minimo', 'fechamento']

    # Redimensionar para (amostras, 4)
    y_previsto_reshape = y_previsto.reshape(-1, 4)
    y_teste_reshape = y_teste.reshape(-1, 4)

    # Inverter normaliza√ß√£o
    y_previsto_original = scaler_precos.inverse_transform(y_previsto_reshape)
    y_teste_original = scaler_precos.inverse_transform(y_teste_reshape)

    # DataFrames nomeados
    df_previsto = pd.DataFrame(y_previsto_original, columns=colunas_precos)
    df_real = pd.DataFrame(y_teste_original, columns=colunas_precos)

    # Compara√ß√£o
    comparacao = pd.DataFrame({
        'Abertura_Real': df_real['abertura'],
        'Abertura_Prevista': df_previsto['abertura'],
        'Maximo_Real': df_real['maximo'],
        'Maximo_Previsto': df_previsto['maximo'],
        'Minimo_Real': df_real['minimo'],
        'Minimo_Previsto': df_previsto['minimo'],
        'Fechamento_Real': df_real['fechamento'],
        'Fechamento_Previsto': df_previsto['fechamento']
    })

    print("\nüìä Compara√ß√£o de previs√µes (valores reais):")
    print(comparacao.head(10))

    # Fun√ß√£o auxiliar para m√©tricas
    def calcular_metricas(y_real, y_previsto, nome):
        mae = mean_absolute_error(y_real, y_previsto)
        mse = mean_squared_error(y_real, y_previsto)
        r2 = r2_score(y_real, y_previsto)
        print(f"{nome} - MAE: {mae:.4f}, MSE: {mse:.4f}, R¬≤: {r2:.4f}")

    print("\nüìà M√©tricas de desempenho por coluna:")
    calcular_metricas(df_real['abertura'], df_previsto['abertura'], "Abertura")
    calcular_metricas(df_real['maximo'], df_previsto['maximo'], "M√°ximo")
    calcular_metricas(df_real['minimo'], df_previsto['minimo'], "M√≠nimo")
    calcular_metricas(df_real['fechamento'], df_previsto['fechamento'], "Fechamento")

    return df_real, df_previsto, comparacao


if __name__ == "__main__":
    # Carregar o modelo treinado
    from tensorflow.keras.models import load_model
    LSTM_model = load_model('/content/Piloto_Day_Trade/models/LSTM_v1')

    # Avaliar o modelo
    df_real, df_previsto, comparacao = avaliar_modelo_lstm(
        modelo=LSTM_model,
        X_teste=X_teste,
        y_teste=y_teste
    )




Overwriting /content/Piloto_Day_Trade/scripts/calcular_metricas_avaliar_modelo_LSTM.py


In [63]:
from scripts.calcular_metricas_avaliar_modelo import avaliar_modelo_lstm

if __name__ == "__main__":
    # Caminhos e dados preparados
    path_dados = '/content/Piloto_Day_Trade/data/transformed/dados_transformados.csv'

    # Preparar dados
    from scripts.preparar_dados_modelagem_LSTM import preparar_dados_lstm
    X_treino, X_teste, y_treino, y_teste = preparar_dados_lstm(
        path_dados=path_dados,
        tam_seq=96,
        tx_treino=0.8
    )

    # Carregar o modelo treinado
    from tensorflow.keras.models import load_model
    LSTM_model = load_model('/content/Piloto_Day_Trade/models/LSTM_v1/modelo_completo.keras')

    # Avaliar o modelo
    df_real, df_previsto, comparacao = avaliar_modelo_lstm(
        modelo=LSTM_model,
        X_teste=X_teste,
        y_teste=y_teste
    )




Scaler de pre√ßo salvo com sucesso.
‚úÖ Dados preparados salvos em: /content/Piloto_Day_Trade/data/transformed/dados_preparados_para_modelagem.csv
[1m15/15[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m2s[0m 91ms/step

üìä Compara√ß√£o de previs√µes (valores reais):
   Abertura_Real  Abertura_Prevista  Maximo_Real  Maximo_Previsto  \
0          11.75          11.797084        11.77        11.819266   
1          11.75          11.738138        11.78        11.759627   
2          11.77          11.735560        11.79        11.759824   
3          11.78          11.764517        11.80        11.790069   
4          11.78          11.761155        11.78        11.788537   
5          11.75          11.758376        11.79        11.787605   
6          11.76          11.758621        11.77        11.789828   
7          11.75          11.727757        11.77        11.762376   
8          11.75          11.699660        11.76        11.733210   

# Pipeline de dados

In [74]:
import os

for nome in os.listdir('/content/Piloto_Day_Trade/scripts'):
    print(nome)


Operacional
Pipelines
Modelagem_machine_learning
__pycache__
.ipynb_checkpoints


In [75]:
import os

def listar_arquivos_em_subpastas(pasta_base):
    for raiz, subpastas, arquivos in os.walk(pasta_base):
        nivel = raiz.replace(pasta_base, '').count(os.sep)
        indent = ' ' * 4 * nivel
        print(f"{indent}{os.path.basename(raiz)}/")
        subindent = ' ' * 4 * (nivel + 1)
        for arquivo in arquivos:
            print(f"{subindent}{arquivo}")

# Caminho da pasta onde est√£o os scripts
pasta_scripts = "/content/Piloto_Day_Trade/scripts"
listar_arquivos_em_subpastas(pasta_scripts)


scripts/
    Operacional/
        configurar_git.py
        .ipynb_checkpoints/
    Pipelines/
        criar_banco_dimensional.py
        limpeza_dados.py
        carga_dados.py
        gerar_catalogo_dados.py
        transformacao_dados.py
        extracao_dados.py
    Modelagem_machine_learning/
        preparar_dados_modelagem_LSTM.py
        previsoes_XGBoot.py
        modelo_LSTM_v1.py
        calcular_metricas_avaliar_modelo_LSTM.py
        calcular_metricas_avaliar_modelo.py
    __pycache__/
        transformacao_dados_v2.cpython-311.pyc
        calcular_metricas_avaliar_modelo.cpython-311.pyc
        preparar_dados_modelagem_LSTM.cpython-311.pyc
        extracao_dados.cpython-311.pyc
        transformacao_dados.cpython-311.pyc
        gerar_catalogo.cpython-311.pyc
        limpeza_basica_dadosv2.cpython-311.pyc
        gerar_catalogo_dados.cpython-311.pyc
        limpeza_dados.cpython-311.pyc
        extracao_dados_v2.cpython-311.pyc
    .ipynb_checkpoints/
        modelagem_da

In [None]:
#@title ### Transformer para Capturar Tend√™ncias de Longo Prazo:

"""
Entrada: √öltimos dias √∫teis para identificar padr√µes de pre√ßo.

Sa√≠da: Pre√ßos de abertura, m√°xima, m√≠nima e fechamento do pr√≥ximo dia √∫til.

"""