In [1]:
import os
import json
import ofxparse
import pandas as pd
from pathlib import Path
from dotenv import load_dotenv

jsons = []
path = Path(r"C:\Users\joao.manjabosco\Downloads\bluefit")
if path.exists():
    arquivos = path.iterdir()
    for arquivo in arquivos:
        if arquivo.suffix == '.ofx':
            for enc in ("utf-8", "latin-1", "cp1252"):
                try:
                    with open(arquivo, 'r', encoding=enc,) as f: 
                        ofx = ofxparse.OfxParser.parse(f)
                        break
                except Exception as e:
                    pass
            account = ofx.account
            statement = ofx.account.statement
            transactions = statement.transactions
            banco_nome = "Desconhecido"
            if account.institution and account.institution.organization:
                banco_nome = account.institution.organization
            for transaction in transactions:
                registro = {
                    "cod_banco": account.routing_number,
                    "banco": banco_nome,
                    "agencia": ofx.account.branch_id,
                    "num_conta": account.account_id,
                    "tipo_conta": ofx.account.account_type,
                    "data_inicio": statement.start_date.strftime('%d/%m/%Y'),
                    "data_fim": statement.end_date.strftime('%d/%m/%Y'),
                    "saldo": float(statement.balance),
                    "favorecido": transaction.payee, # favorecido ou ‚Äúquem recebeu/pagou‚Äù
                    "tipo_transacao": transaction.type, # tipo da transa√ß√£o (por exemplo, ‚Äúdebit‚Äù, ‚Äúcredit‚Äù, etc.)
                    "data": transaction.date.strftime('%d/%m/%Y'), # data da transa√ß√£o
                    "valor": float(transaction.amount), # valor da transa√ß√£o
                    "descricao": transaction.memo,
                }
                jsons.append(registro)
            # Criar o arquivo JSON
            with open('./src/reports/raw.json', 'w', encoding='utf-8') as arquivo:
                json.dump(jsons, arquivo, ensure_ascii=False, indent=4)
                    

In [2]:
df = pd.DataFrame(jsons)
df["origem"] = df['tipo_transacao'].map({'credit': 'CAR', 'debit': 'CAP', 'dep': 'CAR'})

display(df)

Unnamed: 0,cod_banco,banco,agencia,num_conta,tipo_conta,data_inicio,data_fim,saldo,favorecido,tipo_transacao,data,valor,descricao,origem
0,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,257.76,REDE VENDAS VISA CR√âDITO,CAR
1,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,218.00,REDE VENDAS MASTER CR√âDIT,CAR
2,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,12918.18,REDE VENDAS MASTER CR√âDIT,CAR
3,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,609.42,REDE CR√âDITO,CAR
4,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,6697.01,REDE VENDAS VISA CR√âDITO,CAR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1424,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-100.00,PIX ENVIADO MILTON ALVES DE ARAUJO 324.171.951-00,CAP
1425,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-858.03,PIX ENVIADO ANAIR BORGES DE SOUSA 194.195.621-15,CAP
1426,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-165.00,TAR CONTR/RENOV CTA GAR,CAP
1427,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-300.00,SISPAG TRANSF CC ITAU,CAP


In [3]:
import re
import os
import ast
import json
import math
import asyncio
import pandas as pd
from typing import Optional, Literal
from pydantic import BaseModel, Field
from tqdm import tqdm  # usando tqdm normal ao inv√©s de tqdm.notebook
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Configurar nest_asyncio logo no in√≠cio
import nest_asyncio
nest_asyncio.apply()

load_dotenv()

# ==== Configura√ß√µes ====
LLM_MODEL = "gpt-4o-mini"
LLM_TEMPERATURE = 0
MAX_CONCURRENCY = 6

# ==== Classes permitidas (do arquivo regra.json) ====
with open('./src/prompts/regra.json', 'r', encoding='utf-8') as f:
    regra = json.load(f)
    CLASSES_PERMITIDAS = regra["contexto"]["classes_permitidas"]

# ==== Modelo de dados para classifica√ß√£o ====
class ClassificacaoTransacao(BaseModel):
    classificacao_sugerida: Literal[tuple(CLASSES_PERMITIDAS)] = Field(..., description="Classifica√ß√£o da transa√ß√£o.")
    explicacao: str = Field(..., description="Explica√ß√£o da classifica√ß√£o.")

# ==== Template do prompt ====
SYSTEM_PROMPT = f"""
Voc√™ √© um analista financeiro especializado em classificar transa√ß√µes banc√°rias.

REGRAS DE CLASSIFICA√á√ÉO:
{json.dumps(regra["contexto"]["instrucoes_gerais"], indent=2, ensure_ascii=False)}

CLASSES PERMITIDAS:
{json.dumps(CLASSES_PERMITIDAS, indent=2, ensure_ascii=False)}
"""

prompt = ChatPromptTemplate.from_messages([
    ("system", SYSTEM_PROMPT),
    ("human", """Classifique a transa√ß√£o a seguir:
    
Descri√ß√£o: {descricao}
Origem: {origem} (CAR=Cr√©dito, CAP=D√©bito)
Valor: R$ {valor}
""")
])

# ==== Cria√ß√£o do modelo ====
llm = ChatOpenAI(model=LLM_MODEL, temperature=LLM_TEMPERATURE)
chain = (prompt | llm.with_structured_output(ClassificacaoTransacao))

In [None]:
# ==== Fun√ß√µes auxiliares ====
def regras_pre_classificacao(row: pd.Series) -> Optional[dict]:
    """Aplica regras b√°sicas antes de chamar a IA"""
    desc = str(row.get("descricao", "") or "").lower()
    
    # Regras de pr√©-classifica√ß√£o baseadas no arquivo regra.json    
    if "pix" in desc and (" BODY STATION ACADEMIA " in desc or " J E MADEIRA A " in desc):
        if row["origem"] == "CAR":
            return {"classificacao_sugerida": "(+) Transferencia entre Contas", "explicacao": "Transfer√™ncia entre contas identificada"}
        else:
            return {"classificacao_sugerida": "(-) Transferencia entre Contas", "explicacao": "Transfer√™ncia entre contas identificada"}
        
    if "pix" in desc or "ted" in desc:
        if row["origem"] == "CAP":
            return {"classificacao_sugerida": "(-) Transferencia", "explicacao": "Transfer√™ncia identificada (sa√≠da)"}
        else:
            return {"classificacao_sugerida": "(+) Transferencia", "explicacao": "Transfer√™ncia identificada (entrada)"}
            
    if "rede" in desc or "cartao" in desc or "cart√£o" in desc:
        return {"classificacao_sugerida": "Receita", "explicacao": "Recebimento via cart√£o/maquininha"}
        
    if "seguro" in desc:
        return {"classificacao_sugerida": "Seguro", "explicacao": "Seguro identificado na descri√ß√£o"}
        
    if "consorcio" in desc or "cons√≥rcio" in desc:
        return {"classificacao_sugerida": "Consorcio", "explicacao": "Cons√≥rcio identificado na descri√ß√£o"}
        
    if any(k in desc for k in ["ourocap", "rende facil", "rende f√°cil", "invest"]):
        return {"classificacao_sugerida": "Investimento", "explicacao": "Investimento identificado na descri√ß√£o"}
    
    if "RENDE F√ÅCIL" in desc:
        if row["origem"] == "CAR":
            return {"classificacao_sugerida": "Resgate de Aplica√ß√£o", "explicacao": "Resgate de aplica√ß√£o financeira identificado"}
        else:
            return {"classificacao_sugerida": "Aplica√ß√£o financeira", "explicacao": "Aplica√ß√£o financeira identificada"}
    
    return None

async def classificar_transacao(row: pd.Series) -> dict:
    """Classifica uma √∫nica transa√ß√£o"""
    # Tenta regras pr√©-definidas primeiro
    pre_class = regras_pre_classificacao(row)
    if pre_class:
        return pre_class
        
    # Se n√£o conseguiu classificar com regras, usa a IA
    try:
        resultado = await chain.ainvoke({
            "descricao": row["descricao"],
            "origem": row["origem"],
            "valor": row["valor"]
        })
        return resultado.model_dump()
    except Exception as e:
        print(f"‚ùå Erro ao classificar transa√ß√£o: {e}")
        return {
            "classificacao_sugerida": "Nao classificado",
            "explicacao": f"Erro na classifica√ß√£o: {str(e)}"
        }

async def _gather_limit(coros, limit: int):
    """Executa coroutines com limite de concorr√™ncia"""
    sem = asyncio.Semaphore(limit)
    async def run(c):
        async with sem:
            return await c
    return await asyncio.gather(*(run(c) for c in coros))

async def classificar_transacoes_df(df: pd.DataFrame) -> pd.DataFrame:
    """Classifica todas as transa√ß√µes do DataFrame"""
    df = df.copy()
    
    # Inicializa colunas se n√£o existirem
    if "classificacao_sugerida" not in df.columns:
        df["classificacao_sugerida"] = None
    if "explicacao" not in df.columns:
        df["explicacao"] = None
    
    # Identifica transa√ß√µes n√£o classificadas
    mask_sem_class = df["classificacao_sugerida"].isna()
    indices = df.index[mask_sem_class]
    
    if len(indices) > 0:
        # Cria tasks para cada transa√ß√£o
        tasks = [classificar_transacao(df.loc[i]) for i in indices]
        
        # Processa em chunks para n√£o sobrecarregar
        resultados = []
        for start in tqdm(range(0, len(tasks), 50), desc="Classificando transa√ß√µes"):
            chunk = tasks[start:start + 50]
            out = await _gather_limit(chunk, MAX_CONCURRENCY)
            resultados.extend(out)
        
        # Atualiza o DataFrame com os resultados
        for idx, res in zip(indices, resultados):
            df.loc[idx, ["classificacao_sugerida", "explicacao"]] = [
                res["classificacao_sugerida"],
                res["explicacao"]
            ]
    
    return df

In [5]:
# ==== Executa a classifica√ß√£o ====
def classificar(df: pd.DataFrame) -> pd.DataFrame:
    """Fun√ß√£o principal para classificar transa√ß√µes"""
    loop = asyncio.get_event_loop()
    return loop.run_until_complete(classificar_transacoes_df(df))

print("üîÑ Iniciando classifica√ß√£o...")
df_classificado = classificar(df)
print("‚úÖ Classifica√ß√£o conclu√≠da!")
display(df_classificado)

üîÑ Iniciando classifica√ß√£o...


Classificando transa√ß√µes: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 29/29 [02:11<00:00,  4.53s/it]


‚úÖ Classifica√ß√£o conclu√≠da!


Unnamed: 0,cod_banco,banco,agencia,num_conta,tipo_conta,data_inicio,data_fim,saldo,favorecido,tipo_transacao,data,valor,descricao,origem,classificacao_sugerida,explicacao
0,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,257.76,REDE VENDAS VISA CR√âDITO,CAR,Receita,Recebimento via cart√£o/maquininha
1,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,218.00,REDE VENDAS MASTER CR√âDIT,CAR,Receita,Recebimento via cart√£o/maquininha
2,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,12918.18,REDE VENDAS MASTER CR√âDIT,CAR,Receita,Recebimento via cart√£o/maquininha
3,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,609.42,REDE CR√âDITO,CAR,Receita,Recebimento via cart√£o/maquininha
4,001,Banco do Brasil S/A,,113159-1,CHECKING,31/07/2025,31/08/2025,0.00,,dep,01/08/2025,6697.01,REDE VENDAS VISA CR√âDITO,CAR,Receita,Recebimento via cart√£o/maquininha
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1424,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-100.00,PIX ENVIADO MILTON ALVES DE ARAUJO 324.171.951-00,CAP,(-) Transferencia,Transfer√™ncia identificada (sa√≠da)
1425,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-858.03,PIX ENVIADO ANAIR BORGES DE SOUSA 194.195.621-15,CAP,(-) Transferencia,Transfer√™ncia identificada (sa√≠da)
1426,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-165.00,TAR CONTR/RENOV CTA GAR,CAP,Seguro,"A descri√ß√£o cont√©m a palavra 'RENOV', que suge..."
1427,0341,Desconhecido,,4308091703,CHECKING,01/09/2025,30/09/2025,224132.32,,debit,30/09/2025,-300.00,SISPAG TRANSF CC ITAU,CAP,(-) Transferencia,A descri√ß√£o indica uma transfer√™ncia que sai d...


In [6]:
df_classificado.to_excel('./src/reports/classified_transactions.xlsx', index=False)