#**Licença de Uso**

This repository uses a **dual-license model** to distinguish between source code and creative/documental content.

**Code** (Python scripts, modules, utilities):
Licensed under the MIT License.

→ You may freely use, modify, and redistribute the code, including for commercial purposes, provided that you preserve the copyright notice.

**Content** (Jupyter notebooks, documentation, reports, datasets, and generated outputs):
Licensed under the Creative Commons Attribution–NonCommercial 4.0 International License.

→ You may share and adapt the content for non-commercial purposes, provided that proper credit is given to the original author.


**© 2025 Leandro Bernardo Rodrigues**

# **Gestão do Ambiente**

##**Criar repositório .git no Colab**
---
Google Drive é considerado o ponto de verdade

---

In [None]:
# @title
# parágrafo git: inicialização do repositório no drive e push inicial para o github

# imports
from pathlib import Path
import subprocess, os, sys, getpass, textwrap

# util de shell
def sh(cmd, cwd=None, check=True):
    r = subprocess.run(cmd, cwd=cwd, text=True, capture_output=True)
    if check and r.returncode != 0:
        print(r.stdout, r.stderr)
        raise RuntimeError(f"falha: {' '.join(cmd)} (rc={r.returncode})")
    return r.stdout.strip()

# garantir que o diretório do projeto exista
repo_dir.mkdir(parents=True, exist_ok=True)

# montar drive no colab se necessário
try:
    from google.colab import drive as _colab_drive  # type: ignore
    if not os.path.ismount("/content/drive"):
        print("montando google drive…")
        _colab_drive.mount("/content/drive")
except Exception:
    pass

# configurar safe.directory para evitar avisos do git com caminhos de rede
try:
    sh(["git", "config", "--global", "--add", "safe.directory", str(repo_dir)])
except Exception:
    pass

# inicializar repositório se ainda não existir
if not (repo_dir / ".git").exists():
    print("inicializando repositório git…")
    sh(["git", "init"], cwd=repo_dir)
    # garantir branch principal como main (compatível com versões antigas)
    try:
        sh(["git", "checkout", "-B", default_branch], cwd=repo_dir)
    except Exception:
        sh(["git", "branch", "-M", default_branch], cwd=repo_dir)
else:
    print(".git já existe; seguindo")

# configurar identidade local
sh(["git", "config", "user.name", author_name], cwd=repo_dir)
sh(["git", "config", "user.email", author_email], cwd=repo_dir)

# criar .gitignore básico e readme se estiverem ausentes
gitignore_path = repo_dir / ".gitignore"
if not gitignore_path.exists():
    gitignore_path.write_text(textwrap.dedent("""
      # python
      __pycache__/
      *.py[cod]
      *.egg-info/
      .venv*/
      venv/

      # segredos
      .env
      *.key
      *.pem
      *.tok

      # jupyter/colab
      .ipynb_checkpoints/

      # artefatos e dados locais (não versionar)
      data/
      input/                 # inclui input.csv sensível
      output/
      runs/
      logs/
      figures/
      *.log
      *.tmp
      *.bak
      *.png
      *.jpg
      *.pdf
      *.html

      # allowlist para a pasta de referências
      !references/
      !references/**
    """).strip() + "\n", encoding="utf-8")
    print("criado .gitignore")

readme_path = repo_dir / "README.md"
if not readme_path.exists():
    readme_path.write_text(f"# {repo_name}\n\nprojeto de autoencoder tabular para journal entries.\n", encoding="utf-8")
    print("criado README.md")

# configurar remoto origin
remote_base = f"https://github.com/{owner}/{repo_name}.git"
existing_remotes = sh(["git", "remote"], cwd=repo_dir)
if "origin" not in existing_remotes.split():
    sh(["git", "remote", "add", "origin", remote_base], cwd=repo_dir)
    print(f"remoto origin adicionado: {remote_base}")
else:
    # se já existe, garantir que aponta para o repo correto
    current_url = sh(["git", "remote", "get-url", "origin"], cwd=repo_dir)
    if current_url != remote_base:
        sh(["git", "remote", "set-url", "origin", remote_base], cwd=repo_dir)
        print(f"remoto origin atualizado para: {remote_base}")
    else:
        print("remoto origin já configurado corretamente")

##**Utilitário:** verificação da formatação de código

Black [88] + Isort, desconsiderando células mágicas

In [None]:
# @title
#ID0001
#pré-visualizar/aplicar (pula magics) — isort(profile=black)+black(88) { display-mode: "form" }
import sys, subprocess, os, re, difflib, textwrap, time
from typing import List, Tuple

# ===== CONFIG =====
NOTEBOOK = "/content/drive/MyDrive/Notebooks/data-analysis/notebooks/AETabular_main.ipynb"  # <- ajuste
LINE_LENGTH = 88
# ==================

# 1) Instalar libs no MESMO Python do kernel
subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", "black", "isort", "nbformat"])

import nbformat
import black
import isort

BLACK_MODE = black.Mode(line_length=LINE_LENGTH)
ISORT_CFG  = isort.Config(profile="black", line_length=LINE_LENGTH)

# 2) Regras para pular células com magics/shell
#   - linhas começando com %, %%, !
#   - chamadas a get_ipython(
MAGIC_LINE = re.compile(r"^\s*(%{1,2}|!)", re.M)
GET_IPY    = re.compile(r"get_ipython\s*\(")

def has_magics(code: str) -> bool:
    return bool(MAGIC_LINE.search(code) or GET_IPY.search(code))

def format_code(code: str) -> str:
    # isort primeiro, depois black
    sorted_code = isort.api.sort_code_string(code, config=ISORT_CFG)
    return black.format_str(sorted_code, mode=BLACK_MODE)

def summarize_diff(diff_lines: List[str]) -> Tuple[int, int]:
    added = removed = 0
    for ln in diff_lines:
        # ignorar cabeçalhos do diff
        if ln.startswith(("---", "+++", "@@")):
            continue
        if ln.startswith("+"):
            added += 1
        elif ln.startswith("-"):
            removed += 1
    return added, removed

def header(title: str):
    print("\n" + "=" * 100)
    print(title)
    print("=" * 100)

if not os.path.exists(NOTEBOOK):
    raise FileNotFoundError(f"Notebook não encontrado:\n{NOTEBOOK}")

# 3) Leitura do .ipynb
with open(NOTEBOOK, "r", encoding="utf-8") as f:
    nb = nbformat.read(f, as_version=4)

changed_cells = []  # (idx, added, removed, diff_text, preview_snippet, new_code)

# 4) Pré-visualização célula a célula
header("Pré-visualização (NÃO grava) — somente células com mudanças")
for i, cell in enumerate(nb.cells):
    if cell.get("cell_type") != "code":
        continue

    original = cell.get("source", "")
    if not original.strip():
        continue

    # Pular células com magics/shell
    if has_magics(original):
        continue

    try:
        formatted = format_code(original)
    except Exception as e:
        print(f"[Aviso] célula {i}: erro no formatador — pulando ({e})")
        continue

    if original.strip() != formatted.strip():
        # Gerar diff unificado legível
        diff = list(difflib.unified_diff(
            original.splitlines(), formatted.splitlines(),
            fromfile=f"cell_{i}:before", tofile=f"cell_{i}:after", lineterm=""
        ))
        add, rem = summarize_diff(diff)
        snippet = original.strip().splitlines()[0][:120] if original.strip().splitlines() else "<célula vazia>"
        changed_cells.append((i, add, rem, "\n".join(diff), snippet, formatted))

# 5) Exibição dos diffs por célula (se houver)
if not changed_cells:
    print("✔ Nada a alterar: todas as células (não mágicas) já estão conforme isort/black.")
else:
    total_add = total_rem = 0
    for (idx, add, rem, diff_text, snippet, _new) in changed_cells:
        total_add += add
        total_rem += rem
        header(f"Diff — Célula #{idx}  (+{add}/-{rem})")
        print(f"Primeira linha da célula: {snippet!r}\n")
        print(diff_text)

    header("Resumo")
    print(f"Células com mudanças: {len(changed_cells)}")
    print(f"Linhas adicionadas:   {total_add}")
    print(f"Linhas removidas:     {total_rem}")

# 6) Perguntar se aplica
if changed_cells:
    print("\nDigite 'p' para **Proceder** e gravar as mudanças nessas células, ou 'c' para **Cancelar**.")
    try:
        choice = input("Proceder (p) / Cancelar (c): ").strip().lower()
    except Exception:
        choice = "c"

    if choice == "p":
        # Backup antes de escrever
        backup = NOTEBOOK + ".bak"
        if not os.path.exists(backup):
            with open(backup, "w", encoding="utf-8") as bf:
                nbformat.write(nb, bf)

        # Aplicar somente nas células com mudanças
        idx_to_new = {idx: new for (idx, _a, _r, _d, _s, new) in changed_cells}
        for i, cell in enumerate(nb.cells):
            if i in idx_to_new and cell.get("cell_type") == "code":
                cell["source"] = idx_to_new[i]

        # Escrever no .ipynb
        with open(NOTEBOOK, "w", encoding="utf-8") as f:
            nbformat.write(nb, f)

        # Sync delay (Drive)
        time.sleep(1.0)

        header("Concluído")
        print(f"✔ Mudanças aplicadas em {len(changed_cells)} célula(s).")
        print(f"Backup criado em: {backup}")
        print("Dica: recarregue o notebook no Colab para ver a formatação atualizada.")
    else:
        print("\nOperação cancelada. Nada foi gravado.")

##**Sincronizar alterações no código do projeto**
Comandos para sincronizar código (Google Drive, Git, GitHub) e realizar versionamento

---
Google Drive é considerado o ponto de verdade

In [None]:
# @title
#ID0002
#push do Drive -> GitHub (Drive é a fonte da verdade)
#respeita .gitignore do Drive
#sempre em 'main', sem pull, commit + push imediato
#mensagem de commit padronizada com timestamp SP
#bump de versão (M/m/n) + tag anotada
#force push (branch e tags), silencioso; só 1 print final
#PAT lido de segredo do Colab: GITHUB_PAT_AETABULAR (fallback: env; último caso: prompt)

from pathlib import Path
import subprocess, os, re, shutil, sys, getpass
from urllib.parse import quote as urlquote
from datetime import datetime, timezone, timedelta

#utilitários silenciosos
def sh(cmd, cwd=None, check=True):
    """
    Executa comando silencioso. Em erro, levanta RuntimeError com rc e UM rascunho de causa,
    mascarando URLs com credenciais (ex.: https://***:***@github.com/...).
    """
    safe_cmd = []
    for x in cmd:
        if isinstance(x, str) and "github.com" in x and "@" in x:
            #mascara credenciais: https://user:token@ -> https://***:***@
            x = re.sub(r"https://[^:/]+:[^@]+@", "https://***:***@", x)
        safe_cmd.append(x)

    r = subprocess.run(cmd, cwd=cwd, text=True, capture_output=True)
    if check and r.returncode != 0:
        #heurística curtinha p/ tornar rc=128 mais informativo sem vazar nada
        stderr = (r.stderr or "").strip().lower()
        if "authentication failed" in stderr or "permission" in stderr or "not found" in stderr:
            hint = "auth/permissões/URL"
        elif "not a git repository" in stderr:
            hint = "repo local inválido"
        else:
            hint = "git falhou"
        cmd_hint = " ".join(safe_cmd[:3])
        raise RuntimeError(f"rc={r.returncode}; {hint}; cmd={cmd_hint}")
    return r.stdout

def git(*args, cwd=None, check=True):
    return sh(["git", *args], cwd=cwd, check=check)

#configurações do projeto
author_name    = "Leandro Bernardo Rodrigues"
owner          = "LeoBR84p"         # dono do repositório no GitHub
repo_name      = "ae-tabular"    # nome do repositório
default_branch = "main"
repo_dir       = Path("/content/drive/MyDrive/Notebooks/ae-tabular")
remote_base    = f"https://github.com/{owner}/{repo_name}.git"
author_email   = f"bernardo.leandro@gmail.com"  # evita erro de identidade

#nbstripout: "install" para limpar outputs; "disable" para versionar outputs
nbstripout_mode = "install"
import shutil
exe = shutil.which("nbstripout")
git("config", "--local", "filter.nbstripout.clean", exe if exe else "nbstripout", cwd=repo_dir)

#ambiente: Colab + Drive
def ensure_drive():
    try:
        from google.colab import drive  # type: ignore
        base = Path("/content/drive/MyDrive")
        if not base.exists():
            drive.mount("/content/drive")
        if not base.exists():
            raise RuntimeError("Google Drive não montado.")
    except Exception as e:
        raise RuntimeError(f"Falha ao montar o Drive: {e}")

#repo local no Drive
def is_empty_dir(p: Path) -> bool:
    try:
        return p.exists() and not any(p.iterdir())
    except Exception:
        return True

def init_or_recover_repo():
    repo_dir.mkdir(parents=True, exist_ok=True)
    git_dir = repo_dir / ".git"

    def _fresh_init():
        if git_dir.exists():
            shutil.rmtree(git_dir, ignore_errors=True)
        git("init", cwd=repo_dir)

    #caso .git no Colab ausente ou vazia -> init limpo
    if not git_dir.exists() or is_empty_dir(git_dir):
        _fresh_init()
    else:
        #valida se é um work-tree git funcional no Colab; se falhar -> init limpo
        try:
            git("rev-parse", "--is-inside-work-tree", cwd=repo_dir)
        except Exception:
            _fresh_init()

    #aborta operações pendentes (não apaga histórico)
    for args in (("rebase", "--abort"), ("merge", "--abort"), ("cherry-pick", "--abort")):
        try:
            git(*args, cwd=repo_dir, check=False)
        except Exception:
            pass

    #força branch main
    try:
        sh(["git", "switch", "-C", default_branch], cwd=repo_dir)
    except Exception:
        sh(["git", "checkout", "-B", default_branch], cwd=repo_dir)

    #configura identidade local
    try:
        git("config", "user.name", author_name, cwd=repo_dir)
        git("config", "user.email", author_email, cwd=repo_dir)
    except Exception:
        pass

    #marca o diretório como safe
    try:
        sh(["git","config","--global","--add","safe.directory", str(repo_dir)])
    except Exception:
        pass

    #sanity check final (falha cedo se algo ainda estiver errado)
    git("status", "--porcelain", cwd=repo_dir)


#nbstripout (opcional)
def setup_nbstripout():
    if nbstripout_mode == "disable":
        #remove configs do filtro
        sh(["git","config","--local","--unset-all","filter.nbstripout.clean"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.smudge"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.required"], cwd=repo_dir, check=False)
        gat = repo_dir / ".gitattributes"
        if gat.exists():
            lines = gat.read_text(encoding="utf-8", errors="ignore").splitlines()
            new_lines = [ln for ln in lines if "filter=nbstripout" not in ln]
            gat.write_text("\n".join(new_lines) + ("\n" if new_lines else ""), encoding="utf-8")
        return

    #instala nbstripout (se necessário)
    try:
        import nbstripout  #noqa: F401
    except Exception:
        sh([sys.executable, "-m", "pip", "install", "--quiet", "nbstripout"])

    py = sys.executable
    #configurar filtro sem aspas extras
    git("config", "--local", "filter.nbstripout.clean", "nbstripout", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.smudge", "cat", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.required", "true", cwd=repo_dir)
    gat = repo_dir / ".gitattributes"
    line = "*.ipynb filter=nbstripout"
    if gat.exists():
        txt = gat.read_text(encoding="utf-8", errors="ignore")
        if line not in txt:
            gat.write_text((txt.rstrip() + "\n" + line + "\n"), encoding="utf-8")
    else:
        gat.write_text(line + "\n", encoding="utf-8")

#.gitignore normalização
def normalize_tracked_ignored():
    """
    Se houver arquivos já rastreados que hoje são ignorados pelo .gitignore,
    limpa o índice e re-adiciona respeitando o .gitignore.
    Retorna True se normalizou algo; False caso contrário.
    """
    #remove lock de índice, se houver
    lock = repo_dir / ".git/index.lock"
    try:
        if lock.exists():
            lock.unlink()
    except Exception:
        pass

    #garante que o índice existe (ou se recupera)
    idx = repo_dir / ".git/index"
    if not idx.exists():
        try:
            sh(["git", "reset", "--mixed"], cwd=repo_dir)
        except Exception:
            try:
                sh(["git", "init"], cwd=repo_dir)
            except Exception:
                pass

    #detecta arquivos ignorados que estão rastreados e normaliza
    normalized = False
    try:
        out = git("ls-files", "-z", "--ignored", "--exclude-standard", "--cached", cwd=repo_dir)
        tracked_ignored = [p for p in out.split("\x00") if p]
        if tracked_ignored:
            git("rm", "-r", "--cached", ".", cwd=repo_dir)
            git("add", "-A", cwd=repo_dir)
            normalized = True
    except Exception:
        #falhou a detecção? segue o fluxo sem travar
        pass

    return normalized

#semVer e bump de versão
_semver = re.compile(r"^(\d+)\.(\d+)\.(\d+)$")

def parse_semver(s):
    m = _semver.match((s or "").strip())
    return tuple(map(int, m.groups())) if m else None

def current_version():
    try:
        tags = [t for t in git("tag", "--list", cwd=repo_dir).splitlines() if parse_semver(t)]
        if tags:
            return sorted(tags, key=lambda x: parse_semver(x))[-1]
    except Exception:
        pass
    vf = repo_dir / "VERSION"
    if vf.exists():
        v = vf.read_text(encoding="utf-8").strip()
        if parse_semver(v):
            return v
    return "1.0.0"

def bump(v, kind):
    M, m, p = parse_semver(v) or (1, 0, 0)
    k = (kind or "").strip()
    if k == "m":
        return f"{M}.{m+1}.0"
    if k == "n":
        return f"{M}.{m}.{p+1}"
    return f"{M+1}.0.0"  #default major

#timestamp SP
def now_sp():
    #tenta usar zoneinfo; fallback fixo -03:00 (Brasil sem DST atualmente)
    try:
        from zoneinfo import ZoneInfo  # Py3.9+
        tz = ZoneInfo("America/Sao_Paulo")
        dt = datetime.now(tz)
    except Exception:
        dt = datetime.now(timezone(timedelta(hours=-3)))
    #formato legível + offset
    return dt.strftime("%Y-%m-%d %H:%M:%S%z")  # ex.: 2025-10-08 02:34:00-0300

#autenticação (PAT)
def get_pat():
    #Colab Secrets
    token = None
    try:
        from google.colab import userdata  #type: ignore
        token = userdata.get('GITHUB_PAT_AETABULAR')  #nome do segredo criado no Colab
    except Exception:
        token = None
    #fallback1 - variável de ambiente
    if not token:
        token = os.environ.get("GITHUB_PAT_AETABULAR") or os.environ.get("GITHUB_PAT")
    #fallback2 - interativo
    if not token:
        token = getpass.getpass("Informe seu GitHub PAT: ").strip()
    if not token:
        raise RuntimeError("PAT ausente.")
    return token

#listas de força
FORCE_UNTRACK = ["input/", "output/", "data/", "runs/", "logs/", "figures/"]
FORCE_TRACK   = ["references/"]  #versionar tudo dentro (PDFs inclusive)

def force_index_rules():
    #garante que pastas sensíveis NUNCA fiquem rastreadas
    for p in FORCE_UNTRACK:
        try:
            git("rm", "-r", "--cached", "--", p, cwd=repo_dir)
        except Exception:
            pass
    #garante que references/ SEMPRE entre (útil se ainda há *.pdf globais)
    for p in FORCE_TRACK:
        try:
            git("add", "-f", "--", p, cwd=repo_dir)
        except Exception:
            pass

#fluxo principal
def main():
    try:
        ensure_drive()
        init_or_recover_repo()
        setup_nbstripout()

        #pergunta apenas o tipo de versão (M/m/n)
        kind = input("Informe o tipo de mudança: Maior (M), menor (m) ou pontual (n): ").strip()
        if kind not in ("M", "m", "n"):
            kind = "n"

        #versão
        cur = current_version()
        new = bump(cur, kind)
        (repo_dir / "VERSION").write_text(new + "\n", encoding="utf-8")

        #normaliza itens ignorados que estejam rastreados (uma única vez, se necessário)
        normalize_tracked_ignored()

        #aplica regras de força
        force_index_rules()

        #stage de tudo (Drive é a verdade; remoções entram aqui)
        git("add", "-A", cwd=repo_dir)

        #mensagem padronizada de commit
        ts = now_sp()
        commit_msg = f"upload pelo {author_name} em {ts}"
        try:
            git("commit", "-m", commit_msg, cwd=repo_dir)
        except Exception:
            #se nada a commitar, seguimos (pode ocorrer se só a tag mudar, mas aqui VERSION muda)
            status = git("status", "--porcelain", cwd=repo_dir)
            if status.strip():
                raise

        #Tag anotada (substitui se já existir)
        try:
            git("tag", "-a", new, "-m", f"release {new} — {commit_msg}", cwd=repo_dir)
        except Exception:
            sh(["git", "tag", "-d", new], cwd=repo_dir, check=False)
            git("tag", "-a", new, "-m", f"release {new} — {commit_msg}", cwd=repo_dir)

        #push com PAT (Drive é a verdade): validação + push forçado
        token = get_pat()
        user_for_url = owner  # você é o owner; não perguntamos
        auth_url = f"https://{urlquote(user_for_url, safe='')}:{urlquote(token, safe='')}@github.com/{owner}/{repo_name}.git"

        #valida credenciais/URL de forma silenciosa (sem vazar token)
        #tenta checar a branch main; se não existir (repo vazio), faz um probe genérico
        try:
            sh(["git", "ls-remote", auth_url, f"refs/heads/{default_branch}"], cwd=repo_dir)
        except RuntimeError:
            #repositório pode estar vazio (sem refs); probe sem ref deve funcionar
            sh(["git", "ls-remote", auth_url], cwd=repo_dir)

        #push forçado de branch e tags
        sh(["git", "push", "-u", "--force", auth_url, default_branch], cwd=repo_dir)
        sh(["git", "push", "--force", auth_url, "--tags"], cwd=repo_dir)

        print(f"[ok]   Registro no GitHub com sucesso. Versão atual {new}")
    except Exception as e:
        #mensagem única, curta, sem detalhes sensíveis
        msg = str(e) or "falha inesperada"
        print(f"[erro] {msg}")

#executa
if __name__ == "__main__":
    main()

#**Projeto**
Comandos para sincronizar código (Google Drive, Git, GitHub) e realizar versionamento

---
Google Drive é considerado o ponto de verdade

## **Etapa 1:** Setup do ambiente

In [None]:
# @title §1 — Ambiente: venv/dirs, dependências, imports e config global
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Preparar o ambiente da execução:
- (opcional) Ativar venv se já estiver selecionada no kernel.
- Montar Google Drive (se em Colab) e garantir a estrutura de diretórios do projeto.
- Centralizar instalação de dependências e imports.
- Fixar SEED e timezone; abrir um RUN_DIR com carimbo temporal e salvar metadados.

Pontos FIXOS (recomendado manter):
- TIMEZONE = "America/Sao_Paulo"
- Estrutura de diretórios: input/, prerun/, output/, artifacts/, runs/, reports/
- Arquivo de metadados: runs/<RUN_ID>/run.json

Pontos CALIBRÁVEIS (ajuste conforme sua governança):
- PROJ_ROOT (raiz do projeto)
- Lista de pacotes mínimos em NEED_PIP
- Política de versões (pinning) se exigir reprodutibilidade estrita
- SEED
"""

# =========================
# §1.0 — Utilidades básicas
# =========================
import os, sys, json, platform, subprocess, textwrap, random, hashlib, socket, getpass, re, io, base64, time, warnings
from pathlib import Path
from datetime import datetime

# ---------- Helpers de log "Skynet" ----------
def _sk(msg: str) -> None:
    """Logger curto e padronizado para a execução."""
    print(f"[skynet {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] {msg}")

def _warn(msg: str) -> None:
    warnings.warn(msg, RuntimeWarning, stacklevel=2)
# --------------------------------------------

# ===================================================
# §1.1 — (opcional) venv do kernel / detecção de venv
# ===================================================
# Observação:
# - Em Google Colab, a "venv" é o próprio kernel do ambiente (não há ativação de .venv local).
# - Em Jupyter local, a venv já vem "ativada" quando você escolhe o kernel correspondente.
# - Aqui apenas detectamos e registramos a info para auditoria.
VENV_INFO = {
    "python_exe": sys.executable,
    "base_prefix": sys.base_prefix,
    "prefix": sys.prefix,
    "venv_active": (sys.prefix != sys.base_prefix)  # heurística simples
}
_sk(f"python: {VENV_INFO['python_exe']}")
_sk(f"venv ativa? {VENV_INFO['venv_active']}")

# =====================================================
# §1.2 — Montagem do Google Drive (se rodando em Colab)
# =====================================================
IN_COLAB = "google.colab" in sys.modules or "COLAB_GPU" in os.environ
DRIVE_MOUNT = Path("/content/drive")
if IN_COLAB:
    try:
        from google.colab import drive as _colab_drive  # type: ignore
        if not DRIVE_MOUNT.exists() or not os.path.ismount(str(DRIVE_MOUNT)):
            _sk("montando Google Drive…")
            _colab_drive.mount(str(DRIVE_MOUNT))
        else:
            _sk("Google Drive já montado.")
    except Exception as e:
        _warn(f"Não foi possível montar o Google Drive automaticamente: {e}")

# ==================================================
# §1.3 — Raiz do projeto e estrutura de diretórios
# ==================================================
# CALIBRÁVEL: escolha da pasta raiz do projeto (PROJ_ROOT).
# Estratégia:
#   - Se em Colab com Drive montado, usar uma pasta padrão no MyDrive.
#   - Caso contrário, usar a pasta atual + "ae-tabular".
DEFAULT_DRIVE_ROOT = Path("/content/drive/MyDrive/Notebooks/ae-tabular")
DEFAULT_LOCAL_ROOT = Path.cwd() / "ae-tabular"

PROJ_ROOT = (
    DEFAULT_DRIVE_ROOT if (IN_COLAB and DEFAULT_DRIVE_ROOT.parent.exists())
    else DEFAULT_LOCAL_ROOT
)
os.makedirs(PROJ_ROOT, exist_ok=True)

# FIXO: subdiretórios que o pipeline utiliza
INPUT_DIR    = PROJ_ROOT / "input"      # entrada bruta (não-preprocessado)
PRERUN_DIR   = PROJ_ROOT / "prerun"     # CSVs tratados (saída da Etapa 2)
OUTPUT_DIR   = PROJ_ROOT / "output"     # saídas finais (scores, tabelas auxiliares)
ARTIF_DIR    = PROJ_ROOT / "artifacts"  # artefatos de treino (modelos, features, etc.)
RUNS_DIR     = PROJ_ROOT / "runs"       # pastas por execução
REPORTS_DIR  = PROJ_ROOT / "reports"    # relatórios (HTML/PDF/imagens)

for d in (INPUT_DIR, PRERUN_DIR, OUTPUT_DIR, ARTIF_DIR, RUNS_DIR, REPORTS_DIR):
    d.mkdir(parents=True, exist_ok=True)

_sk(f"PROJ_ROOT = {PROJ_ROOT}")
_sk("estrutura ok (input/, prerun/, output/, artifacts/, runs/, reports/)")

# ================================================
# §1.4 — Carimbo, timezone e metadados da execução
# ================================================
try:
    from zoneinfo import ZoneInfo  # py>=3.9
    TIMEZONE = "America/Sao_Paulo"  # FIXO (use a zona do BNDES quando aplicável)
    _now = datetime.now(tz=ZoneInfo(TIMEZONE))
except Exception:
    TIMEZONE = "America/Sao_Paulo"
    _now = datetime.now()

RUN_ID   = _now.strftime("%Y%m%d-%H%M%S")
RUN_DIR  = RUNS_DIR / RUN_ID
RUN_DIR.mkdir(parents=True, exist_ok=True)

_sk(f"RUN_ID = {RUN_ID}")
_sk(f"RUN_DIR = {RUN_DIR}")

# ==================================
# §1.5 — Dependências (pip) + imports
# ==================================
# CALIBRÁVEL: ajuste a lista se precisar "pinning" de versões (ex.: 'pandas==2.2.2')
NEED_PIP = [
    "numpy", "pandas", "pyarrow",
    "scikit-learn",
    "matplotlib",
    "torch",        # se o ambiente já tiver torch, a instalação será ignorada
    "reportlab"     # geração de PDF (Etapa 13)
]

def _pip_install_missing(pkgs):
    """Tenta importar; se falhar, instala via pip no MESMO Python do kernel."""
    to_install = []
    for spec in pkgs:
        name = spec.split("==")[0].split(">=")[0].split("<=")[0]
        try:
            __import__(name)
        except Exception:
            to_install.append(spec)
    if to_install:
        _sk(f"instalando pacotes: {to_install}")
        subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", *to_install])
    else:
        _sk("todas dependências já presentes.")

_pip_install_missing(NEED_PIP)

# Imports centralizados (garante a mesma versão carregada para todo o notebook)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# torch é opcional para CPU/GPU; se não estiver disponível, Etapa 7 falhará cedo com assert
try:
    import torch
    TORCH_OK = True
except Exception:
    TORCH_OK = False
    _warn("PyTorch não disponível — o treino do autoencoder (Etapa 7) exigirá Torch.")

# =========================================
# §1.6 — SEED / determinismo (quando viável)
# =========================================
# CALIBRÁVEL: SEED da execução
SEED = 42

random.seed(SEED)
np.random.seed(SEED)
os.environ["PYTHONHASHSEED"] = str(SEED)

if TORCH_OK:
    try:
        torch.manual_seed(SEED)
        if torch.cuda.is_available():
            torch.cuda.manual_seed_all(SEED)
        # Determinismo (atenção: pode impactar performance)
        torch.use_deterministic_algorithms(True, warn_only=True)
        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
        _sk(f"torch determinístico habilitado (cuda={torch.cuda.is_available()})")
    except Exception as e:
        _warn(f"Determinismo Torch parcial: {e}")

# ==========================================
# §1.7 — Persistir metadados mínimos (run.json)
# ==========================================
RUN_META = {
    "run_id": RUN_ID,
    "created_at": _now.isoformat(),
    "timezone": TIMEZONE,
    "host": socket.gethostname(),
    "user": getpass.getuser() if hasattr(getpass, "getuser") else None,
    "python": sys.version,
    "platform": platform.platform(),
    "paths": {
        "proj_root": str(PROJ_ROOT),
        "input_dir": str(INPUT_DIR),
        "prerun_dir": str(PRERUN_DIR),
        "output_dir": str(OUTPUT_DIR),
        "artifacts_dir": str(ARTIF_DIR),
        "runs_dir": str(RUNS_DIR),
        "reports_dir": str(REPORTS_DIR),
        "run_dir": str(RUN_DIR),
    },
    "venv": VENV_INFO,
    "seed": SEED,
    "deps": NEED_PIP,
}
(RUN_DIR / "run.json").write_text(
    json.dumps(RUN_META, ensure_ascii=False, indent=2),
    encoding="utf-8"
)
_sk("metadados salvos em runs/<RUN_ID>/run.json")

# ==========================================
# §1.8 — Exibir “resumo” do ambiente preparado
# ==========================================
print("\n==== §1 — AMBIENTE PRONTO ====")
print(f"PROJ_ROOT : {PROJ_ROOT}")
print(f"INPUT_DIR : {INPUT_DIR}")
print(f"PRERUN_DIR: {PRERUN_DIR}")
print(f"OUTPUT_DIR: {OUTPUT_DIR}")
print(f"ARTIF_DIR : {ARTIF_DIR}")
print(f"RUNS_DIR  : {RUNS_DIR}")
print(f"REPORTS_DIR: {REPORTS_DIR}")
print(f"RUN_DIR   : {RUN_DIR}")
print(f"SEED      : {SEED}")
print(f"TIMEZONE  : {TIMEZONE}")
print(f"TORCH_OK  : {TORCH_OK}")
print("================================\n")

## **Etapa 2:** Utilitário de pré-processamento de arquivos

In [None]:
# @title §2 — Pré-processamento de CSVs (Google Drive → prerun/)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Permitir ao usuário escolher um CSV (UTF-8 com BOM, separador ';') a partir de
PROJ_ROOT/input, aplicar tratamentos mínimos padronizados e salvar o resultado
em PROJ_ROOT/prerun, junto com um relatório JSON de evidências.

Pontos FIXOS:
- Diretórios: INPUT_DIR (origem), PRERUN_DIR (destino), RUN_DIR (logs)
- Formato exigido: encoding = "utf-8-sig", sep = ";"
- Logger: _sk(...)

Pontos CALIBRÁVEIS:
- REQUIRED_COLS: colunas mínimas esperadas para o domínio contábil (ajuste conforme seu dicionário)
- RENAME_MAP: padronização de nomes de colunas
- NUMERIC_COLS: colunas a serem convertidas para numérico (com vírgula -> ponto)
- DATE_COLS: colunas de data que serão parseadas para ISO (YYYY-MM-DD)
- NORMALIZADORES: padronização de valores categóricos (ex.: 'd'/'c', capitalização)

Saídas:
- CSV tratado em PRERUN_DIR com sufixo "-clean.csv"
- Snapshot em Parquet (.parquet) para carga mais rápida
- Relatório JSON com estatísticas e contagens de ajustes
"""

import json, re, hashlib
from pathlib import Path
from datetime import datetime
import pandas as pd
import numpy as np

# --------- Pré-checagens ----------
assert 'INPUT_DIR' in globals() and 'PRERUN_DIR' in globals() and 'RUN_DIR' in globals(), \
    "Execute a Etapa 1 antes (dirs e run.json)."
assert isinstance(INPUT_DIR, Path) and isinstance(PRERUN_DIR, Path), "INPUT_DIR/PRERUN_DIR inválidos."

CSV_ENCODING_REQ = "utf-8-sig"  # FIXO: exigência com BOM
CSV_SEP_REQ      = ";"          # FIXO: separador exigido

# --------- Domínio contábil (CALIBRÁVEL) ----------
# Se seu dicionário for outro, ajuste aqui:
REQUIRED_COLS = [
    "username",       # usuário que lançou
    "lotacao",        # unidade funcional
    "data_lcto",      # data do lançamento (formato livre; será parseada)
    "valormi",        # valor monetário (texto com vírgula/ponto será normalizado)
    "dc",             # débito/crédito ('d'/'c')
    "contacontabil",  # código COSIF (apenas dígitos)
    "nome_conta",     # descrição da conta
    "documento_num"   # identificador do documento
]

# Muitos arquivos trazem nomes alternativos; normalize aqui:
RENAME_MAP = {  # CALIBRÁVEL: mapeie variações comuns -> padrão desejado
    "usuario": "username",
    "user": "username",
    "lotação": "lotacao",
    "data": "data_lcto",
    "data_lancamento": "data_lcto",
    "valor": "valormi",
    "debito_credito": "dc",
    "d_c": "dc",
    "conta_contabil": "contacontabil",
    "conta": "contacontabil",
    "nome_da_conta": "nome_conta",
    "documento": "documento_num",
    "num_documento": "documento_num",
}

# Colunas a tratar como numéricas (vírgula brasileira -> ponto) — CALIBRÁVEL
NUMERIC_COLS = ["valormi"]

# Colunas de data a parsear — CALIBRÁVEL
DATE_COLS = ["data_lcto"]

# Normalização de 'dc' — CALIBRÁVEL
DC_MAP = {
    "d": "d", "deb": "d", "debito": "d", "débito": "d",
    "c": "c", "cred": "c", "credito": "c", "crédito": "c",
}

# ----------------- Funções utilitárias (com comentários) -----------------
def _has_utf8_bom(path: Path) -> bool:
    """Checa os 3 primeiros bytes por BOM UTF-8."""
    with open(path, "rb") as f:
        head = f.read(3)
    return head == b"\xef\xbb\xbf"

def _validate_csv_format(path: Path) -> dict:
    """Valida encoding (BOM) e separador ';' de forma barata (amostra inicial)."""
    ok_bom = _has_utf8_bom(path)
    # Teste de separador por amostragem rápida de linha 1
    with open(path, "rb") as f:
        first_line = f.readline().decode("utf-8", errors="ignore")
    sep_count = first_line.count(";")
    return {"utf8_bom": ok_bom, "sep_semicolon": (sep_count >= 1), "sep_count_header": sep_count}

def _read_csv_strict(path: Path) -> pd.DataFrame:
    """
    Lê CSV exigindo 'utf-8-sig' e sep=';'.
    - dtype=str para preservar valores originais; conversões vêm depois.
    """
    return pd.read_csv(path, sep=CSV_SEP_REQ, encoding=CSV_ENCODING_REQ, dtype=str)

def _strip_all(df: pd.DataFrame) -> pd.DataFrame:
    """
    Remove espaços nas bordas de strings; colapsa espaços múltiplos internos.
    """
    for c in df.columns:
        if df[c].dtype == object:
            df[c] = df[c].astype(str).str.replace(r"\s+", " ", regex=True).str.strip()
            df[c] = df[c].replace({"nan": "", "None": "", "NULL": ""})
    return df

def _rename_columns(df: pd.DataFrame, mapping: dict) -> pd.DataFrame:
    """
    Renomeia colunas segundo RENAME_MAP; normaliza para minúsculas sem acentos.
    """
    # título "cru" -> sem acento e minúsculo
    def _norm(name: str) -> str:
        s = name.strip()
        s = re.sub(r"[^\w\s]", "_", s, flags=re.UNICODE)  # troca pontuação por "_"
        s = re.sub(r"\s+", "_", s)
        s = s.lower()
        # remoção simples de acentos
        s = (s
             .replace("á","a").replace("à","a").replace("ã","a").replace("â","a").replace("ä","a")
             .replace("é","e").replace("ê","e").replace("è","e").replace("ë","e")
             .replace("í","i").replace("ì","i").replace("î","i").replace("ï","i")
             .replace("ó","o").replace("ô","o").replace("õ","o").replace("ò","o").replace("ö","o")
             .replace("ú","u").replace("ù","u").replace("û","u").replace("ü","u")
             .replace("ç","c")
            )
        return s

    norm_map = {c: _norm(c) for c in df.columns}
    df = df.rename(columns=norm_map)

    # aplica RENAME_MAP pós-normalização
    df = df.rename(columns={src: dst for src, dst in mapping.items() if src in df.columns})
    return df

from typing import Optional  # adicione perto dos outros imports da célula

def _to_float_br(s: str) -> Optional[float]:
    """
    Converte string monetária pt-BR para float.
    Retorna None quando vazio/inválido (pandas converte para NaN depois).
    """
    if s is None:
        return None
    t = str(s).strip()
    if t == "":
        return None
    if "," in t:
        t = t.replace(".", "").replace(",", ".")
    t = t.replace(" ", "")
    try:
        return float(t)
    except Exception:
        return None

def _normalize_values(df: pd.DataFrame) -> pd.DataFrame:
    """
    Normalizações de valores:
    - NUMERIC_COLS -> float (pt-BR).
    - DATE_COLS -> ISO 'YYYY-MM-DD' (coerção 'coerce' para valores inválidos).
    - 'dc' -> {'d','c'}
    - 'contacontabil' -> apenas dígitos
    """
    # Números
    for c in NUMERIC_COLS:
        if c in df.columns:
            df[c] = df[c].map(_to_float_br).astype(float)

    # Datas
    for c in DATE_COLS:
        if c in df.columns:
            # tenta múltiplos formatos comuns BR/ISO
            df[c] = pd.to_datetime(df[c], errors="coerce", dayfirst=True)
            df[c] = df[c].dt.date.astype("string")  # ISO simples 'YYYY-MM-DD' ou <NA>

    # Débito/Crédito
    if "dc" in df.columns:
        df["dc"] = df["dc"].astype(str).str.lower().str.strip()
        df["dc"] = df["dc"].map(lambda x: DC_MAP.get(x, x))
        df.loc[~df["dc"].isin(["d","c"]), "dc"] = ""  # zera inválidos; serão reportados

    # COSIF (somente dígitos)
    if "contacontabil" in df.columns:
        df["contacontabil"] = df["contacontabil"].astype(str).str.replace(r"\D+", "", regex=True)

    return df

def _validate_required_cols(df: pd.DataFrame, required: list[str]) -> list[str]:
    """Retorna lista de colunas faltantes (se houver)."""
    cols = list(df.columns)
    return [c for c in required if c not in cols]

def _report_stats(original_path: Path, df_raw: pd.DataFrame, df_clean: pd.DataFrame, fmt_check: dict) -> dict:
    """Gera um dicionário com métricas de evidência do pré-processamento."""
    stats = {
        "source_file": str(original_path),
        "size_bytes": original_path.stat().st_size,
        "format_check": fmt_check,
        "rows_raw": int(len(df_raw)),
        "cols_raw": int(df_raw.shape[1]),
        "rows_clean": int(len(df_clean)),
        "cols_clean": int(df_clean.shape[1]),
        "na_counts": {c: int(df_clean[c].isna().sum()) for c in df_clean.columns},
        "empty_counts": {c: int((df_clean[c].astype(str)=="").sum()) for c in df_clean.columns},
        "dc_invalid_count": int(("dc" in df_clean.columns) and (~df_clean["dc"].isin(["d","c"])).sum()),
        "valormi_na_count": int(("valormi" in df_clean.columns) and df_clean["valormi"].isna().sum()),
        "conta_non_digit_count": int(("contacontabil" in df_clean.columns) and (~df_clean["contacontabil"].str.fullmatch(r"\d+")).sum())
    }
    return stats

# ----------------- Fluxo principal da Etapa 2 -----------------
# 1) Listar CSVs no INPUT_DIR
csvs = sorted(INPUT_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
if not csvs:
    raise FileNotFoundError(
        f"Não há CSVs em {INPUT_DIR}. Coloque um CSV (UTF-8 BOM, ';') no diretório e rode novamente."
    )

print("\n[§2] CSVs disponíveis em INPUT_DIR:")
for i, p in enumerate(csvs):
    print(f"[{i:03d}] {p.name}")

# 2) Escolher índice
idx = None
while idx is None:
    try:
        idx = int(input("\nÍndice do CSV para pré-processar: ").strip())
        assert 0 <= idx < len(csvs)
    except Exception:
        print("Índice inválido. Tente novamente.")
        idx = None

SRC_PATH = csvs[idx]
_sk(f"arquivo selecionado: {SRC_PATH.name}")

# 3) Validação de formato (BOM + separador)
fmt = _validate_csv_format(SRC_PATH)
if not fmt["utf8_bom"] or not fmt["sep_semicolon"]:
    raise ValueError(
        f"Formato inválido: utf8_bom={fmt['utf8_bom']}, sep_semicolon={fmt['sep_semicolon']} "
        f"(esperado: BOM UTF-8 e ';')."
    )

# 4) Leitura estrita, padronização de nomes e limpeza
df0 = _read_csv_strict(SRC_PATH)
df1 = _rename_columns(df0, RENAME_MAP)
df1 = _strip_all(df1)

# 5) Normalizações de valores (número, data, dc, cosif)
df2 = _normalize_values(df1)

# 6) Checagem de colunas obrigatórias (domínio) — gera aviso se faltar
missing = _validate_required_cols(df2, REQUIRED_COLS)
if missing:
    _sk(f"ATENÇÃO: colunas obrigatórias ausentes: {missing}. O arquivo será salvo, mas isso pode bloquear etapas posteriores.")

# 7) Persistência em prerun/ + relatório
stamp = datetime.now().strftime("%Y%m%d-%H%M%S")
base   = SRC_PATH.stem
dst_csv = PRERUN_DIR / f"{base}-clean-{stamp}.csv"
dst_parq= PRERUN_DIR / f"{base}-clean-{stamp}.parquet"
dst_rep = RUN_DIR    / f"preprocess_report_{base}-{stamp}.json"

# CSV: garantir formato exigido para as próximas etapas
out = df2.copy()
# (Opcional) formatar valormi com 2 casas ao salvar; mantém numérico no DataFrame
if "valormi" in out.columns:
    out["valormi"] = out["valormi"].map(lambda x: ("" if pd.isna(x) else f"{x:.2f}"))

out.to_csv(dst_csv, index=False, sep=CSV_SEP_REQ, encoding=CSV_ENCODING_REQ)
df2.to_parquet(dst_parq, index=False)

report = _report_stats(SRC_PATH, df0, df2, fmt)
report["required_cols_missing"] = missing
dst_rep.write_text(json.dumps(report, ensure_ascii=False, indent=2), encoding="utf-8")

_sk(f"pré-processamento concluído → {dst_csv.name}")
_sk(f"snapshot parquet → {dst_parq.name}")
_sk(f"relatório JSON → {dst_rep.name}")

# 8) Amostra para inspeção rápida
print("\n[§2] Pré-visualização (5 linhas):")
display(df2.head(5))

# 9) Dica para próxima etapa
print("\nPróximo passo: Etapa 3 — selecionar um arquivo de PRERUN_DIR para TREINO/VAL.")

## **Etapa 3:** Ingestão de treino

In [None]:
# @title §3 — Ingestão de treino (somente CSVs pré-processados de prerun/) — seleção explícita
# -*- coding: utf-8 -*-
import json, re
import numpy as np
import pandas as pd
from pathlib import Path
from datetime import datetime

assert 'RUN_DIR' in globals() and 'PRERUN_DIR' in globals(), "Execute as Etapas 1 e 2 antes."

CSV_ENCODING = "utf-8-sig"   # FIXO
CSV_SEP      = ";"           # FIXO

REQUIRED_COLS = ["username", "lotacao", "data_lcto", "valormi", "dc", "contacontabil"]  # CALIBRÁVEL
DC_VALIDOS = {"d", "c"}  # FIXO

def carregar_validar_csv(path: Path) -> pd.DataFrame:
    df = pd.read_csv(path, sep=CSV_SEP, encoding=CSV_ENCODING, dtype=str)
    df.columns = [c.strip().lower() for c in df.columns]
    df = df.apply(lambda col: col.str.strip() if col.dtype == object else col)

    def _to_float(v):
        if v is None: return np.nan
        s = str(v).strip()
        if s == "": return np.nan
        if "," in s: s = s.replace(".", "").replace(",", ".")
        s = s.replace(" ", "")
        try: return float(s)
        except Exception: return np.nan

    if "valormi" in df.columns:
        df["valormi"] = df["valormi"].map(_to_float).astype(float)

    if "dc" in df.columns:
        df["dc"] = df["dc"].astype(str).str.lower().str.strip()
        df.loc[~df["dc"].isin(DC_VALIDOS), "dc"] = ""

    if "contacontabil" in df.columns:
        df["contacontabil"] = df["contacontabil"].astype(str).str.replace(r"\D+", "", regex=True)

    faltantes = [c for c in REQUIRED_COLS if c not in df.columns]
    if faltantes:
        raise ValueError(f"Colunas obrigatórias ausentes: {faltantes}")

    problemas = {}
    if df["dc"].eq("").any(): problemas["dc_invalidos"] = int(df["dc"].eq("").sum())
    if df["valormi"].isna().any(): problemas["valormi_na"] = int(df["valormi"].isna().sum())
    if (~df["contacontabil"].str.fullmatch(r"\d+")).any():
        problemas["contacontabil_nao_numerica"] = int((~df["contacontabil"].str.fullmatch(r"\d+")).sum())
    if problemas:
        rep_path = RUN_DIR / f"validacao_ingestao_{path.stem}.json"
        rep_path.write_text(json.dumps(problemas, ensure_ascii=False, indent=2), encoding="utf-8")
        print(f"[§3] Aviso: inconsistências registradas em {rep_path.name}")
    return df

def _human_size(b: int) -> str:
    for unit in ["B","KB","MB","GB","TB"]:
        if b < 1024: return f"{b:.1f}{unit}"
        b /= 1024
    return f"{b:.1f}PB"

# ---------- listagem e filtro opcional ----------
pr_list_all = sorted(PRERUN_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
if not pr_list_all:
    raise FileNotFoundError("Nenhum CSV encontrado em prerun/. Rode a Etapa 2 primeiro.")

def _mostrar(lista):
    print("\n[§3] CSVs em prerun/:")
    for i, p in enumerate(lista):
        ts = datetime.fromtimestamp(p.stat().st_mtime).strftime("%Y-%m-%d %H:%M:%S")
        print(f"[{i:03d}] {p.name:60s}  { _human_size(p.stat().st_size):>8s}  mtime={ts}")

# loop de seleção sem default
while True:
    _mostrar(pr_list_all)
    termo = input("\n(Facultativo) Digite um termo para filtrar por nome, ou tecle Enter para listar todos: ").strip()
    if termo:
        pr_list = [p for p in pr_list_all if termo.lower() in p.name.lower()]
        if not pr_list:
            print("Nenhum arquivo corresponde ao filtro. Tente novamente.")
            continue
    else:
        pr_list = pr_list_all

    _mostrar(pr_list)
    raw = input("\nDigite o ÍNDICE do CSV a usar para TREINO/VAL (ou 'x' para recomeçar o filtro): ").strip().lower()
    if raw == "x":
        continue
    try:
        idx = int(raw)
        assert 0 <= idx < len(pr_list)
    except Exception:
        print("Índice inválido. Tente novamente.")
        continue

    selecionado = pr_list[idx]
    print(f"\nSelecionado: {selecionado.name}")
    ok = input("Confirma este arquivo? (s/n): ").strip().lower()
    if ok == "s":
        SELECTED_CSV = selecionado
        break
    else:
        print("Seleção cancelada. Reiniciando…")

print(f"[§3] Arquivo confirmado: {SELECTED_CSV.name}")

# ---------- ingestão e rastreabilidade ----------
DF_RAW = carregar_validar_csv(SELECTED_CSV)
print(f"[§3] Linhas carregadas: {len(DF_RAW):,}")

pad_path = RUN_DIR / "selected_source.csv"
DF_RAW.to_csv(pad_path, index=False, sep=CSV_SEP, encoding=CSV_ENCODING)
snap_path = RUN_DIR / "journal_entries.parquet"
DF_RAW.to_parquet(snap_path, index=False)

print(f"[§3] cópias salvas: {pad_path.name}, {snap_path.name}")
display(DF_RAW.head(5))

print("\nPróximo passo: Etapa 4 — criação do vocabulário de treino.")

## **Etapa 4:** Vocabulário de treino

In [None]:
# @title §4 — Vocabulário de treino (categoria → inteiro) — congelado
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Criar e congelar um vocabulário (mapeamento categoria → índice inteiro) para as
colunas categóricas do dataset de TREINO (DF_RAW).

Como funciona
-------------
1) Define a lista de colunas categóricas (CALIBRÁVEL em CAT_COLS).
2) Para cada coluna:
   - Calcula frequências no DF_RAW.
   - Ordena por (freq desc, depois valor asc) para determinismo.
   - Reserva índice 0 para OOV ("out-of-vocabulary").
   - Atribui índices a partir de 1 às categorias vistas no treino.
3) Salva artefatos:
   - JSON com mapas por coluna: runs/<RUN_ID>/categorical_maps.json
   - Resumo de cardinalidades: runs/<RUN_ID>/categorical_cardinality.json
   - (opcional) cópia durável em artifacts/: artifacts/categorical_maps_latest.json
4) Expõe helpers:
   - encode_categoricals(df) → adiciona colunas *_int usando o vocabulário
   - decode_category(col, idx) → retorna string a partir do índice

Pontos FIXOS
------------
- OOV = 0
- Ordem determinística: (-freq, categoria)

Pontos CALIBRÁVEIS
------------------
- CAT_COLS: escolha de colunas categóricas
- Se incluir 'documento_num' (alta cardinalidade) depende da estratégia de features.
"""

import json
import numpy as np
import pandas as pd
from collections import Counter
from pathlib import Path

# Pré-checagens
assert 'DF_RAW' in globals(), "DF_RAW não encontrado. Execute a Etapa 3 antes."
assert 'RUN_DIR' in globals() and 'ARTIF_DIR' in globals(), "Execute a Etapa 1 antes."

# ========= Configuração (CALIBRÁVEL) =========
# Escolha das colunas categóricas.
# Sugestão: incluir identificadores estáveis e sinais contábeis; evitar IDs
# muito voláteis caso não sejam úteis ao modelo.
CAT_COLS = [
    "username",
    "lotacao",
    "dc",
    "contacontabil",
    # "nome_conta",      # ative se quiser usar descrição textual
    # "documento_num",   # cuidado: alta cardinalidade; ative se fizer sentido
]

OOV_INDEX = 0   # FIXO: índice reservado para 'desconhecidos'
OFFSET    = 1   # FIXO: categorias vistas começam em 1

# ========= Construção do vocabulário =========
categorical_maps: dict[str, dict[str, int]] = {}
categorical_cardinality: dict[str, int] = {}

def _build_map(series: pd.Series) -> dict[str, int]:
    """
    Constrói o mapa categoria->índice:
    - Conta frequências (com NaNs tratados como string vazia para consistência).
    - Ordena por frequência desc, depois valor asc.
    - Reserva 0 para OOV, categorias começam em 1.
    """
    s = series.fillna("").astype(str)
    freq = Counter(s.tolist())

    # Remove a categoria vazia "" do ranking se quiser (opcional):
    # freq.pop("", None)

    # Ordenação determinística: mais frequentes primeiro; empate por ordem alfabética
    ordered = sorted(freq.items(), key=lambda kv: (-kv[1], kv[0]))

    mapping = {"__oov__": OOV_INDEX, "__offset__": OFFSET}
    idx = OFFSET
    for cat, _count in ordered:
        mapping[cat] = idx
        idx += 1
    return mapping

# Constrói mapas por coluna
for col in CAT_COLS:
    if col not in DF_RAW.columns:
        raise ValueError(f"Coluna categórica '{col}' não existe no DF_RAW.")
    cmap = _build_map(DF_RAW[col])
    categorical_maps[col] = cmap
    # cardinalidade = total de índices "válidos" (exclui OOV)
    categorical_cardinality[col] = len(cmap) - 2  # remove chaves meta (__oov__, __offset__)

# ========= Persistência dos artefatos =========
maps_path_run = RUN_DIR / "categorical_maps.json"
card_path_run = RUN_DIR / "categorical_cardinality.json"
maps_path_art = ARTIF_DIR / "categorical_maps_latest.json"

maps_path_run.write_text(json.dumps(categorical_maps, ensure_ascii=False, indent=2), encoding="utf-8")
card_path_run.write_text(json.dumps(categorical_cardinality, ensure_ascii=False, indent=2), encoding="utf-8")
maps_path_art.write_text(json.dumps(categorical_maps, ensure_ascii=False, indent=2), encoding="utf-8")

print(f"[§4] vocabulário salvo em: {maps_path_run.name}  (cópia: artifacts/{maps_path_art.name})")
print(f"[§4] cardinalidades salvas em: {card_path_run.name}")

# ========= Helpers de codificação/decodificação =========
def encode_categoricals(df: pd.DataFrame,
                        cat_cols: list[str] = None,
                        maps: dict[str, dict[str, int]] = None,
                        suffix: str = "_int") -> pd.DataFrame:
    """
    Projeta colunas categóricas para índices inteiros usando os mapas congelados.

    Parâmetros:
    - df: DataFrame de entrada
    - cat_cols: lista de colunas categóricas (default = CAT_COLS)
    - maps: dicionário de mapas (default = categorical_maps deste run)
    - suffix: sufixo para colunas codificadas (default: '_int')

    Saída:
    - DataFrame com novas colunas <col><suffix> (inteiros).
    """
    if cat_cols is None:
        cat_cols = CAT_COLS
    if maps is None:
        maps = categorical_maps

    out = df.copy()
    for col in cat_cols:
        if col not in out.columns:
            raise ValueError(f"Coluna '{col}' não encontrada no DF para codificar.")
        cmap = maps.get(col)
        if cmap is None:
            raise ValueError(f"Mapa não encontrado para coluna '{col}'.")
        oov = cmap.get("__oov__", 0)
        series = out[col].fillna("").astype(str)
        out[col + suffix] = series.map(lambda x: cmap.get(x, oov)).astype("int32")
    return out

def decode_category(col: str, idx: int,
                    maps: dict[str, dict[str, int]] = None) -> str:
    """
    Decodifica um índice inteiro de volta à categoria (quando possível).
    - Retorna '<OOV>' para índices não mapeados ou OOV=0.
    """
    if maps is None:
        maps = categorical_maps
    cmap = maps.get(col)
    if not cmap:
        return "<OOV>"
    if idx == cmap.get("__oov__", 0):
        return "<OOV>"
    # constrói cache reverso simples
    rev = {v: k for k, v in cmap.items() if not k.startswith("__")}
    return rev.get(idx, "<OOV>")

# ========= Demonstração rápida (opcional) =========
demo_cols = ", ".join(CAT_COLS)
print(f"[§4] colunas categóricas configuradas: {demo_cols}")
for col in CAT_COLS:
    print(f"[§4] {col}: cardinalidade = {categorical_cardinality[col]} (OOV=0, offset={OFFSET})")

# Mantém DF_RAW na memória para próxima etapa
print("\nPróximo passo: Etapa 5 — Engenharia de Features (usando os *_int gerados aqui).")

## **Etapa 5:** Engenharia de features

In [None]:
# @title §5 — Engenharia de Features (transformação tabular para treino)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Transformar o DF_RAW em uma tabela de treino numérica, aplicando:
1. Codificação das variáveis categóricas (via vocabulário da Etapa 4)
2. Criação de variáveis numéricas derivadas
3. Combinação final das features numéricas e categóricas
4. Persistência no RUN_DIR

Pontos FIXOS:
- Carrega DF_RAW e categorical_maps da Etapa 4.
- Todas as novas colunas criadas recebem prefixos claros (feat_*).
- Cria arquivo 'features_preview.csv' para inspeção.

Pontos CALIBRÁVEIS:
- NUMERIC_BASE_COLS: colunas base a tratar como numéricas (antes de engenharia)
- FEATURE_DERIVATIONS: funções/transformações adicionais (log, z-score, etc.)
- CAT_SUFFIX: sufixo para colunas categóricas inteiras
"""

import numpy as np
import pandas as pd
import json
from pathlib import Path

assert 'DF_RAW' in globals(), "DF_RAW ausente. Execute a Etapa 3."
assert 'categorical_maps' in globals(), "Vocabulário não encontrado. Execute a Etapa 4."
assert 'RUN_DIR' in globals(), "RUN_DIR ausente. Execute a Etapa 1."

# ========= Configurações básicas =========
NUMERIC_BASE_COLS = ["valormi"]  # FIXO
CAT_SUFFIX = "_int"              # FIXO (compatível com Etapa 4)
FEATURE_DERIVATIONS = True       # CALIBRÁVEL: ativa derivadas padrão

# Copia para evitar mutação acidental
df = DF_RAW.copy()

# ========= 1) Codificação das categóricas =========
df = encode_categoricals(df, cat_cols=list(categorical_maps.keys()), maps=categorical_maps, suffix=CAT_SUFFIX)

# ========= 2) Criação de derivadas numéricas =========
if FEATURE_DERIVATIONS:
    # log1p do valor (mitiga escala e skew)
    df["feat_log_valormi"] = np.log1p(df["valormi"].abs())

    # sinal de débito/crédito (1 = débito, -1 = crédito)
    if "dc" in df.columns:
        df["feat_sign_dc"] = df["dc"].map({"d": 1, "c": -1}).fillna(0).astype(int)

    # comprimento da conta COSIF (proxy de granularidade)
    if "contacontabil" in df.columns:
        df["feat_len_conta"] = df["contacontabil"].astype(str).str.len().astype(int)

    # dia da semana e mês (sazonalidade)
    if "data_lcto" in df.columns:
        _dates = pd.to_datetime(df["data_lcto"], errors="coerce")
        df["feat_weekday"] = _dates.dt.weekday.fillna(-1).astype(int)
        df["feat_month"]   = _dates.dt.month.fillna(0).astype(int)

    # estatísticas locais por usuário (proxy de comportamento)
    if "username" in df.columns:
        user_group = df.groupby("username")["valormi"]
        df["feat_user_mean"] = df["username"].map(user_group.mean())
        df["feat_user_std"]  = df["username"].map(user_group.std().fillna(0))
        df["feat_user_cnt"]  = df["username"].map(user_group.count())
else:
    print("[§5] Derivadas numéricas desativadas por configuração.")

# ========= 3) Seleção final das colunas de treino =========
# Inclui colunas *_int e todas feat_*
feature_cols = [c for c in df.columns if c.endswith(CAT_SUFFIX) or c.startswith("feat_")]
df_features = df[feature_cols].copy()

# ========= 4) Persistência e logs =========
feat_preview_path = RUN_DIR / "features_preview.csv"
df_features.head(100).to_csv(feat_preview_path, index=False, sep=";", encoding="utf-8-sig")

# salva configuração de features
cfg = {
    "feature_cols": feature_cols,
    "n_features": len(feature_cols),
    "source_rows": len(df),
    "derivations_active": FEATURE_DERIVATIONS,
}
cfg_path = RUN_DIR / "features_config.json"
cfg_path.write_text(json.dumps(cfg, indent=2, ensure_ascii=False), encoding="utf-8")

print(f"[§5] features derivadas e categóricas criadas ({len(feature_cols)} colunas).")
print(f"[§5] prévia salva em: {feat_preview_path.name}")
print(f"[§5] config salva em: {cfg_path.name}")

# Mantém em memória para próxima etapa
FEATURE_COLS = feature_cols
DF_FEATURES = df_features

print("\nPróximo passo: Etapa 6 — limpeza, normalização e split train/val.")

## **Etapa 6:** Limpeza, normalização e split treino/validação

In [None]:
# @title §6 — Limpeza, imputação, normalização e split (train/val)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Preparar a matriz numérica para o Autoencoder:
1) Montar X a partir de DF_FEATURES/FEATURE_COLS
2) Split train/val com semente fixa
3) Imputação (mediana) treinada somente no treino
4) Normalização (StandardScaler) treinada somente no treino
5) Persistir artefatos e conjuntos prontos para a Etapa 7

Pontos FIXOS:
- Imputador = SimpleImputer(strategy="median")
- Scaler = StandardScaler()
- Artefatos em RUN_DIR (com cópias úteis no ARTIF_DIR)

Pontos CALIBRÁVEIS:
- TEST_SIZE (fração para validação)
- SHUFFLE (embaralhamento antes do split)
- RANDOM_STATE (usa SEED global por padrão)
- dtype das matrizes (float32 vs float64)
"""

import json, hashlib
from pathlib import Path
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import joblib

# --------------------------------
# Pré-requisitos e configurações
# --------------------------------
assert 'DF_FEATURES' in globals() and 'FEATURE_COLS' in globals(), "Execute a Etapa 5 antes."
assert 'RUN_DIR' in globals() and 'ARTIF_DIR' in globals(), "Execute a Etapa 1 antes."
assert isinstance(FEATURE_COLS, (list, tuple)) and len(FEATURE_COLS) > 0, "FEATURE_COLS inválido."

# CALIBRÁVEIS
TEST_SIZE     = 0.2     # fração para validação
SHUFFLE       = True
RANDOM_STATE  = SEED if 'SEED' in globals() else 42
OUTPUT_DTYPE  = np.float32  # reduzir memória e acelerar treino

# FIXOS
CSV_SEP       = ";"
CSV_ENCODING  = "utf-8-sig"

# --------------------------------
# 1) Montagem da matriz de features
# --------------------------------
df_feats = DF_FEATURES.copy()

# Garante ordem e existência das colunas
missing = [c for c in FEATURE_COLS if c not in df_feats.columns]
if missing:
    raise ValueError(f"[§6] Colunas de feature ausentes em DF_FEATURES: {missing}")

# Reordena/seleciona
df_feats = df_feats[FEATURE_COLS]

# Força numérico onde couber (apenas segurança, já devem ser numéricas)
for c in df_feats.columns:
    if not pd.api.types.is_numeric_dtype(df_feats[c]):
        df_feats[c] = pd.to_numeric(df_feats[c], errors="coerce")

# Matriz numpy
X_all = df_feats.to_numpy(dtype=np.float64, copy=True)  # usa float64 aqui para cálculos estáveis
n_rows, n_cols = X_all.shape

# --------------------------------
# 2) Split train/val
# --------------------------------
idx_all = np.arange(n_rows)
X_train, X_val, idx_train, idx_val = train_test_split(
    X_all, idx_all,
    test_size=TEST_SIZE, shuffle=SHUFFLE, random_state=RANDOM_STATE
)

# --------------------------------
# 3) Imputação (treino) e aplicação
# --------------------------------
imputer = SimpleImputer(strategy="median")
imputer.fit(X_train)  # apenas no treino
X_train_imp = imputer.transform(X_train)
X_val_imp   = imputer.transform(X_val)

# --------------------------------
# 4) Normalização (treino) e aplicação
# --------------------------------
scaler = StandardScaler(with_mean=True, with_std=True)
scaler.fit(X_train_imp)         # apenas no treino
X_train_std = scaler.transform(X_train_imp)
X_val_std   = scaler.transform(X_val_imp)

# Cast para dtype final (economia de RAM/tempo de treino)
X_train_final = X_train_std.astype(OUTPUT_DTYPE, copy=False)
X_val_final   = X_val_std.astype(OUTPUT_DTYPE, copy=False)

# --------------------------------
# 5) Persistência de artefatos/conjuntos
# --------------------------------
# 5.1. hashes e metadados das features (rastreabilidade)
def _hash_list_str(items) -> str:
    m = hashlib.sha256()
    for it in items:
        m.update(str(it).encode("utf-8"))
        m.update(b"|")
    return m.hexdigest()

features_hash = _hash_list_str(FEATURE_COLS)

meta = {
    "n_rows": int(n_rows),
    "n_cols": int(n_cols),
    "test_size": TEST_SIZE,
    "shuffle": SHUFFLE,
    "random_state": RANDOM_STATE,
    "dtype": str(OUTPUT_DTYPE),
    "features_hash": features_hash,
    "n_train": int(X_train_final.shape[0]),
    "n_val": int(X_val_final.shape[0]),
}

# 5.2. salvar conjuntos
npz_path = RUN_DIR / "dataset_npz.npz"
np.savez_compressed(
    npz_path,
    X_train=X_train_final,
    X_val=X_val_final,
    idx_train=idx_train.astype(np.int64),
    idx_val=idx_val.astype(np.int64),
)

# 5.3. salvar artefatos (imputer/scaler/feature_cols)
feat_pkl_path = RUN_DIR / "features.pkl"
joblib.dump(
    {
        "feature_cols": FEATURE_COLS,
        "features_hash": features_hash,
        "imputer": imputer,
        "scaler": scaler,
        "dtype": np.dtype(OUTPUT_DTYPE).name,
    },
    feat_pkl_path
)

# cópias úteis no artifacts/
feat_latest = ARTIF_DIR / "features_latest.pkl"
joblib.dump(
    {
        "feature_cols": FEATURE_COLS,
        "features_hash": features_hash,
        "imputer": imputer,
        "scaler": scaler,
        "dtype": str(OUTPUT_DTYPE),
    },
    feat_latest
)

# 5.4. estatísticas descritivas (para auditoria/inspeção)
def _describe_np(X: np.ndarray) -> dict:
    X64 = X.astype(np.float64, copy=False)
    return {
        "shape": list(X.shape),
        "mean": np.nanmean(X64, axis=0).tolist(),
        "std":  np.nanstd(X64,  axis=0, ddof=0).tolist(),
        "min":  np.nanmin(X64,  axis=0).tolist(),
        "p25":  np.nanpercentile(X64, 25, axis=0).tolist(),
        "p50":  np.nanpercentile(X64, 50, axis=0).tolist(),
        "p75":  np.nanpercentile(X64, 75, axis=0).tolist(),
        "max":  np.nanmax(X64,  axis=0).tolist(),
    }

desc = {
    "train": _describe_np(X_train_final),
    "val":   _describe_np(X_val_final),
    "feature_cols": FEATURE_COLS,
}
(RUN_DIR / "features_desc.json").write_text(json.dumps(desc, ensure_ascii=False), encoding="utf-8")

# --------------------------------
# 6) Relatos no console e variáveis em memória
# --------------------------------
print(f"[§6] X_all       : {X_all.shape} (antes de imputar/normalizar)")
print(f"[§6] X_train/val : {X_train_final.shape} / {X_val_final.shape}")
print(f"[§6] dtype final : {X_train_final.dtype}")
print(f"[§6] artefatos   : {feat_pkl_path.name}, {npz_path.name}, features_desc.json")
print(f"[§6] cópia útil  : artifacts/{feat_latest.name}")
print(f"[§6] features_hash = {features_hash[:16]}…")

# Mantém em memória para a Etapa 7
X_TRAIN = X_train_final
X_VAL   = X_val_final
FEATURES_HASH = features_hash

print("\nPróximo passo: Etapa 7 — Autoencoder com early stopping usando estes conjuntos.")

## **Etapa 7:** Autoencoder com early stopping

In [None]:
# @title §7 — Treinamento do Autoencoder (salva histórico, config, pesos, erros e figura)
# -*- coding: utf-8 -*-
from __future__ import annotations
import os, json, math, time, random
from pathlib import Path
from datetime import datetime

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

# ---------------------------------------------------------------------
# Pré-condições
# ---------------------------------------------------------------------
assert 'RUN_DIR' in globals(), "Defina RUN_DIR no §1."
RUN_DIR = Path(RUN_DIR)
ART_DIR = RUN_DIR / "figures"
ART_DIR.mkdir(parents=True, exist_ok=True)

DATASET_NPZ = RUN_DIR / "dataset_npz.npz"
assert DATASET_NPZ.exists(), "dataset_npz.npz não encontrado. Execute o §6."

# (Opcional) configuração existente para reaproveitar algo (não obrigatório)
MODEL_CFG_PATH = RUN_DIR / "model_config.json"

# ---------------------------------------------------------------------
# Hiperparâmetros (padrões seguros; pode ajustar livremente)
# ---------------------------------------------------------------------
SEED            = 42
BATCH_SIZE      = 512
EPOCHS          = 100
PATIENCE        = 10                   # early stopping
LR              = 1e-3
WEIGHT_DECAY    = 0.0
HIDDEN_SIZES    = [128, 64]            # encoder; decoder espelha
LATENT_DIM      = 16                   # “gargalo”
LOSS_FN         = "mse"                # ou "mae"
USE_BN          = True                 # batch norm
DROPOUT         = 0.0                  # dropout
NUM_WORKERS     = 0

# Permite sobrescrever facilmente via dicionário externo (opcional)
if 'MODEL_CFG_OVERRIDE' in globals() and isinstance(MODEL_CFG_OVERRIDE, dict):
    locals().update({k:v for k,v in MODEL_CFG_OVERRIDE.items() if k.isupper()})

# ---------------------------------------------------------------------
# Reprodutibilidade
# ---------------------------------------------------------------------
def set_seed(seed: int = 42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    # cudnn determinístico (pode reduzir performance)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

set_seed(SEED)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"[§7] Dispositivo: {device}")

# ---------------------------------------------------------------------
# Carregar dados (§6 gerou dataset_npz.npz)
#   Esperado: X_train e X_val já pré-processados/imputados/normalizados
# ---------------------------------------------------------------------
npz = np.load(DATASET_NPZ)
X_train = npz["X_train"].astype(np.float32)
X_val   = npz["X_val"].astype(np.float32)
input_dim = X_train.shape[1]
print(f"[§7] Formas: X_train={X_train.shape}, X_val={X_val.shape}")

train_ds = TensorDataset(torch.from_numpy(X_train))
val_ds   = TensorDataset(torch.from_numpy(X_val))
train_dl = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True,  num_workers=NUM_WORKERS, pin_memory=True)
val_dl   = DataLoader(val_ds,   batch_size=BATCH_SIZE, shuffle=False, num_workers=NUM_WORKERS, pin_memory=True)

# ---------------------------------------------------------------------
# Definição do modelo (MLP simétrico)
# ---------------------------------------------------------------------
class AE(nn.Module):
    def __init__(self, in_dim: int, hidden: list[int], latent: int,
                 use_bn: bool = True, dropout: float = 0.0):
        super().__init__()
        layers_enc = []
        last = in_dim
        for h in hidden:
            layers_enc += [nn.Linear(last, h)]
            if use_bn: layers_enc += [nn.BatchNorm1d(h)]
            layers_enc += [nn.ReLU(inplace=True)]
            if dropout > 0: layers_enc += [nn.Dropout(dropout)]
            last = h
        layers_enc += [nn.Linear(last, latent)]
        self.encoder = nn.Sequential(*layers_enc)

        # decoder espelha
        layers_dec = []
        last = latent
        for h in reversed(hidden):
            layers_dec += [nn.Linear(last, h)]
            if use_bn: layers_dec += [nn.BatchNorm1d(h)]
            layers_dec += [nn.ReLU(inplace=True)]
            if dropout > 0: layers_dec += [nn.Dropout(dropout)]
            last = h
        layers_dec += [nn.Linear(last, in_dim)]
        self.decoder = nn.Sequential(*layers_dec)

    def forward(self, x):
        z = self.encoder(x)
        xr = self.decoder(z)
        return xr

model = AE(input_dim, HIDDEN_SIZES, LATENT_DIM, USE_BN, DROPOUT).to(device)

# Perda e otimizador
criterion = nn.MSELoss(reduction="mean") if LOSS_FN.lower() == "mse" else nn.L1Loss(reduction="mean")
optimizer = torch.optim.Adam(model.parameters(), lr=LR, weight_decay=WEIGHT_DECAY)

# ---------------------------------------------------------------------
# Loop de treinamento com Early Stopping
# ---------------------------------------------------------------------
history = {"epoch": [], "train_loss": [], "val_loss": []}
best_val = float("inf")
best_epoch = -1
pat_left = PATIENCE

for epoch in range(EPOCHS):
    # treino
    model.train()
    tr_loss_sum, tr_count = 0.0, 0
    for (xb,) in train_dl:
        xb = xb.to(device, non_blocking=True)
        optimizer.zero_grad(set_to_none=True)
        xr = model(xb)
        loss = criterion(xr, xb)
        loss.backward()
        optimizer.step()
        bs = xb.size(0)
        tr_loss_sum += loss.item() * bs
        tr_count += bs
    train_loss = tr_loss_sum / max(tr_count, 1)

    # validação
    model.eval()
    va_loss_sum, va_count = 0.0, 0
    with torch.no_grad():
        for (xb,) in val_dl:
            xb = xb.to(device, non_blocking=True)
            xr = model(xb)
            loss = criterion(xr, xb)
            bs = xb.size(0)
            va_loss_sum += loss.item() * bs
            va_count += bs
    val_loss = va_loss_sum / max(va_count, 1)

    # log
    history["epoch"].append(epoch)
    history["train_loss"].append(train_loss)
    history["val_loss"].append(val_loss)

    print(f"[§7] Época {epoch:03d} | train_loss={train_loss:.6f} | val_loss={val_loss:.6f}")

    # early stopping
    if val_loss + 1e-12 < best_val:
        best_val = val_loss
        best_epoch = epoch
        pat_left = PATIENCE
        # checkpoint de pesos
        torch.save(model.state_dict(), RUN_DIR / "ae.pt")
    else:
        pat_left -= 1
        if pat_left <= 0:
            print(f"[§7] Early stopping em epoch {epoch} (best_epoch={best_epoch}, best_val={best_val:.6f})")
            break

# ---------------------------------------------------------------------
# Salvar histórico
# ---------------------------------------------------------------------
hist_df = pd.DataFrame(history)
hist_csv = RUN_DIR / "training_history.csv"
hist_df.to_csv(hist_csv, index=False)
print(f"[§7] Salvo: {hist_csv}")

# ---------------------------------------------------------------------
# Salvar figura da curva de treino/validação
# ---------------------------------------------------------------------
plt.figure(figsize=(8,4.6))
plt.plot(hist_df["epoch"], hist_df["train_loss"], label="Treino")
plt.plot(hist_df["epoch"], hist_df["val_loss"],   label="Validação")
plt.title("Curva de treinamento do Autoencoder")
plt.xlabel("Época")
plt.ylabel("Erro médio (loss)")
plt.legend()
plt.grid(alpha=0.2)
curve_png = ART_DIR / "training_curve.png"
plt.tight_layout()
plt.savefig(curve_png, dpi=150, bbox_inches="tight")
plt.close()
print(f"[§7] Salvo: {curve_png}")

# ---------------------------------------------------------------------
# Recarregar o melhor checkpoint e salvar erros de reconstrução (validação)
# ---------------------------------------------------------------------
# Garante que os pesos salvos são os do melhor val_loss
if (RUN_DIR / "ae.pt").exists():
    model.load_state_dict(torch.load(RUN_DIR / "ae.pt", map_location=device))
    model.eval()

# Erros por linha em X_val (MSE por amostra)
val_tensor = torch.from_numpy(X_val).to(device)
with torch.no_grad():
    xr_val = model(val_tensor).cpu().numpy()
val_err = ((X_val - xr_val)**2).mean(axis=1).astype(np.float32)
recon_err_val_path = RUN_DIR / "reconstruction_errors_val.npy"
np.save(recon_err_val_path, val_err)
print(f"[§7] Salvo: {recon_err_val_path} (shape={val_err.shape})")

# ---------------------------------------------------------------------
# Salvar configuração do modelo/treino
# ---------------------------------------------------------------------
model_config = {
    "created_at": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "device": str(device),
    "input_dim": int(input_dim),
    "hidden_sizes": list(map(int, HIDDEN_SIZES)),
    "latent_dim": int(LATENT_DIM),
    "use_batchnorm": bool(USE_BN),
    "dropout": float(DROPOUT),
    "loss_fn": LOSS_FN.lower(),
    "optimizer": "Adam",
    "lr": float(LR),
    "weight_decay": float(WEIGHT_DECAY),
    "batch_size": int(BATCH_SIZE),
    "epochs_requested": int(EPOCHS),
    "early_stopping_patience": int(PATIENCE),
    "best_epoch": int(best_epoch),
    "best_val_loss": float(best_val) if math.isfinite(best_val) else None,
}
MODEL_CFG_PATH.write_text(json.dumps(model_config, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"[§7] Salvo: {MODEL_CFG_PATH}")

print("[§7] TREINAMENTO CONCLUÍDO.")

## **Etapa 8:** Pontuação (geração de scores)

In [None]:
# @title §8 — Pontuação (seleção de CSV em prerun/ e geração de scores)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
1) Carregar artefatos de treino (features.pkl, categorical_maps.json, ae.pt, model_config.json).
2) Selecionar CSV pré-processado em PRERUN_DIR para pontuar.
3) Reaplicar engenharia de features (Etapa 5) com o mesmo vocabulário.
4) Imputar + escalar (artefatos da Etapa 6).
5) Inferir com o Autoencoder e calcular erro de reconstrução por linha.
6) Salvar scores em runs/<RUN_ID>/scores.csv (inclui 'score' e 'recon_error'), e sumário.

Entradas necessárias
--------------------
- RUN_DIR (Etapa 1), PRERUN_DIR (Etapa 1)
- encode_categoricals (Etapa 4)
- Mesmas derivadas da Etapa 5 (log1p, sinal, len, data, stats por user)

Saídas
------
- runs/<RUN_ID>/scores.csv                (colunas de contexto + score=recon_error)
- runs/<RUN_ID>/score_stats.json          (sumário)
- runs/<RUN_ID>/reconstruction_errors_score.npy  (vetor com score)
- runs/<RUN_ID>/selected_source.csv       (snapshot do CSV pontuado)
"""

import json, re, os
import numpy as np
import pandas as pd
from pathlib import Path
from datetime import datetime

# ---------- pré-checagens ----------
assert 'RUN_DIR' in globals() and 'PRERUN_DIR' in globals(), "Execute Etapas 1–7 antes."
assert 'encode_categoricals' in globals(), "Função 'encode_categoricals' ausente (rode Etapa 4)."

RUN_DIR   = Path(RUN_DIR)
PRERUN_DIR = Path(PRERUN_DIR)
RUN_DIR.mkdir(parents=True, exist_ok=True)

# Artefatos obrigatórios (Etapas 6–7)
feat_path     = RUN_DIR / "features.pkl"
maps_run_path = RUN_DIR / "categorical_maps.json"
model_path    = RUN_DIR / "ae.pt"
model_cfg     = RUN_DIR / "model_config.json"

missing = [p.name for p in [feat_path, model_path, model_cfg] if not p.exists()]
if missing:
    raise FileNotFoundError(f"Artefatos ausentes: {missing}. Garanta que as Etapas 6 e 7 foram executadas.")

# (opcional) mapas em ARTIF_DIR, apenas se existir
maps_art_path = None
if 'ARTIF_DIR' in globals():
    maps_art_path = Path(ARTIF_DIR) / "categorical_maps_latest.json"

# ---------- carregar artefatos ----------
import joblib
feat_bundle = joblib.load(feat_path)  # dict: feature_cols, features_hash, imputer, scaler, dtype
FEATURE_COLS_SAVED = feat_bundle["feature_cols"]
IMPUTER = feat_bundle["imputer"]
SCALER = feat_bundle["scaler"]

def _parse_dtype(raw):
    import numpy as np
    if isinstance(raw, np.dtype): return raw
    if isinstance(raw, type):
        try: return np.dtype(raw)
        except Exception: pass
    if isinstance(raw, str):
        try: return np.dtype(raw)
        except Exception:
            low = raw.lower()
            for key in ("float32","float64","float16","int64","int32","int16","int8","uint8","bool"):
                if key in low: return np.dtype(key)
    return np.dtype("float32")

DTYPE_OUT = _parse_dtype(feat_bundle.get("dtype", "float32"))

# Vocabulário categórico
if maps_run_path.exists():
    categorical_maps_scoring = json.loads(maps_run_path.read_text(encoding="utf-8"))
elif maps_art_path is not None and maps_art_path.exists():
    categorical_maps_scoring = json.loads(maps_art_path.read_text(encoding="utf-8"))
else:
    raise FileNotFoundError("Mapas categóricos não encontrados (rode Etapa 4).")

# ---------- Modelo (alinha com §7: Linear -> [BN] -> ReLU -> [Dropout]) ----------
import torch
import torch.nn as nn

cfg = json.loads(model_cfg.read_text(encoding="utf-8"))

def _cfg_get(keys, default=None):
    for k in keys:
        if k in cfg: return cfg[k]
    return default

# Dimensão deve vir do treino; se houver divergência, preferimos as features salvas no §6
INPUT_DIM_CFG  = int(_cfg_get(["input_dim"], len(FEATURE_COLS_SAVED)))
INPUT_DIM_DATA = int(len(FEATURE_COLS_SAVED))
if INPUT_DIM_CFG != INPUT_DIM_DATA:
    print(f"[§8] Aviso: input_dim do modelo ({INPUT_DIM_CFG}) difere do #features carregadas ({INPUT_DIM_DATA}). Usando {INPUT_DIM_DATA}.")
INPUT_DIM = INPUT_DIM_DATA

HIDDEN_LIST = list(_cfg_get(["hidden_dims","hidden_sizes"], []))
BOTTLENECK  = int(_cfg_get(["bottleneck","latent_dim"], 16))
DROPOUT_P   = float(_cfg_get(["dropout_p","dropout"], 0.0))
USE_BN      = bool(_cfg_get(["use_batchnorm","use_bn"], False))

class AE_Aligned(nn.Module):
    def __init__(self, in_dim: int, hidden: list[int], latent: int,
                 use_bn: bool = True, dropout: float = 0.0):
        super().__init__()
        enc = []
        last = in_dim
        for h in hidden:
            enc += [nn.Linear(last, h)]
            if use_bn: enc += [nn.BatchNorm1d(h)]
            enc += [nn.ReLU(inplace=True)]
            if dropout > 0: enc += [nn.Dropout(dropout)]
            last = h
        enc += [nn.Linear(last, latent)]
        self.encoder = nn.Sequential(*enc)

        dec = []
        last = latent
        for h in reversed(hidden):
            dec += [nn.Linear(last, h)]
            if use_bn: dec += [nn.BatchNorm1d(h)]
            dec += [nn.ReLU(inplace=True)]
            if dropout > 0: dec += [nn.Dropout(dropout)]
            last = h
        dec += [nn.Linear(last, in_dim)]
        self.decoder = nn.Sequential(*dec)

    def forward(self, x):
        z = self.encoder(x)
        xr = self.decoder(z)
        return xr, z

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
model = AE_Aligned(INPUT_DIM, HIDDEN_LIST, BOTTLENECK, USE_BN, DROPOUT_P).to(DEVICE)

# Tentativa de carregar com strict=True (esperado); se falhar, tenta strict=False e avisa.
state = torch.load(model_path, map_location=DEVICE)
try:
    missing, unexpected = model.load_state_dict(state, strict=True)
    # para PyTorch >= 2.0, load_state_dict não retorna tupla; então não faremos nada aqui
except RuntimeError as e:
    print("[§8] Aviso: strict=True falhou ao carregar pesos. Tentando strict=False…")
    model.load_state_dict(state, strict=False)

model.eval()

# ---------- helpers: mesmas derivadas da Etapa 5 ----------
CAT_SUFFIX = "_int"

def _engineer_features_for_scoring(df_in: pd.DataFrame) -> pd.DataFrame:
    """Replica a engenharia da Etapa 5 para garantir o mesmo contrato de features."""
    df = df_in.copy()

    # codificação categórica com o vocabulário CONGELADO
    df = encode_categoricals(
        df,
        cat_cols=list(categorical_maps_scoring.keys()),
        maps=categorical_maps_scoring,
        suffix=CAT_SUFFIX
    )

    # derivadas numéricas (idem Etapa 5)
    df["feat_log_valormi"] = np.log1p(df["valormi"].abs())

    if "dc" in df.columns:
        df["feat_sign_dc"] = df["dc"].map({"d": 1, "c": -1}).fillna(0).astype(int)

    if "contacontabil" in df.columns:
        df["feat_len_conta"] = df["contacontabil"].astype(str).str.len().astype(int)

    if "data_lcto" in df.columns:
        _dates = pd.to_datetime(df["data_lcto"], errors="coerce")
        df["feat_weekday"] = _dates.dt.weekday.fillna(-1).astype(int)
        df["feat_month"]   = _dates.dt.month.fillna(0).astype(int)

    if "username" in df.columns:
        # estatísticas por usuário (usando o lote corrente; mesmo comportamento da Etapa 5)
        user_group = df.groupby("username")["valormi"]
        df["feat_user_mean"] = df["username"].map(user_group.mean())
        df["feat_user_std"]  = df["username"].map(user_group.std().fillna(0))
        df["feat_user_cnt"]  = df["username"].map(user_group.count())

    return df

# ---------- seleção de arquivo em prerun/ (explícita, com filtro e confirmação) ----------
def _human_size(b: int) -> str:
    for unit in ["B","KB","MB","GB","TB"]:
        if b < 1024: return f"{b:.1f}{unit}"
        b /= 1024
    return f"{b:.1f}PB"

pr_list_all = sorted(PRERUN_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
if not pr_list_all:
    raise FileNotFoundError("Nenhum CSV encontrado em prerun/. Rode a Etapa 2.")

def _mostrar(lista):
    print("\n[§8] CSVs em prerun/:")
    for i, p in enumerate(lista):
        ts = datetime.fromtimestamp(p.stat().st_mtime).strftime("%Y-%m-%d %H:%M:%S")
        print(f"[{i:03d}] {p.name:60s}  { _human_size(p.stat().st_size):>8s}  mtime={ts}")

while True:
    _mostrar(pr_list_all)
    termo = input("\n(Filtro opcional) termo no nome do arquivo, ou Enter para todos: ").strip()
    if termo:
        pr_list = [p for p in pr_list_all if termo.lower() in p.name.lower()]
        if not pr_list:
            print("Nenhum arquivo corresponde ao filtro. Tente novamente.")
            continue
    else:
        pr_list = pr_list_all

    _mostrar(pr_list)
    raw = input("\nDigite o ÍNDICE do CSV para PONTUAÇÃO (ou 'x' para refiltrar): ").strip().lower()
    if raw == "x":
        continue
    try:
        idx = int(raw)
        assert 0 <= idx < len(pr_list)
    except Exception:
        print("Índice inválido. Tente novamente.")
        continue

    selecionado = pr_list[idx]
    print(f"\nSelecionado: {selecionado.name}")
    ok = input("Confirma este arquivo para pontuação? (s/n): ").strip().lower()
    if ok == "s":
        SCORE_CSV = selecionado
        break
    else:
        print("Seleção cancelada. Reiniciando…")

print(f"[§8] Arquivo confirmado: {SCORE_CSV.name}")

# ---------- carregamento e normalizações mínimas ----------
CSV_SEP, CSV_ENCODING = ";", "utf-8-sig"

def _to_float(v):
    if v is None: return np.nan
    s = str(v).strip()
    if s == "": return np.nan
    if "," in s: s = s.replace(".", "").replace(",", ".")
    s = s.replace(" ", "")
    try: return float(s)
    except Exception: return np.nan

df_raw = pd.read_csv(SCORE_CSV, sep=CSV_SEP, encoding=CSV_ENCODING, dtype=str)
df_raw.columns = [c.strip().lower() for c in df_raw.columns]
df_raw = df_raw.apply(lambda col: col.str.strip() if col.dtype == object else col)

# Contrato mínimo (mesmo da ingestão)
req_cols = ["username","lotacao","data_lcto","valormi","dc","contacontabil"]
falt = [c for c in req_cols if c not in df_raw.columns]
if falt:
    raise ValueError(f"Colunas obrigatórias ausentes em {SCORE_CSV.name}: {falt}")

df_raw["valormi"] = df_raw["valormi"].map(_to_float).astype(float)
df_raw["dc"] = df_raw["dc"].astype(str).str.lower().str.strip()
df_raw["contacontabil"] = df_raw["contacontabil"].astype(str).str.replace(r"\D+","", regex=True)

# ---------- engenharia de features (idêntica à Etapa 5) ----------
df_feats = _engineer_features_for_scoring(df_raw)

# Garante ordem/contrato das features exatamente como salvas no treino
missing_feats = [c for c in FEATURE_COLS_SAVED if c not in df_feats.columns]
if missing_feats:
    raise ValueError(f"As seguintes features esperadas não existem no arquivo: {missing_feats}")

X_score = df_feats[FEATURE_COLS_SAVED].copy()

# Coerção numérica
for c in X_score.columns:
    if not pd.api.types.is_numeric_dtype(X_score[c]):
        X_score[c] = pd.to_numeric(X_score[c], errors="coerce")

X_score_np = X_score.to_numpy(dtype=np.float64, copy=True)

# ---------- imputar + escalar com artefatos do treino ----------
X_imp = IMPUTER.transform(X_score_np)
X_std = SCALER.transform(X_imp)
X_std = X_std.astype(DTYPE_OUT, copy=False)

# ---------- inferência ----------
with torch.no_grad():
    xb = torch.tensor(X_std, dtype=torch.float32, device=DEVICE)
    batch = 16384
    errs = []
    for i in range(0, xb.shape[0], batch):
        x_chunk = xb[i:i+batch]
        xh, _ = model(x_chunk)
        err = torch.mean((xh - x_chunk) ** 2, dim=1).detach().cpu().numpy()
        errs.append(err)
    recon_error = np.concatenate(errs, axis=0)

# ---------- salvar scores e artefatos leves ----------
scores_df = df_raw.copy()
scores_df.insert(0, "score", recon_error.astype(np.float64))
scores_df.insert(1, "recon_error", recon_error.astype(np.float64))  # duplicado para compatibilidade

scores_path = RUN_DIR / "scores.csv"
scores_df.to_csv(scores_path, index=False, sep=";", encoding="utf-8-sig")
print(f"[§8] Salvo: {scores_path.name}")

# vetor com erros (para gráficos/relatórios)
np.save(RUN_DIR / "reconstruction_errors_score.npy", recon_error.astype(np.float32))
print("[§8] Salvo: reconstruction_errors_score.npy")

# snapshot do CSV pontuado (para §12 exibir caminho/arquivo)
try:
    (RUN_DIR / "selected_source.csv").write_bytes(SCORE_CSV.read_bytes())
    print("[§8] Salvo: selected_source.csv (snapshot do arquivo pontuado)")
except Exception as e:
    print(f"[§8] Aviso: não foi possível salvar selected_source.csv: {e}")

# Sumário dos scores
score_stats = {
    "count": int(recon_error.shape[0]),
    "mean": float(np.mean(recon_error)),
    "std": float(np.std(recon_error)),
    "min": float(np.min(recon_error)),
    "p50": float(np.percentile(recon_error, 50)),
    "p95": float(np.percentile(recon_error, 95)),
    "p99": float(np.percentile(recon_error, 99)),
    "max": float(np.max(recon_error)),
}
(RUN_DIR / "score_stats.json").write_text(json.dumps(score_stats, ensure_ascii=False, indent=2), encoding="utf-8")
print("[§8] Salvo: score_stats.json")

print("\n[§8] Pontuação concluída.")
print("Próximo passo: §9 — Calibração (threshold por budget/meta/custo) e metas.")

## **Etapa 9:** Calibração de threshold

In [None]:
# @title §9 — Calibração de Threshold e Metas (budget | meta | costmin)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
Definir o threshold do score (erro de reconstrução) que será usado para marcar alertas:
- Modo 'budget' : taxa de alerta alvo (quantil sobre a distribuição de validação)
- Modo 'meta'   : número absoluto de alertas no LOTE ATUAL (usa distribuição atual)
- Modo 'costmin': minimiza custo proxy com (c_fp, c_fn, prevalência esperada p)

Entradas
--------
- RUN_DIR/reconstruction_errors_val.npy  (Etapa 7)
- RUN_DIR/scores.csv                     (Etapa 8)  -> coluna 'score'

Saídas
------
- RUN_DIR/threshold.json                 (modo, parâmetros, threshold, KS/PSI, taxas)
- RUN_DIR/figures/drift_hist.png         (histograma val vs atual)   [NOVO]
- RUN_DIR/scores_summary.json            (n_alerts, alert_rate, threshold, modo)   [NOVO]
- Impressão de resumo para conferência

Notas
-----
- KS e PSI são calculados entre a distribuição de VALIDAÇÃO (baseline) e o LOTE ATUAL.
- Para 'budget', o threshold é o quantil de validação: q = 1 - ALERT_RATE.
- Para 'meta', o threshold é o quantil do lote atual tal que N_alertas = alvo.
- Para 'costmin' (proxy, sem rótulos): busca thresholds por quantis do lote atual
  minimizando: C = c_fp * rate_alerts + c_fn * max(0, p - rate_alerts).
"""

import json, math
from pathlib import Path
from datetime import datetime

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

assert 'RUN_DIR' in globals(), "Execute a Etapa 1 para definir RUN_DIR."
val_err_path = Path(RUN_DIR) / "reconstruction_errors_val.npy"
scores_path  = Path(RUN_DIR) / "scores.csv"
assert val_err_path.exists(), "Arquivo de validação ausente (reconstruction_errors_val.npy). Rode as Etapas 6–7."
assert scores_path.exists(),  "scores.csv ausente. Rode a Etapa 8."

# ---------- carregar dados ----------
val_err = np.load(val_err_path)          # distribuição baseline (validação)
df_sc   = pd.read_csv(scores_path, sep=";", encoding="utf-8-sig")
assert "score" in df_sc.columns, "scores.csv não possui coluna 'score'."
scores  = df_sc["score"].to_numpy(dtype=float)

# ---------- métricas de drift (KS e PSI) ----------
def ks_stat(a: np.ndarray, b: np.ndarray) -> float:
    a = a[~np.isnan(a)]
    b = b[~np.isnan(b)]
    if a.size == 0 or b.size == 0:
        return float("nan")
    xa = np.sort(a)
    xb = np.sort(b)
    grid = np.unique(np.concatenate([xa, xb], axis=0))
    def _ecdf(x, g):
        return np.searchsorted(x, g, side="right") / x.size
    Fa = np.array([_ecdf(xa, g) for g in grid], dtype=float)
    Fb = np.array([_ecdf(xb, g) for g in grid], dtype=float)
    return float(np.max(np.abs(Fa - Fb)))

def psi_stat(expected: np.ndarray, actual: np.ndarray, bins: int = 20) -> float:
    e = expected[~np.isnan(expected)]
    a = actual[~np.isnan(actual)]
    if e.size == 0 or a.size == 0:
        return float("nan")
    qs = np.linspace(0, 1, bins + 1)
    cuts = np.quantile(e, qs)
    cuts = np.unique(cuts)
    if cuts.size < 3:
        return 0.0
    e_hist, _ = np.histogram(e, bins=cuts)
    a_hist, _ = np.histogram(a, bins=cuts)
    e_prop = np.clip(e_hist / max(e_hist.sum(), 1), 1e-8, 1.0)
    a_prop = np.clip(a_hist / max(a_hist.sum(), 1), 1e-8, 1.0)
    psi = np.sum((a_prop - e_prop) * np.log(a_prop / e_prop))
    return float(psi)

KS  = ks_stat(val_err, scores)
PSI = psi_stat(val_err, scores, bins=20)

print(f"[§9] KS(val vs atual) = {KS:.4f} | PSI = {PSI:.4f}")

# ---------- modos de calibração ----------
def calib_budget(val_err: np.ndarray, alert_rate: float) -> dict:
    alert_rate = float(alert_rate)
    alert_rate = min(max(alert_rate, 1e-6), 0.99)
    thr = float(np.quantile(val_err, 1.0 - alert_rate))
    rate_val = float((val_err >= thr).mean())
    return {"threshold": thr, "rate_val_expected": rate_val, "params": {"mode":"budget","alert_rate": alert_rate}}

def calib_meta_current(scores: np.ndarray, n_alerts: int) -> dict:
    n_alerts = int(max(0, n_alerts))
    n = scores.size
    if n_alerts <= 0:
        thr = float(np.inf)
    elif n_alerts >= n:
        thr = float(-np.inf)
    else:
        s = np.sort(scores)[::-1]
        thr = float(s[n_alerts - 1])
    rate_curr = float((scores >= thr).mean())
    return {"threshold": thr, "rate_current": rate_curr, "params": {"mode":"meta","n_alerts": n_alerts, "n_rows": n}}

def calib_costmin_proxy(scores: np.ndarray, c_fp: float, c_fn: float, prevalence: float) -> dict:
    c_fp = float(max(c_fp, 0.0))
    c_fn = float(max(c_fn, 0.0))
    p = float(min(max(prevalence, 0.0), 1.0))
    if scores.size == 0:
        return {"threshold": float("nan"), "rate_current": float("nan"),
                "params": {"mode":"costmin","c_fp": c_fp, "c_fn": c_fn, "prevalence": p}}
    qs = np.linspace(0.0, 1.0, 1001)
    thrs = np.quantile(scores, 1.0 - qs)
    s_sorted = np.sort(scores)
    n = s_sorted.size
    best = None; best_thr = None; best_rate = None
    for thr in thrs:
        idx = np.searchsorted(s_sorted, thr, side="left")
        rate = (n - idx) / n
        cost = c_fp * rate + c_fn * max(0.0, p - rate)
        if (best is None) or (cost < best):
            best, best_thr, best_rate = cost, float(thr), float(rate)
    return {"threshold": best_thr, "rate_current": best_rate,
            "params": {"mode":"costmin","c_fp": c_fp, "c_fn": c_fn, "prevalence": p, "grid": "q=0..1 step 0.001"}}

# ---------- interação com o usuário ----------
print("\nSelecione o MODO de threshold:")
print("  [1] budget  — Threshold por taxa de alerta alvo (ALERT_RATE, ex.: 0.03)")
print("  [2] meta    — Threshold por número de alertas desejado no lote atual (N_ALERTS)")
print("  [3] costmin — Threshold por custo proxy mínimo (c_fp, c_fn, prevalência p)")
mode_raw = input("Digite o índice do modo [1-3]: ").strip()

if mode_raw == "1":
    a_raw = input("ALERT_RATE (fração, ex.: 0.03) [default=0.03]: ").strip()
    ALERT_RATE = float(a_raw) if a_raw else 0.03
    result = calib_budget(val_err, ALERT_RATE)
    MODE = "budget"

elif mode_raw == "2":
    default_n = max(1, int(0.02 * scores.size))
    n_raw = input(f"N_ALERTS (inteiro, 0..{scores.size}) [default={default_n}]: ").strip()
    N_ALERTS = int(n_raw) if n_raw else default_n
    result = calib_meta_current(scores, N_ALERTS)
    MODE = "meta"

elif mode_raw == "3":
    cfp_raw = input("c_fp (custo do falso positivo) [default=1.0]: ").strip()
    cfn_raw = input("c_fn (custo do falso negativo) [default=5.0]: ").strip()
    p_raw   = input("prevalência esperada p (0..1) [default=0.01]: ").strip()
    c_fp = float(cfp_raw) if cfp_raw else 1.0
    c_fn = float(cfn_raw) if cfn_raw else 5.0
    p    = float(p_raw)   if p_raw   else 0.01
    result = calib_costmin_proxy(scores, c_fp, c_fn, p)
    MODE = "costmin"

else:
    print("Entrada inválida. Usando modo [1] budget com ALERT_RATE=0.03 por padrão.")
    ALERT_RATE = 0.03
    result = calib_budget(val_err, ALERT_RATE)
    MODE = "budget"

THRESHOLD = float(result["threshold"])

# taxas estimadas (validação e lote atual)
rate_val     = float((val_err >= THRESHOLD).mean())
rate_current = float((scores  >= THRESHOLD).mean())

# ---------- salvar threshold.json (mantendo compatibilidade) ----------
summary = {
    "mode": MODE,
    "threshold": THRESHOLD,
    "ks_val_vs_current": KS,
    "psi_val_vs_current": PSI,
    "rate_val_expected": rate_val,
    "rate_current_estimated": rate_current,
    "mode_config": result.get("params", {}),   # <— ajuda o §12 a descrever o método
    "drift": {"ks_stat": KS, "psi": PSI},      # <— bloco amigável para leitura posterior
    "inputs": {
        "val_err_path": str(val_err_path),
        "scores_path": str(scores_path),
        "n_val": int(val_err.shape[0]),
        "n_current": int(scores.shape[0]),
    },
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
out_path = Path(RUN_DIR) / "threshold.json"
out_path.write_text(json.dumps(summary, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"[§9] threshold.json salvo em: {out_path.name}")

# ---------- salvar figura de comparação das distribuições (drift_hist.png) ----------
fig_dir = Path(RUN_DIR) / "figures"
fig_dir.mkdir(parents=True, exist_ok=True)
plt.figure(figsize=(8,4.6))
plt.hist(val_err, bins=50, alpha=0.5, label="Validação", density=True)
plt.hist(scores,  bins=50, alpha=0.5, label="Lote atual", density=True)
plt.axvline(THRESHOLD, color="k", linestyle="--", linewidth=1.2, label=f"Threshold = {THRESHOLD:.5f}")
plt.title("Comparação de distribuições de erro (validação vs lote atual)")
plt.xlabel("Erro de reconstrução")
plt.ylabel("Densidade")
plt.legend()
plt.tight_layout()
drift_png = fig_dir / "drift_hist.png"
plt.savefig(drift_png, dpi=150, bbox_inches="tight")
plt.close()
print(f"[§9] Figura salva: {drift_png.name}")

# ---------- salvar scores_summary.json (não altera scores.csv; §10 materializa 'alert') ----------
n_alerts = int((scores >= THRESHOLD).sum())
scores_summary = {
    "n_linhas": int(scores.shape[0]),
    "n_alerts": n_alerts,
    "alert_rate": float(n_alerts / max(scores.shape[0], 1)),
    "threshold": THRESHOLD,
    "mode": MODE,
    "mode_config": result.get("params", {}),
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
(Path(RUN_DIR) / "scores_summary.json").write_text(json.dumps(scores_summary, ensure_ascii=False, indent=2), encoding="utf-8")
print("[§9] scores_summary.json salvo.")

print("\n[§9] Calibração concluída.")
print(f"[§9] threshold = {THRESHOLD:.6f}")
print(f"[§9] taxas: val={rate_val:.4%}  |  atual={rate_current:.4%}")
print(f"[§9] KS={KS:.4f}  PSI={PSI:.4f}")
print("Próximo passo: §10 — materializar alerts no scores.csv usando este threshold.")

## **Etapa 10:** Marcação dos alertas de anomalia no arquivo de output

In [None]:
# @title §10 — Aplicar threshold e gerar scores com ALERT (auditoria pronta)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
1) Ler RUN_DIR/scores.csv (Etapa 8) e RUN_DIR/threshold.json (Etapa 9).
2) Aplicar threshold → coluna 'alert' (0/1).
3) Gerar ranking estável por 'score' (desc) e metadados de auditoria.
4) Salvar:
   - runs/<RUN_ID>/scores_alerts.csv         (dataset completo com alert=0/1)
   - runs/<RUN_ID>/scores_alerts_top1000.csv (amostra priorizada)
   - runs/<RUN_ID>/alerts_summary.json       (sumário de métricas)
   - runs/<RUN_ID>/alerts_by_username.csv    (agregação útil para triagem, se houver 'username')
   - runs/<RUN_ID>/alerts_top100.csv         (TOP 100 alertas, p/ relatório §12)   [NOVO]
   - runs/<RUN_ID>/scores_summary.json       (n_alerts/alert_rate/threshold/mode)  [NOVO]

Pontos FIXOS:
- Separador ';' e encoding 'utf-8-sig'
- Ordenação estável (mergesort) por score desc para ranking
- Colunas de metadados adicionadas: threshold_used, mode, ks, psi, rank_desc

Pontos CALIBRÁVEIS:
- TOP_K exportado (por padrão 1000)
- Colunas de contexto extra no início do CSV final (ORDER_FRONT)
"""

import json
from pathlib import Path
from datetime import datetime
import numpy as np
import pandas as pd

# -------- Pré-checagens --------
assert 'RUN_DIR' in globals(), "Execute a Etapa 1 antes (RUN_DIR)."
run_dir = Path(RUN_DIR)
scores_path = run_dir / "scores.csv"
th_path     = run_dir / "threshold.json"
assert scores_path.exists(),  "scores.csv ausente (rode a Etapa 8)."
assert th_path.exists(),      "threshold.json ausente (rode a Etapa 9)."

# -------- Carregar dados --------
CSV_SEP, CSV_ENC = ";", "utf-8-sig"
df = pd.read_csv(scores_path, sep=CSV_SEP, encoding=CSV_ENC, dtype=str)

# garante colunas base
assert "score" in df.columns, "scores.csv precisa ter coluna 'score'."
# preserva uma cópia do índice original (útil p/ rastreio)
df.insert(0, "_rowid", np.arange(len(df), dtype=np.int64))

# coerção numérica do score
df["score"] = pd.to_numeric(df["score"], errors="coerce").astype(float)

# -------- Ler threshold e metadados --------
cfg = json.loads(th_path.read_text(encoding="utf-8"))
THRESHOLD = float(cfg["threshold"])
MODE      = cfg.get("mode", "?")
KS        = float(cfg.get("ks_val_vs_current", np.nan))
PSI       = float(cfg.get("psi_val_vs_current", np.nan))

# -------- Aplicar threshold → alert --------
df["alert"] = (df["score"] >= THRESHOLD).astype("int8")
rate_current = float(df["alert"].mean())

# -------- Ordenação estável por score desc (ranking) --------
# mergesort é estável → se empatar score, mantém a ordem original (_rowid)
df_sorted = df.sort_values(by=["score", "_rowid"], ascending=[False, True], kind="mergesort").copy()
df_sorted.insert(1, "rank_desc", np.arange(1, len(df_sorted) + 1, dtype=np.int64))

# -------- Metadados úteis --------
df_sorted.insert(2, "threshold_used", THRESHOLD)
df_sorted.insert(3, "mode", MODE)
df_sorted.insert(4, "ks_val_vs_current", KS)
df_sorted.insert(5, "psi_val_vs_current", PSI)

# -------- Reorganizar colunas (frente com contexto) --------
ORDER_FRONT = [
    "alert", "rank_desc", "score", "threshold_used", "mode",
    "ks_val_vs_current", "psi_val_vs_current",
    "_rowid",
]
cols_final = ORDER_FRONT + [c for c in df_sorted.columns if c not in ORDER_FRONT]
df_final = df_sorted[cols_final].copy()

# -------- Salvar saídas principais --------
out_full = run_dir / "scores_alerts.csv"
out_topk = run_dir / "scores_alerts_top1000.csv"
TOP_K = 1000  # CALIBRÁVEL

df_final.to_csv(out_full, index=False, sep=CSV_SEP, encoding=CSV_ENC)
df_final.head(TOP_K).to_csv(out_topk, index=False, sep=CSV_SEP, encoding=CSV_ENC)

# -------- Agregação por usuário (se existir coluna 'username') --------
if "username" in df_final.columns:
    by_user = (
        df_final.groupby("username", dropna=False)
                .agg(alerts=("alert", "sum"),
                     total=("alert", "count"),
                     pct_alerts=("alert", "mean"),
                     max_score=("score", "max"))
                .reset_index()
                .sort_values(["alerts","max_score"], ascending=[False, False])
    )
    by_user["pct_alerts"] = (by_user["pct_alerts"] * 100).round(2)
    out_by_user = run_dir / "alerts_by_username.csv"
    by_user.to_csv(out_by_user, index=False, sep=CSV_SEP, encoding=CSV_ENC)
    print(f"[§10] salvo: {out_by_user.name}")
else:
    print("[§10] coluna 'username' ausente — pulando alerts_by_username.csv")

# -------- Top 100 alertas (p/ relatório §12) — NOVO --------
top100 = df_final[df_final["alert"] == 1].copy()
top100 = top100.sort_values(by=["score", "_rowid"], ascending=[False, True], kind="mergesort").head(100)
out_top100 = run_dir / "alerts_top100.csv"
top100.to_csv(out_top100, index=False, sep=CSV_SEP, encoding=CSV_ENC)
print(f"[§10] salvo: {out_top100.name}")

# -------- Sumários --------
summary = {
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "threshold": THRESHOLD,
    "mode": MODE,
    "ks_val_vs_current": KS,
    "psi_val_vs_current": PSI,
    "n_rows": int(len(df_final)),
    "n_alerts": int(df_final["alert"].sum()),
    "alert_rate": float(rate_current),
    "top_k": TOP_K,
    "outputs": {
        "scores_alerts_csv": str(out_full),
        "scores_alerts_topk_csv": str(out_topk),
        "alerts_top100_csv": str(out_top100),
        "alerts_by_username_csv": str(run_dir / "alerts_by_username.csv"),
    }
}
(run_dir / "alerts_summary.json").write_text(json.dumps(summary, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"[§10] salvo: alerts_summary.json")

# -------- Atualizar/criar scores_summary.json (p/ §12) — NOVO --------
scores_summary_path = run_dir / "scores_summary.json"
scores_summary = {
    "n_linhas": int(len(df_final)),
    "n_alerts": int(df_final["alert"].sum()),
    "alert_rate": float(rate_current),
    "threshold": THRESHOLD,
    "mode": MODE,
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
try:
    # mantém 'mode_config' se já existir (do §9)
    if scores_summary_path.exists():
        existing = json.loads(scores_summary_path.read_text(encoding="utf-8"))
        if isinstance(existing, dict):
            for k in ("mode_config",):
                if k in existing and k not in scores_summary:
                    scores_summary[k] = existing[k]
    scores_summary_path.write_text(json.dumps(scores_summary, ensure_ascii=False, indent=2), encoding="utf-8")
    print(f"[§10] salvo: {scores_summary_path.name}")
except Exception as e:
    print(f"[§10] aviso: falha ao salvar scores_summary.json: {e}")

print("\n[§10] ALERTS materializados com sucesso.")
print(f"[§10] threshold={THRESHOLD:.6f}  modo={MODE}  KS={KS:.4f}  PSI={PSI:.4f}")
print(f"[§10] taxa de alertas no lote atual: {rate_current:.2%}")
print(f"[§10] salvo: {out_full.name}, {out_topk.name}")
print("Próximo passo: Etapa 11 — monitoramento de drift (distribuição do score e do erro).")

## **Etapa 11:** Monitoramento de drifts

In [None]:
# @title §11 — Monitoramento de Drift (score atual vs erro de validação) + séries diárias (exibe e salva figuras)
# -*- coding: utf-8 -*-
"""
Objetivo
--------
1) Carregar:
   - RUN_DIR/reconstruction_errors_val.npy  (baseline - Etapa 7)
   - RUN_DIR/scores.csv                     (lote atual - Etapas 8/10)
2) Calcular métricas de drift: KS e PSI
3) Gerar, SALVAR e EXIBIR figuras:
   - Histograma comparativo (baseline vs atual)
   - CDF comparativa (ECDF baseline vs ECDF atual)
   - Boxplot diário (se existir 'data_lcto')
4) Salvar artefatos:
   - runs/<RUN_ID>/drift_metrics.json
   - runs/<RUN_ID>/figures/drift_hist.png
   - runs/<RUN_ID>/figures/drift_cdf.png
   - runs/<RUN_ID>/figures/drift_daily_box.png (se aplicável)
   - runs/<RUN_ID>/drift_bins_psi.csv
   - runs/<RUN_ID>/images_base64.json
   - runs/<RUN_ID>/drift_monitoring.json   [NOVO — compatível com §12]
"""

import json, io, base64
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Image, display  # para exibir PNGs gerados

assert 'RUN_DIR' in globals(), "Execute a Etapa 1 para definir RUN_DIR."
run_dir = Path(RUN_DIR)
fig_dir = run_dir / "figures"   # <— §12 espera figuras aqui
fig_dir.mkdir(parents=True, exist_ok=True)

val_err_path = run_dir / "reconstruction_errors_val.npy"
scores_path  = run_dir / "scores.csv"
assert val_err_path.exists(), "reconstruction_errors_val.npy ausente (rode Etapa 7)."
assert scores_path.exists(),  "scores.csv ausente (rode Etapas 8–10)."

# ----------------- carregar dados -----------------
val_err = np.load(val_err_path)                       # baseline (val)
df_sc   = pd.read_csv(scores_path, sep=";", encoding="utf-8-sig")
assert "score" in df_sc.columns, "scores.csv precisa ter coluna 'score'."
scores  = pd.to_numeric(df_sc["score"], errors="coerce").to_numpy()

# ----------------- helpers métricas -----------------
def ks_stat(a: np.ndarray, b: np.ndarray) -> float:
    a = a[~np.isnan(a)]
    b = b[~np.isnan(b)]
    if a.size == 0 or b.size == 0:
        return float("nan")
    xa, xb = np.sort(a), np.sort(b)
    grid = np.unique(np.concatenate([xa, xb]))
    def _ecdf(x, g): return np.searchsorted(x, g, side="right") / x.size
    Fa = np.array([_ecdf(xa, g) for g in grid], dtype=float)
    Fb = np.array([_ecdf(xb, g) for g in grid], dtype=float)
    return float(np.max(np.abs(Fa - Fb)))

def psi_stat(expected: np.ndarray, actual: np.ndarray, bins: int = 20):
    """Population Stability Index com bins por quantis do baseline."""
    e = expected[~np.isnan(expected)]
    a = actual[~np.isnan(actual)]
    if e.size == 0 or a.size == 0:
        return float("nan"), None
    qs = np.linspace(0, 1, bins + 1)
    cuts = np.quantile(e, qs)
    cuts = np.unique(cuts)
    if cuts.size < 3:
        return 0.0, pd.DataFrame()
    e_hist, edges = np.histogram(e, bins=cuts)
    a_hist, _     = np.histogram(a, bins=cuts)
    e_prop = np.clip(e_hist / max(1, e_hist.sum()), 1e-8, 1.0)
    a_prop = np.clip(a_hist / max(1, a_hist.sum()), 1e-8, 1.0)
    contrib = (a_prop - e_prop) * np.log(a_prop / e_prop)
    psi = float(np.sum(contrib))
    bins_df = pd.DataFrame({
        "bin_left": edges[:-1],
        "bin_right": edges[1:],
        "expected_count": e_hist,
        "actual_count": a_hist,
        "expected_prop": e_prop,
        "actual_prop": a_prop,
        "psi_contrib": contrib,
    })
    return psi, bins_df

# ----------------- parâmetros gráficos -----------------
NUM_BINS = 50
FIG_DPI  = 140

# ----------------- métricas KS/PSI -----------------
KS  = ks_stat(val_err, scores)
PSI, psi_bins = psi_stat(val_err, scores, bins=20)

# ----------------- figuras: histograma comparativo -----------------
fig1, ax1 = plt.subplots(figsize=(8,4), dpi=FIG_DPI)
ax1.hist(val_err, bins=NUM_BINS, density=True, alpha=0.5, label="Validação (baseline)")
ax1.hist(scores,  bins=NUM_BINS, density=True, alpha=0.5, label="Lote atual (scores)")
ax1.set_title(f"Distribuições — baseline vs atual  |  KS={KS:.4f}  PSI={PSI:.4f}")
ax1.set_xlabel("Erro / Score")
ax1.set_ylabel("Densidade")
ax1.legend()
hist_path = fig_dir / "drift_hist.png"   # <— salva em figures/
fig1.tight_layout()
fig1.savefig(hist_path, dpi=FIG_DPI, bbox_inches="tight")
plt.close(fig1)

# EXIBIR histograma
display(Image(filename=str(hist_path)))

# ----------------- figuras: CDF comparativa -----------------
def _ecdf_values(x: np.ndarray):
    x = x[~np.isnan(x)]
    x = np.sort(x)
    y = np.arange(1, x.size + 1) / x.size if x.size else np.array([])
    return x, y

xv, yv = _ecdf_values(val_err)
xs, ys = _ecdf_values(scores)

fig2, ax2 = plt.subplots(figsize=(8,4), dpi=FIG_DPI)
if xv.size: ax2.step(xv, yv, where="post", label="ECDF validação")
if xs.size: ax2.step(xs, ys, where="post", label="ECDF atual")
ax2.set_title("CDF acumulada — baseline vs atual")
ax2.set_xlabel("Erro / Score")
ax2.set_ylabel("Proporção ≤ x")
ax2.legend()
cdf_path = fig_dir / "drift_cdf.png"     # <— salva em figures/
fig2.tight_layout()
fig2.savefig(cdf_path, dpi=FIG_DPI, bbox_inches="tight")
plt.close(fig2)

# EXIBIR CDF
display(Image(filename=str(cdf_path)))

# ----------------- figura: boxplot diário (se houver data_lcto) -----------------
daily_path = None
if "data_lcto" in df_sc.columns:
    dt = pd.to_datetime(df_sc["data_lcto"], errors="coerce")
    df_daily = pd.DataFrame({"data": dt.dt.date.astype("string"), "score": pd.to_numeric(df_sc["score"], errors="coerce")})
    df_daily = df_daily.dropna()
    if not df_daily.empty:
        groups = df_daily.groupby("data")["score"].apply(list)
        labels = list(groups.index)
        data   = list(groups.values)

        fig3, ax3 = plt.subplots(figsize=(max(8, min(16, 0.25*len(labels))), 4), dpi=FIG_DPI)
        ax3.boxplot(data, showfliers=False)
        ax3.set_title("Distribuição diária do score (boxplot sem outliers)")
        ax3.set_xlabel("Data do lançamento")
        ax3.set_ylabel("Score")
        step = max(1, len(labels)//20)
        ax3.set_xticks(range(1, len(labels)+1)[::step], labels[::step], rotation=45, ha="right")
        fig3.tight_layout()
        daily_path = fig_dir / "drift_daily_box.png"  # <— salva em figures/
        fig3.savefig(daily_path, dpi=FIG_DPI, bbox_inches="tight")
        plt.close(fig3)

        # EXIBIR boxplot diário
        display(Image(filename=str(daily_path)))

# ----------------- salvar tabelas auxiliares (PSI bins) -----------------
psi_bins_path = run_dir / "drift_bins_psi.csv"
if isinstance(psi_bins, pd.DataFrame) and not psi_bins.empty:
    psi_bins.to_csv(psi_bins_path, index=False, sep=";", encoding="utf-8-sig")
else:
    psi_bins_path = None

# ----------------- export base64 para Etapa 12 (HTML) -----------------
def _png_to_b64(path: Path) -> str:
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("ascii")

images_b64 = {}
images_b64["drift_hist.png"] = _png_to_b64(hist_path)
images_b64["drift_cdf.png"]  = _png_to_b64(cdf_path)
if daily_path:
    images_b64["drift_daily_box.png"] = _png_to_b64(daily_path)

(run_dir / "images_base64.json").write_text(json.dumps(images_b64), encoding="utf-8")

# ----------------- salvar métricas (compat) -----------------
metrics = {
    "ks_val_vs_current": float(KS),
    "psi_val_vs_current": float(PSI),
    "n_val": int(np.sum(~np.isnan(val_err))),
    "n_current": int(np.sum(~np.isnan(scores))),
    "hist_png": str(hist_path),
    "cdf_png": str(cdf_path),
    "daily_box_png": (str(daily_path) if daily_path else None),
    "psi_bins_csv": (str(psi_bins_path) if psi_bins_path else None),
}
(run_dir / "drift_metrics.json").write_text(json.dumps(metrics, ensure_ascii=False, indent=2), encoding="utf-8")

# ----------------- salvar drift_monitoring.json (formato simples p/ §12) — NOVO -----------------
drift_monitoring = {
    "kpis": {"KS": float(KS), "PSI": float(PSI)},
    "figures": {
        "hist": str(hist_path),
        "cdf": str(cdf_path),
        "daily_box": (str(daily_path) if daily_path else None)
    },
    "bins_psi_csv": (str(psi_bins_path) if psi_bins_path else None)
}
(run_dir / "drift_monitoring.json").write_text(json.dumps(drift_monitoring, ensure_ascii=False, indent=2), encoding="utf-8")

print("\n[§11] Monitoramento de drift concluído.")
print(f"[§11] KS={KS:.4f}  PSI={PSI:.4f}")
print(f"[§11] Figuras salvas e exibidas: {hist_path.name}, {cdf_path.name}" + (f", {Path(daily_path).name}" if daily_path else ""))
if psi_bins_path:
    print(f"[§11] Tabela de bins do PSI: {Path(psi_bins_path).name}")
print("[§11] images_base64.json e drift_monitoring.json prontos para o relatório HTML (Etapa 12).")
print("\nPróximo passo: Etapa 12 — relatório HTML com imagens embutidas.")

## **Etapa 12:** Relatório HTML

In [None]:
# @title §12 — Relatório consolidado (HTML, somente leitura de artefatos; sem reprocessamento)
# -*- coding: utf-8 -*-
"""
Este parágrafo gera um ÚNICO relatório HTML, incorporando:
1) Informações da execução (data/hora, paths, arquivos gerados, utilidade)
2) Contexto sobre AE Tabular e redes neurais (linguagem acessível)
3) Descrição dos features
4) Estatística descritiva do treino/validação (quantitativos; usa features_desc.json se existir)
5) Estatística da base de execução (Etapa 8) e comparação de distribuição com treino (se existir)
6) Monitoramento de drift (se existir)
7) Top 100 lançamentos com alerta (Etapa 10), se existir

Regras:
- NÃO executa nenhum cálculo pesado nem reprocessa dados: tudo é lido do RUN_DIR/artifacts.
- Gráficos já existentes são incorporados (base64) e redimensionados para largura máx. 500px.
- Monetário com 2 casas; demais com no máx. 5 casas.
"""
from __future__ import annotations
import os, io, json, base64, re
from pathlib import Path
from datetime import datetime
import numpy as np
import pandas as pd
from typing import Any, Dict, List

# --------------------------
# Pré-checagens MÍNIMAS
# --------------------------
assert 'RUN_DIR' in globals(), "Execute §1 antes (RUN_DIR)."
assert 'PROJ_ROOT' in globals(), "Execute §1 antes (PROJ_ROOT)."

RUN_DIR = Path(RUN_DIR)
REPORTS_DIR = Path(REPORTS_DIR) if 'REPORTS_DIR' in globals() else (Path(PROJ_ROOT) / "reports")
REPORTS_DIR.mkdir(parents=True, exist_ok=True)

# --------------------------
# Utilidades
# --------------------------
def _b64_img(path: Path, max_width_px: int = 500) -> str:
    """
    Retorna uma <img> com base64 inline. O redimensionamento por largura é feito via atributo HTML/CSS.
    (Não reamostra o arquivo — usa width para layout.)
    """
    try:
        data = path.read_bytes()
        mime = "image/png" if path.suffix.lower()==".png" else "image/jpeg"
        b64 = base64.b64encode(data).decode("ascii")
        return f'<img src="data:{mime};base64,{b64}" alt="{path.name}" style="max-width:{max_width_px}px;width:100%;height:auto;border:1px solid #ddd;border-radius:6px;"/>'
    except Exception as e:
        return f'<div style="color:#b00;">(Falha ao embutir imagem {path.name}: {e})</div>'

def _fmt_money(v) -> str:
    try:
        f = float(v)
        return f"{f:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")
    except Exception:
        return str(v)

def _fmt_stat(v) -> str:
    try:
        f = float(v)
        # até 5 casas decimais (sem notação científica)
        s = f"{f:.5f}"
        # remove zeros supérfluos à direita
        s = re.sub(r"(\.[0-9]*?)0+$", r"\1", s)
        s = re.sub(r"\.$", "", s)
        return s
    except Exception:
        return str(v)

def _safe_json(path: Path) -> Any | None:
    try:
        return json.loads(path.read_text(encoding="utf-8"))
    except Exception:
        return None

def _safe_csv(path: Path, **kw) -> pd.DataFrame | None:
    try:
        return pd.read_csv(path, **kw)
    except Exception:
        return None

def _list_files_human(folder: Path) -> List[tuple[str, str]]:
    out = []
    for p in sorted(folder.rglob("*")):
        if p.is_file():
            size = p.stat().st_size
            n = size
            for u in ["B","KB","MB","GB","TB"]:
                if n < 1024:
                    out.append((str(p.relative_to(PROJ_ROOT)), f"{n:.1f}{u}"))
                    break
                n /= 1024.0
    return out

def _section(title: str, body_html: str) -> str:
    return f"""
    <section style="margin:24px 0;">
      <h2 style="margin:0 0 8px 0;font-family:Inter,Arial;font-weight:700;">{title}</h2>
      <div style="font-family:Inter,Arial;line-height:1.5;font-size:14px;color:#222;">
        {body_html}
      </div>
    </section>
    """

def _table_dicts(rows: List[Dict[str, Any]], col_order: List[str]|None=None, monetary_cols: List[str]|None=None, max_rows:int=1000) -> str:
    if not rows:
        return "<div style='color:#555;'>Sem dados.</div>"
    if col_order is None:
        col_order = list(rows[0].keys())
    monetary_cols = set(monetary_cols or [])
    head = "".join(f"<th style='text-align:left;padding:6px 8px;background:#f5f5f5;border-bottom:1px solid #ddd;'>{c}</th>" for c in col_order)
    body = []
    for r in rows[:max_rows]:
        tds = []
        for c in col_order:
            v = r.get(c, "")
            if c in monetary_cols:
                v = _fmt_money(v)
            elif isinstance(v, (int, float, np.floating)) and c not in monetary_cols:
                v = _fmt_stat(v)
            tds.append(f"<td style='padding:6px 8px;border-bottom:1px solid #eee;'>{v}</td>")
        body.append("<tr>" + "".join(tds) + "</tr>")
    return f"<div style='overflow:auto;'><table style='border-collapse:collapse;width:100%;min-width:480px;'>{'<thead><tr>'+head+'</tr></thead><tbody>' + ''.join(body) + '</tbody></table></div>'}"

# --------------------------
# Localiza artefatos
# --------------------------
paths = {
    "run_json"            : RUN_DIR / "run.json",
    "selected_source_csv" : RUN_DIR / "selected_source.csv",
    "features_config"     : RUN_DIR / "features_config.json",
    "features_desc"       : RUN_DIR / "features_desc.json",
    "categorical_maps"    : RUN_DIR / "categorical_maps.json",
    "training_history"    : RUN_DIR / "training_history.csv",            # §7
    "model_config"        : RUN_DIR / "model_config.json",               # §7
    "ae_weights"          : RUN_DIR / "ae.pt",                           # §7
    "recon_err_val"       : RUN_DIR / "reconstruction_errors_val.npy",   # §7
    "scores_summary"      : RUN_DIR / "scores_summary.json",             # §9/§10 (quando existir)
    "alerts_top_csv"      : RUN_DIR / "alerts_top100.csv",               # §10 (quando existir)
    "exec_stats_json"     : RUN_DIR / "exec_stats.json",                 # §8 (quando existir)
    "dist_compare_png"    : RUN_DIR / "figures/dist_exec_vs_train.png",  # §8 (quando existir)
    "drift_json"          : RUN_DIR / "drift_monitoring.json",           # §11 (quando existir)
    "drift_fig_dir"       : RUN_DIR / "figures",                         # pasta com gráficos diversos
}

# --------------------------
# 1) informações da execução
# --------------------------
run_meta = _safe_json(paths["run_json"]) or {}
created_at = run_meta.get("created_at")
paths_meta = run_meta.get("paths", {})
lista_arquivos = _list_files_human(RUN_DIR)

html_exec = []
html_exec.append(f"<p><b>Data/hora da execução:</b> {created_at or '(desconhecido)'} (timezone: {run_meta.get('timezone','?')})</p>")
html_exec.append("<p><b>Pastas relevantes</b></p>")
html_exec.append(_table_dicts(
    [{"chave": k, "caminho": v} for k,v in paths_meta.items()],
    col_order=["chave","caminho"]
))

if lista_arquivos:
    util_map = {
        "run.json": "Metadados da execução",
        "selected_source.csv": "Snapshot da base usada para treino/val",
        "journal_entries.parquet": "Snapshot parquet da base",
        "features_config.json": "Configuração de colunas de features",
        "features_desc.json": "Estatísticas descritivas de X_train/X_val",
        "dataset_npz.npz": "Conjuntos prontos (train/val) e índices",
        "categorical_maps.json": "Vocabulário categórico congelado",
        "training_history.csv": "Histórico de loss (treino/val)",
        "model_config.json": "Arquitetura/hiperparâmetros do AE",
        "ae.pt": "Pesos do modelo treinado",
        "reconstruction_errors_val.npy": "Erros de reconstrução no conjunto de validação",
        "exec_stats.json": "Estatísticas descritivas da base executada",
        "scores_summary.json": "Sumário de pontuações/limiares",
        "alerts_top100.csv": "Top 100 alertas (pós-calibração)",
        "drift_monitoring.json": "KPIs e caminhos das figuras de drift (Etapa 11)",
    }
    rows = []
    for rel, sz in lista_arquivos:
        base = os.path.basename(rel)
        rows.append({"arquivo": rel, "tamanho": sz, "utilidade": util_map.get(base, "")})
    html_exec.append("<p><b>Arquivos gerados nesta execução</b></p>")
    html_exec.append(_table_dicts(rows, col_order=["arquivo","tamanho","utilidade"]))
else:
    html_exec.append("<p style='color:#b00;'>Aviso: não foi possível listar arquivos em RUN_DIR.</p>")

sec1 = _section("1) Informações da execução", "".join(html_exec))

# --------------------------
# 2) contextualização AE Tabular
# --------------------------
ctx = """
<p><b>O que é um Autoencoder (AE) tabular?</b><br/>
É um tipo de rede neural que aprende a <i>reconstruir</i> seus próprios dados de entrada.
Para dados tabulares, montamos uma matriz numérica (features) e treinamos a rede para que a saída seja o mais
parecida possível com a entrada. Se um registro for muito “diferente” do padrão aprendido, o erro de reconstrução tende a ficar mais alto — e isso é um bom sinal de possível anomalia.</p>

<p><b>Como a rede neural funciona, em linhas gerais?</b><br/>
Uma rede neural é composta por camadas de neurônios artificiais. No AE, há um <i>codificador</i> (que comprime as informações em um “gargalo”) e um <i>decodificador</i> (que tenta reconstruir os dados originais).
Durante o treino, comparamos a reconstrução com a entrada e ajustamos os pesos para reduzir a diferença (o “erro”).</p>

<p><b>Visão geral do pipeline</b><br/>
(1) Pré-processar CSVs para um formato padronizado.
(2) Ingerir os dados tratados e congelar um vocabulário para colunas categóricas.
(3) Engenhar features (ex.: codificação de categorias, transformações numéricas).
(4) Preparar matriz, fazer split treino/validação, imputar e normalizar.
(5) Treinar o AE com <i>early stopping</i> e registrar histórico.
(6) Calibrar um limiar no erro de reconstrução para sinalizar alertas.
(7) Executar no conjunto-alvo e gerar relatórios e monitoramento de drift.</p>
"""
sec2 = _section("2) Contextualização do AE Tabular e da rede neural", ctx)

# --------------------------
# 3) descrição dos features
# --------------------------
feat_cfg = _safe_json(paths["features_config"]) or {}
feature_cols = feat_cfg.get("feature_cols", [])
n_features = feat_cfg.get("n_features", len(feature_cols))

desc_features_html = []
if feature_cols:
    desc_features_html.append("<p>O modelo usou as seguintes colunas de features. Colunas com sufixo <code>_int</code> são categorias codificadas; prefixo <code>feat_</code> indica derivadas numéricas.</p>")
    rows = [{"#": i+1, "feature": c, "tipo": ("categórica codificada" if c.endswith("_int") else "derivada/numérica")}
            for i,c in enumerate(feature_cols)]
    desc_features_html.append(_table_dicts(rows, col_order=["#","feature","tipo"]))
else:
    desc_features_html.append("<p style='color:#b00;'>Aviso: não encontrei features_config.json. Rode §§4–6 antes para registrar features.</p>")

sec3 = _section("3) Features do modelo", "".join(desc_features_html))

# --------------------------
# 4) treino/validação: estatística e épocas
# --------------------------
feat_desc = _safe_json(paths["features_desc"]) or {}
hist_df = _safe_csv(paths["training_history"])
model_cfg = _safe_json(paths["model_config"]) or {}

html_tv = []
if feat_desc:
    shape_tr = feat_desc.get("train", {}).get("shape")
    shape_va = feat_desc.get("val", {}).get("shape")
    html_tv.append(f"<p><b>Formas:</b> train={shape_tr}, val={shape_va}</p>")
    means = feat_desc.get("train", {}).get("mean", [])
    stds  = feat_desc.get("train", {}).get("std",  [])
    rows = [{"feature": feature_cols[i] if i < len(feature_cols) else f"col_{i}",
             "média (train)": _fmt_stat(means[i]) if i < len(means) else "",
             "desvio-padrão (train)": _fmt_stat(stds[i])  if i < len(stds)  else ""}
            for i in range(min(len(means), len(stds)))]
    if rows:
        html_tv.append("<p><b>Resumo estatístico (treino)</b></p>")
        html_tv.append(_table_dicts(rows, col_order=["feature","média (train)","desvio-padrão (train)"]))
else:
    html_tv.append("<p style='color:#b00;'>Aviso: ausente features_desc.json (gerado na §6).</p>")

if hist_df is not None and not hist_df.empty:
    n_epochs = int(hist_df["epoch"].max()) + 1 if "epoch" in hist_df.columns else len(hist_df)
    html_tv.append(f"<p><b>Épocas de treino:</b> {n_epochs}</p>")
    curve_candidates = [
        RUN_DIR / "figures" / "training_curve.png",
        RUN_DIR / "figures" / "loss_history.png"
    ]
    imgs = [p for p in curve_candidates if p.exists()]
    if imgs:
        html_tv.append("<p><b>Curva de treino/validação</b><br/><i>Perdas por época; observe a estabilização e a parada antecipada.</i></p>")
        for p in imgs:
            html_tv.append(_b64_img(p, 500))
else:
    html_tv.append("<p style='color:#b00;'>Aviso: ausente training_history.csv (gerado na §7).</p>")

sec4 = _section("4) Base de treino e validação", "".join(html_tv))

# --------------------------
# 5) estatística da base de EXECUÇÃO (Etapa 8) e comparação de distribuição
# --------------------------
html_execset = []
exec_stats = _safe_json(paths["exec_stats_json"]) or {}

# (1) resumo estatístico (se existir)
if exec_stats:
    basic = exec_stats.get("basic", {})
    if basic:
        rows = [{"métrica": k, "valor": _fmt_stat(v)} for k,v in basic.items()]
        html_execset.append("<p><b>Resumo estatístico da base de execução</b></p>")
        html_execset.append(_table_dicts(rows, col_order=["métrica","valor"]))
else:
    html_execset.append("<p style='color:#555;'>Sem exec_stats.json (gerado normalmente na §8).</p>")

# (2) alertas/threshold/método — SEMPRE que existir scores_summary.json
scores_sum = _safe_json(paths["scores_summary"]) or {}
parts = []
if "n_alerts" in scores_sum and "n_linhas" in scores_sum:
    try:
        rate = float(scores_sum.get("alert_rate", 0.0)) * 100
        parts.append(f"<b>Alertas:</b> {int(scores_sum['n_alerts']):,} de {int(scores_sum['n_linhas']):,} ({rate:.2f}%)")
    except Exception:
        parts.append(f"<b>Alertas:</b> {int(scores_sum['n_alerts']):,} de {int(scores_sum['n_linhas']):,}")
if "threshold" in scores_sum:
    parts.append(f"<b>Limiar</b>: {_fmt_stat(scores_sum['threshold'])}")
mode = scores_sum.get("mode")
if mode:
    parts.append(f"<b>Método</b>: {mode}")
if parts:
    html_execset.append("<p>" + " &nbsp;•&nbsp; ".join(parts) + "</p>")

# (3) figura de comparação, se existir
if paths["dist_compare_png"].exists():
    html_execset.append("<p><b>Comparação de distribuição</b><br/><i>Distribuições da base de execução vs. treino (por feature chave).</i></p>")
    html_execset.append(_b64_img(paths["dist_compare_png"], 500))
else:
    html_execset.append("<p style='color:#555;'>Gráfico de comparação de distribuição não encontrado. Ao rodar a §8, salve em <code>figures/dist_exec_vs_train.png</code>.</p>")

sec5 = _section("5) Base de execução: estatística e comparação de distribuição", "".join(html_execset))

# --------------------------
# 6) Monitoramento de drift
# --------------------------
html_drift = []
drift_obj = _safe_json(paths["drift_json"]) or {}
if drift_obj:
    html_drift.append("<p><b>O que é drift?</b> É a mudança do comportamento dos dados ao longo do tempo. Se o modelo foi treinado com um padrão e a produção passa a ter outro, as previsões podem piorar. Monitoramos métricas de distância entre distribuições e o erro de reconstrução.</p>")
    kpis = drift_obj.get("kpis", {})
    if kpis:
        rows = [{"métrica": k, "valor": _fmt_stat(v)} for k,v in kpis.items()]
        html_drift.append(_table_dicts(rows, col_order=["métrica","valor"]))
    if paths["drift_fig_dir"].exists():
        figs = sorted([p for p in paths["drift_fig_dir"].glob("drift_*.png")])
        if figs:
            html_drift.append("<p><b>Gráficos de drift</b> (interprete como proximidade/alteração entre distribuições ao longo do tempo):</p>")
            for p in figs:
                html_drift.append(_b64_img(p, 500))
else:
    html_drift.append("<p style='color:#555;'>Sem arquivo de drift (<code>drift_monitoring.json</code>). Rode o monitoramento para preencher esta seção.</p>")

sec6 = _section("6) Monitoramento de drift", "".join(html_drift))

# --------------------------
# 7) Top 100 alertas (Etapa 10)
# --------------------------
html_alerts = []
alerts_df = _safe_csv(paths["alerts_top_csv"], sep=";", encoding="utf-8-sig")
if alerts_df is not None and not alerts_df.empty:
    money_like = [c for c in alerts_df.columns if re.search(r"valor|valormi", c, re.I)]
    rows = []
    for _, r in alerts_df.head(100).iterrows():
        d = {k: r[k] for k in alerts_df.columns}
        for c in money_like:
            if c in d:
                d[c] = _fmt_money(d[c])
        rows.append(d)
    # preferências de colunas; usa apenas as que existirem
    prefer = ["documento_num","username","lotacao","contacontabil","valormi","score","rank_desc","motivo","alert"]
    keep = [c for c in prefer if c in alerts_df.columns]
    if not keep:
        keep = list(alerts_df.columns)[:10]
    html_alerts.append(_table_dicts(rows, col_order=keep, monetary_cols=money_like, max_rows=100))
else:
    html_alerts.append("<p style='color:#555;'>Arquivo <code>alerts_top100.csv</code> não encontrado.</p>")

sec7 = _section("7) Top 100 lançamentos com alertas", "".join(html_alerts))

# --------------------------
# Montagem final do HTML
# --------------------------
now_str = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
title = f"Relatório AE Tabular — Run {RUN_DIR.name}"

STYLE = """
<style>
  @media (prefers-color-scheme: dark){
    body{ background:#0f1115; color:#e6e6e6; }
    table{ color:#e6e6e6; }
  }
</style>
"""

html_full = f"""<!DOCTYPE html>
<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<title>{title}</title>
{STYLE}
</head>
<body style="margin:24px; font-family:Inter,Arial;">
  <header style="margin-bottom:16px;">
    <h1 style="margin:0 0 4px 0;">{title}</h1>
    <div style="color:#666;font-size:12px;">Gerado em {now_str}</div>
    <hr style="margin-top:12px;border:none;border-top:1px solid #ddd;"/>
  </header>
  {sec1}
  {sec2}
  {sec3}
  {sec4}
  {sec5}
  {sec6}
  {sec7}
  <footer style="margin-top:24px;color:#888;font-size:12px;">
    <hr style="border:none;border-top:1px solid #ddd;"/>
    <div>Este relatório apenas agrega artefatos já existentes no <code>RUN_DIR</code>; nenhuma etapa de processamento foi reexecutada.</div>
  </footer>
</body>
</html>
"""

out_html = REPORTS_DIR / f"relatorio_run_{RUN_DIR.name}.html"
out_html.write_text(html_full, encoding="utf-8")
print(f"[§12] Relatório HTML gerado: {out_html}")