#**Licen√ßa de Uso**

This repository uses a **dual-license model** to distinguish between source code and creative/documental content.

**Code** (Python scripts, modules, utilities):
Licensed under the MIT License.

‚Üí You may freely use, modify, and redistribute the code, including for commercial purposes, provided that you preserve the copyright notice.

**Content** (Jupyter notebooks, documentation, reports, datasets, and generated outputs):
Licensed under the Creative Commons Attribution‚ÄìNonCommercial 4.0 International License.

‚Üí You may share and adapt the content for non-commercial purposes, provided that proper credit is given to the original author.

<br>GitHub: [AE Tabular](github.com/LeoBR84p/ae-tabular)


**¬© 2025 Leandro Bernardo Rodrigues**

# **Gest√£o do Ambiente**

## **Criar reposit√≥rio .git no Colab**
---
Google Drive √© considerado o ponto de verdade.

---

In [None]:
# @title
# par√°grafo git: inicializa√ß√£o do reposit√≥rio no drive e push inicial para o github

# imports
from pathlib import Path
import subprocess, os, sys, getpass, textwrap

# util de shell
def sh(cmd, cwd=None, check=True):
    r = subprocess.run(cmd, cwd=cwd, text=True, capture_output=True)
    if check and r.returncode != 0:
        print(r.stdout, r.stderr)
        raise RuntimeError(f"falha: {' '.join(cmd)} (rc={r.returncode})")
    return r.stdout.strip()

# garantir que o diret√≥rio do projeto exista
repo_dir.mkdir(parents=True, exist_ok=True)

# montar drive no colab se necess√°rio
try:
    from google.colab import drive as _colab_drive  # type: ignore
    if not os.path.ismount("/content/drive"):
        print("montando google drive‚Ä¶")
        _colab_drive.mount("/content/drive")
except Exception:
    pass

# configurar safe.directory para evitar avisos do git com caminhos de rede
try:
    sh(["git", "config", "--global", "--add", "safe.directory", str(repo_dir)])
except Exception:
    pass

# inicializar reposit√≥rio se ainda n√£o existir
if not (repo_dir / ".git").exists():
    print("inicializando reposit√≥rio git‚Ä¶")
    sh(["git", "init"], cwd=repo_dir)
    # garantir branch principal como main (compat√≠vel com vers√µes antigas)
    try:
        sh(["git", "checkout", "-B", default_branch], cwd=repo_dir)
    except Exception:
        sh(["git", "branch", "-M", default_branch], cwd=repo_dir)
else:
    print(".git j√° existe; seguindo")

# configurar identidade local
sh(["git", "config", "user.name", author_name], cwd=repo_dir)
sh(["git", "config", "user.email", author_email], cwd=repo_dir)

# criar .gitignore b√°sico e readme se estiverem ausentes
gitignore_path = repo_dir / ".gitignore"
if not gitignore_path.exists():
    gitignore_path.write_text(textwrap.dedent("""
      # python
      __pycache__/
      *.py[cod]
      *.egg-info/
      .venv*/
      venv/

      # segredos
      .env
      *.key
      *.pem
      *.tok

      # jupyter/colab
      .ipynb_checkpoints/

      # artefatos e dados locais (n√£o versionar)
      data/
      input/                 # inclui input.csv sens√≠vel
      output/
      runs/
      logs/
      figures/
      *.log
      *.tmp
      *.bak
      *.png
      *.jpg
      *.pdf
      *.html

      # allowlist para a pasta de refer√™ncias
      !references/
      !references/**
    """).strip() + "\n", encoding="utf-8")
    print("criado .gitignore")

readme_path = repo_dir / "README.md"
if not readme_path.exists():
    readme_path.write_text(f"# {repo_name}\n\nprojeto de autoencoder tabular para journal entries.\n", encoding="utf-8")
    print("criado README.md")

# configurar remoto origin
remote_base = f"https://github.com/{owner}/{repo_name}.git"
existing_remotes = sh(["git", "remote"], cwd=repo_dir)
if "origin" not in existing_remotes.split():
    sh(["git", "remote", "add", "origin", remote_base], cwd=repo_dir)
    print(f"remoto origin adicionado: {remote_base}")
else:
    # se j√° existe, garantir que aponta para o repo correto
    current_url = sh(["git", "remote", "get-url", "origin"], cwd=repo_dir)
    if current_url != remote_base:
        sh(["git", "remote", "set-url", "origin", remote_base], cwd=repo_dir)
        print(f"remoto origin atualizado para: {remote_base}")
    else:
        print("remoto origin j√° configurado corretamente")

## **Utilit√°rio:** verifica√ß√£o da formata√ß√£o de c√≥digo
---

**Cuidado: Pode ocasionar altera√ß√µes no c√≥digo.**

Black [88] + Isort, desconsiderando c√©lulas m√°gicas.

---

In [None]:
# @title
#ID0001
#pr√©-visualizar/aplicar (pula magics) ‚Äî isort(profile=black)+black(88) { display-mode: "form" }
import sys, subprocess, os, re, difflib, textwrap, time
from typing import List, Tuple

# ===== CONFIG =====
NOTEBOOK = "/content/drive/MyDrive/Notebooks/data-analysis/notebooks/AETabular_main.ipynb"  # <- ajuste
LINE_LENGTH = 88
# ==================

# 1) Instalar libs no MESMO Python do kernel
subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", "black", "isort", "nbformat"])

import nbformat
import black
import isort

BLACK_MODE = black.Mode(line_length=LINE_LENGTH)
ISORT_CFG  = isort.Config(profile="black", line_length=LINE_LENGTH)

# 2) Regras para pular c√©lulas com magics/shell
#   - linhas come√ßando com %, %%, !
#   - chamadas a get_ipython(
MAGIC_LINE = re.compile(r"^\s*(%{1,2}|!)", re.M)
GET_IPY    = re.compile(r"get_ipython\s*\(")

def has_magics(code: str) -> bool:
    return bool(MAGIC_LINE.search(code) or GET_IPY.search(code))

def format_code(code: str) -> str:
    # isort primeiro, depois black
    sorted_code = isort.api.sort_code_string(code, config=ISORT_CFG)
    return black.format_str(sorted_code, mode=BLACK_MODE)

def summarize_diff(diff_lines: List[str]) -> Tuple[int, int]:
    added = removed = 0
    for ln in diff_lines:
        # ignorar cabe√ßalhos do diff
        if ln.startswith(("---", "+++", "@@")):
            continue
        if ln.startswith("+"):
            added += 1
        elif ln.startswith("-"):
            removed += 1
    return added, removed

def header(title: str):
    print("\n" + "=" * 100)
    print(title)
    print("=" * 100)

if not os.path.exists(NOTEBOOK):
    raise FileNotFoundError(f"Notebook n√£o encontrado:\n{NOTEBOOK}")

# 3) Leitura do .ipynb
with open(NOTEBOOK, "r", encoding="utf-8") as f:
    nb = nbformat.read(f, as_version=4)

changed_cells = []  # (idx, added, removed, diff_text, preview_snippet, new_code)

# 4) Pr√©-visualiza√ß√£o c√©lula a c√©lula
header("Pr√©-visualiza√ß√£o (N√ÉO grava) ‚Äî somente c√©lulas com mudan√ßas")
for i, cell in enumerate(nb.cells):
    if cell.get("cell_type") != "code":
        continue

    original = cell.get("source", "")
    if not original.strip():
        continue

    # Pular c√©lulas com magics/shell
    if has_magics(original):
        continue

    try:
        formatted = format_code(original)
    except Exception as e:
        print(f"[Aviso] c√©lula {i}: erro no formatador ‚Äî pulando ({e})")
        continue

    if original.strip() != formatted.strip():
        # Gerar diff unificado leg√≠vel
        diff = list(difflib.unified_diff(
            original.splitlines(), formatted.splitlines(),
            fromfile=f"cell_{i}:before", tofile=f"cell_{i}:after", lineterm=""
        ))
        add, rem = summarize_diff(diff)
        snippet = original.strip().splitlines()[0][:120] if original.strip().splitlines() else "<c√©lula vazia>"
        changed_cells.append((i, add, rem, "\n".join(diff), snippet, formatted))

# 5) Exibi√ß√£o dos diffs por c√©lula (se houver)
if not changed_cells:
    print("‚úî Nada a alterar: todas as c√©lulas (n√£o m√°gicas) j√° est√£o conforme isort/black.")
else:
    total_add = total_rem = 0
    for (idx, add, rem, diff_text, snippet, _new) in changed_cells:
        total_add += add
        total_rem += rem
        header(f"Diff ‚Äî C√©lula #{idx}  (+{add}/-{rem})")
        print(f"Primeira linha da c√©lula: {snippet!r}\n")
        print(diff_text)

    header("Resumo")
    print(f"C√©lulas com mudan√ßas: {len(changed_cells)}")
    print(f"Linhas adicionadas:   {total_add}")
    print(f"Linhas removidas:     {total_rem}")

# 6) Perguntar se aplica
if changed_cells:
    print("\nDigite 'p' para **Proceder** e gravar as mudan√ßas nessas c√©lulas, ou 'c' para **Cancelar**.")
    try:
        choice = input("Proceder (p) / Cancelar (c): ").strip().lower()
    except Exception:
        choice = "c"

    if choice == "p":
        # Backup antes de escrever
        backup = NOTEBOOK + ".bak"
        if not os.path.exists(backup):
            with open(backup, "w", encoding="utf-8") as bf:
                nbformat.write(nb, bf)

        # Aplicar somente nas c√©lulas com mudan√ßas
        idx_to_new = {idx: new for (idx, _a, _r, _d, _s, new) in changed_cells}
        for i, cell in enumerate(nb.cells):
            if i in idx_to_new and cell.get("cell_type") == "code":
                cell["source"] = idx_to_new[i]

        # Escrever no .ipynb
        with open(NOTEBOOK, "w", encoding="utf-8") as f:
            nbformat.write(nb, f)

        # Sync delay (Drive)
        time.sleep(1.0)

        header("Conclu√≠do")
        print(f"‚úî Mudan√ßas aplicadas em {len(changed_cells)} c√©lula(s).")
        print(f"Backup criado em: {backup}")
        print("Dica: recarregue o notebook no Colab para ver a formata√ß√£o atualizada.")
    else:
        print("\nOpera√ß√£o cancelada. Nada foi gravado.")

##**Sincronizar altera√ß√µes no c√≥digo do projeto**

---
Comandos para sincronizar c√≥digo (Google Drive, Git, GitHub) e realizar versionamento.

Google Drive √© considerado o ponto de verdade.

Exige que a ETAPA 1 do c√≥digo tenha sido executada uma vez na sess√£o.

---

In [None]:
# @title
#ID0002
#push do Drive -> GitHub (Drive √© a fonte da verdade)
#respeita .gitignore do Drive
#sempre em 'main', sem pull, commit + push imediato
#mensagem de commit padronizada com timestamp SP
#bump de vers√£o (M/m/n) + tag anotada
#force push (branch e tags), silencioso; s√≥ 1 print final
#PAT lido de segredo do Colab: GITHUB_PAT_AETABULAR (fallback: env; √∫ltimo caso: prompt)

from pathlib import Path
import subprocess, os, re, shutil, sys, getpass
from urllib.parse import quote as urlquote
from datetime import datetime, timezone, timedelta

#utilit√°rios silenciosos
def sh(cmd, cwd=None, check=True):
    """
    Executa comando silencioso. Em erro, levanta RuntimeError com rc e UM rascunho de causa,
    mascarando URLs com credenciais (ex.: https://***:***@github.com/...).
    """
    safe_cmd = []
    for x in cmd:
        if isinstance(x, str) and "github.com" in x and "@" in x:
            #mascara credenciais: https://user:token@ -> https://***:***@
            x = re.sub(r"https://[^:/]+:[^@]+@", "https://***:***@", x)
        safe_cmd.append(x)

    r = subprocess.run(cmd, cwd=cwd, text=True, capture_output=True)
    if check and r.returncode != 0:
        #heur√≠stica curtinha p/ tornar rc=128 mais informativo sem vazar nada
        stderr = (r.stderr or "").strip().lower()
        if "authentication failed" in stderr or "permission" in stderr or "not found" in stderr:
            hint = "auth/permiss√µes/URL"
        elif "not a git repository" in stderr:
            hint = "repo local inv√°lido"
        else:
            hint = "git falhou"
        cmd_hint = " ".join(safe_cmd[:3])
        raise RuntimeError(f"rc={r.returncode}; {hint}; cmd={cmd_hint}")
    return r.stdout

def git(*args, cwd=None, check=True):
    return sh(["git", *args], cwd=cwd, check=check)

#configura√ß√µes do projeto
author_name    = "Leandro Bernardo Rodrigues"
owner          = "LeoBR84p"         # dono do reposit√≥rio no GitHub
repo_name      = "ae-tabular"    # nome do reposit√≥rio
default_branch = "main"
repo_dir       = Path("/content/drive/MyDrive/Notebooks/ae-tabular")
remote_base    = f"https://github.com/{owner}/{repo_name}.git"
author_email   = f"bernardo.leandro@gmail.com"  # evita erro de identidade

#nbstripout: "install" para limpar outputs; "disable" para versionar outputs
nbstripout_mode = "install"
import shutil
exe = shutil.which("nbstripout")
git("config", "--local", "filter.nbstripout.clean", exe if exe else "nbstripout", cwd=repo_dir)

#ambiente: Colab + Drive
def ensure_drive():
    try:
        from google.colab import drive  # type: ignore
        base = Path("/content/drive/MyDrive")
        if not base.exists():
            drive.mount("/content/drive")
        if not base.exists():
            raise RuntimeError("Google Drive n√£o montado.")
    except Exception as e:
        raise RuntimeError(f"Falha ao montar o Drive: {e}")

#repo local no Drive
def is_empty_dir(p: Path) -> bool:
    try:
        return p.exists() and not any(p.iterdir())
    except Exception:
        return True

def init_or_recover_repo():
    repo_dir.mkdir(parents=True, exist_ok=True)
    git_dir = repo_dir / ".git"

    def _fresh_init():
        if git_dir.exists():
            shutil.rmtree(git_dir, ignore_errors=True)
        git("init", cwd=repo_dir)

    #caso .git no Colab ausente ou vazia -> init limpo
    if not git_dir.exists() or is_empty_dir(git_dir):
        _fresh_init()
    else:
        #valida se √© um work-tree git funcional no Colab; se falhar -> init limpo
        try:
            git("rev-parse", "--is-inside-work-tree", cwd=repo_dir)
        except Exception:
            _fresh_init()

    #aborta opera√ß√µes pendentes (n√£o apaga hist√≥rico)
    for args in (("rebase", "--abort"), ("merge", "--abort"), ("cherry-pick", "--abort")):
        try:
            git(*args, cwd=repo_dir, check=False)
        except Exception:
            pass

    #for√ßa branch main
    try:
        sh(["git", "switch", "-C", default_branch], cwd=repo_dir)
    except Exception:
        sh(["git", "checkout", "-B", default_branch], cwd=repo_dir)

    #configura identidade local
    try:
        git("config", "user.name", author_name, cwd=repo_dir)
        git("config", "user.email", author_email, cwd=repo_dir)
    except Exception:
        pass

    #marca o diret√≥rio como safe
    try:
        sh(["git","config","--global","--add","safe.directory", str(repo_dir)])
    except Exception:
        pass

    #sanity check final (falha cedo se algo ainda estiver errado)
    git("status", "--porcelain", cwd=repo_dir)


#nbstripout (opcional)
def setup_nbstripout():
    if nbstripout_mode == "disable":
        #remove configs do filtro
        sh(["git","config","--local","--unset-all","filter.nbstripout.clean"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.smudge"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.required"], cwd=repo_dir, check=False)
        gat = repo_dir / ".gitattributes"
        if gat.exists():
            lines = gat.read_text(encoding="utf-8", errors="ignore").splitlines()
            new_lines = [ln for ln in lines if "filter=nbstripout" not in ln]
            gat.write_text("\n".join(new_lines) + ("\n" if new_lines else ""), encoding="utf-8")
        return

    #instala nbstripout (se necess√°rio)
    try:
        import nbstripout  #noqa: F401
    except Exception:
        sh([sys.executable, "-m", "pip", "install", "--quiet", "nbstripout"])

    py = sys.executable
    #configurar filtro sem aspas extras
    git("config", "--local", "filter.nbstripout.clean", "nbstripout", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.smudge", "cat", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.required", "true", cwd=repo_dir)
    gat = repo_dir / ".gitattributes"
    line = "*.ipynb filter=nbstripout"
    if gat.exists():
        txt = gat.read_text(encoding="utf-8", errors="ignore")
        if line not in txt:
            gat.write_text((txt.rstrip() + "\n" + line + "\n"), encoding="utf-8")
    else:
        gat.write_text(line + "\n", encoding="utf-8")

#.gitignore normaliza√ß√£o
def normalize_tracked_ignored():
    """
    Se houver arquivos j√° rastreados que hoje s√£o ignorados pelo .gitignore,
    limpa o √≠ndice e re-adiciona respeitando o .gitignore.
    Retorna True se normalizou algo; False caso contr√°rio.
    """
    #remove lock de √≠ndice, se houver
    lock = repo_dir / ".git/index.lock"
    try:
        if lock.exists():
            lock.unlink()
    except Exception:
        pass

    #garante que o √≠ndice existe (ou se recupera)
    idx = repo_dir / ".git/index"
    if not idx.exists():
        try:
            sh(["git", "reset", "--mixed"], cwd=repo_dir)
        except Exception:
            try:
                sh(["git", "init"], cwd=repo_dir)
            except Exception:
                pass

    #detecta arquivos ignorados que est√£o rastreados e normaliza
    normalized = False
    try:
        out = git("ls-files", "-z", "--ignored", "--exclude-standard", "--cached", cwd=repo_dir)
        tracked_ignored = [p for p in out.split("\x00") if p]
        if tracked_ignored:
            git("rm", "-r", "--cached", ".", cwd=repo_dir)
            git("add", "-A", cwd=repo_dir)
            normalized = True
    except Exception:
        #falhou a detec√ß√£o? segue o fluxo sem travar
        pass

    return normalized

#semVer e bump de vers√£o
_semver = re.compile(r"^(\d+)\.(\d+)\.(\d+)$")

def parse_semver(s):
    m = _semver.match((s or "").strip())
    return tuple(map(int, m.groups())) if m else None

def current_version():
    try:
        tags = [t for t in git("tag", "--list", cwd=repo_dir).splitlines() if parse_semver(t)]
        if tags:
            return sorted(tags, key=lambda x: parse_semver(x))[-1]
    except Exception:
        pass
    vf = repo_dir / "VERSION"
    if vf.exists():
        v = vf.read_text(encoding="utf-8").strip()
        if parse_semver(v):
            return v
    return "1.0.0"

def bump(v, kind):
    M, m, p = parse_semver(v) or (1, 0, 0)
    k = (kind or "").strip()
    if k == "m":
        return f"{M}.{m+1}.0"
    if k == "n":
        return f"{M}.{m}.{p+1}"
    return f"{M+1}.0.0"  #default major

#timestamp SP
def now_sp():
    #tenta usar zoneinfo; fallback fixo -03:00 (Brasil sem DST atualmente)
    try:
        from zoneinfo import ZoneInfo  # Py3.9+
        tz = ZoneInfo("America/Sao_Paulo")
        dt = datetime.now(tz)
    except Exception:
        dt = datetime.now(timezone(timedelta(hours=-3)))
    #formato leg√≠vel + offset
    return dt.strftime("%Y-%m-%d %H:%M:%S%z")  # ex.: 2025-10-08 02:34:00-0300

#autentica√ß√£o (PAT)
def get_pat():
    #Colab Secrets
    token = None
    try:
        from google.colab import userdata  #type: ignore
        token = userdata.get('GITHUB_PAT_AETABULAR')  #nome do segredo criado no Colab
    except Exception:
        token = None
    #fallback1 - vari√°vel de ambiente
    if not token:
        token = os.environ.get("GITHUB_PAT_AETABULAR") or os.environ.get("GITHUB_PAT")
    #fallback2 - interativo
    if not token:
        token = getpass.getpass("Informe seu GitHub PAT: ").strip()
    if not token:
        raise RuntimeError("PAT ausente.")
    return token

#listas de for√ßa
FORCE_UNTRACK = ["input/", "output/", "data/", "runs/", "logs/", "figures/"]
FORCE_TRACK   = ["references/"]  #versionar tudo dentro (PDFs inclusive)

def force_index_rules():
    #garante que pastas sens√≠veis NUNCA fiquem rastreadas
    for p in FORCE_UNTRACK:
        try:
            git("rm", "-r", "--cached", "--", p, cwd=repo_dir)
        except Exception:
            pass
    #garante que references/ SEMPRE entre (√∫til se ainda h√° *.pdf globais)
    for p in FORCE_TRACK:
        try:
            git("add", "-f", "--", p, cwd=repo_dir)
        except Exception:
            pass

#fluxo principal
def main():
    try:
        ensure_drive()
        init_or_recover_repo()
        setup_nbstripout()

        #pergunta apenas o tipo de vers√£o (M/m/n)
        kind = input("Informe o tipo de mudan√ßa: Maior (M), menor (m) ou pontual (n): ").strip()
        if kind not in ("M", "m", "n"):
            kind = "n"

        #vers√£o
        cur = current_version()
        new = bump(cur, kind)
        (repo_dir / "VERSION").write_text(new + "\n", encoding="utf-8")

        #normaliza itens ignorados que estejam rastreados (uma √∫nica vez, se necess√°rio)
        normalize_tracked_ignored()

        #aplica regras de for√ßa
        force_index_rules()

        #stage de tudo (Drive √© a verdade; remo√ß√µes entram aqui)
        git("add", "-A", cwd=repo_dir)

        #mensagem padronizada de commit
        ts = now_sp()
        commit_msg = f"upload pelo {author_name} em {ts}"
        try:
            git("commit", "-m", commit_msg, cwd=repo_dir)
        except Exception:
            #se nada a commitar, seguimos (pode ocorrer se s√≥ a tag mudar, mas aqui VERSION muda)
            status = git("status", "--porcelain", cwd=repo_dir)
            if status.strip():
                raise

        #Tag anotada (substitui se j√° existir)
        try:
            git("tag", "-a", new, "-m", f"release {new} ‚Äî {commit_msg}", cwd=repo_dir)
        except Exception:
            sh(["git", "tag", "-d", new], cwd=repo_dir, check=False)
            git("tag", "-a", new, "-m", f"release {new} ‚Äî {commit_msg}", cwd=repo_dir)

        #push com PAT (Drive √© a verdade): valida√ß√£o + push for√ßado
        token = get_pat()
        user_for_url = owner  # voc√™ √© o owner; n√£o perguntamos
        auth_url = f"https://{urlquote(user_for_url, safe='')}:{urlquote(token, safe='')}@github.com/{owner}/{repo_name}.git"

        #valida credenciais/URL de forma silenciosa (sem vazar token)
        #tenta checar a branch main; se n√£o existir (repo vazio), faz um probe gen√©rico
        try:
            sh(["git", "ls-remote", auth_url, f"refs/heads/{default_branch}"], cwd=repo_dir)
        except RuntimeError:
            #reposit√≥rio pode estar vazio (sem refs); probe sem ref deve funcionar
            sh(["git", "ls-remote", auth_url], cwd=repo_dir)

        #push for√ßado de branch e tags
        sh(["git", "push", "-u", "--force", auth_url, default_branch], cwd=repo_dir)
        sh(["git", "push", "--force", auth_url, "--tags"], cwd=repo_dir)

        print(f"[ok]   Registro no GitHub com sucesso. Vers√£o atual {new}")
    except Exception as e:
        #mensagem √∫nica, curta, sem detalhes sens√≠veis
        msg = str(e) or "falha inesperada"
        print(f"[erro] {msg}")

#executa
if __name__ == "__main__":
    main()

# **Introdu√ß√£o**: Autoencoder Tabular

## **O que √© um Autoencoder Tabular**

---
Um autoencoder tabular √© um modelo de aprendizado n√£o supervisionado baseado em redes neurais, desenvolvido para processar dados estruturados (tabelas com colunas num√©ricas e categ√≥ricas).
Ele aprende a reconstruir as pr√≥prias entradas e, em seguida, tenta reconstru√≠-las com o m√≠nimo erro poss√≠vel.

---

## **Como pode ajudar a detectar anomalias**

---

O modelo √© treinado apenas com registros considerados regulares, dentro dos padr√µes normais, aprendendo a distribui√ß√£o t√≠pica dos lan√ßamentos e pagamentos.

Quando um novo registro foge desses padr√µes ‚Äî por exemplo, um valor fora de faixa, um centro de custo inusual ou uma combina√ß√£o de contas at√≠pica ‚Äî o autoencoder n√£o consegue reconstru√≠-lo com precis√£o.

A diferen√ßa entre o valor original e o reconstru√≠do (erro de reconstru√ß√£o) √© usada como indicador de anomalia, permitindo priorizar revis√µes cont√°beis, auditorias e an√°lises de compliance.

Essa t√©cnica √© √∫til para detectar erros, duplicidades ou lan√ßamentos indevidos e at√© a ocorr√™ncia de fraudes, sem precisar de exemplos pr√©vios rotulados de irregularidades.

---

## **Como funciona tecnicamente**

1. Camada de entrada: recebe as vari√°veis tabulares (ex.: contas cont√°beis, valores, datas, centros de custo, usu√°rios).

2. Codificador (encoder): reduz a dimensionalidade, ou seja, foca nas vari√°veis mais relevantes e extrai representa√ß√µes comprimida/reduzida, mas ainda significativa dos dados.

3. Camada latente (bottleneck): identifica as caracter√≠sticas mais importantes do padr√£o cont√°bil normal.

4. Decodificador (decoder): reconstr√≥i os dados originais a partir da representa√ß√£o comprimida.

5. Treinamento: o modelo √© ajustado para minimizar o erro de reconstru√ß√£o (ex.: Erro Quadr√°tico M√©dio - MSE ou Erro Absoluto M√©dio - MAE).

6. Pontua√ß√£o: durante a opera√ß√£o, cada novo registro recebe uma pontua√ß√£o *(score)* de anomalia proporcional ao seu erro.

7. Revis√£o manual: as anomalias identificadas s√£o ent√£o comunicadas aos gestores do processo para revis√£o manual e confirma√ß√£o da natureza: erro ou n√£o.

---


## **Refer√™ncias de estudos utilizados**
---

1 JONNALAGADDA, Omkeerthan; RAJU, M.; REDDY, G. S. Deep Risk Profiling: An Autoencoder-Based Framework for Detecting Suspicious Financial Transactions. International Journal of Communication Networks and Information Security, v.17, n.3, 2025.
<br><br>
2. SU, ICCK. Anomaly Detection in Temporal Financial Series Using Hybrid Autoencoder Architectures. Proceedings of the International Conference on Computing and Knowledge (ICCK), 2025.
<br><br>
3. YADAV, A. K.; SINGH, G. Anomaly Detection in Financial Transactions Using Advanced Data Mining Algorithms. International Journal of Sciences and Innovation Engineering, v.1, n.3, p.28‚Äì34, 2024.
<br><br>
4. HERN√ÅNDEZ AROS, Ludivia; BUSTAMANTE MOLANO, Luisa Ximena; GUTI√âRREZ-PORTELA, Fernando; MORENO HERN√ÅNDEZ, John J.; RODR√çGUEZ BARRERO, Mario S. Financial fraud detection through the application of machine learning techniques: a literature review. Humanities and Social Sciences Communications, v.11, n.1130, 2024. DOI:10.1057/s41599-024-03606-0.
<br><br>
5. BELLO, O. A.; FOLORUNSO, A.; EJIOFOR, O. E. Enhancing Cyber Financial Fraud Detection Using Deep Learning Techniques: A Study on Neural Networks and Anomaly Detection. International Journal of Network and Communication Research, v.7, n.1, p.90‚Äì113, 2022. DOI:10.37745/ijncr.16/vol7n190113.
<br><br>
6. PINTO, Sarah Oliveira. Abordagens de Detec√ß√£o de Anomalias em Dados Financeiros. Trabalho de Conclus√£o de Curso ‚Äî Universidade de Bras√≠lia, 2023. Dispon√≠vel em: https://bdm.unb.br/bitstream/10483/35738/1/2023_SarahOliveiraPinto_tcc.pdf. Acesso em: 17 out. 2025.
<br><br>
7. STEF√ÅNSSON, H. A. Unsupervised Anomaly Detection in Financial Transactions. University of Iceland, 2021. Dispon√≠vel em: https://skemman.is/bitstream/1946/44727/1/Unsupervised_Anomaly_Detection_in_Financial_Transactions.pdf. Acesso em: 17 out. 2025.
<br><br>
8. SCHREYER, Marco; SATTAROV, Timur; BORTH, Damian; et al. Detection of Anomalies in Large Scale Accounting Data using Deep Autoencoder Networks. arXiv preprint arXiv:1709.05254, 2017. Dispon√≠vel em: https://arxiv.org/abs/1709.05254. Acesso em: 17 out. 2025.

---

## **Detalhamento t√©cnico**

### **Vis√£o geral**

1. Ambiente + metadados da execu√ß√£o ‚Üí prepara diret√≥rios (input/, prerun/, output/, artifacts/, runs/, reports/), fixa timezone SP, abre um RUN_DIR com carimbo temporal e salva run.json com contexto de execu√ß√£o.   
2. Pr√©-processamento do CSV (prerun) ‚Üí valida BOM UTF-8 e separador ‚Äú,‚Äù, padroniza colunas, normaliza tipos (num√©rico, data, dc, COSIF), gera CSV limpo em prerun/, um snapshot Parquet e um relat√≥rio JSON com estat√≠sticas de limpeza.   
3. Ingest√£o de treino/valida√ß√£o ‚Üí l√™ o CSV pr√©-processado de prerun/ com encoding e separador fixos, checa colunas requeridas (username, lotacao, data_lcto, valormi, dc, contacontabil) e dom√≠nio de dc (d/c).   
4. Vocabul√°rio categ√≥rico ‚Üí constr√≥i mapas inteiros (*_int) para username, lotacao, dc, contacontabil, salva maps, cardinalidades e manifesto; loga as cardinalidades.  
5. Engenharia de features ‚Üí aplica codifica√ß√£o categ√≥rica, cria derivadas num√©ricas (ex.: log1p(valormi)), features de data (m√™s/semana), e combina tudo; salva features_preview.csv.  
6. Treino AE, pontua√ß√£o e governan√ßa:
    - a) Limpeza/normaliza√ß√£o/split ‚Üí prepara dataset, imputa e escala (artefatos salvos), gera dataset_npz.npz.
    - b) Treino do Autoencoder ‚Üí salva ae.pt, model_config.json, training_history.csv, erros de reconstru√ß√£o da valida√ß√£o.  
    - c) Pontua√ß√£o de um lote ‚Üí reaplica features, imputa/escala com artefatos, calcula erro linha-a-linha; salva scores.csv, score_stats.json, snapshot do CSV pontuado e vetor de erros.  
    - d) Calibra√ß√£o do corte (threshold) ‚Üí tr√™s modos: budget (taxa alvo), meta (N alertas), costmin (minimiza custo FP/FN com preval√™ncia). Gera threshold.json e figuras (ex.: hist/KS/PSI).  
<br>

O pipeline inclui um Relat√≥rio HTML **(Etapa 12)** consolidando artefatos, m√©tricas e rastros.

---


### **Etapa a etapa**

**ETAPA 1** ‚Äî Ambiente, diret√≥rios, metadados (auditoria)

<u>O que faz e por qu√™</u>

Monta Drive (se Colab), cria a estrutura de pastas do projeto e um RUN_DIR carimbado em America/Sao_Paulo; isto d√° reprodutibilidade e trilha de auditoria por execu√ß√£o.  

Salva runs/[RUN_ID]/run.json com ambiente (host, user, python, paths, seed, deps).  

**Decis√µes fixas:** estrutura de pastas; TIMEZONE = ‚ÄúAmerica/Sao_Paulo‚Äù; salvar run.json.

**Calibr√°veis:** PROJ_ROOT, SEED, lista NEED_PIP.

**Arquivos:** run.json (conte√∫do: metadados de execu√ß√£o).

**Salvo em mem√≥ria:** vari√°veis de caminho (e.g., RUN_DIR).

---

**ETAPA 2** ‚Äî Pr√©-processamento (prerun/)

<u>O que faz e por qu√™</u>

Lista CSVs em input/, valida formato (BOM + separador ‚Äú,‚Äù), padroniza nomes, normaliza tipos, checa colunas obrigat√≥rias e persiste o CSV ‚Äúclean‚Äù em prerun/ + Parquet + relat√≥rio JSON de limpeza. Isso garante padroniza√ß√£o e auditabilidade ex-ante.    

**Decis√µes fixas:** exig√™ncia UTF-8 BOM e separador ‚Äú,‚Äù; dom√≠nios v√°lidos de dc.

**Calibr√°veis:** mapping de renome de colunas, REQUIRED_COLS.

**Arquivos:** prerun/[base]-clean-[time].csv (+ .parquet) e runs/[RUN_ID]/preprocess_report_[base]-[time].json (estat√≠sticas: NA, vazios, dc inv√°lido, COSIF n√£o-num√©rico, etc.).

**Salvo em mem√≥ria:** apenas df tempor√°rios.

---

**ETAPA 3** ‚Äî Ingest√£o de treino/val

<u>O que faz e por qu√™</u>

Carrega de prerun/ com leitura estrita (encoding/sep fixos), valida colunas necess√°rias e dom√≠nio de dc.  


**Decis√µes fixas**: CSV_ENCODING="utf-8-sig", CSV_SEP=",", DC_VALIDOS={"d","c"}.

**Arquivos:** apenas logs; etapa serve para preparar DF_RAW.

**Salvo em mem√≥ria:** DF_RAW.
Rastreabilidade: logs e pr√©-checagens ajudam a reconstruir o insumo usado.

---

**ETAPA 4** ‚Äî Vocabul√°rio categ√≥rico (dimensionalidade)

<u>O que faz e por qu√™</u>

Constr√≥i mapas inteiros para username, lotacao, dc, contacontabil, salva maps, frequ√™ncias, cardinalidades e manifesto (facilita reuso na infer√™ncia e transpar√™ncia).

**Decis√µes fixas**: colunas categ√≥ricas (username, lotacao, dc, contacontabil) e sufixo _int.

**Arquivos:** categorical_maps.json, categorical_cardinality.json, categorical_frequencies_*.csv, vocab_manifest_*.json.

**Salvo em mem√≥ria:** categorical_maps.

**Rastreabilidade:** cardinalidades e manifesto salvos registram o ‚Äúestado‚Äù do vocabul√°rio por execu√ß√£o.

---

**ETAPA 5** ‚Äî Engenharia de features (tabular ‚Üí num√©rico)

<u>O que faz e por qu√™</u>

Codifica categ√≥ricas com os maps da ETAPA 4, cria derivadas (ex.: feat_log_valormi), adiciona features de data (m√™s/trimestre) e produz pr√©via para inspe√ß√£o.

**Decis√µes fixas:** NUMERIC_BASE_COLS=["valormi"], CAT_SUFFIX="_int".

**Itens calibr√°veis:** ligar/desligar derivadas (FEATURE_DERIVATIONS).

**Arquivos:** features_preview.csv (no RUN_DIR).

**Salvo em mem√≥ria:** DF_FEATURES/FEATURE_COLS (descritas como mantidas em mem√≥ria).

**Rastreabilidade:** prefixos feat_* nos dados deixam claro o que foi derivado.

---

**ETAPA 6** ‚Äî Limpeza ‚Üí normaliza√ß√£o ‚Üí split (artefatos)

<u>O que faz e por qu√™</u>

Imputa/escala os dados de treino, guarda artefatos de transforma√ß√£o e persiste dataset(s) para o treino do AE; gera dataset_npz.npz.

**Arquivos:** imputer.joblib, scaler.joblib, dataset_npz.npz. Os artefatos s√£o versionados por RUN_DIR.

**Salvo em mem√≥ria:** os arrays de treino/valida√ß√£o.

---

**ETAPA 7** ‚Äî Treinamento do Autoencoder

<u>O que faz e por qu√™</u>

Treina um MLP AE sim√©trico com gargalo (bottleneck), registra hist√≥rico de loss e salva configura√ß√£o de modelo; exporta pesos (ae.pt) e erros de reconstru√ß√£o da valida√ß√£o (suportam calibra√ß√£o, KS:Kolmogorov-Smirnov /PSI:Population Stability Index e explicabilidade).  

**Arquivos:** ae.pt, model_config.json, training_history.csv, reconstruction_errors_val.npy.

**Salvo em mem√≥ria:** objeto do modelo durante o treino.

**Rastreabilidade/Explicabilidade:** hist√≥rico de perda + config documentada apoiam reprodutibilidade e justificativa de hiperpar√¢metros.

---

**ETAPA 8** ‚Äî Pontua√ß√£o (infer√™ncia) de um CSV

<u>O que faz e por qu√™</u>

Carrega artefatos das ETAPAS 5 at√© ETAPA 7, replica a engenharia de features, imputa/escala, infere AE e calcula erro de reconstru√ß√£o por linha; salva pontua√ß√£o (score) em arquivo .csv.

**Arquivos:** scores.csv, score_stats.json, selected_source.csv e reconstruction_errors_score.npy; scores.csv inclui colunas de contexto + score.

**Salvo em mem√≥ria:** vetor recon_error para gr√°ficos/relat√≥rios.

---

** ETAPA 9** ‚Äî Calibra√ß√£o do threshold (budget | meta | costmin)

<u>O que faz e por qu√™</u>

Define corte do score via:
budget (quantil pela taxa-alvo), meta (n√∫mero de alertas), costmin (minimiza√ß√£o de custo Falso Positivo/Falso Negativo com preval√™ncia).

**Calibr√°veis:** modos de corte; c_fp (custo do falso positivo), c_fn (custo do falso negativo), p no costmin; metas de taxa/N nos outros.

**Arquivos:** threshold.json, drift_hist.png, scores_summary.json (sum√°rio).

**Rastreabilidade:** JSON de threshold + estat√≠sticas val vs. atual (KS/PSI) sustentam a governan√ßa de corte.

---

**ETAPA 10** ‚Äî Marca√ß√£o de anomalias (resultado operacional)

<b>TO DO - CORRE√á√ïES

Observa√ß√£o: n√£o localizei um bloco expl√≠cito de ‚Äúmarca√ß√£o final‚Äù (ex.: alerts.csv com is_alert = score >= threshold). Recomendo uma c√©lula dedicada que:

Leia scores.csv + threshold.json, gere alerts.csv (com identificadores chaves e is_alert), e amostras estratificadas (ex.: alerts_top100.csv).

Motivos: separar ‚Äúpontua√ß√£o‚Äù de ‚Äúdecis√£o‚Äù, e deixar a pol√≠tica de corte audit√°vel.</b>

---

**ETAPA 11** ‚Äî Monitoramento de drift

Identifica√ß√£o no fluxo de KS/PSI e figuras derivadas do histograma de erros para validar estabilidade entre a distribui√ß√£o dos dados de valida√ß√£o e a distribui√ß√£o do lote atual.

<b>TO DO - CORRE√á√ïES

Garantir que arquivos/informa√ß√µes sejam salvas.</b>

---

**ETAPA 12** ‚Äî Relat√≥rio (HTML/PDF)

Consolida artefatos (paths), m√©tricas, figuras e logs em relat√≥rio HTML dentro do RUN_DIR e/ou em reports/.

**Arquivos**: relat√≥rio HTML com imagens embedded na pasta reports/.

---

Recomenda√ß√µes espec√≠ficas (alinhadas ao objetivo ‚Äúmensal/trimestral‚Äù)

1. Marca√ß√£o operacional

Padronizar alerts.csv com colunas-chave (ex.: data, lota√ß√£o, conta, dc, valormi, score, threshold, is_alert).

Persistir amostras (ex.: top-N por unidade ou conta) para revis√£o humana.

---

**RESUMO T√âCNICO**

<u>O que fica s√≥ em mem√≥ria vs. o que √© persistido (s√≠ntese)</u>

- Apenas em mem√≥ria: DF_RAW (ingest√£o), categorical_maps (tamb√©m salvo em disco), FEATURE_COLS/DF_FEATURES (processo), arrays de treino/val (antes de persistir), recon_error (al√©m de salvo em .npy).  

- Persistido (principais):
  - Ambiente: run.json.
  - Pr√©-processo: *-clean-<ts>.csv, *.parquet, preprocess_report_*.json.
  - Vocabul√°rio: categorical_maps.json, categorical_cardinality.json, categorical_frequencies_*.csv, vocab_manifest_*.json.
  - Treino: dataset_npz.npz, imputer.joblib, scaler.joblib, ae.pt, model_config.json, training_history.csv, reconstruction_errors_val.npy.  
  - Pontua√ß√£o: scores.csv, score_stats.json, selected_source.csv, reconstruction_errors_score.npy.  
  - Calibra√ß√£o: threshold.json (+ figuras KS/PSI/hist).
  - Relat√≥rio: HTML consolidado.

---

**Explicabilidade:** o que o pipeline preserva.

- Reprodutibilidade por RUN_DIR e run.json (contexto completo da execu√ß√£o).

- Transpar√™ncia de insumo pela dupla prerun/*.csv + preprocess_report_*.json.

- Rastreio de transforma√ß√µes por vocabul√°rio e artefatos de imputa√ß√£o/escala (nomeados por execu√ß√£o).  

- Justificativa de modelo com model_config.json + training_history.csv.

- Tomada de decis√£o expl√≠cita via threshold.json.

- An√°lise de estabilidade com KS/PSI e histograma de erros (valida√ß√£o vs. atual).

- Relato final com relat√≥rio HTML.

---

# **Exemplo:** Caso hipot√©tico simplificado

## Exemplo de registros cont√°beis para treino:

| username | lotacao | dc | contacontabil | nome_conta | valormi | data_lcto  |
|-----------|----------|----|---------------|-------------|----------|-------------|
| leobr     | local1   | d  | 111000000     | exemplo     | 100.00   | 15/10/2025  |
| leobr     | local1   | c  | 311000000     | exemplo     | 100.00   | 15/10/2025  |
| leobr     | local1   | c  | 211000000     | exemplo     | 1000.00  | 20/10/2025  |
| leobr     | local1   | d  | 111000000     | exemplo     | 1000.00  | 20/10/2025  |

- **Etapa 1** n√£o altera registros;
- **Etapa 2** padroniza formato de registros, conforme a seguir:

   ‚Ä¢ normaliza strings (trim/lower), garante dc ‚Ç¨ fd, c>, zera/padroniza contacontabil como string num√©rica;

   ‚Ä¢ converte valormi para float (valormi_float);

   ‚Ä¢ cria sinal_dc (+1 para "d", -1 para "c") e valor_signed = sinal dc x valormi_float;

   ‚Ä¢ parseia a data e deriva ano, mes_num, tri_num (Q1..04), dia, ym
   (YYYY-MM);
   
   ‚Ä¢ extrai recortes da conta como c√≥digos puramente num√©ricos
   (sem rotular o significado): conta_grupo=conta [0],
   conta_subgrupo2=conta[:2],conta_classe3=conta[:3]; e

   ‚Ä¢ constr√≥i chaves √∫teis para agrega√ß√µes futuras (frequ√™ncias e
   valores): chave_user_conta_dc, chave_user_lotacao.

| username | lotacao | dc | contacontabil | nome_conta | valormi | valormi_float | sinal_dc | valor_signed | data_lcto  | data_dt    | ano  | mes_num | tri_num | dia | ym      | conta_grupo | conta_subgrupo2 | conta_classe3 | chave_user_conta_dc          | chave_user_lotacao |
|----------|---------|----|---------------|------------|---------|---------------|----------|--------------|------------|------------|------|---------|---------|-----|---------|-------------|-----------------|---------------|-------------------------------|--------------------|
| leobr    | local1  | d  | 111000000     | exemplo    | 100.00  | 100.00        | 1        | 100.00       | 15/10/2025 | 2025-10-15 | 2025 | 10      | 4       | 15  | 2025-10 | 1           | 11              | 111           | leobr|111000000|d               | leobr|local1       |
| leobr    | local1  | c  | 311000000     | exemplo    | 100.00  | 100.00        | -1       | -100.00      | 15/10/2025 | 2025-10-15 | 2025 | 10      | 4       | 15  | 2025-10 | 3           | 31              | 311           | leobr|311000000|c               | leobr|local1       |
| leobr    | local1  | c  | 211000000     | exemplo    | 1000.00 | 1000.00       | -1       | -1000.00     | 20/10/2025 | 2025-10-20 | 2025 | 10      | 4       | 20  | 2025-10 | 2           | 21              | 211           | leobr|211000000|c               | leobr|local1       |
| leobr    | local1  | d  | 111000000     | exemplo    | 1000.00 | 1000.00       | 1        | 1000.00      | 20/10/2025 | 2025-10-20 | 2025 | 10      | 4       | 20  | 2025-10 | 1           | 11              | 111           | leobr|111000000|d               | leobr|local1       |

<br>
- **Etapa 3** expande o dataset com agrega√ß√µes b√°sicas (por usu√°rio, conta, DC, lota√ß√£o e per√≠odos)

| username | lotacao | contacontabil | dc | mes_num | tri_num | freq_mes_user_total | freq_tri_user_total | freq_mes_lotacao_total | freq_tri_lotacao_total | freq_mes_user_conta_dc | val_mes_user_conta_dc | val_med_mes_user_conta_dc |
|-----------|----------|---------------|----|----------|----------|--------------------|--------------------|------------------------|------------------------|------------------------|-----------------------|---------------------------|
| leobr     | local1   | 111000000     | d  | 10       | 4        | 4                  | 4                  | 4                      | 4                      | 2                      | 1100.00               | 550.00                    |
| leobr     | local1   | 311000000     | c  | 10       | 4        | 4                  | 4                  | 4                      | 4                      | 1                      | 100.00                | 100.00                    |
| leobr     | local1   | 211000000     | c  | 10       | 4        | 4                  | 4                  | 4                      | 4                      | 1                      | 1000.00               | 1000.00                   |

*note que h√° consolida√ß√£o de contas para contabiliza√ß√µes do mesmo usuario/lotacao.
<br>

- **Etapa 4** normaliza e realiza deriva√ß√µes de vari√°veis (z-scores, propor√ß√µes e √≠ndices)

| Tipo de opera√ß√£o | Descri√ß√£o | Exemplo |
|------------------|------------|----------|
| Padroniza√ß√£o z-score | Para cada vari√°vel cont√≠nua, calcula-se ùëß = (ùë• ‚àí Œº)/œÉ sobre todo o conjunto (ou subset) | val_mes_user_conta_dc_z |
| Propor√ß√µes relativas | Divide valores de um grupo por totais do mesmo per√≠odo | prop_user_conta_dc_mes = val_mes_user_conta_dc / sum(val_mes_user_conta_dc do usu√°rio no m√™s) |
| Normaliza√ß√£o robusta | Opcionalmente usa mediana e IQR para robustez a outliers | valormi_float_robust |
| Reordena√ß√£o e consist√™ncia | Garante ordem de colunas conforme FEATURES_COLS | ‚Äî |

‚Ä¢ val mes user conta_ dc_z captura desvios de valor dentro do comportamento t√≠pico do usu√°rio;

‚Ä¢ prop_user_conta_dc_mes captura relev√¢ncia proporcional da conta no total movimentado; e

‚ó¶ freq_* preservam padr≈ëes de recorr√™ncia temporal.

O resultado dessa etapa conforme o exemplo √©:

| username | lotacao | contacontabil | dc | ano  | mes_num | tri_num | val_mes_user_conta_dc | val_mes_user_conta_dc_z | prop_user_conta_dc_mes | freq_mes_user_conta_dc | freq_mes_user_total |
|----------|---------|---------------|----|------|---------|---------|------------------------|-------------------------|------------------------|------------------------|---------------------|
| leobr    | local1  | 111000000     | d  | 2025 | 10      | 4       | 1100.00                | 0.78                    | 0.5000                 | 2                      | 4                   |
| leobr    | local1  | 311000000     | c  | 2025 | 10      | 4       | 100.00                 | -1.35                   | 0.0455                 | 1                      | 4                   |
| leobr    | local1  | 211000000     | c  | 2025 | 10      | 4       | 1000.00                | 0.57                    | 0.4545                 | 1                      | 4                   |

<br>

- **Etapa 5** transforma os dados preparados em tensores e os normaliza para treino. Converte os features da etapa anterior em uma matriz num√©rica.


| Procedimento | Descri√ß√£o | Resultado esperado |
|---------------|------------|--------------------|
| Sele√ß√£o de FEATURES_COLS | Mant√©m apenas as vari√°veis num√©ricas informativas para o AE | 4 a 50 colunas, conforme engenharia aplicada |
| Substitui√ß√£o de NaN / inf | Preenche nulos com 0 ou m√©dia (conforme config) | Nenhum valor ausente |
| Normaliza√ß√£o Min-Max (0‚Äì1) | Escala cada vari√°vel para o intervalo [0,1] | Facilita o treino est√°vel da rede |
| Montagem de matriz X | Transforma o dataframe em matriz numpy | X.shape = (n_registros, n_features) |
| Split temporal (opcional) | Divide em treino e valida√ß√£o por data ou amostra | X_train, X_val |

<br>
No exemplo:

| username | contacontabil | val_mes_user_conta_dc_z | prop_user_conta_dc_mes | freq_mes_user_conta_dc | freq_mes_user_total |
|-----------|---------------|-------------------------|------------------------|------------------------|---------------------|
| leobr     | 111000000     | 1.000                   | 1.0000                 | 1.000                  | 1.000               |
| leobr     | 311000000     | 0.000                   | 0.0000                 | 0.000                  | 1.000               |
| leobr     | 211000000     | 0.845                   | 0.9091                 | 0.000                  | 1.000               |

<br>

- **Etapa 6** divide os dados em treino e valida√ß√£o.

**X_train** ‚Üí shape = (2, 4)
| val_mes_user_conta_dc_z | prop_user_conta_dc_mes | freq_mes_user_conta_dc | freq_mes_user_total |
|--------------------------|------------------------|------------------------|---------------------|
| 1.000                   | 1.0000                 | 1.000                  | 1.000               |
| 0.000                   | 0.0000                 | 0.000                  | 1.000               |

**X_val** ‚Üí shape = (1, 4)
| val_mes_user_conta_dc_z | prop_user_conta_dc_mes | freq_mes_user_conta_dc | freq_mes_user_total |
|--------------------------|------------------------|------------------------|---------------------|
| 0.845                   | 0.9091                 | 0.000                  | 1.000               |

<br>

- **Etapa 7** treina o autoencoder tabular

### Tabela ‚Äî Arquitetura do modelo

| Componente | Descri√ß√£o |
|-------------|------------|
| Input Layer | Dimens√£o = n√∫mero de features (ex.: 4) |
| Encoder | 2‚Äì4 camadas totalmente conectadas (Dense), cada uma reduzindo dimensionalidade |
| Bottleneck (Latent Space) | Dimens√£o reduzida (ex.: 2) ‚Äî representa√ß√£o comprimida dos padr√µes |
| Decoder | Espelho do encoder, reconstruindo o input |
| Fun√ß√µes de ativa√ß√£o | ReLU nas camadas intermedi√°rias, Linear na sa√≠da |
| Loss Function | MSE (Mean Squared Error) entre input e output |
| Otimizador | Adam(lr=1e-3) |
| Crit√©rio de parada | Early Stopping com paci√™ncia (ex.: 5 √©pocas sem melhora no val_loss) |

<br>
Tabela ‚Äî Execu√ß√£o passo a passo

| Etapa | Descri√ß√£o | Sa√≠da |
|--------|------------|--------|
| 1 | Inicializa pesos da rede (seed fixa p/ reprodutibilidade) | model.state_dict() |
| 2 | Loop de treinamento: forward ‚Üí loss ‚Üí backward ‚Üí step | curvas de loss |
| 3 | Avalia√ß√£o a cada √©poca: train_loss e val_loss | monitoramento de estabilidade |
| 4 | Salva melhor modelo (menor val_loss) | RUN_DIR/model.pt |
| 5 | Gera gr√°ficos de converg√™ncia | loss_curve.png |

<br>
Tabela ‚Äî Arquivos gerados

| Arquivo | Conte√∫do | Fun√ß√£o |
|----------|-----------|--------|
| model.pt | Pesos treinados do AE | Reutilizado na Etapa 8 |
| model_config.json | Arquitetura e par√¢metros | Documenta√ß√£o do modelo |
| loss_curve.png | Curva de treinamento | Avalia√ß√£o visual |
| train_stats.json | Hist√≥rico de losses | Auditoria e rastreabilidade |

<br>

- **Etapa 8** faz a infer√™ncia se novos registros indicam erro de reconstru√ß√£o e s√£o candidatos √† anomalia.

Em termos do nosso exemplo, considere que os novos registros abaixo foram recebidos.

| username | lotacao | dc | contacontabil | nome_conta | valormi  | data_lcto  |
|-----------|----------|----|---------------|-------------|-----------|-------------|
| leobr     | local1   | c  | 211000000     | exemplo     | 1000.00   | 05/11/2025  |
| leobr     | local1   | d  | 111000000     | exemplo     | 1000.00   | 05/11/2025  |
| leobr     | local1   | c  | 211000000     | exemplo     | 100000.00 | 10/11/2025  |
| leobr     | local1   | d  | 111000000     | exemplo     | 100000.00 | 10/11/2025  |

<br>
Principais atividades:

| Etapa | Descri√ß√£o | Sa√≠da |
|--------|------------|--------|
| 1 | Reaplicar os mesmos tratamentos das Etapas 2‚Äì5 (normaliza√ß√£o, propor√ß√µes, z-scores) | Dados compat√≠veis com o modelo |
| 2 | Carregar model.pt e FEATURES_COLS | Modelo e ordem das colunas |
| 3 | Calcular reconstru√ß√µes X_recon = AE(X_input) | Sa√≠da reconstru√≠da |
| 4 | Calcular erro de reconstru√ß√£o (MSE, MAE, etc.) | Score de erro por linha |
| 5 | Comparar erro com limiar de anomalia (threshold.json) | Classifica√ß√£o: normal / an√¥malo |
| 6 | Salvar resultados (scores, flags, figuras) | scores_summary.json, drift_hist.png, drift_cdf.png |

<br>
Resultado da aplica√ß√£o no exemplo:

| username | lotacao | dc | contacontabil | valormi | data_lcto | reconstruction_error | is_anomaly |
|-----------|----------|----|---------------|----------|------------|----------------------|-------------|
| leobr     | local1   | c  | 211000000     | 1000.00  | 05/11/2025 | 0.06                 | 0 |
| leobr     | local1   | d  | 111000000     | 1000.00  | 05/11/2025 | 0.05                 | 0 |
| leobr     | local1   | c  | 211000000     | 100000.00| 10/11/2025 | 0.85                 | 1 |
| leobr     | local1   | d  | 111000000     | 100000.00| 10/11/2025 | 0.82                 | 1 |

<br>

- **Etapa 9** calibra o n√∫mero de alerta de acordo com a op√ß√£o desejada (budget)

- **Etapa 10** marca as anomalias no arquivo CSV original, informando o score de erro e sua classifica√ß√£o (rank)

- **Etapa 11** compara drift do modelo (diferen√ßa entre a distribui√ß√£o dos novos dados e dos dados de treinamento, o que indica a necessidade de retreinar o modelo).

| M√©trica | Interpreta√ß√£o |
|----------|----------------|
| mean_train_loss | erro m√©dio do treino |
| mean_val_loss | erro m√©dio da valida√ß√£o |
| mean_current_loss | erro m√©dio dos dados novos |
| KS(val vs atual) | medida de diferen√ßa entre distribui√ß√µes; indica estabilidade ou drift |
| PSI | √≠ndice de estabilidade populacional; detecta mudan√ßas de comportamento |
| threshold | limite adotado para marca√ß√£o de anomalias |
| taxa_val_anomalias | propor√ß√£o de anomalias na base de valida√ß√£o |
| taxa_atual_anomalias | propor√ß√£o de anomalias na base atual avaliada |

<br>

- **Etapa 12** apenas gera relat√≥rio com principais informa√ß√µes.

- **Etapa 13** envia o relat√≥rio sem dados brutos para que uma LLM possa avaliar os resultados e emitir uma opini√£o com sugest√µes de aprimoramento.

# **Checklist operacional**

## **Gest√£o do Ambiente**
---

Utilizado apenas na cria√ß√£o do projeto e atualiza√ß√£o de altera√ß√µes de c√≥digo (versionamento).

---


## **Utiliza√ß√£o em treino:**
---

- Etapa 1 - Setup do ambiente virtual e atualiza√ß√£o das instala√ß√µes necess√°rias;

- Etapa 2 - Preparo de arquivos para treino;

- Etapa 3 - Ingest√£o de dados para treino;

- Etapa 4 - Vocabul√°rio de treino (dimensionalidade);

- Etapa 5 - Engenharia de Features;

- Etapa 6 - Limpeza, normaliza√ß√£o e split (treino/val);

- Etapa 7 - Encoder (MLP sim√©trico), Bottleneck (LATENT_DIM) e Decoder (constru√ß√£o de layers_dec e self.decoder);

- Etapa 8 - (A e B) Geram arquivo simulado - (C) Pontua√ß√£o de anomalias com base no modelo treinado; e

- Etapas 9 **AT√â** 12 - **n√£o aplic√°vel na etapa de treino**.

---

## **Utiliza√ß√£o em produ√ß√£o:**</u>

---

- Etapa 1 - Setup do ambiente virtual e atualiza√ß√£o das instala√ß√µes necess√°rias;

- Etapa 2 - Preparo de arquivos para execu√ß√£o;

- Etapas 3 **AT√â** 7 - **n√£o executar em produ√ß√£o**;

- Etapa 8 - *(Subitem C)* Pontua√ß√£o de anomalias com base no modelo treinado;

- Etapa 9 - Calibra√ß√£o do corte de anomalias;

- Etapa 10 - Marca√ß√£o das anomalias e gera√ß√£o do arquivo resultado;

- Etapa 11 - Monitoramento do drift do algoritmo; e

- Etapa 12 - Informa√ß√µes de destaque e relat√≥rio.

---

# **Etapa 0:** Caso necess√°rio, gerar dados sint√©ticos

## **Gerador de dados sint√©ticos**

---

Gera√ß√£o de input sint√©tico (COSIF, est√°vel, CSV UTF-8 BOM V√çRGULA) + Diagn√≥sticos

---

In [None]:
# @title
from __future__ import annotations
import csv, random, math, sys
from pathlib import Path
from datetime import datetime, date
from collections import defaultdict, Counter
import pandas as pd
from zoneinfo import ZoneInfo  # timezone S√£o Paulo (America/Sao_Paulo)

print("Skynet Informa: Gerando dados sint√©ticos com distribui√ß√£o uniforme e est√°vel.")

# ---------------- util & config ----------------
def _sk(msg:str):
    print(f"{msg}")

def parse_ddmmyyyy(s: str) -> date:
    return datetime.strptime(s.strip(), "%d/%m/%Y").date()

RANDOM_SEED = 2025
random.seed(RANDOM_SEED)

# --- Pastas do projeto (fixas) ---
PROJ_ROOT = Path("/content/drive/MyDrive/Notebooks/ae-tabular")
INPUT_DIR = PROJ_ROOT / "input"
INPUT_DIR.mkdir(parents=True, exist_ok=True)

# Para compatibilidade com o restante do c√≥digo:
BASE_DIR = PROJ_ROOT
OUTPUT_DIR = INPUT_DIR

# Grupos (r√≥tulos informativos)
GRUPO_DESC = {
    "1": "Ativo",
    "2": "Ativo",
    "3": "Compensa√ß√£o",
    "4": "Passivo",
    "6": "Patrim√¥nio L√≠quido",
    "7": "Resultado",
    "9": "Compensa√ß√£o"
}
GRUPOS_VALIDOS = list(GRUPO_DESC.keys())

# Cat√°logo controlado (populares) por grupo -> lista de (subgrupo, detalhe, nome_base)
# Observa√ß√£o: s√£o exemplos sint√©ticos coerentes; ajuste se quiser espelhar seu plano de contas real.
CATALOGO = {
    "1": [("1","0","Ativo Circulante"), ("2","1","Realiz√°vel Curto Prazo"), ("3","0","Caixa e Equivalentes")],
    "2": [("1","0","Ativo N√£o Circulante"), ("2","0","Investimentos"), ("3","1","Imobilizado")],
    "3": [("0","0","Contas de Compensa√ß√£o"), ("1","0","Riscos em Garantias")],
    "4": [("1","0","Passivo Circulante"), ("2","1","Obriga√ß√µes Curto Prazo"), ("3","0","Fornecedores")],
    "6": [("0","1","Capital Social"), ("1","0","Reservas"), ("2","0","Ajustes Patrimoniais")],
    "7": [("1","0","Receitas Operacionais"), ("2","0","Despesas Operacionais"), ("3","0","Outras Receitas/Despesas")],
    "9": [("0","0","Compensa√ß√£o Diversa")]
}

# Sufixos controlados (do 4¬∫ d√≠gito em diante) para refor√ßar repeti√ß√£o
SUFIXOS_COMUNS = ["000001", "000010", "001000", "010000", "123456", "654321"]

# Faixas de valores por grupo (todas estreitas e comportadas)
VALOR_POR_GRUPO = {
    "1": (120.00, 220.00),
    "2": (150.00, 250.00),
    "3": (80.00, 160.00),
    "4": (120.00, 220.00),
    "6": (180.00, 260.00),
    "7": (100.00, 200.00),
    "9": (80.00, 160.00),
}
# Probabilidade de aplicar regra D em {1,2,7} e C em {4,6,7}
PAREAMENTO_CONTABIL_P = 0.8

# ---------------- entrada do usu√°rio ----------------
try:
    n_lanc_str = input("Quantos lan√ßamentos (pares d/c) deseja gerar? [ex.: 1000]: ").strip()
    n_lanc = int(n_lanc_str) if n_lanc_str else 1000
    if n_lanc <= 0: raise ValueError
except Exception:
    _sk("Entrada inv√°lida. Usando padr√£o de 1000 lan√ßamentos.")
    n_lanc = 1000

def _safe_input_date(prompt, default_str):
    s = input(f"{prompt} [default={default_str}]: ").strip()
    if not s: s = default_str
    try:
        return parse_ddmmyyyy(s)
    except Exception:
        _sk("Data inv√°lida. Usando default.")
        return parse_ddmmyyyy(default_str)

data_ini = _safe_input_date("Data inicial (DD/MM/AAAA)", "01/01/2025")
data_fim = _safe_input_date("Data final   (DD/MM/AAAA)", "30/09/2025")
if data_fim < data_ini:
    _sk("Intervalo invertido; trocando datas.")
    data_ini, data_fim = data_fim, data_ini

# Conjunto de (ano, m√™s) no intervalo
def meses_no_intervalo(d0: date, d1: date):
    ms = []
    y, m = d0.year, d0.month
    while (y < d1.year) or (y == d1.year and m <= d1.month):
        ms.append((y, m))
        if m == 12:
            y += 1; m = 1
        else:
            m += 1
    return ms

MESES = meses_no_intervalo(data_ini, data_fim)
if not MESES:
    _sk("Nenhum m√™s no intervalo. Abortando.")
    raise SystemExit(1)

# Para datas: escolheremos dias no "miolo" (5..25) e for√ßaremos pertencer ao m√™s/ano v√°lidos
DIAS_VALIDOS = list(range(5, 26))

# ---------------- desenho de popula√ß√£o ----------------
# N√∫mero de usu√°rios cresce sublinearmente ao total (estabilidade por usu√°rio)
n_users = max(8, round(math.sqrt(n_lanc)))                # cardinalidade de username
n_lot   = max(3, min( max(3, n_users // 3), n_users-1))   # cardinalidade de lotacao < username

lotacoes = [f"LOT{idx:03d}" for idx in range(1, n_lot+1)]
usernames = [f"user{idx:03d}" for idx in range(1, n_users+1)]
user2lot = {u: lotacoes[i % n_lot] for i, u in enumerate(usernames)}

# ---------------- plano est√°vel por m√™s/usu√°rio ----------------
total_meses = len(MESES)
base_por_user_mes = n_lanc // (n_users * total_meses)
resto = n_lanc % (n_users * total_meses)
plano = {u: {m: base_por_user_mes for m in MESES} for u in usernames}
slots = [(u, m) for u in usernames for m in MESES]
random.shuffle(slots)
for i in range(resto):
    u, m = slots[i]
    plano[u][m] += 1

# ---------------- utilit√°rios de gera√ß√£o ----------------
def rand_conta_do_catalogo(grupo: str):
    # usa cat√°logo; se grupo n√£o no cat√°logo (n√£o deve ocorrer), fallback aleat√≥rio
    if grupo in CATALOGO and CATALOGO[grupo]:
        s, d, nome_base = random.choice(CATALOGO[grupo])
        sufixo = random.choice(SUFIXOS_COMUNS)
        conta = f"{grupo}{s}{d}{sufixo}"
        nome = f"{nome_base} {grupo}{s}{d}"
        return conta, nome, grupo, s, d
    # fallback
    s = str(random.randint(0, 9))
    d = str(random.randint(0, 9))
    sufixo = random.choice(SUFIXOS_COMUNS)
    conta = f"{grupo}{s}{d}{sufixo}"
    nome = f"{GRUPO_DESC.get(grupo,'Grupo') } {grupo}{s}{d}"
    return conta, nome, grupo, s, d

def rand_grupo_para_dc(dc: str) -> str:
    # Probabilisticamente imp√µe coer√™ncia cont√°bil
    coerente = random.random() < PAREAMENTO_CONTABIL_P
    if dc == "d":
        return random.choice(["1","2","7"]) if coerente else random.choice(GRUPOS_VALIDOS)
    else:
        return random.choice(["4","6","7"]) if coerente else random.choice(GRUPOS_VALIDOS)

def rand_valor_por_grupo(grupo: str) -> float:
    lo, hi = VALOR_POR_GRUPO.get(grupo, (100.0, 200.0))
    return round(random.uniform(lo, hi), 2)

def rand_data_no_mes(ano:int, mes:int) -> str:
    # escolhe um dia v√°lido entre 5..25, ajustando se exceder fim de m√™s curto
    dia = random.choice(DIAS_VALIDOS)
    # Ajuste simplificado: limita dia a 28 para seguran√ßa geral
    if mes == 2 and dia > 28: dia = 28
    if mes in (4,6,9,11) and dia > 30: dia = 30
    # Garante pertencer ao intervalo global data_ini..data_fim
    dt = date(ano, mes, dia)
    if dt < data_ini: dt = data_ini
    if dt > data_fim: dt = data_fim
    return dt.strftime("%d/%m/%Y")

# ---------------- gera√ß√£o dos lan√ßamentos ----------------
rows = []
doc_counter = 0

for u in usernames:
    lot = user2lot[u]
    for (y, m), qnt in plano[u].items():
        for _ in range(qnt):
            doc_counter += 1
            docnum = f"{lot}-DOC{y}{m:02d}-{doc_counter:06d}"
            dt = rand_data_no_mes(y, m)

            # Sele√ß√£o de grupos por regra cont√°bil suave
            g_d = rand_grupo_para_dc("d")
            g_c = rand_grupo_para_dc("c")

            # Contas do cat√°logo por grupo
            conta_d, nome_d, g1, s1, d1 = rand_conta_do_catalogo(g_d)
            conta_c, nome_c, g2, s2, d2 = rand_conta_do_catalogo(g_c)

            # Valor "comportado" por grupo do d√©bito (base) ‚Äî mant√©m simetria no cr√©dito
            val = rand_valor_por_grupo(g1)

            rows.append({
                "username": u,
                "lotacao": lot,
                "dc": "d",
                "contacontabil": conta_d,
                "nome_conta": nome_d,
                "documento_num": docnum,
                "valormi": f"{val:.2f}",
                "data_lcto": dt
            })
            rows.append({
                "username": u,
                "lotacao": lot,
                "dc": "c",
                "contacontabil": conta_c,
                "nome_conta": nome_c,
                "documento_num": docnum,
                "valormi": f"{-val:.2f}",
                "data_lcto": dt
            })

# ---------------- escrita do CSV (UTF-8 BOM) ----------------
now_sp = datetime.now(ZoneInfo("America/Sao_Paulo"))
ts_sp = now_sp.strftime("%Y%m%d-%H%M%S-%Z")  # ex.: 20251019-214512-BRT

outfile = OUTPUT_DIR / f"sintetico_AE_{ts_sp}.csv"
fieldnames = ["username","lotacao","dc","contacontabil","nome_conta","documento_num","valormi","data_lcto"]

with open(outfile, "w", encoding="utf-8-sig", newline="") as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames, dialect="excel")
    writer.writeheader()
    writer.writerows(rows)

_sk(f"Arquivo gerado em: {outfile}")
_sk(f"Caminho da pasta: {outfile.parent}")
_sk(f"Nome do arquivo : {outfile.name}")
_sk(f"Linhas: {len(rows)}  | Lan√ßamentos (pares d/c): {doc_counter}")
_sk(f"Usu√°rios: {n_users} | Lota√ß√µes: {n_lot} (lotacao < username: {'ok' if n_lot < n_users else 'NOK'})")

# ---------------- Diagn√≥sticos (tabelas) ----------------
df = pd.DataFrame(rows)

# 1) N√∫mero de registros em branco por campo
def is_blank(x):
    return (x is None) or (str(x).strip() == "")
blank_counts = {col: int(df[col].map(is_blank).sum()) for col in df.columns}
diag_blanks = pd.DataFrame([
    {"campo": col, "qtd_brancos": blank_counts[col]}
    for col in df.columns
]).sort_values("campo")

print("\n=== (1) Registros em branco por campo ===")
print(diag_blanks.to_string(index=False))

# 2) Categ√≥ricos: valor menos e mais frequente
categoricos = ["username","lotacao","dc","contacontabil","nome_conta","documento_num"]
linhas = []
for col in categoricos:
    vc = df[col].value_counts(dropna=False)
    if vc.empty:
        linhas.append({"campo": col, "mais_freq_valor": None, "mais_freq_qtd": 0,
                       "menos_freq_valor": None, "menos_freq_qtd": 0})
        continue
    mais_val, mais_qtd = vc.index[0], int(vc.iloc[0])
    menos_val, menos_qtd = vc.index[-1], int(vc.iloc[-1])
    linhas.append({
        "campo": col,
        "menos_freq_valor": menos_val, "menos_freq_qtd": menos_qtd,
        "mais_freq_valor": mais_val,   "mais_freq_qtd":  mais_qtd
    })
diag_categ = pd.DataFrame(linhas)

print("\n=== (2) Categ√≥ricos: valor menos e mais frequente ===")
print(diag_categ.to_string(index=False))

# 3) Data: menor e maior data
# (CRIAR coluna _date antes de usar)
df["_date"] = pd.to_datetime(df["data_lcto"], format="%d/%m/%Y").dt.date
min_data = df["_date"].min()
max_data = df["_date"].max()
print("\n=== (3) Datas ===")
print(f"Menor data: {min_data.strftime('%d/%m/%Y')}  |  Maior data: {max_data.strftime('%d/%m/%Y')}")

# 4) Para cada grupo (1¬∫ d√≠gito), subgrupo (2 primeiros), detalhamento (3 primeiros):
#    confirma se ‚àë valormi = 0 (OK/NOK). Observa√ß√£o: como o pareamento D/C pode ocorrer em grupos diferentes,
#    n√£o h√° garantia de zerar por prefixo; o relat√≥rio mostrar√° OK/NOK explicitamente.
def prefixo(s, n):
    return s[:n] if isinstance(s, str) and len(s) >= n else None

# Criar coluna num√©rica para somat√≥rios
df["valormi_float"] = df["valormi"].astype(float)

df["_g1"] = df["contacontabil"].map(lambda x: prefixo(x,1))
df["_g2"] = df["contacontabil"].map(lambda x: prefixo(x,2))
df["_g3"] = df["contacontabil"].map(lambda x: prefixo(x,3))

rep_g1 = (df.groupby("_g1")["valormi_float"].sum().reset_index()
            .assign(status=lambda d: d["valormi_float"].apply(lambda v: "OK" if abs(v)<1e-6 else "NOK"))
            .rename(columns={"_g1":"grupo","valormi_float":"soma_valormi"}))
rep_g2 = (df.groupby("_g2")["valormi_float"].sum().reset_index()
            .assign(status=lambda d: d["valormi_float"].apply(lambda v: "OK" if abs(v)<1e-6 else "NOK"))
            .rename(columns={"_g2":"subgrupo","valormi_float":"soma_valormi"}))
rep_g3 = (df.groupby("_g3")["valormi_float"].sum().reset_index()
            .assign(status=lambda d: d["valormi_float"].apply(lambda v: "OK" if abs(v)<1e-6 else "NOK"))
            .rename(columns={"_g3":"detalhe","valormi_float":"soma_valormi"}))

print("\n=== (4a) Soma por GRUPO (1 d√≠gito) ===")
print(rep_g1.to_string(index=False))
print("\n=== (4b) Soma por SUBGRUPO (2 d√≠gitos) ===")
print(rep_g2.to_string(index=False))
print("\n=== (4c) Soma por DETALHE (3 d√≠gitos) ===")
print(rep_g3.to_string(index=False))

# Tamb√©m confirma soma por documento (deve ser sempre 0)
doc_sums = df.groupby("documento_num")["valormi_float"].sum().abs().max()
print("\n=== (4d) Soma por DOCUMENTO (deve ser 0 sempre) ===")
print(f"Max |‚àë valormi| por documento: {doc_sums:.6f}  -> {'OK' if doc_sums < 1e-6 else 'NOK'}")

### **Select 10 registros**

In [None]:
# @title
# Seleciona 10 registros aleat√≥rios do DataFrame
amostra = df.sample(n=10, random_state=42)

# Exibe no console
print("\n=== (5) Amostra de 10 registros aleat√≥rios ===")
print(amostra.to_string(index=False))

## **Detalhes do Simulador de Dados Sint√©ticos ‚Äî AE-Tabular**

### 1. Objetivo
Gerar um **dataset sint√©tico controlado**, representando **lan√ßamentos cont√°beis** para fins de **teste e valida√ß√£o** do modelo *Autoencoder Tabular* utilizado na detec√ß√£o de anomalias em registros cont√°beis e financeiros.  
O simulador visa reproduzir **padr√µes operacionais t√≠picos** de contabiliza√ß√£o, mantendo coer√™ncia entre **usu√°rio, lota√ß√£o, contas, valores, natureza (D/C)** e **datas**, sem introduzir outliers ou ru√≠dos artificiais.

---

### 2. Estrutura dos Dados

| Campo | Tipo | Descri√ß√£o |
|-------|------|-----------|
| `username` | categ√≥rico | Identificador do usu√°rio respons√°vel pelo lan√ßamento. Cada usu√°rio pertence a uma √∫nica lota√ß√£o. |
| `lotacao` | categ√≥rico | Unidade organizacional associada ao usu√°rio. Cardinalidade menor que a de `username`. |
| `dc` | categ√≥rico | Natureza cont√°bil do movimento (`d` = d√©bito, `c` = cr√©dito). |
| `contacontabil` | categ√≥rico | C√≥digo da conta cont√°bil no padr√£o COSIF (1¬∫ d√≠gito = grupo, 2¬∫ = subgrupo, 3¬∫ = detalhamento). |
| `nomeconta` | texto | Nome sint√©tico da conta cont√°bil associada. |
| `documento_num` | categ√≥rico | Identificador √∫nico de lan√ßamento, formado por prefixo da lota√ß√£o e n√∫mero sequencial (`LOT###-DOCYYYYMM-XXXXXX`). |
| `valormi` | num√©rico | Valor monet√°rio do lan√ßamento. D√©bitos e cr√©ditos de um mesmo documento se anulam (soma = 0). |
| `data_lcto` | data | Data de lan√ßamento no formato `DD/MM/AAAA`. Distribu√≠da de forma uniforme entre as datas de in√≠cio e fim informadas pelo usu√°rio. |

---

### 3. Crit√©rios de Gera√ß√£o

#### 3.1. Controle de Volume e Distribui√ß√£o
- O usu√°rio informa o **n√∫mero total de lan√ßamentos (pares D/C)** desejado.  
- Cada lan√ßamento gera **duas linhas** ‚Äî um **d√©bito** e um **cr√©dito** ‚Äî garantindo soma zero por documento.  
- A distribui√ß√£o de lan√ßamentos √© **uniforme e est√°vel** por:
  - usu√°rio,  
  - lota√ß√£o,  
  - m√™s,  
  - trimestre.

> üîπ *Objetivo:* preservar consist√™ncia operacional e evitar varia√ß√µes abruptas que o modelo poderia interpretar como anomalias.

---

#### 3.2. Cardinalidade Controlada
- A cardinalidade de **lota√ß√£o** √© propositalmente **menor que a de usu√°rios**, refletindo estrutura hier√°rquica organizacional.  
- Cada `username` est√° associado **exclusivamente a uma lota√ß√£o fixa** (1:1).

---

#### 3.3. Contas Cont√°beis ‚Äî Padr√£o COSIF
- O campo `contacontabil` segue o **padr√£o COSIF**:
  - **1¬∫ d√≠gito:** grupo cont√°bil (1‚ÄìAtivo, 2‚ÄìAtivo, 3‚ÄìCompensa√ß√£o, 4‚ÄìPassivo, 6‚ÄìPatrim√¥nio L√≠quido, 7‚ÄìResultado, 9‚ÄìCompensa√ß√£o);  
  - **2¬∫ d√≠gito:** subgrupo;  
  - **3¬∫ d√≠gito:** detalhamento;  
  - **4¬∫ em diante:** d√≠gitos livres (preenchidos com sufixos padronizados para refor√ßar repeti√ß√£o natural).  

- Cada grupo possui um **cat√°logo controlado de subgrupos e detalhes** (`CATALOGO`), com **nomes sint√©ticos coerentes** (ex.: ‚ÄúCaixa e Equivalentes‚Äù, ‚ÄúFornecedores‚Äù, ‚ÄúReceitas Operacionais‚Äù).  
- O objetivo √© gerar **regularidade sem uniformidade total**, permitindo ao AE-Tabular aprender padr√µes cont√°beis sem ru√≠do excessivo.

---

#### 3.4. Coer√™ncia Cont√°bil (Pareamento D/C)
- Implementado um **mecanismo probabil√≠stico** de coer√™ncia cont√°bil:
  - D√©bitos tendem a ocorrer em grupos {1, 2, 7}.  
  - Cr√©ditos tendem a ocorrer em grupos {4, 6, 7}.  
  - Em **80% dos casos**, essa coer√™ncia √© respeitada; nos 20% restantes, ocorre pareamento cruzado para representar exce√ß√µes normais.  
- Cada documento cont√©m **duas linhas complementares (d/c)** com **mesmo valor e data**, garantindo que a soma seja **sempre zero**.

---

#### 3.5. Faixas de Valores e ‚ÄúComportamento Operacional‚Äù
- Valores s√£o sorteados em **intervalos estreitos e controlados** por grupo cont√°bil (`VALOR_POR_GRUPO`), evitando outliers.  
- As faixas variam entre **R$ 80,00 e R$ 260,00**, refletindo movimenta√ß√µes t√≠picas e ‚Äúcomportadas‚Äù.  
- A distribui√ß√£o √© **quase uniforme** dentro de cada faixa.

---

#### 3.6. Datas de Lan√ßamento
- O usu√°rio informa **data inicial e final** do per√≠odo de simula√ß√£o (formato `DD/MM/AAAA`).  
- As datas s√£o sorteadas **entre o 5¬∫ e o 25¬∫ dia** de cada m√™s, garantindo realismo e evitando concentra√ß√µes em extremos.  
- N√£o h√° lacunas: todos os registros possuem data v√°lida dentro do intervalo.  
- As contagens por m√™s e trimestre s√£o est√°veis.

---

#### 3.7. Identifica√ß√£o e Estrutura de Documento
- Cada par D/C compartilha um mesmo n√∫mero de documento (`documento_num`).  
- A estrutura inclui prefixo da **lota√ß√£o**, refor√ßando origem hier√°rquica do lan√ßamento.  
- Exemplo: `LOT005-DOC202506-000124`.

### 4. Crit√©rios de Qualidade e Diagn√≥stico

Ap√≥s a gera√ß√£o, o simulador executa **rotinas autom√°ticas de verifica√ß√£o e auditoria** para garantir integridade, completude e coer√™ncia dos dados.

| Verifica√ß√£o | Descri√ß√£o | Resultado Esperado |
|--------------|------------|--------------------|
| **Campos em branco** | Conta o n√∫mero de registros vazios por coluna. | Zero para todos os campos. |
| **Distribui√ß√£o categ√≥rica** | Identifica o valor mais e menos frequente para `username`, `lotacao`, `dc`, `contacontabil`, `nomeconta`, `documento_num`. | Distribui√ß√£o aproximadamente uniforme, sem concentra√ß√£o excessiva. |
| **Valores m√©dios** | Calcula m√©dias e m√©dias absolutas de `valormi` por `lotacao` e `username` nos per√≠odos **m√™s** e **trimestre**. | Estabilidade entre per√≠odos. |
| **Intervalo de datas** | Retorna menor e maior data de lan√ßamento. | Dentro do intervalo informado pelo usu√°rio. |
| **Soma por documento** | Verifica se ‚àë `valormi` = 0 em cada `documento_num`. | Sempre **OK**. |
| **Soma por grupo/subgrupo/detalhe** | Verifica ‚àë `valormi` por prefixos COSIF (1, 2, 3 d√≠gitos). | Pode conter **NOK**, pois h√° lan√ßamentos intergrupos realistas. |

---

### 5. Sa√≠da e Codifica√ß√£o
- O arquivo √© salvo em `./input/` com nome padr√£o: sintetico_AE_.csv

- Codifica√ß√£o: **UTF-8 com BOM**, separador **v√≠rgula (`,`)**.
- O cabe√ßalho cont√©m exatamente os campos definidos na estrutura de dados (se√ß√£o 2).

---

### 6. Racional de Projeto
- **Uniformidade sem artificialidade:** distribui√ß√£o est√°vel, mas n√£o perfeitamente regular.  
- **Realismo cont√°bil controlado:** coer√™ncia de D/C e uso do padr√£o COSIF.  
- **Aus√™ncia de outliers:** valores e frequ√™ncias dentro de limites plaus√≠veis.  
- **Rastreabilidade total:** logs via fun√ß√£o `_sk()` com timestamps e checagens autom√°ticas.  
- **Auditabilidade:** diagn√≥sticos tabulares permitem validar integridade e completude do dataset antes do treinamento do AE-Tabular.



# **Etapa 1:** Setup do ambiente e cria√ß√£o de RUN_DIR
t= 1min (max 2min)

In [None]:
# @title
"""
Objetivo
--------
Preparar o ambiente da execu√ß√£o:
- (sentinela) Pr√©-flight 1x por sess√£o: desabilitar Dynamo e fixar SymPy compat√≠vel.
- Montar Google Drive (se em Colab) e garantir a estrutura de diret√≥rios.
- Instalar depend√™ncias m√≠nimas (sem pin de torch).
- Fixar SEED e timezone; abrir/associar um RUN_DIR e salvar/atualizar metadados.

Pontos FIXOS:
- TIMEZONE = "America/Sao_Paulo"
- Estrutura: input/, prerun/, output/, artifacts/, runs/, reports/
- Metadados: runs/<RUN_ID>/run.json

Pontos CALIBR√ÅVEIS:
- PROJ_ROOT
- NEED_PIP
- SEED
"""

print("Skynet Informa: Preparo do ambiente.")

# =========================
# ¬ß1.0 ‚Äî Pr√©-flight com sentinela (roda apenas 1x por sess√£o)
# =========================
import os, sys, subprocess, pathlib

SENTINEL = pathlib.Path("/content/.ae_preflight_done")  # arquivo marca 1x por sess√£o (Colab)

# Vari√°veis de ambiente ‚Äî sempre reativadas (idempotentes)
os.environ["TORCHDYNAMO_DISABLE"] = "1"   # desliga TorchDynamo (estabilidade)
os.environ["PYTHONNOUSERSITE"] = "1"      # ignora user site-packages do Colab (PEP-668)

if not SENTINEL.exists():
    # Garantir SymPy compat√≠vel com torch._dynamo
    # (PEP-668: √© necess√°rio --break-system-packages no Python do sistema)
    subprocess.check_call([
        sys.executable, "-m", "pip", "install", "-q",
        "--upgrade", "--break-system-packages", "sympy==1.12"
    ])
    SENTINEL.write_text("ok")
    print("Pr√©-flight aplicado (Dynamo off, SymPy=1.12).")
else:
    print("Pr√©-flight j√° aplicado nesta sess√£o.")

# =========================
# ¬ß1.1 ‚Äî Imports base e utilit√°rios
# =========================
import json, platform, textwrap, random, hashlib, socket, getpass, re, io, base64, time, warnings
from pathlib import Path
from datetime import datetime
from zoneinfo import ZoneInfo

TZ = ZoneInfo("America/Sao_Paulo")

def _sk(msg: str) -> None:
    """Logger simples (sem prefixos)."""
    print(msg)

def _warn(msg: str) -> None:
    warnings.warn(msg, RuntimeWarning, stacklevel=2)

# =========================
# ¬ß1.2 ‚Äî Detec√ß√£o de ‚Äúvenv‚Äù (apenas para registro; sem uso no Colab)
# =========================
VENV_INFO = {
    "python_exe": sys.executable,
    "base_prefix": sys.base_prefix,
    "prefix": sys.prefix,
    "venv_active": (sys.prefix != sys.base_prefix)
}
_sk(f"python: {VENV_INFO['python_exe']}")
_sk(f"venv ativa? {VENV_INFO['venv_active']}")

# =========================
# ¬ß1.3 ‚Äî Montagem do Google Drive (se em Colab)
# =========================
IN_COLAB = "google.colab" in sys.modules or "COLAB_GPU" in os.environ
DRIVE_MOUNT = Path("/content/drive")
if IN_COLAB:
    try:
        from google.colab import drive as _colab_drive  # type: ignore
        if not DRIVE_MOUNT.exists() or not os.path.ismount(str(DRIVE_MOUNT)):
            _sk("Montando Google Drive‚Ä¶")
            _colab_drive.mount(str(DRIVE_MOUNT))
        else:
            _sk("Google Drive j√° montado.")
    except Exception as e:
        _warn(f"N√£o foi poss√≠vel montar o Google Drive automaticamente: {e}")

# =========================
# ¬ß1.4 ‚Äî Raiz do projeto e estrutura de diret√≥rios
# =========================
DEFAULT_DRIVE_ROOT = Path("/content/drive/MyDrive/Notebooks/ae-tabular")
DEFAULT_LOCAL_ROOT = Path.cwd() / "ae-tabular"

PROJ_ROOT = (
    DEFAULT_DRIVE_ROOT if (IN_COLAB and DEFAULT_DRIVE_ROOT.parent.exists())
    else DEFAULT_LOCAL_ROOT
)
os.makedirs(PROJ_ROOT, exist_ok=True)

INPUT_DIR    = PROJ_ROOT / "input"
PRERUN_DIR   = PROJ_ROOT / "prerun"
OUTPUT_DIR   = PROJ_ROOT / "output"
ARTIF_DIR    = PROJ_ROOT / "artifacts"
RUNS_DIR     = PROJ_ROOT / "runs"
REPORTS_DIR  = PROJ_ROOT / "reports"

for d in (INPUT_DIR, PRERUN_DIR, OUTPUT_DIR, ARTIF_DIR, RUNS_DIR, REPORTS_DIR):
    d.mkdir(parents=True, exist_ok=True)

_sk(f"PROJ_ROOT = {PROJ_ROOT}")
_sk("Estrutura ok (input/, prerun/, output/, artifacts/, runs/, reports/)")

# =========================
# ¬ß1.5 ‚Äî Carimbo temporal, timezone e escolha do RUN_DIR (novo ou existente)
# =========================
TIMEZONE = "America/Sao_Paulo"
_now = datetime.now(TZ)

def _list_runs(runs_dir: Path):
    subs = [d for d in runs_dir.iterdir() if d.is_dir()]
    # ordena por mtime (mais recente primeiro)
    subs.sort(key=lambda p: p.stat().st_mtime, reverse=True)
    items = []
    for d in subs:
        rid = d.name
        rj  = d / "run.json"
        created = None
        try:
            if rj.exists():
                with rj.open("r", encoding="utf-8") as f:
                    meta = json.load(f)
                created = meta.get("created_at")
        except Exception:
            created = None
        nfiles = sum(1 for _ in d.rglob("*") if _.is_file())
        items.append((d, rid, created, nfiles))
    return items

def _choose_run_dir():
    # Tenta ler prefer√™ncia por vari√°vel de ambiente (automatiza√ß√£o opcional)
    auto = os.getenv("AE_RUN_CHOICE", "").strip().lower()  # "new", "exist"
    if auto not in ("new","exist",""):
        auto = ""
    try:
        if not auto:
            ans = input("Criar novo RUN_DIR? [N=novo / e=existente] (default=N): ").strip().lower()
        else:
            ans = "n" if auto=="new" else "e"
    except (EOFError, KeyboardInterrupt):
        ans = "n"

    if ans in ("", "n", "nao", "n√£o"):
        # novo
        run_id  = _now.strftime("%Y%m%d-%H%M%S")
        run_dir = RUNS_DIR / run_id
        run_dir.mkdir(parents=True, exist_ok=True)
        _sk(f"RUN_ID (novo) = {run_id}")
        _sk(f"RUN_DIR (novo) = {run_dir}")
        return run_id, run_dir, True

    # existente
    items = _list_runs(RUNS_DIR)
    if not items:
        _sk("Nenhum RUN_DIR existente encontrado; criando um novo.")
        run_id  = _now.strftime("%Y%m%d-%H%M%S")
        run_dir = RUNS_DIR / run_id
        run_dir.mkdir(parents=True, exist_ok=True)
        return run_id, run_dir, True

    print("\nSelecione um RUN_DIR existente:")
    for i, (d, rid, created, nfiles) in enumerate(items):
        created_s = f" | criado: {created}" if created else ""
        print(f"  [{i}] {rid}  ({nfiles} arquivos){created_s}")

    choice = None
    for _try in range(3):
        try:
            raw = input("Digite o √≠ndice do RUN_DIR (ou Enter para cancelar e criar novo): ").strip()
        except (EOFError, KeyboardInterrupt):
            raw = ""
        if raw == "":
            # fallback: novo
            run_id  = _now.strftime("%Y%m%d-%H%M%S")
            run_dir = RUNS_DIR / run_id
            run_dir.mkdir(parents=True, exist_ok=True)
            print("Nenhuma sele√ß√£o feita. Criando RUN_DIR novo.")
            return run_id, run_dir, True
        if raw.isdigit():
            idx = int(raw)
            if 0 <= idx < len(items):
                choice = items[idx][0]
                break
        print("√çndice inv√°lido. Tente novamente.")

    if choice is None:
        print("Sele√ß√£o n√£o conclu√≠da. Criando RUN_DIR novo.")
        run_id  = _now.strftime("%Y%m%d-%H%M%S")
        run_dir = RUNS_DIR / run_id
        run_dir.mkdir(parents=True, exist_ok=True)
        return run_id, run_dir, True

    run_dir = choice
    run_id  = run_dir.name
    _sk(f"RUN_ID (existente) = {run_id}")
    _sk(f"RUN_DIR (existente) = {run_dir}")
    return run_id, run_dir, False

RUN_ID, RUN_DIR, NEW_RUN = _choose_run_dir()

# =========================
# ¬ß1.6 ‚Äî Depend√™ncias (pip) + imports centrais
# =========================
NEED_PIP = [
    "numpy",
    "pandas",
    "pyarrow",
    "scikit-learn",
    "matplotlib",
    # N√ÉO fixe torch aqui no Colab; use o que j√° vem no ambiente
    "reportlab",
    "sympy==1.12",   # redundante ao pr√©-flight, mas in√≥cuo
]

def _pip_install_missing(pkgs):
    """Tenta importar; se falhar, instala via pip no MESMO Python do kernel (com PEP-668 no Colab)."""
    to_install = []
    for spec in pkgs:
        name = spec.split("==")[0].split(">=")[0].split("<=")[0].split("[")[0]
        try:
            __import__(name)
        except Exception:
            to_install.append(spec)
    if to_install:
        _sk(f"Instalando pacotes: {to_install}")
        extra = ["--break-system-packages"] if sys.prefix == sys.base_prefix else []
        subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", *to_install, *extra])
    else:
        _sk("Todas depend√™ncias j√° presentes.")

_pip_install_missing(NEED_PIP)

# Imports centrais (torch apenas ap√≥s o pr√©-flight)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

try:
    import torch
    TORCH_OK = True
except Exception:
    TORCH_OK = False
    _warn("PyTorch n√£o dispon√≠vel ‚Äî o treino do autoencoder (Etapa 7) exigir√° Torch.")

# =========================
# ¬ß1.7 ‚Äî SEED / determinismo (quando vi√°vel)
# =========================
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
os.environ["PYTHONHASHSEED"] = str(SEED)

if TORCH_OK:
    try:
        torch.manual_seed(SEED)
        if torch.cuda.is_available():
            torch.cuda.manual_seed_all(SEED)
        torch.use_deterministic_algorithms(True, warn_only=True)
        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
        _sk(f"torch determin√≠stico habilitado (cuda={torch.cuda.is_available()})")
    except Exception as e:
        _warn(f"Determinismo Torch parcial: {e}")

# =========================
# ¬ß1.8 ‚Äî Metadados (criar se novo; atualizar se existente)
# =========================
RUN_META_PATH = RUN_DIR / "run.json"
if NEW_RUN or not RUN_META_PATH.exists():
    RUN_META = {
        "run_id": RUN_ID,
        "created_at": _now.isoformat(),
        "last_attached_at": _now.isoformat(),
        "timezone": TIMEZONE,
        "host": socket.gethostname(),
        "user": getpass.getuser() if hasattr(getpass, "getuser") else None,
        "python": sys.version,
        "platform": platform.platform(),
        "paths": {
            "proj_root": str(PROJ_ROOT),
            "input_dir": str(INPUT_DIR),
            "prerun_dir": str(PRERUN_DIR),
            "output_dir": str(OUTPUT_DIR),
            "artifacts_dir": str(ARTIF_DIR),
            "runs_dir": str(RUNS_DIR),
            "reports_dir": str(REPORTS_DIR),
            "run_dir": str(RUN_DIR),
        },
        "venv": VENV_INFO,
        "seed": SEED,
        "deps": NEED_PIP,
    }
    RUN_META_PATH.write_text(json.dumps(RUN_META, ensure_ascii=False, indent=2), encoding="utf-8")
    _sk(("Metadados criados" if NEW_RUN else "Metadados inicializados") + " em runs/<RUN_ID>/run.json")
else:
    try:
        meta = json.loads(RUN_META_PATH.read_text(encoding="utf-8"))
    except Exception:
        meta = {}
    # Atualiza apenas um campo leve de anexo (n√£o sobrescreve hist√≥rico)
    meta["last_attached_at"] = _now.isoformat()
    # Sincroniza paths (caso projeto tenha sido movido)
    meta.setdefault("paths", {})
    meta["paths"].update({
        "proj_root": str(PROJ_ROOT),
        "input_dir": str(INPUT_DIR),
        "prerun_dir": str(PRERUN_DIR),
        "output_dir": str(OUTPUT_DIR),
        "artifacts_dir": str(ARTIF_DIR),
        "runs_dir": str(RUNS_DIR),
        "reports_dir": str(REPORTS_DIR),
        "run_dir": str(RUN_DIR),
    })
    RUN_META_PATH.write_text(json.dumps(meta, ensure_ascii=False, indent=2), encoding="utf-8")
    _sk("Metadados atualizados (last_attached_at) em runs/<RUN_ID>/run.json")

# =========================
# ¬ß1.9 ‚Äî Resumo
# =========================
print("\n==== Etapa 1 ‚Äî AMBIENTE PRONTO ====")
print(f"PROJ_ROOT  :  {PROJ_ROOT}")
print(f"INPUT_DIR  :  {INPUT_DIR}")
print(f"PRERUN_DIR :  {PRERUN_DIR}")
print(f"OUTPUT_DIR :  {OUTPUT_DIR}")
print(f"ARTIF_DIR  :  {ARTIF_DIR}")
print(f"RUNS_DIR   :  {RUNS_DIR}")
print(f"REPORTS_DIR:  {REPORTS_DIR}")
print(f"RUN_DIR    :  {RUN_DIR}   (novo={NEW_RUN})")
print(f"SEED       :  {SEED}")
print(f"TIMEZONE   :  {TIMEZONE}")
print(f"TORCH_OK   :  {TORCH_OK}")
print("================================\n")

# **Etapa 2:** Utilit√°rio de pr√©-processamento de arquivos

<b>Melhoria: informar o n√∫mero de registros processados</b>

In [None]:
# @title ¬ßA ‚Äî APENAS CASO NECESS√ÅRIO - Convers√£o de ponto e v√≠rgula em v√≠rgula
# @title Converter CSV de ';' para ',' com sele√ß√£o por √≠ndice e op√ß√µes de sobrescrever/backup
from pathlib import Path
import pandas as pd
import csv
import sys
from datetime import datetime

print("Skynet Informa: Convertendo arquivo para separa√ß√£o por v√≠rgula.")

# -------- Configur√°veis --------
INPUT_DIR = Path("/content/drive/MyDrive/Notebooks/ae-tabular/input")
OUTPUT_SUBDIR = "converted_commas"   # Usado quando N√ÉO sobrescrever
ENCODING_READ = "utf-8-sig"          # l√™ UTF-8 com BOM
ENCODING_WRITE = "utf-8-sig"         # grava UTF-8 com BOM
KEEP_INDEX = False                   # n√£o salvar √≠ndice no CSV

# -------- Fun√ß√µes utilit√°rias --------
def _ask_yes_no(msg: str) -> bool:
    while True:
        ans = input(msg).strip().lower()
        if ans in ("s", "n"):
            return ans == "s"
        print("Por favor, responda com 's' ou 'n'.")

def _human_size(nbytes: int) -> str:
    for unit in ["B","KB","MB","GB","TB"]:
        if nbytes < 1024:
            return f"{nbytes:.0f} {unit}"
        nbytes /= 1024
    return f"{nbytes:.1f} PB"

def convert_semicolon_to_comma(src: Path, dst: Path):
    dst.parent.mkdir(parents=True, exist_ok=True)
    # Leitura preservando texto (acentos) e sem converter "NA"/"NaN" automaticamente
    df = pd.read_csv(
        src,
        sep=';',
        dtype=str,
        encoding=ENCODING_READ,
        quoting=csv.QUOTE_MINIMAL,
        keep_default_na=False
    )
    # Escrita com v√≠rgula e BOM
    df.to_csv(
        dst,
        sep=',',
        index=KEEP_INDEX,
        encoding=ENCODING_WRITE,
        quoting=csv.QUOTE_MINIMAL
    )

# -------- Execu√ß√£o --------
assert INPUT_DIR.exists(), f"Diret√≥rio n√£o encontrado: {INPUT_DIR}"

csv_files = sorted(INPUT_DIR.glob("*.csv"))
if not csv_files:
    print(f"[aviso] Nenhum .csv encontrado em {INPUT_DIR}")
    sys.exit(0)

print(f"Arquivos .csv em {INPUT_DIR}:")
for i, f in enumerate(csv_files):
    try:
        stat = f.stat()
        mtime = datetime.fromtimestamp(stat.st_mtime).strftime("%Y-%m-%d %H:%M:%S")
        print(f"[{i:02d}] {f.name}  ‚Äî  { _human_size(stat.st_size) }  ‚Äî  mod: {mtime}")
    except Exception:
        print(f"[{i:02d}] {f.name}")

# Sele√ß√£o por √≠ndice
while True:
    sel = input(f"Digite o √≠ndice do arquivo para converter [0..{len(csv_files)-1}]: ").strip()
    if sel.isdigit():
        idx = int(sel)
        if 0 <= idx < len(csv_files):
            break
    print("√çndice inv√°lido. Tente novamente.")

src = csv_files[idx]
print(f"Selecionado: {src.name}")

# Decis√£o de sobrescrever e backup
overwrite = _ask_yes_no("Deseja sobrescrever o arquivo original? (s/n): ")
make_backup = False
if overwrite:
    make_backup = _ask_yes_no("Gerar backup (.bak) antes de sobrescrever? (s/n): ")

if overwrite:
    # Caminhos tempor√°rio e backup
    tmp_out = src.with_suffix(".tmp.csv")
    backup = src.with_suffix(src.suffix + ".bak")
    if make_backup:
        backup.write_bytes(src.read_bytes())
        print(f"[ok] Backup criado: {backup.name}")
    # Converte para tempor√°rio e substitui
    convert_semicolon_to_comma(src, tmp_out)
    src.unlink()          # remove original
    tmp_out.rename(src)   # coloca convertido no lugar
    print(f"[ok] Convertido INPLACE: {src.name} (sep ';' -> ',')")
else:
    out_dir = src.parent / OUTPUT_SUBDIR
    dst = out_dir / src.name
    convert_semicolon_to_comma(src, dst)
    rel = dst.relative_to(INPUT_DIR)
    print(f"[ok] Convertido: {src.name} -> {rel} (sem sobrescrever)")

In [None]:
# @title ¬ßB ‚Äî Pr√©-processamento de CSVs (path ‚Üí prerun/)
"""
Objetivo
--------
Escolher um CSV (UTF-8 com BOM, separador ',') em PROJ_ROOT/input, aplicar
tratamentos padronizados e, se **todas as checagens** passarem, salvar em
PROJ_ROOT/prerun (CSV/Parquet) e um relat√≥rio JSON em RUN_DIR.
Caso qualquer checagem falhe, interrompe e informa o motivo.

Regras:
- Separador deve ser **v√≠rgula** (',').
- Arquivo precisa ter **> 1 coluna**.
- **Todas** colunas obrigat√≥rias devem existir ap√≥s normaliza√ß√£o.
"""

import json, re, sys, csv
from pathlib import Path
from datetime import datetime
import pandas as pd
import numpy as np
from zoneinfo import ZoneInfo
from typing import Optional, List

print("Skynet Informa: Pr√©-processamento de arquivo para posterior ingest√£o.")

# --------- Pr√©-checagens ----------
assert 'INPUT_DIR' in globals() and 'PRERUN_DIR' in globals() and 'RUN_DIR' in globals(), \
    "Execute a Etapa 1 antes (dirs e run.json)."
assert isinstance(INPUT_DIR, Path) and isinstance(PRERUN_DIR, Path), "INPUT_DIR/PRERUN_DIR inv√°lidos."

CSV_ENCODING_REQ = "utf-8-sig"   # alvo com BOM
CSV_SEP_REQ      = ","           # separador OBRIGAT√ìRIO (entrada e sa√≠da)

# --------- Dom√≠nio cont√°bil (CALIBR√ÅVEL) ----------
REQUIRED_COLS = [
    "username", "lotacao", "data_lcto", "valormi", "dc",
    "contacontabil", "nome_conta", "documento_num"
]

RENAME_MAP = {
    "usuario": "username", "user": "username",
    "lota√ß√£o": "lotacao",
    "data": "data_lcto", "data_lancamento": "data_lcto",
    "valor": "valormi",
    "debito_credito": "dc", "d_c": "dc",
    "conta_contabil": "contacontabil", "conta": "contacontabil",
    "nome_da_conta": "nome_conta",
    "documento": "documento_num", "num_documento": "documento_num",
}

NUMERIC_COLS = ["valormi"]
DATE_COLS    = ["data_lcto"]

DC_MAP = {
    "d": "d", "deb": "d", "debito": "d", "d√©bito": "d",
    "c": "c", "cred": "c", "credito": "c", "cr√©dito": "c",
}

# ----------------- Utilit√°rios -----------------
def _peek_first_line(path: Path) -> str:
    with open(path, "rb") as f:
        return f.readline().decode("utf-8", errors="ignore").strip()

def _strict_read_csv(path: Path) -> pd.DataFrame:
    """
    Leitura **estrita** com separador v√≠rgula e header=0.
    - Verifica se a 1¬™ linha cont√©m v√≠rgula; se n√£o, ERRO imediato.
    - Tenta engine='c' (est√°vel) com utf-8-sig e utf-8.
    - Fallback: engine='python' configurado para aspas.
    - Se ap√≥s ler ainda vier 1 coluna, ERRO (n√£o 'adivinha' formato).
    - Remove colunas 'unnamed' (√≠ndices salvos).
    """
    first_line = _peek_first_line(path)
    if "," not in first_line:
        raise ValueError(
            "ERRO: O cabe√ßalho n√£o parece usar v√≠rgula como separador.\n"
            f"Primeira linha: {first_line!r}\n"
            "Ajuste o arquivo para separador ',' e rode novamente."
        )

    for enc in ("utf-8-sig", "utf-8"):
        try:
            df = pd.read_csv(
                path, sep=",", encoding=enc, dtype=str, header=0, engine="c",
                quoting=csv.QUOTE_MINIMAL, quotechar='"', doublequote=True, on_bad_lines="error"
            )
            if df.shape[1] > 1:
                df = df.loc[:, ~df.columns.str.match(r"^unnamed[:_ ]?\d*$", case=False)]
                return df
        except Exception:
            pass

    for enc in ("utf-8-sig", "utf-8"):
        try:
            df = pd.read_csv(
                path, sep=",", encoding=enc, dtype=str, header=0, engine="python",
                quoting=csv.QUOTE_MINIMAL, quotechar='"', doublequote=True, on_bad_lines="error"
            )
            if df.shape[1] > 1:
                df = df.loc[:, ~df.columns.str.match(r"^unnamed[:_ ]?\d*$", case=False)]
                return df
        except Exception:
            pass

    raise ValueError(
        "ERRO: Falha na leitura com separador v√≠rgula (colunas n√£o separadas).\n"
        "Verifique se h√° aspas envolvendo linhas inteiras ou inconsist√™ncia no CSV."
    )

def _strip_all(df: pd.DataFrame) -> pd.DataFrame:
    for c in df.columns:
        if df[c].dtype == object:
            df[c] = df[c].astype(str).str.replace(r"\s+", " ", regex=True).str.strip()
            df[c] = df[c].replace({"nan": "", "None": "", "NULL": ""})
    return df

def _normalize_colnames(df: pd.DataFrame) -> pd.DataFrame:
    """
    Normaliza nomes: min√∫sculas sem acento, espa√ßos‚Üí'_', colapsa '__', remove '_' nas bordas.
    Corrige casos comuns: '_username'‚Üí'username'; 'documento_num_'‚Üí'documento_num'.
    Aplica RENAME_MAP ao final.
    """
    if isinstance(df.columns, pd.MultiIndex):
        df.columns = ["_".join(map(str, tup)).strip() for tup in df.columns.values]
    df.columns = ["" if (c is None) else str(c) for c in df.columns]

    def _rm_accents_lower(s: str) -> str:
        s = s.strip()
        s = re.sub(r"[^\w\s]", "_", s)
        s = re.sub(r"\s+", "_", s)
        s = s.lower()
        s = (s
             .replace("√°","a").replace("√†","a").replace("√£","a").replace("√¢","a").replace("√§","a")
             .replace("√©","e").replace("√™","e").replace("√®","e").replace("√´","e")
             .replace("√≠","i").replace("√¨","i").replace("√Æ","i").replace("√Ø","i")
             .replace("√≥","o").replace("√¥","o").replace("√µ","o").replace("√≤","o").replace("√∂","o")
             .replace("√∫","u").replace("√π","u").replace("√ª","u").replace("√º","u")
             .replace("√ß","c"))
        s = re.sub(r"_+", "_", s)
        s = s.strip("_")
        return s

    df = df.rename(columns={c: _rm_accents_lower(c) for c in df.columns})

    # p√≥s-ajustes espec√≠ficos e bordas
    fix = {}
    for c in df.columns:
        if c == "_username": fix[c] = "username"
        if c == "documento_num_": fix[c] = "documento_num"
        if c.endswith("_") and c[:-1] in df.columns: fix[c] = c[:-1]
        if c.startswith("_") and c[1:] in df.columns: fix[c] = c[1:]
    if fix:
        df = df.rename(columns=fix)

    # aplica RENAME_MAP
    df = df.rename(columns={src: dst for src, dst in RENAME_MAP.items() if src in df.columns})
    return df

def _to_float_br(s: str) -> Optional[float]:
    if s is None:
        return None
    t = str(s).strip()
    if t == "":
        return None
    if "," in t:
        t = t.replace(".", "").replace(",", ".")
    t = t.replace(" ", "")
    try:
        return float(t)
    except Exception:
        return None

def _normalize_values(df: pd.DataFrame) -> pd.DataFrame:
    for c in NUMERIC_COLS:
        if c in df.columns:
            df[c] = df[c].map(_to_float_br).astype(float)
    for c in DATE_COLS:
        if c in df.columns:
            df[c] = pd.to_datetime(df[c], errors="coerce", dayfirst=True)
            df[c] = df[c].dt.date.astype("string")  # ISO YYYY-MM-DD
    if "dc" in df.columns:
        df["dc"] = df["dc"].astype(str).str.lower().str.strip()
        df["dc"] = df["dc"].map(lambda x: DC_MAP.get(x, x))
        df.loc[~df["dc"].isin(["d","c"]), "dc"] = ""
    if "contacontabil" in df.columns:
        df["contacontabil"] = df["contacontabil"].astype(str).str.replace(r"\D+", "", regex=True)
    return df

def _report_stats(original_path: Path, df_raw: pd.DataFrame, df_clean: pd.DataFrame, fmt_check: dict) -> dict:
    return {
        "source_file": str(original_path),
        "size_bytes": original_path.stat().st_size,
        "format_check": fmt_check,
        "rows_raw": int(len(df_raw)),
        "cols_raw": int(df_raw.shape[1]),
        "rows_clean": int(len(df_clean)),
        "cols_clean": int(df_clean.shape[1]),
        "na_counts": {c: int(df_clean[c].isna().sum()) for c in df_clean.columns},
        "empty_counts": {c: int((df_clean[c].astype(str)=="").sum()) for c in df_clean.columns},
        "dc_invalid_count": int(("dc" in df_clean.columns) and (~df_clean["dc"].isin(["d","c"])).sum()),
        "valormi_na_count": int(("valormi" in df_clean.columns) and df_clean["valormi"].isna().sum()),
        "conta_non_digit_count": int(("contacontabil" in df_clean.columns) and (~df_clean["contacontabil"].str.fullmatch(r"\d+")).sum())
    }

# ----------------- Fluxo principal -----------------
csvs = sorted(INPUT_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
if not csvs:
    raise FileNotFoundError(f"N√£o h√° CSVs em {INPUT_DIR}. Coloque um CSV (UTF-8 BOM, ',') e rode novamente.")

print("\nCSVs dispon√≠veis em INPUT_DIR:")
for i, p in enumerate(csvs):
    print(f"[{i:03d}] {p.name}")

idx = None
while idx is None:
    try:
        idx = int(input("\n√çndice do CSV para pr√©-processar: ").strip())
        assert 0 <= idx < len(csvs)
    except Exception:
        print("√çndice inv√°lido. Tente novamente.")
        idx = None

SRC_PATH = csvs[idx]
print(f"Arquivo selecionado: {SRC_PATH.name}")

# 1) Checagem do header (informativa)
first_line = _peek_first_line(SRC_PATH)
fmt = {"comma_in_header": ("," in first_line)}

# 2) Leitura estrita com v√≠rgula (erra se n√£o separar)
df0 = _strict_read_csv(SRC_PATH)
if df0.shape[1] <= 1:
    raise RuntimeError("ERRO: Leitura resultou em apenas 1 coluna. Verifique separador v√≠rgula e conte√∫do do CSV.")

# 3) Normaliza√ß√£o de colunas e strings
df1 = _normalize_colnames(df0)
df1 = _strip_all(df1)

# 4) Checagem das obrigat√≥rias (interrompe se faltar)
missing = [c for c in REQUIRED_COLS if c not in df1.columns]
if missing:
    raise RuntimeError(
        "ERRO: colunas obrigat√≥rias ausentes ap√≥s normaliza√ß√£o: "
        f"{missing}. Ajuste o cabe√ßalho do CSV e rode novamente."
    )

# 5) Normaliza√ß√£o de valores
df2 = _normalize_values(df1)

# 6) Persist√™ncia autom√°tica (sem confirma√ß√£o, pois todas as checagens passaram)
stamp   = datetime.now(ZoneInfo("America/Sao_Paulo")).strftime("%Y%m%d-%H%M%S")
base    = SRC_PATH.stem
dst_csv = PRERUN_DIR / f"{base}-clean-{stamp}.csv"
dst_parq= PRERUN_DIR / f"{base}-clean-{stamp}.parquet"
dst_rep = RUN_DIR    / f"preprocess_report_{base}-{stamp}.json"

out = df2.copy()
if "valormi" in out.columns:
    out["valormi"] = out["valormi"].map(lambda x: ("" if pd.isna(x) else f"{x:.2f}"))

out.to_csv(dst_csv, index=False, sep=CSV_SEP_REQ, encoding=CSV_ENCODING_REQ)
df2.to_parquet(dst_parq, index=False)

report = _report_stats(SRC_PATH, df0, df2, fmt)
dst_rep.write_text(json.dumps(report, ensure_ascii=False, indent=2), encoding="utf-8")

print(f"\nPr√©-processamento conclu√≠do ‚Üí {dst_csv.name}")
print(f"Snapshot parquet            ‚Üí {dst_parq.name}")
print(f"Relat√≥rio JSON              ‚Üí {dst_rep.name}")

print("\nPr√©-visualiza√ß√£o (5 linhas):")
try:
    from IPython.display import display
    display(df2.head(5))
except Exception:
    print(df2.head(5).to_string(index=False))

print("\nPr√≥ximo passo: Etapa 3 ‚Äî selecionar um arquivo de PRERUN_DIR para TREINO/VAL.")

# **Etapa 3:** Ingest√£o de treino

---

Somente CSVs pr√©-processados de prerun/ ‚Äî sele√ß√£o expl√≠cita.

---


In [None]:
# @title
import json, re
import numpy as np
import pandas as pd
from pathlib import Path
from datetime import datetime
from zoneinfo import ZoneInfo  # <-- fuso hor√°rio SP

print("Skynet Informa: Ingest√£o de arquivo pr√©-processado para treino.")

assert 'RUN_DIR' in globals() and 'PRERUN_DIR' in globals(), "Execute as Etapas 1 e 2 antes."

CSV_ENCODING = "utf-8-sig"   # FIXO
CSV_SEP      = ","           # FIXO

REQUIRED_COLS = ["username", "lotacao", "data_lcto", "valormi", "dc", "contacontabil"]  # CALIBR√ÅVEL
DC_VALIDOS = {"d", "c"}  # FIXO

def carregar_validar_csv(path: Path) -> pd.DataFrame:
    df = pd.read_csv(path, sep=CSV_SEP, encoding=CSV_ENCODING, dtype=str)
    df.columns = [c.strip().lower() for c in df.columns]
    df = df.apply(lambda col: col.str.strip() if col.dtype == object else col)

    def _to_float(v):
        if v is None: return np.nan
        s = str(v).strip()
        if s == "": return np.nan
        if "," in s: s = s.replace(".", "").replace(",", ".")
        s = s.replace(" ", "")
        try: return float(s)
        except Exception: return np.nan

    if "valormi" in df.columns:
        df["valormi"] = df["valormi"].map(_to_float).astype(float)

    if "dc" in df.columns:
        df["dc"] = df["dc"].astype(str).str.lower().str.strip()
        df.loc[~df["dc"].isin(DC_VALIDOS), "dc"] = ""

    if "contacontabil" in df.columns:
        df["contacontabil"] = df["contacontabil"].astype(str).str.replace(r"\D+", "", regex=True)

    faltantes = [c for c in REQUIRED_COLS if c not in df.columns]
    if faltantes:
        raise ValueError(f"Colunas obrigat√≥rias ausentes: {faltantes}")

    problemas = {}
    if df["dc"].eq("").any(): problemas["dc_invalidos"] = int(df["dc"].eq("").sum())
    if df["valormi"].isna().any(): problemas["valormi_na"] = int(df["valormi"].isna().sum())
    if (~df["contacontabil"].str.fullmatch(r"\d+")).any():
        problemas["contacontabil_nao_numerica"] = int((~df["contacontabil"].str.fullmatch(r"\d+")).sum())
    if problemas:
        rep_path = RUN_DIR / f"validacao_ingestao_{path.stem}.json"
        rep_path.write_text(json.dumps(problemas, ensure_ascii=False, indent=2), encoding="utf-8")
        print(f"Skynet: inconsist√™ncias registradas em {rep_path.name}")
    return df

def _human_size(b: int) -> str:
    for unit in ["B","KB","MB","GB","TB"]:
        if b < 1024: return f"{b:.1f}{unit}"
        b /= 1024
    return f"{b:.1f}PB"

# ---------- listagem sem filtro ----------
pr_list_all = sorted(PRERUN_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
if not pr_list_all:
    raise FileNotFoundError("Nenhum CSV encontrado em prerun/. Rode a Etapa 2 primeiro.")

def _mostrar(lista):
    print("\nCSVs em prerun/:")
    for i, p in enumerate(lista):
        st = p.stat()
        mtime_sp = datetime.fromtimestamp(st.st_mtime, tz=ZoneInfo("America/Sao_Paulo"))
        ts = mtime_sp.strftime("%Y-%m-%d %H:%M:%S")
        print(f"[{i:03d}] {p.name:60s}  { _human_size(st.st_size):>8s}  mtime={ts}")

# ---------- sele√ß√£o direta por √≠ndice (sem filtro) ----------
while True:
    _mostrar(pr_list_all)
    raw = input("\nDigite o √çNDICE do CSV a usar para TREINO/VAL: ").strip()
    try:
        idx = int(raw)
        assert 0 <= idx < len(pr_list_all)
    except Exception:
        print("√çndice inv√°lido. Tente novamente.")
        continue

    selecionado = pr_list_all[idx]
    print(f"\nSelecionado: {selecionado.name}")
    ok = input("Confirma este arquivo? (s/n): ").strip().lower()
    if ok == "s":
        SELECTED_CSV = selecionado
        break
    else:
        print("Sele√ß√£o cancelada. Reiniciando‚Ä¶")

print(f"Arquivo confirmado: {SELECTED_CSV.name}")

# ---------- ingest√£o e rastreabilidade ----------
DF_RAW = carregar_validar_csv(SELECTED_CSV)
print(f"Linhas carregadas: {len(DF_RAW):,}")

pad_path = RUN_DIR / "selected_source.csv"
DF_RAW.to_csv(pad_path, index=False, sep=CSV_SEP, encoding=CSV_ENCODING)
snap_path = RUN_DIR / "journal_entries.parquet"
DF_RAW.to_parquet(snap_path, index=False)

print(f"c√≥pias salvas: {pad_path.name}, {snap_path.name}")
display(DF_RAW.head(5))

print("\nPr√≥ximo passo: Etapa 4 ‚Äî cria√ß√£o do vocabul√°rio de treino.")

# **Etapa 4:** Vocabul√°rio de treino

---

Cria e congela um vocabul√°rio de treino para as colunas categ√≥ricas do dataset.

Colunas categ√≥ricas s√£o transformadas em n√∫meros de acordo com o dicion√°rio estabelecido nessa Etapa.

---

In [None]:
# @title ¬ßA ‚Äî Utilit√°rios para versionamento do modelo: encoder/ver_N utilit√°rio - SEMPRE EXECUTAR EM TREINO
# -*- coding: utf-8 -*-
from pathlib import Path
from datetime import datetime
import json, re, shutil, inspect, hashlib, os

print("Skynet Informa: Nada a se ver aqui. Apenas defini√ß√£o de fun√ß√µes utilit√°rias.")

def _ensure_dir(p: Path):
    p.mkdir(parents=True, exist_ok=True)
    return p

def _list_versions(encoder_dir: Path):
    if not encoder_dir.exists():
        return []
    vers = sorted([d.name for d in encoder_dir.iterdir() if d.is_dir() and re.match(r"^ver_\d+$", d.name)],
                  key=lambda s: int(s.split("_")[1]))
    return vers

def _next_version_name(encoder_dir: Path):
    vers = _list_versions(encoder_dir)
    if not vers:
        return "ver_1"
    last_n = int(vers[-1].split("_")[1])
    return f"ver_{last_n+1}"

def _confirm(prompt: str) -> bool:
    resp = input(f"{prompt} [y/N]: ").strip().lower()
    return resp in ("y", "yes", "s", "sim")

def choose_or_create_version(PROJ_ROOT: Path, interactive: bool=True, allow_overwrite: bool=True) -> Path:
    """
    Retorna o caminho encoder/ver_N escolhido/criado.
    Se interactive=True: pergunta ao usu√°rio criar nova vers√£o ou selecionar/sobrescrever.
    Caso contr√°rio: cria automaticamente a pr√≥xima vers√£o.
    """
    encoder_dir = _ensure_dir(PROJ_ROOT / "encoder")
    vers = _list_versions(encoder_dir)

    if not interactive:
        ver_name = _next_version_name(encoder_dir)
        target = encoder_dir / ver_name
        _ensure_dir(target)
        print(f"[encoder] Vers√£o criada automaticamente: {ver_name}")
        return target

    print(f"[encoder] Vers√µes existentes: {vers if vers else '(nenhuma)'}")
    print("[1] Criar NOVA vers√£o")
    if vers:
        print("[2] Usar vers√£o EXISTENTE (sobrescrever)")

    choice = input("Escolha [1-2]: ").strip()
    if choice == "2" and vers:
        for i, v in enumerate(vers, 1):
            print(f"{i}) {v}")
        idx = int(input("Informe o √≠ndice da vers√£o a sobrescrever: ").strip())
        ver_name = vers[idx-1]
        target = encoder_dir / ver_name
        if allow_overwrite and _confirm(f"Confirma sobrescrever {ver_name}?"):
            print(f"[encoder] Sobrescrevendo {ver_name}...")
            # limpando conte√∫do pr√©vio
            for item in target.iterdir():
                if item.is_file() or item.is_symlink():
                    item.unlink(missing_ok=True)
                elif item.is_dir():
                    shutil.rmtree(item)
            return target
        else:
            raise RuntimeError("Opera√ß√£o cancelada pelo usu√°rio.")
    else:
        ver_name = _next_version_name(encoder_dir)
        target = encoder_dir / ver_name
        _ensure_dir(target)
        print(f"[encoder] Nova vers√£o: {ver_name}")
        return target

def latest_version_dir(PROJ_ROOT: Path) -> Path | None:
    encoder_dir = PROJ_ROOT / "encoder"
    vers = _list_versions(encoder_dir)
    return (encoder_dir / vers[-1]) if vers else None

def _md5_bytes(b: bytes) -> str:
    h = hashlib.md5(); h.update(b); return h.hexdigest()

def snapshot_pipeline_functions(save_dir: Path, funcs: dict):
    """
    funcs = {"build_features": build_features, "encode_categoricals": encode_categoricals}
    Salva pipeline_snapshot.py com o source das fun√ß√µes, para import posterior na Etapa 8.
    """
    lines = ["# -*- coding: utf-8 -*-", "# snapshot gerado automaticamente ‚Äî n√£o editar manualmente", ""]
    for name, fn in funcs.items():
        try:
            src = inspect.getsource(fn)
        except OSError as e:
            raise RuntimeError(f"N√£o foi poss√≠vel obter o source de {name}: {e}")
        lines.append(src)
        lines.append("")  # espa√ßamento
    code = "\n".join(lines)
    (save_dir / "pipeline_snapshot.py").write_text(code, encoding="utf-8")
    (save_dir / "pipeline_snapshot.md5").write_text(_md5_bytes(code.encode("utf-8")), encoding="utf-8")

def write_json(path: Path, obj: dict):
    path.write_text(json.dumps(obj, ensure_ascii=False, indent=2), encoding="utf-8")

def save_version_artifacts(
    version_dir: Path,
    *,
    model_state_path: Path,
    model_config: dict,
    features_pkl_path: Path,
    categorical_maps_path: Path | None,
    reconstruction_errors_val_path: Path | None,
    threshold_json_path: Path | None,
    exec_meta: dict
):
    """
    Copia/gera todos os arquivos necess√°rios para Etapa 8+ dentro da vers√£o.
    """
    _ensure_dir(version_dir)
    # 1) modelo
    shutil.copy2(model_state_path, version_dir / "ae.pt")
    write_json(version_dir / "model_config.json", model_config)
    # 2) features e vocabul√°rio
    shutil.copy2(features_pkl_path, version_dir / "features.pkl")
    if categorical_maps_path and categorical_maps_path.exists():
        shutil.copy2(categorical_maps_path, version_dir / "categorical_maps.json")
    # 3) valida√ß√£o/threshold
    if reconstruction_errors_val_path and reconstruction_errors_val_path.exists():
        shutil.copy2(reconstruction_errors_val_path, version_dir / "reconstruction_errors_val.npy")
    if threshold_json_path and threshold_json_path.exists():
        shutil.copy2(threshold_json_path, version_dir / "threshold.json")
    # 4) metadados da vers√£o
    write_json(version_dir / "version_meta.json", exec_meta)
    print(f"[encoder] Artefatos gravados em: {version_dir}")

In [None]:
# @title ¬ßB ‚Äî Gera√ß√£o do Dicion√°rio
"""
Objetivo
--------
Criar e congelar um vocabul√°rio (mapeamento categoria ‚Üí √≠ndice inteiro) para as
colunas categ√≥ricas do dataset de TREINO (DF_RAW). Transforma nomes em n√∫meros.

exemplo: d = 1 | c = 2 => com isso o modelo passa a ver os lan√ßamentos como um conjunto
de [1,2,1,2,2,2,1,1,1..etc]

Esta etapa ainda n√£o trata de frequ√™ncias/cortes temporais (vide Etapa 5)

Como funciona
-------------
1) Define a lista de colunas categ√≥ricas (CALIBR√ÅVEL em CAT_COLS).
2) Para cada coluna:
   - Calcula frequ√™ncias no DF_RAW.
   - Ordena por (freq desc, depois valor asc) para determinismo.
   - Reserva √≠ndice 0 para OOV ("out-of-vocabulary").
   - Atribui √≠ndices a partir de 1 √†s categorias vistas no treino.
3) Salva artefatos:
   - JSON com mapas por coluna: runs/<RUN_ID>/categorical_maps.json
   - Resumo de cardinalidades: runs/<RUN_ID>/categorical_cardinality.json
   - (opcional) c√≥pia dur√°vel em artifacts/: artifacts/categorical_maps_latest.json
4) Exp√µe helpers:
   - encode_categoricals(df) ‚Üí adiciona colunas *_int usando o vocabul√°rio
   - decode_category(col, idx) ‚Üí retorna string a partir do √≠ndice

Pontos FIXOS
------------
- OOV = 0
- Ordem determin√≠stica: (-freq, categoria)

Pontos CALIBR√ÅVEIS
------------------
- CAT_COLS: escolha de colunas categ√≥ricas
- Se incluir 'documento_num' (alta cardinalidade) depende da estrat√©gia de features.
"""

import json
import numpy as np
import pandas as pd
from collections import Counter
from pathlib import Path

print("Skynet Informa: Gerando dicion√°rio de dimens√µes.")

# Pr√©-checagens
assert 'DF_RAW' in globals(), "DF_RAW n√£o encontrado. Execute a Etapa 3 antes."
assert 'RUN_DIR' in globals() and 'ARTIF_DIR' in globals(), "Execute a Etapa 1 antes."

# ========= Configura√ß√£o (CALIBR√ÅVEL) =========
# Escolha das colunas categ√≥ricas.
# Sugest√£o: incluir identificadores est√°veis e sinais cont√°beis; evitar IDs
# muito vol√°teis caso n√£o sejam √∫teis ao modelo.
CAT_COLS = [
    "username",
    "lotacao",
    "dc",
    "contacontabil",
    # "nome_conta",      # ative se quiser usar descri√ß√£o textual
    # "documento_num",   # cuidado: alta cardinalidade; ative apenas se fizer sentido
]

OOV_INDEX = 0   # FIXO: √≠ndice reservado para 'desconhecidos'
OFFSET    = 1   # FIXO: categorias vistas come√ßam em 1

# ========= Constru√ß√£o do vocabul√°rio =========
categorical_maps: dict[str, dict[str, int]] = {}
categorical_cardinality: dict[str, int] = {}

def _build_map(series: pd.Series) -> dict[str, int]:
    """
    Constr√≥i o mapa categoria->√≠ndice:
    - Conta frequ√™ncias (com NaNs tratados como string vazia para consist√™ncia).
    - Ordena por frequ√™ncia desc, depois valor asc.
    - Reserva 0 para OOV, categorias come√ßam em 1.
    """
    s = series.fillna("").astype(str)
    freq = Counter(s.tolist())

    # Remove a categoria vazia "" do ranking se quiser (opcional):
    # freq.pop("", None)

    # Ordena√ß√£o determin√≠stica: mais frequentes primeiro; empate por ordem alfab√©tica
    ordered = sorted(freq.items(), key=lambda kv: (-kv[1], kv[0]))

    mapping = {"__oov__": OOV_INDEX, "__offset__": OFFSET}
    idx = OFFSET
    for cat, _count in ordered:
        mapping[cat] = idx
        idx += 1
    return mapping

# Constr√≥i mapas por coluna
for col in CAT_COLS:
    if col not in DF_RAW.columns:
        raise ValueError(f"Coluna categ√≥rica '{col}' n√£o existe no DF_RAW.")
    cmap = _build_map(DF_RAW[col])
    categorical_maps[col] = cmap
    # cardinalidade = total de √≠ndices "v√°lidos" (exclui OOV)
    categorical_cardinality[col] = len(cmap) - 2  # remove chaves meta (__oov__, __offset__)

# ========= Persist√™ncia dos artefatos =========
maps_path_run = RUN_DIR / "categorical_maps.json"
card_path_run = RUN_DIR / "categorical_cardinality.json"
maps_path_art = ARTIF_DIR / "categorical_maps_latest.json"

maps_path_run.write_text(json.dumps(categorical_maps, ensure_ascii=False, indent=2), encoding="utf-8")
card_path_run.write_text(json.dumps(categorical_cardinality, ensure_ascii=False, indent=2), encoding="utf-8")
maps_path_art.write_text(json.dumps(categorical_maps, ensure_ascii=False, indent=2), encoding="utf-8")

# ======= Persist√™ncia ampliada e manifesto (com fuso S√£o Paulo) =======
from zoneinfo import ZoneInfo
import hashlib

# carimbo e ids
stamp_sp = datetime.now(ZoneInfo("America/Sao_Paulo")).strftime("%Y%m%d-%H%M%S")
run_id = Path(RUN_DIR).name

# --- 3.1 Snapshot da base de treino (DF_RAW) ---
# caminhos
train_csv_path   = RUN_DIR / f"train_base_{stamp_sp}.csv"
train_parq_path  = RUN_DIR / f"train_base_{stamp_sp}.parquet"
schema_json_path = RUN_DIR / f"train_schema_{stamp_sp}.json"

# salvar CSV e Parquet
DF_RAW.to_csv(train_csv_path, index=False, encoding="utf-8-sig")
DF_RAW.to_parquet(train_parq_path, index=False)

# schema (dtypes) e shape
schema_dict = {
    "shape": {"rows": int(len(DF_RAW)), "cols": int(DF_RAW.shape[1])},
    "dtypes": {c: str(DF_RAW[c].dtype) for c in DF_RAW.columns}
}
schema_json_path.write_text(json.dumps(schema_dict, ensure_ascii=False, indent=2), encoding="utf-8")

# hash da base (conte√∫do) ‚Äî robusto para auditoria
def _hash_file(path: Path, algo="sha256", buf=1<<20) -> str:
    h = hashlib.new(algo)
    with open(path, "rb") as f:
        while True:
            b = f.read(buf)
            if not b: break
            h.update(b)
    return h.hexdigest()

train_csv_hash  = _hash_file(train_csv_path)
train_parq_hash = _hash_file(train_parq_path)

# --- 3.2 Frequ√™ncias por coluna categ√≥rica (longo) ---
freq_rows = []
for col in CAT_COLS:
    s = DF_RAW[col].fillna("").astype(str)
    vc = s.value_counts(dropna=False)
    total = int(vc.sum())
    # ordenar por (-freq, categoria) para consist√™ncia com o vocabul√°rio
    vc = vc.sort_values(ascending=False)
    # reconstruir √≠ndice (rank) e mapear idx do vocabul√°rio
    cmap = categorical_maps[col]
    # mapa invertido (√≠ndices existentes)
    for rank, (cat, freq) in enumerate(sorted(vc.items(), key=lambda kv: (-kv[1], kv[0])), start=1):
        idx = cmap.get(cat, 0)
        freq_rows.append({
            "coluna": col,
            "categoria": cat,
            "idx": int(idx),
            "frequencia": int(freq),
            "proporcao": float(freq/total) if total else 0.0,
            "rank": int(rank),
        })

freq_df = pd.DataFrame(freq_rows, columns=["coluna","categoria","idx","frequencia","proporcao","rank"])
freq_path = RUN_DIR / f"categorical_frequencies_{stamp_sp}.csv"
freq_df.to_csv(freq_path, index=False, encoding="utf-8-sig")

# --- 3.3 Dicion√°rios reversos (idx -> categoria) ---
rev_maps = {}
for col, cmap in categorical_maps.items():
    rev_maps[col] = {int(v): k for k, v in cmap.items() if not k.startswith("__")}
rev_maps_path = RUN_DIR / f"categorical_rev_maps_{stamp_sp}.json"
rev_maps_path.write_text(json.dumps(rev_maps, ensure_ascii=False, indent=2), encoding="utf-8")

# --- 3.4 Manifesto do vocabul√°rio ---
# hash simples do c√≥digo desta c√©lula (opcional: cole seu c√≥digo-fonte em uma string CODE_SRC)
CODE_SRC = None  # se quiser, atribua o texto da c√©lula aqui para carimbar
code_hash = hashlib.sha256(CODE_SRC.encode("utf-8")).hexdigest() if CODE_SRC else None

manifest = {
    "run_id": run_id,
    "timestamp_sp": stamp_sp,
    "cat_cols": CAT_COLS,
    "oov_index": OOV_INDEX,
    "offset": OFFSET,
    "train_snapshot": {
        "csv": str(train_csv_path),
        "csv_sha256": train_csv_hash,
        "parquet": str(train_parq_path),
        "parquet_sha256": train_parq_hash,
        "schema_json": str(schema_json_path),
        "shape": schema_dict["shape"]
    },
    "maps": {
        "run_path": str(maps_path_run),
        "artifacts_copy": str(maps_path_art),
        "rev_maps": str(rev_maps_path),
        "cardinality": str(card_path_run),
        "frequencies_csv": str(freq_path)
    },
    "code_hash_sha256": code_hash
}
manifest_path = RUN_DIR / f"vocab_manifest_{stamp_sp}.json"
manifest_path.write_text(json.dumps(manifest, ensure_ascii=False, indent=2), encoding="utf-8")

print(f"Snapshot treino          - {train_csv_path.name}, {train_parq_path.name}, {schema_json_path.name}")
print(f"Freq categ√≥ricas         - {freq_path.name}")
print(f"Mapas reversos           - {rev_maps_path.name}")
print(f"Manifesto                - {manifest_path.name}")
print(f"Vocabul√°rio salvo em     - {maps_path_run.name}  (c√≥pia: artifacts/{maps_path_art.name})")
print(f"Cardinalidades salvas em - {card_path_run.name}")

# ========= Helpers de codifica√ß√£o/decodifica√ß√£o =========
def encode_categoricals(df: pd.DataFrame,
                        cat_cols: list[str] = None,
                        maps: dict[str, dict[str, int]] = None,
                        suffix: str = "_int") -> pd.DataFrame:
    """
    Projeta colunas categ√≥ricas para √≠ndices inteiros usando os mapas congelados.

    Par√¢metros:
    - df: DataFrame de entrada
    - cat_cols: lista de colunas categ√≥ricas (default = CAT_COLS)
    - maps: dicion√°rio de mapas (default = categorical_maps deste run)
    - suffix: sufixo para colunas codificadas (default: '_int')

    Sa√≠da:
    - DataFrame com novas colunas <col><suffix> (inteiros).
    """
    if cat_cols is None:
        cat_cols = CAT_COLS
    if maps is None:
        maps = categorical_maps

    out = df.copy()
    for col in cat_cols:
        if col not in out.columns:
            raise ValueError(f"Coluna '{col}' n√£o encontrada no DF para codificar.")
        cmap = maps.get(col)
        if cmap is None:
            raise ValueError(f"Mapa n√£o encontrado para coluna '{col}'.")
        oov = cmap.get("__oov__", 0)
        series = out[col].fillna("").astype(str)
        out[col + suffix] = series.map(lambda x: cmap.get(x, oov)).astype("int32")
    return out

def decode_category(col: str, idx: int,
                    maps: dict[str, dict[str, int]] = None) -> str:
    """
    Decodifica um √≠ndice inteiro de volta √† categoria (quando poss√≠vel).
    - Retorna '<OOV>' para √≠ndices n√£o mapeados ou OOV=0.
    """
    if maps is None:
        maps = categorical_maps
    cmap = maps.get(col)
    if not cmap:
        return "<OOV>"
    if idx == cmap.get("__oov__", 0):
        return "<OOV>"
    # constr√≥i cache reverso simples
    rev = {v: k for k, v in cmap.items() if not k.startswith("__")}
    return rev.get(idx, "<OOV>")

# ========= Demonstra√ß√£o r√°pida (opcional) =========
demo_cols = ", ".join(CAT_COLS)
print(f"Colunas categ√≥ricas configuradas - {demo_cols}")
for col in CAT_COLS:
    print(f"{col}: cardinalidade = {categorical_cardinality[col]} (OOV=0, offset={OFFSET})")

# Mant√©m DF_RAW na mem√≥ria para pr√≥xima etapa
print("\nPr√≥ximo passo: Etapa 5 ‚Äî Engenharia de Features (usando os *_int gerados aqui).")

# **Etapa 5:** Engenharia de features

---
Transforma√ß√£o tabular para treino.

| Indicador / Aspecto                    | An√°lise                                  | Justificativa                                   |
|---------------------------------------|------------------------------------------|------------------------------------------------|
| Frequ√™ncia total de lan√ßamentos       | Mede o ritmo operacional                 | Permite observar padr√µes de recorr√™ncia        |
| Valor total / m√©dio                   | Mede o peso financeiro                   | Indica o impacto monet√°rio dos lan√ßamentos     |
| Segmenta√ß√£o por DC (d√©bito / cr√©dito) | Distingue natureza cont√°bil do movimento | Essencial para separar comportamentos opostos  |

<br>
Esta Etapa gera freq. + valor total + valor m√©dio
todas discriminadas por D/C.

Isso torna o modelo sens√≠vel a mudan√ßas na natureza dos lan√ßamentos,
n√£o apenas no volume ou no montante - o que √© exatamente o tipo de anomalia
que mais interessa em auditoria comportamental.

Ao final, geramos uma foto (snapshot) em arquivo, para n√£o dependermos da mem√≥ria/kernel.

---

In [None]:
# @title
"""
Encapsula toda a engenharia de features da Etapa 5 em uma fun√ß√£o reutiliz√°vel:
  build_features(df_in, ..., save_rejects, run_dir, strict_date_threshold)

Depois:
- Executa sobre DF_RAW (treino) e persiste outputs
- Congela a pipeline em artifacts/pipeline_snapshot.py (com imports no topo)
"""

import re, json, hashlib, inspect
import pandas as pd
import numpy as np
from pathlib import Path
from datetime import datetime
from zoneinfo import ZoneInfo

print("Skynet Informa: Criando features (wrapper completo) e congelando pipeline.")

# --------- Pr√©-checagens globais m√≠nimas ----------
assert 'DF_RAW'    in globals(), "DF_RAW n√£o encontrado. Execute as etapas anteriores."
assert 'RUN_DIR'   in globals() and isinstance(RUN_DIR, Path), "RUN_DIR n√£o encontrado. Execute a Etapa 1."
assert 'PROJ_ROOT' in globals() and isinstance(PROJ_ROOT, Path), "PROJ_ROOT n√£o encontrado. Execute a Etapa 1."
ARTIFACTS_DIR = Path(globals().get("ARTIFACTS_DIR", PROJ_ROOT / "artifacts"))
ARTIFACTS_DIR.mkdir(parents=True, exist_ok=True)

# =========================
#  WRAPPER COMPLETO
# =========================
def build_features(
    df_in: pd.DataFrame,
    *,
    save_rejects: bool = False,
    run_dir: Path | None = None,
    tz: str = "America/Sao_Paulo",
    strict_date_threshold: float = 1.0  # % m√°ximo de datas inv√°lidas permitido (estrito)
) -> pd.DataFrame:
    """
    Reaplica a engenharia da Etapa 5 sobre df_in e retorna o DataFrame de features.

    Par√¢metros:
      - save_rejects: se True (e run_dir definido), salva CSV/JSON dos registros com data inv√°lida.
      - strict_date_threshold: percentual m√°ximo (em %) de datas inv√°lidas; acima disso gera exce√ß√£o.
    """
    df_feat = df_in.copy()

    # --------- colunas obrigat√≥rias ----------
    REQ_COLS = ["data_lcto", "username", "lotacao", "contacontabil", "dc", "valormi"]
    missing = [c for c in REQ_COLS if c not in df_feat.columns]
    if missing:
        raise RuntimeError(f"ERRO: colunas obrigat√≥rias ausentes: {missing}")

    # ========= 1) Datas: aaaa-mm-dd com auditoria =========
    def _clean_str(x):
        if pd.isna(x): return ""
        s = str(x).strip()
        s = re.sub(r"\s+", " ", s)
        return s.replace("\ufeff","").replace("\u200b","")

    raw_dates = df_feat["data_lcto"].astype(object).map(_clean_str)
    df_feat["data_lcto_parsed"] = pd.to_datetime(raw_dates, format="%Y-%m-%d", errors="coerce")

    invalid_mask = df_feat["data_lcto_parsed"].isna()
    n_total = len(df_feat)
    n_inv = int(invalid_mask.sum())
    pct_inv = (100.0 * n_inv / n_total) if n_total else 0.0
    print(f"Qualidade 'data_lcto' (aaaa-mm-dd): registros v√°lidos = ({n_total}-{n_inv})/{n_total} ((1-{pct_inv:.2f})%).")

    # salvar rejei√ß√µes (opcional, treino/auditoria)
    if save_rejects and n_inv > 0 and run_dir is not None:
        stamp = datetime.now(ZoneInfo(tz)).strftime("%Y%m%d-%H%M%S")
        rej_cols = ["data_lcto","username","lotacao","contacontabil","dc","valormi"]
        df_rej = df_feat.loc[invalid_mask, rej_cols].copy()
        rej_csv  = run_dir / f"rejects_data_lcto_{stamp}.csv"
        rej_json = run_dir / f"rejects_data_lcto_{stamp}.json"
        df_rej.to_csv(rej_csv, index=False, encoding="utf-8-sig")
        rej_json.write_text(df_rej.to_json(orient="records", force_ascii=False, indent=2), encoding="utf-8")
        print(f"Rejei√ß√µes salvas: {rej_csv.name} / {rej_json.name}")

    # pol√≠tica estrita para datas
    if pct_inv > float(strict_date_threshold):
        raise RuntimeError(f"ERRO: {pct_inv:.2f}% datas inv√°lidas (>{strict_date_threshold}%).")

    df_feat["data_lcto"] = df_feat["data_lcto_parsed"]
    df_feat = df_feat.drop(columns=["data_lcto_parsed"]).dropna(subset=["data_lcto"]).reset_index(drop=True)

    # ========= 2) Hierarquia da conta: g1/g2/g3 =========
    conta_digits = df_feat["contacontabil"].astype(str).str.replace(r"\D+", "", regex=True)
    df_feat["conta_digits"] = conta_digits
    df_feat["g1"] = conta_digits.str.slice(0, 1)
    df_feat["g2"] = conta_digits.str.slice(0, 2)
    df_feat["g3"] = conta_digits.str.slice(0, 3)
    df_feat = df_feat[df_feat["g1"].str.len() == 1].reset_index(drop=True)

    # ========= 3) Per√≠odos e valor =========
    df_feat["mes"] = df_feat["data_lcto"].dt.to_period("M").dt.to_timestamp()       # in√≠cio do m√™s
    df_feat["trimestre"] = df_feat["data_lcto"].dt.to_period("Q").dt.start_time     # in√≠cio do trimestre
    df_feat["ano"] = df_feat["data_lcto"].dt.year.astype("int16")
    df_feat["mes_num"] = df_feat["data_lcto"].dt.month.astype("int8")
    df_feat["tri_num"] = df_feat["data_lcto"].dt.quarter.astype("int8")

    df_feat["valormi_float"] = pd.to_numeric(df_feat["valormi"], errors="coerce").fillna(0.0)

    # ========= 4) Helpers (blocos) =========
    def _zblock(values: pd.Series, group_df: pd.DataFrame, group_keys: list[str]) -> pd.Series:
        aux = group_df[group_keys].copy()
        aux = aux.assign(_v=values.values)
        grp = aux.groupby(group_keys)["_v"]
        mean = grp.transform("mean")
        std  = grp.transform("std").replace(0.0, np.nan)
        z = (aux["_v"] - mean) / std
        return z.fillna(0.0)

    def make_block(df: pd.DataFrame, keys_base: list[str], period: str, base_name: str, by_dc: bool) -> pd.DataFrame:
        keys = keys_base + (["dc"] if by_dc else []) + [period]
        s_freq = df.groupby(keys)[keys[0]].transform("size").astype("int32")
        s_val  = df.groupby(keys)["valormi_float"].transform("sum")
        s_mean = np.where(s_freq > 0, s_val / s_freq, 0.0)
        z_keys = keys_base + (["dc"] if by_dc else [])
        s_val_z  = _zblock(pd.Series(s_val, index=df.index),  df, z_keys)
        s_mean_z = _zblock(pd.Series(s_mean, index=df.index), df, z_keys)
        suffix = ("_dc" if by_dc else "")
        cols = {
            f"freq_{period}_{base_name}{suffix}": s_freq,
            f"val_{period}_{base_name}{suffix}": s_val,
            f"val_med_{period}_{base_name}{suffix}": s_mean,
            f"val_{period}_{base_name}{suffix}_z": s_val_z,
            f"val_med_{period}_{base_name}{suffix}_z": s_mean_z,
        }
        return pd.DataFrame(cols, index=df.index)

    # ========= 5) M√©tricas =========
    NEW_BLOCKS = []

    # Totais agregados por per√≠odo (atividade geral)
    blk_tot = pd.DataFrame(index=df_feat.index)
    blk_tot["freq_mes_user_total"]    = df_feat.groupby(["username","mes"])["username"].transform("size").astype("int32")
    blk_tot["freq_tri_user_total"]    = df_feat.groupby(["username","trimestre"])["username"].transform("size").astype("int32")
    blk_tot["freq_mes_lotacao_total"] = df_feat.groupby(["lotacao","mes"])["lotacao"].transform("size").astype("int32")
    blk_tot["freq_tri_lotacao_total"] = df_feat.groupby(["lotacao","trimestre"])["lotacao"].transform("size").astype("int32")
    NEW_BLOCKS.append(blk_tot)

    # (A) Usu√°rio √ó Conta √ó D/C
    NEW_BLOCKS.append(make_block(df_feat, ["username","conta_digits"], "mes",       "user_conta", by_dc=True))
    NEW_BLOCKS.append(make_block(df_feat, ["username","conta_digits"], "trimestre", "user_conta", by_dc=True))

    # (B) Lota√ß√£o √ó Conta √ó D/C
    NEW_BLOCKS.append(make_block(df_feat, ["lotacao","conta_digits"], "mes",       "lotacao_conta", by_dc=True))
    NEW_BLOCKS.append(make_block(df_feat, ["lotacao","conta_digits"], "trimestre", "lotacao_conta", by_dc=True))

    # (C) Hierarquia por USU√ÅRIO ‚Äî sem D/C e com D/C
    for level in ["g1","g2","g3"]:
        NEW_BLOCKS.append(make_block(df_feat, ["username", level], "mes",       f"user_{level}", by_dc=False))
        NEW_BLOCKS.append(make_block(df_feat, ["username", level], "trimestre", f"user_{level}", by_dc=False))
        NEW_BLOCKS.append(make_block(df_feat, ["username", level], "mes",       f"user_{level}", by_dc=True))
        NEW_BLOCKS.append(make_block(df_feat, ["username", level], "trimestre", f"user_{level}", by_dc=True))

    # (D) Hierarquia por LOTA√á√ÉO ‚Äî sem D/C e com D/C
    for level in ["g1","g2","g3"]:
        NEW_BLOCKS.append(make_block(df_feat, ["lotacao", level], "mes",       f"lotacao_{level}", by_dc=False))
        NEW_BLOCKS.append(make_block(df_feat, ["lotacao", level], "trimestre", f"lotacao_{level}", by_dc=False))
        NEW_BLOCKS.append(make_block(df_feat, ["lotacao", level], "mes",       f"lotacao_{level}", by_dc=True))
        NEW_BLOCKS.append(make_block(df_feat, ["lotacao", level], "trimestre", f"lotacao_{level}", by_dc=True))

    # ========= 6) Concatena√ß√£o √∫nica =========
    if NEW_BLOCKS:
        df_feat = pd.concat([df_feat] + NEW_BLOCKS, axis=1)

    # Ordena√ß√£o e tipos
    df_feat = df_feat.sort_values(["data_lcto","username","conta_digits"]).reset_index(drop=True)
    for c in [c for c in df_feat.columns if c.startswith("freq_")]:
        df_feat[c] = df_feat[c].astype("int32")

    return df_feat

# =========================
#  EXECU√á√ÉO (treino) e persist√™ncia
# =========================
STAMP = datetime.now(ZoneInfo("America/Sao_Paulo")).strftime("%Y%m%d-%H%M%S")
DF_FEAT = build_features(DF_RAW, save_rejects=True, run_dir=RUN_DIR)

feat_parq = RUN_DIR / f"features_behavior_{STAMP}.parquet"
feat_csv  = RUN_DIR / f"features_behavior_{STAMP}.csv"
feat_sch  = RUN_DIR / f"features_schema_{STAMP}.json"

DF_FEAT.to_parquet(feat_parq, index=False)
DF_FEAT.to_csv(feat_csv, index=False, encoding="utf-8-sig")

schema = {
    "shape": {"rows": int(len(DF_FEAT)), "cols": int(DF_FEAT.shape[1])},
    "dtypes": {c: str(DF_FEAT[c].dtype) for c in DF_FEAT.columns}
}
feat_sch.write_text(json.dumps(schema, ensure_ascii=False, indent=2), encoding="utf-8")

print(f"features salvas -> {feat_parq.name} / {feat_csv.name}")
print(f"schema          -> {feat_sch.name}")

print("\nPr√©-visualiza√ß√£o (5 linhas):")
try:
    from IPython.display import display
    display(DF_FEAT.head(5))
except Exception:
    print(DF_FEAT.head(5).to_string(index=False))

# =========================
#  CONGELAMENTO (snapshot autossuficiente)
# =========================
def _file_md5(path: Path, chunk: int = 1<<20) -> str:
    h = hashlib.md5()
    with open(path, "rb") as f:
        for b in iter(lambda: f.read(chunk), b""):
            h.update(b)
    return h.hexdigest()

SNAP_PY  = ARTIFACTS_DIR / "pipeline_snapshot.py"
SNAP_MD5 = ARTIFACTS_DIR / "pipeline_snapshot.md5"

# Cabe√ßalho com imports m√≠nimos ‚Äî torna o snapshot autossuficiente para Etapa 8+
HEADER = """# -*- coding: utf-8 -*-
# Snapshot gerado pela Etapa 5 ‚Äî N√ÉO editar manualmente.
# Cont√©m as fun√ß√µes de engenharia/codifica√ß√£o consumidas nas Etapa 8+.
import pandas as pd
import numpy as np
import re
import json

"""

parts = [HEADER]

def _get_src(fn):
    import inspect
    try:
        src = inspect.getsource(fn)
        # N√ÉO usar cleandoc/dedent aqui; mant√©m a indenta√ß√£o do corpo!
        if not src.endswith("\n"):
            src += "\n"
        return src
    except Exception as e:
        raise RuntimeError(f"Falha ao extrair source de {getattr(fn, '__name__', str(fn))}: {e}")

# build_features (obrigat√≥ria)
parts.append(_get_src(build_features))

# encode_categoricals (opcional, se existir no kernel)
if "encode_categoricals" in globals() and callable(globals()["encode_categoricals"]):
    parts.append("\n# --- opcional: codifica√ß√£o categ√≥rica ---\n")
    parts.append(_get_src(globals()["encode_categoricals"]))

# escreve snapshot + md5
SNAP_PY.write_text("".join(parts), encoding="utf-8")
SNAP_MD5.write_text(_file_md5(SNAP_PY), encoding="utf-8")

print(f"Snapshot salvo: {SNAP_PY.name} | md5={_file_md5(SNAP_PY)}")
print("Observa√ß√£o: o snapshot agora importa pd/np/re/json no topo (autossuficiente para a Etapa 8).")

# **Etapa 6:** Limpeza, normaliza√ß√£o e split treino/valida√ß√£o

In [None]:
# @title
"""
Objetivo
--------
Preparar a matriz num√©rica para o Autoencoder:
1) Montar X a partir de DF_FEATURES/FEATURE_COLS
2) Split train/val com semente fixa
3) Imputa√ß√£o (mediana) treinada somente no treino
4) Normaliza√ß√£o (StandardScaler) treinada somente no treino
5) Persistir artefatos e conjuntos prontos para a Etapa 7

Ajustes desta vers√£o:
- Aceita DF_FEAT (da Etapa 5) como DF_FEATURES se este n√£o existir.
- Autogerar FEATURE_COLS (todas as colunas num√©ricas) se n√£o foi definida.
"""

import json, hashlib
from pathlib import Path
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import joblib

print("Skynet Informa: Limpando, normalizando e realizando split treino/valida√ß√£o.")

# --------------------------------
# Pr√©-requisitos e ponte com a Etapa 5
# --------------------------------
assert 'RUN_DIR' in globals() and 'ARTIF_DIR' in globals(), "Execute a Etapa 1 antes."
# Usa DF_FEAT da etapa 5, se DF_FEATURES n√£o existir
if 'DF_FEATURES' not in globals():
    if 'DF_FEAT' in globals():
        DF_FEATURES = DF_FEAT
        print("DF_FEATURES n√£o encontrado; usando DF_FEAT da Etapa 5.")
    else:
        raise AssertionError("DF_FEATURES (ou DF_FEAT) n√£o encontrado. Execute a Etapa 5 antes.")

# --------------------------------
# Par√¢metros
# --------------------------------
TEST_SIZE     = 0.2     # fra√ß√£o para valida√ß√£o
SHUFFLE       = True
RANDOM_STATE  = SEED if 'SEED' in globals() else 42
OUTPUT_DTYPE  = np.float32  # reduzir mem√≥ria e acelerar treino

CSV_SEP       = ","
CSV_ENCODING  = "utf-8-sig"

# --------------------------------
# 1) Sele√ß√£o/Montagem da matriz de features
# --------------------------------
df_feats = DF_FEATURES.copy()

# Autogerar FEATURE_COLS se n√£o existir / estiver vazia
autogen_cols = False
if 'FEATURE_COLS' not in globals() or not isinstance(FEATURE_COLS, (list, tuple)) or len(FEATURE_COLS) == 0:
    # pega somente colunas num√©ricas (inclui int/float/bool)
    num_cols = df_feats.select_dtypes(include=[np.number, "bool"]).columns.tolist()
    if len(num_cols) == 0:
        raise ValueError("N√£o h√° colunas num√©ricas em DF_FEATURES para montar FEATURE_COLS.")
    FEATURE_COLS = num_cols
    autogen_cols = True
    # salva lista autogerada para auditoria
    (RUN_DIR / "feature_cols_autogen.json").write_text(
        json.dumps(FEATURE_COLS, ensure_ascii=False, indent=2), encoding="utf-8"
    )
    print(f"FEATURE_COLS autogerado com {len(FEATURE_COLS)} colunas num√©ricas (salvo em feature_cols_autogen.json).")

# Garante exist√™ncia das colunas selecionadas
missing = [c for c in FEATURE_COLS if c not in df_feats.columns]
if missing:
    raise ValueError(f"Colunas de feature ausentes em DF_FEATURES: {missing}")

# Seleciona e for√ßa num√©rico (seguran√ßa extra)
df_feats = df_feats[FEATURE_COLS]
for c in df_feats.columns:
    if not pd.api.types.is_numeric_dtype(df_feats[c]):
        df_feats[c] = pd.to_numeric(df_feats[c], errors="coerce")

# Matriz numpy (float64 para estabilidade na normaliza√ß√£o)
X_all = df_feats.to_numpy(dtype=np.float64, copy=True)
n_rows, n_cols = X_all.shape

# --------------------------------
# 2) Split train/val
# --------------------------------
idx_all = np.arange(n_rows, dtype=np.int64)
X_train, X_val, idx_train, idx_val = train_test_split(
    X_all, idx_all,
    test_size=TEST_SIZE, shuffle=SHUFFLE, random_state=RANDOM_STATE
)

# --------------------------------
# 3) Imputa√ß√£o (mediana) e aplica√ß√£o
# --------------------------------
imputer = SimpleImputer(strategy="median")
imputer.fit(X_train)  # apenas no treino
X_train_imp = imputer.transform(X_train)
X_val_imp   = imputer.transform(X_val)

# --------------------------------
# 4) Normaliza√ß√£o (StandardScaler) e aplica√ß√£o
# --------------------------------
scaler = StandardScaler(with_mean=True, with_std=True)
scaler.fit(X_train_imp)         # apenas no treino
X_train_std = scaler.transform(X_train_imp)
X_val_std   = scaler.transform(X_val_imp)

# Cast para dtype final (economia de RAM/tempo de treino)
X_train_final = X_train_std.astype(OUTPUT_DTYPE, copy=False)
X_val_final   = X_val_std.astype(OUTPUT_DTYPE, copy=False)

# --------------------------------
# 5) Persist√™ncia de artefatos e conjuntos
# --------------------------------
def _hash_list_str(items) -> str:
    m = hashlib.sha256()
    for it in items:
        m.update(str(it).encode("utf-8"))
        m.update(b"|")
    return m.hexdigest()

features_hash = _hash_list_str(FEATURE_COLS)

meta = {
    "n_rows": int(n_rows),
    "n_cols": int(n_cols),
    "test_size": TEST_SIZE,
    "shuffle": SHUFFLE,
    "random_state": RANDOM_STATE,
    "dtype": np.dtype(OUTPUT_DTYPE).name,
    "features_hash": features_hash,
    "n_train": int(X_train_final.shape[0]),
    "n_val": int(X_val_final.shape[0]),
    "autogen_feature_cols": bool(autogen_cols),
}

# 5.1 conjuntos
npz_path = RUN_DIR / "dataset_npz.npz"
np.savez_compressed(
    npz_path,
    X_train=X_train_final,
    X_val=X_val_final,
    idx_train=idx_train,
    idx_val=idx_val,
)

# 5.2 artefatos (imputer/scaler/feature_cols)
feat_pkl_path = RUN_DIR / "features.pkl"
joblib.dump(
    {
        "feature_cols": FEATURE_COLS,
        "features_hash": features_hash,
        "imputer": imputer,
        "scaler": scaler,
        "dtype": np.dtype(OUTPUT_DTYPE).name,
        "meta": meta,
    },
    feat_pkl_path
)

# c√≥pias √∫teis no artifacts/
feat_latest = ARTIF_DIR / "features_latest.pkl"
joblib.dump(
    {
        "feature_cols": FEATURE_COLS,
        "features_hash": features_hash,
        "imputer": imputer,
        "scaler": scaler,
        "dtype": np.dtype(OUTPUT_DTYPE).name,
        "meta": meta,
    },
    feat_latest
)

# 5.3 estat√≠sticas descritivas (para auditoria)
def _describe_np(X: np.ndarray) -> dict:
    X64 = X.astype(np.float64, copy=False)
    return {
        "shape": list(X.shape),
        "mean": np.nanmean(X64, axis=0).tolist(),
        "std":  np.nanstd(X64,  axis=0, ddof=0).tolist(),
        "min":  np.nanmin(X64,  axis=0).tolist(),
        "p25":  np.nanpercentile(X64, 25, axis=0).tolist(),
        "p50":  np.nanpercentile(X64, 50, axis=0).tolist(),
        "p75":  np.nanpercentile(X64, 75, axis=0).tolist(),
        "max":  np.nanmax(X64,  axis=0).tolist(),
    }

desc = {
    "train": _describe_np(X_train_final),
    "val":   _describe_np(X_val_final),
    "feature_cols": FEATURE_COLS,
    "features_hash": features_hash,
    "autogen_feature_cols": bool(autogen_cols),
}
(RUN_DIR / "features_desc.json").write_text(json.dumps(desc, ensure_ascii=False), encoding="utf-8")

# --------------------------------
# 6) Logs e vari√°veis para a Etapa 7
# --------------------------------
print(f"X_all       : {X_all.shape} (antes de imputar/normalizar)")
print(f"X_train/val : {X_train_final.shape} / {X_val_final.shape}")
print(f"dtype final : {X_train_final.dtype}")
print(f"artefatos   : {feat_pkl_path.name}, {npz_path.name}, features_desc.json")
print(f"c√≥pia √∫til  : artifacts/{feat_latest.name}")
print(f"features_hash = {features_hash[:16]}‚Ä¶")
if autogen_cols:
    print(f"FEATURE_COLS autogeradas ({len(FEATURE_COLS)} colunas). Consulte feature_cols_autogen.json.")

# Mant√©m em mem√≥ria para a Etapa 7
X_TRAIN = X_train_final
X_VAL   = X_val_final
FEATURES_HASH = features_hash

print("\nPr√≥ximo passo: Etapa 7 ‚Äî Autoencoder com early stopping usando estes conjuntos.")

In [None]:
# @title Print das colunas de treinamento (features)
print("DF_FEAT:", DF_FEAT.shape, "colunas:", len(DF_FEAT.columns))
DF_FEAT.head(3)

# Se DF_FEATURES existir (caso tenha customizado manualmente)
if 'DF_FEATURES' in globals():
    print("DF_FEATURES:", DF_FEATURES.shape, "colunas:", len(DF_FEATURES.columns))
    DF_FEATURES.head(3)

# Depois de rodar a Etapa 6:
# FEATURE_COLS deve estar definido e persistido (se autogerado)
print("Qtd FEATURE_COLS:", len(FEATURE_COLS))
FEATURE_COLS[:20]  # amostra

In [None]:
# @title ETAPA 6.5 ‚Äî An√°lise de Multicolinearidade, Redund√¢ncia e Relev√¢ncia de Features (p√≥s-limpeza/normaliza√ß√£o/split)
"""
Objetivo
--------
Executar, AP√ìS a etapa 6 (com split j√° realizado), an√°lises de:
1) Correla√ß√£o (Pearson/Spearman) e correla√ß√£o m√©dia por feature.
2) Cluster map da matriz de correla√ß√£o (para visualizar blocos redundantes).
3) VIF (Variance Inflation Factor) para detectar redund√¢ncia linear.
4) PCA (vari√¢ncia explicada e scree plot).
5) (Opcional, se y_train existir) Mutual Information e sele√ß√£o por L1 (coeficiente ~0).

O usu√°rio pode optar por gerar 'features_cols_pruned.json' com uma SUGEST√ÉO
de poda n√£o-destrutiva (nada √© aplicado automaticamente ao pipeline).

Pr√©-requisitos (vari√°veis globais):
- RUN_DIR: pathlib.Path (diret√≥rio do run atual)
- X_train: np.ndarray ou pd.DataFrame (conjunto de treino j√° limpo/normalizado)
- (opcional) y_train: pd.Series ou np.ndarray (r√≥tulos do treino; classifica√ß√£o ou regress√£o)

A etapa tentar√° inferir FEATURES_COLS automaticamente se n√£o estiver definida.

Sa√≠das:
- Console: resultados + explica√ß√µes de interpreta√ß√£o.
- Arquivos: CSV/JSON/PNG em RUN_DIR/analysis/multicollinearity e RUN_DIR/figures.
- Figuras: exibidas diretamente no notebook e tamb√©m salvas em disco.
"""

import json, math, warnings, sys
from pathlib import Path
from typing import Optional, Tuple
import numpy as np
import pandas as pd

# Bibliotecas opcionais
try:
    import statsmodels.api as sm
    from statsmodels.stats.outliers_influence import variance_inflation_factor
except Exception:
    sm = None
try:
    import seaborn as sns  # para cluster map (se dispon√≠vel)
except Exception:
    sns = None
try:
    from scipy.cluster.hierarchy import linkage, leaves_list
    from scipy.spatial.distance import pdist
except Exception:
    linkage = None
    leaves_list = None
    pdist = None

# matplotlib usado em v√°rias partes (inclui cluster map fallback)
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import mutual_info_classif, mutual_info_regression
from sklearn.linear_model import LogisticRegression, Lasso
from sklearn.exceptions import ConvergenceWarning

# -------------------- Verifica√ß√µes b√°sicas --------------------
assert 'RUN_DIR' in globals(), "RUN_DIR n√£o encontrado. Defina RUN_DIR antes de executar esta etapa."
assert 'X_train' in globals(), "X_train n√£o encontrado. Esta etapa deve rodar ap√≥s o split da etapa 6."

RUN_DIR = Path(RUN_DIR)

# -------------------- Infer√™ncia/normaliza√ß√£o de FEATURES_COLS --------------------
def _infer_features_cols() -> list:
    # 1) Se j√° existir FEATURES_COLS, usa diretamente
    if 'FEATURES_COLS' in globals():
        fs = list(globals()['FEATURES_COLS'])
        if len(fs) > 0:
            return fs

    # 2) Tenta FEATURE_COLS (varia√ß√£o comum)
    if 'FEATURE_COLS' in globals():
        fs = list(globals()['FEATURE_COLS'])
        if len(fs) > 0:
            return fs

    # 3) Se X_train for DataFrame com colunas, usa as colunas
    if isinstance(X_train, pd.DataFrame) and len(X_train.columns) > 0:
        return list(X_train.columns)

    # 4) Tenta DF_FEATURES: pega apenas colunas num√©ricas
    if 'DF_FEATURES' in globals():
        _df = globals()['DF_FEATURES']
        if isinstance(_df, pd.DataFrame):
            num_cols = [c for c in _df.columns if pd.api.types.is_numeric_dtype(_df[c])]
            if len(num_cols) > 0:
                return num_cols

    # 5) Tenta features_desc.json (caso exista)
    fdesc = RUN_DIR / "features_desc.json"
    if fdesc.exists():
        try:
            desc = json.load(open(fdesc, "r"))
            if isinstance(desc, dict):
                if "numeric_features" in desc and isinstance(desc["numeric_features"], list) and len(desc["numeric_features"])>0:
                    return desc["numeric_features"]
                if "features" in desc and isinstance(desc["features"], list) and len(desc["features"])>0:
                    return desc["features"]
            elif isinstance(desc, list) and len(desc)>0:
                return desc
        except Exception:
            pass

    return []

FEATURES_COLS = _infer_features_cols()
assert len(FEATURES_COLS) > 0, (
    "N√£o foi poss√≠vel inferir FEATURES_COLS. "
    "Defina FEATURES_COLS (ou FEATURE_COLS) manualmente, ou forne√ßa DF_FEATURES/ features_desc.json v√°lidos."
)

# Monta DF de treino com as features definidas
if isinstance(X_train, np.ndarray):
    DF = pd.DataFrame(X_train, columns=FEATURES_COLS)
else:
    DF = pd.DataFrame(X_train)[FEATURES_COLS].copy()

FEATURES = list(FEATURES_COLS)

# -------------------- Diret√≥rios de sa√≠da --------------------
ART_DIR = RUN_DIR / "figures"
OUT_DIR = RUN_DIR / "analysis" / "multicollinearity"
ART_DIR.mkdir(parents=True, exist_ok=True)
OUT_DIR.mkdir(parents=True, exist_ok=True)

# -------------------- Par√¢metros (ajust√°veis) --------------------
PEARSON_THR = 0.90       # Threshold para pares altamente correlacionados (Pearson)
SPEARMAN_THR = 0.90      # Threshold para pares altamente correlacionados (Spearman)
VIF_THR = 10.0           # Limite usual de VIF (5 ou 10)
N_PCA_MAX = min(50, len(FEATURES))
MI_TOP_K = 30            # Top-k para exibir no console
LASSO_ALPHA = 0.001      # For√ßa de regulariza√ß√£o L1 para regress√£o
LR_MAX_ITER = 300        # Itera√ß√µes para Logistic Regression L1

# -------------------- Pergunta ao usu√°rio (poda sugerida) --------------------
resp = input("Deseja gerar um arquivo 'features_cols_pruned.json' com uma SUGEST√ÉO de poda? [s/n]: ").strip().lower()
MAKE_PRUNED = resp in ("s", "sim", "y", "yes")

# -------------------- Fun√ß√µes auxiliares --------------------
def detect_problem_type(y: pd.Series) -> str:
    """Heur√≠stica simples para classificar tipo de problema."""
    if pd.api.types.is_numeric_dtype(y):
        nunique = pd.Series(y).nunique(dropna=True)
        return "classification" if nunique <= 10 else "regression"
    return "classification"

def top_corr_pairs(corr_mat: pd.DataFrame, thr: float) -> pd.DataFrame:
    pairs = []
    cols = corr_mat.columns
    for i in range(len(cols)):
        for j in range(i+1, len(cols)):
            c = corr_mat.iloc[i, j]
            if pd.notna(c) and abs(c) >= thr:
                pairs.append((cols[i], cols[j], float(c)))
    return pd.DataFrame(pairs, columns=["feat_i", "feat_j", "corr"]).sort_values(by="corr", key=np.abs, ascending=False)

def explain(title: str, text: str):
    print(f"\n[{title}]")
    print(text)

print("\n== ETAPA 6.5: An√°lises de correla√ß√£o, VIF, PCA, MI e L1 (com explica√ß√µes) ==")

# -------------------- 1) Correla√ß√µes --------------------
with warnings.catch_warnings():
    warnings.simplefilter("ignore", category=RuntimeWarning)
    corr_pearson = DF.corr(method="pearson").replace([np.inf, -np.inf], np.nan)
    corr_spearman = DF.corr(method="spearman").replace([np.inf, -np.inf], np.nan)

# Correla√ß√£o m√©dia absoluta por feature (Pearson)
mean_abs_corr = corr_pearson.abs().replace(1.0, np.nan).mean(skipna=True).sort_values(ascending=False)
mean_abs_corr.name = "mean_abs_corr_pearson"
mean_abs_corr.to_csv(OUT_DIR / "mean_abs_corr_pearson.csv")

top_p = top_corr_pairs(corr_pearson, PEARSON_THR)
top_s = top_corr_pairs(corr_spearman, SPEARMAN_THR)
top_p.to_csv(OUT_DIR / f"top_pairs_pearson_ge_{PEARSON_THR:.2f}.csv", index=False)
top_s.to_csv(OUT_DIR / f"top_pairs_spearman_ge_{SPEARMAN_THR:.2f}.csv", index=False)

print(f"\n[Correla√ß√£o] Pares com |Pearson| ‚â• {PEARSON_THR:.2f}: {len(top_p)} | arquivo: {OUT_DIR / f'top_pairs_pearson_ge_{PEARSON_THR:.2f}.csv'}")
print(f"[Correla√ß√£o] Pares com |Spearman| ‚â• {SPEARMAN_THR:.2f}: {len(top_s)} | arquivo: {OUT_DIR / f'top_pairs_spearman_ge_{SPEARMAN_THR:.2f}.csv'}")
print("[Correla√ß√£o] Top 10 pares (Pearson):")
print(top_p.head(10).to_string(index=False))
print("[Correla√ß√£o] Top 10 pares (Spearman):")
print(top_s.head(10).to_string(index=False))

explain("Como interpretar ‚Äî Correla√ß√£o (Pearson/Spearman)",
"""Pearson mede rela√ß√£o linear; Spearman mede rela√ß√£o mon√≥tona (ordem). Pares com alta correla√ß√£o indicam
redund√¢ncia informacional. Impactos: instabilidade de modelos lineares e desperd√≠cio de capacidade no autoencoder.
Avalia√ß√£o: verifique se features de pares com |r| ‚â• limiar carregam conte√∫do semelhante; considere manter apenas uma,
preferindo a com maior vari√¢ncia informativa ou com melhor justificativa de neg√≥cio.""")

# Figura: barras da correla√ß√£o m√©dia (top 30) ‚Äî salvar e EXIBIR
try:
    top_n = mean_abs_corr.head(30)
    plt.figure(figsize=(10, 6))
    top_n[::-1].plot(kind="barh")  # sem especificar cores
    plt.title("Top 30 ‚Äî Correla√ß√£o m√©dia absoluta (Pearson)")
    plt.xlabel("Correla√ß√£o m√©dia absoluta com demais features")
    plt.tight_layout()
    fig_corr_mean = ART_DIR / "corr_mean_abs_top30.png"
    plt.savefig(fig_corr_mean, dpi=120)
    print(f"[Figura] Correla√ß√£o m√©dia (top 30) salva em: {fig_corr_mean}")
    plt.show()  # <-- EXIBE NO NOTEBOOK
    plt.close()
    explain("Como interpretar ‚Äî Correla√ß√£o m√©dia por feature",
"""A barra mostra o quanto, em m√©dia, uma feature se correlaciona com todas as outras (em valor absoluto).
Valores altos sugerem que a feature est√° em um bloco redundante; candidatas √† revis√£o/remo√ß√£o ou agrega√ß√£o.""")
except Exception as e:
    print(f"[Aviso] Falha ao gerar figura 'corr_mean_abs_top30.png': {e}")

# -------------------- 1.1) Cluster map da correla√ß√£o --------------------
fig_cluster = ART_DIR / "corr_clustermap.png"
try:
    corr_for_cluster = corr_pearson.fillna(0.0).astype(float)

    if sns is not None:
        g = sns.clustermap(
            corr_for_cluster,
            method="average", metric="euclidean",
            cmap="vlag", center=0, linewidths=0.0, figsize=(10, 10)
        )
        g.fig.suptitle("Cluster Map ‚Äî Matriz de correla√ß√£o (Pearson)", y=1.02)
        g.savefig(fig_cluster, dpi=150, bbox_inches="tight")
        print(f"[Figura] Cluster map salvo em: {fig_cluster}")
        plt.show()  # <-- EXIBE NO NOTEBOOK (mostra a figura produzida pelo seaborn)
        plt.close(g.fig)
    elif linkage is not None and leaves_list is not None and pdist is not None:
        # Fallback: reordena por linkage e plota heatmap com matplotlib
        D = pdist(corr_for_cluster.values)
        Z = linkage(D, method="average")
        order = leaves_list(Z)
        corr_ord = corr_for_cluster.values[order][:, order]
        labels = corr_for_cluster.columns[order]

        plt.figure(figsize=(10,10))
        plt.imshow(corr_ord, aspect='auto', interpolation='none')
        plt.colorbar(label="Correla√ß√£o (Pearson)")
        plt.title("Cluster Map (fallback) ‚Äî Matriz de correla√ß√£o (Pearson)")
        plt.xticks(range(len(labels)), labels, rotation=90, fontsize=6)
        plt.yticks(range(len(labels)), labels, fontsize=6)
        plt.tight_layout()
        plt.savefig(fig_cluster, dpi=150)
        print(f"[Figura] Cluster map salvo em: {fig_cluster}")
        plt.show()  # <-- EXIBE NO NOTEBOOK
        plt.close()
    else:
        raise RuntimeError("Seaborn e/ou SciPy indispon√≠veis para gerar o cluster map.")

    explain("Como interpretar ‚Äî Cluster map de correla√ß√£o",
"""O cluster map reordena a matriz de correla√ß√£o para agrupar features com comportamentos semelhantes,
formando blocos (clusters). Blocos densos com correla√ß√µes altas indicam redund√¢ncia. Avalia√ß√£o:
identifique 'fam√≠lias' de vari√°veis muito parecidas; mantenha representantes mais informativos/explic√°veis,
reduzindo dimensionalidade sem perder sinal relevante.""")
except Exception as e:
    print(f"[Aviso] Cluster map n√£o gerado: {e}")
    explain("Como interpretar ‚Äî Cluster map (n√£o gerado)",
"""O cluster map auxilia a visualizar blocos de redund√¢ncia. Se n√£o foi gerado por aus√™ncia de depend√™ncias,
considere instalar 'seaborn' ou 'scipy' para habilitar essa visualiza√ß√£o.""")

# -------------------- 2) VIF --------------------
print("\n[VIF] In√≠cio do c√°lculo do Variance Inflation Factor.")
if sm is None:
    print("[VIF] Indispon√≠vel: instale 'statsmodels' para habilitar o VIF.")
    explain("Como interpretar ‚Äî VIF (n√£o calculado)",
"""VIF estima infla√ß√£o de vari√¢ncia de um coeficiente devido √† colinearidade com outras vari√°veis.
Valores ‚â• 10 sugerem forte redund√¢ncia linear. Se n√£o calculado, considere instalar 'statsmodels'.""")
    vif_df_sorted = pd.DataFrame({"feature": FEATURES, "vif": np.nan})
else:
    try:
        X_vif = DF.fillna(0.0).to_numpy(dtype=float)
        X_vif = np.ascontiguousarray(X_vif)
        X_vif = sm.add_constant(X_vif, has_constant='add')
        vifs = []
        for i in range(1, X_vif.shape[1]):  # pula a constante
            v = variance_inflation_factor(X_vif, i)
            vifs.append(v if np.isfinite(v) else np.nan)
        vif_df = pd.DataFrame({"feature": FEATURES, "vif": vifs})
        vif_df_sorted = vif_df.sort_values(by="vif", ascending=False)
        vif_df_sorted.to_csv(OUT_DIR / "vif.csv", index=False)
        print(f"[VIF] Arquivo salvo em: {OUT_DIR / 'vif.csv'}")
        print("[VIF] Top 15 (maiores VIF):")
        print(vif_df_sorted.head(15).to_string(index=False))
        n_high_vif = int((vif_df["vif"] >= VIF_THR).sum())
        print(f"[VIF] Quantidade de features com VIF ‚â• {VIF_THR}: {n_high_vif}")
        explain("Como interpretar ‚Äî VIF",
f"""VIF quantifica o quanto a vari√¢ncia de um coeficiente √© inflada devido √† colinearidade.
Regra pr√°tica: VIF ‚â• {VIF_THR} sugere redund√¢ncia linear relevante.
Avalia√ß√£o: considere remover ou combinar vari√°veis com VIF muito alto, especialmente se tamb√©m
pertencerem a blocos correlacionados no cluster map.""")
    except Exception as e:
        print(f"[VIF] Falha no c√°lculo do VIF: {e}")
        vif_df_sorted = pd.DataFrame({"feature": FEATURES, "vif": np.nan})
        explain("Como interpretar ‚Äî VIF (falha)",
"""Sem VIF, utilize correla√ß√£o e cluster map como principais insumos para identificar redund√¢ncias.""")

# -------------------- 3) PCA --------------------
print("\n[PCA] Executando PCA no conjunto de treino (padronizado).")
try:
    X = DF.fillna(0.0).to_numpy(dtype=float)
    scaler = StandardScaler(with_mean=True, with_std=True)
    Xs = scaler.fit_transform(X)
    n_comp = min(N_PCA_MAX, Xs.shape[1], max(2, math.ceil(Xs.shape[1]*0.2)))
    pca = PCA(n_components=n_comp, random_state=42)
    pcs = pca.fit_transform(Xs)

    evr = pca.explained_variance_ratio_
    evr_cum = np.cumsum(evr)
    def n_for(thr: float) -> int:
        return int(np.searchsorted(evr_cum, thr) + 1)

    n90, n95, n99 = n_for(0.90), n_for(0.95), n_for(0.99)
    pd.DataFrame({
        "pc": [f"PC{i+1}" for i in range(len(evr))],
        "evr": evr,
        "evr_cum": evr_cum
    }).to_csv(OUT_DIR / "pca_explained_variance.csv", index=False)

    # Scree plot ‚Äî salvar e EXIBIR
    plt.figure(figsize=(10,6))
    plt.plot(range(1, len(evr)+1), evr, marker="o")
    plt.xlabel("Componente Principal")
    plt.ylabel("Vari√¢ncia explicada")
    plt.title("PCA ‚Äî Scree plot")
    plt.tight_layout()
    fig_pca = ART_DIR / "pca_scree.png"
    plt.savefig(fig_pca, dpi=120)
    print(f"[PCA] #componentes p/ 90%: {n90} | 95%: {n95} | 99%: {n99}")
    print(f"[PCA] Vari√¢ncia explicada por componente: {OUT_DIR / 'pca_explained_variance.csv'}")
    print(f"[Figura] Scree plot salvo em: {fig_pca}")
    plt.show()  # <-- EXIBE NO NOTEBOOK
    plt.close()

    explain("Como interpretar ‚Äî PCA",
"""O PCA resume varia√ß√£o em componentes ortogonais. O n√∫mero de componentes para 90/95/99% indica
o grau de redund√¢ncia: quanto menor esse n√∫mero comparado ao total de features, maior a redund√¢ncia.
Avalia√ß√£o: se poucos PCs explicam quase toda a vari√¢ncia, h√° espa√ßo para reduzir dimensionalidade ou
priorizar vari√°veis com maior contribui√ß√£o (sem perder explicabilidade de neg√≥cio).""")
except Exception as e:
    print(f"[PCA] Falhou: {e}")
    explain("Como interpretar ‚Äî PCA (falha)",
"""Sem PCA, foque em correla√ß√£o e VIF para guiar decis√µes de redu√ß√£o de dimensionalidade.""")

# -------------------- 4) Mutual Information e L1 (se y_train dispon√≠vel) --------------------
mi_df = None
l1_zero_features = []
if 'y_train' in globals():
    print("\n[Alvo detectado] y_train dispon√≠vel. Executando MI e L1.")
    y = pd.Series(y_train)
    X_aligned = DF.copy()  # mesmo √≠ndice/ordem de X_train

    def _detect_problem_type(y_):
        if pd.api.types.is_numeric_dtype(y_):
            nuniq = pd.Series(y_).nunique(dropna=True)
            return "classification" if nuniq <= 10 else "regression"
        return "classification"

    problem = _detect_problem_type(y)
    print(f"[Tarefa] Tipo de problema detectado: {problem}")

    # Mutual Information
    try:
        if problem == "classification":
            y_enc = y.astype('category').cat.codes if not pd.api.types.is_integer_dtype(y) else y
            mi_vals = mutual_info_classif(X_aligned, y_enc, random_state=42, discrete_features="auto")
        else:
            y_num = pd.to_numeric(y, errors="coerce").fillna(y.mean())
            mi_vals = mutual_info_regression(X_aligned, y_num, random_state=42)
        mi_df = pd.DataFrame({"feature": FEATURES, "mutual_information": mi_vals}).sort_values("mutual_information", ascending=False)
        mi_path = OUT_DIR / "mutual_information.csv"
        mi_df.to_csv(mi_path, index=False)
        print(f"[MI] Top {min(MI_TOP_K, len(FEATURES))} por Mutual Information:")
        print(mi_df.head(MI_TOP_K).to_string(index=False))
        print(f"[MI] Arquivo salvo em: {mi_path}")
        explain("Como interpretar ‚Äî Mutual Information (MI)",
"""A MI mede depend√™ncia (n√£o s√≥ linear) entre cada feature e o alvo.
Valores maiores indicam maior poder discriminativo. Avalia√ß√£o: priorize features com MI mais alta e
questione a utilidade das de MI muito baixa, especialmente se tamb√©m redundantes por correla√ß√£o/VIF.""")
    except Exception as e:
        print(f"[MI] Falhou: {e}")
        explain("Como interpretar ‚Äî MI (falha)",
"""Sem MI, utilize L1 (se dispon√≠vel) e a an√°lise de redund√¢ncia (correla√ß√£o/VIF) para prioriza√ß√£o.""")

    # L1 Regularization
    try:
        with warnings.catch_warnings():
            warnings.filterwarnings("ignore", category=ConvergenceWarning)
            if problem == "classification":
                y_enc = y.astype('category').cat.codes if not pd.api.types.is_integer_dtype(y) else y
                clf = LogisticRegression(penalty="l1", solver="liblinear", max_iter=LR_MAX_ITER)
                clf.fit(X_aligned, y_enc)
                coefs = clf.coef_
                if coefs.ndim == 2:
                    coef_abs = np.mean(np.abs(coefs), axis=0)  # m√©dia entre classes
                else:
                    coef_abs = np.abs(coefs)
            else:
                y_num = pd.to_numeric(y, errors="coerce").fillna(y.mean())
                lasso = Lasso(alpha=LASSO_ALPHA, max_iter=2000, random_state=42)
                lasso.fit(X_aligned, y_num)
                coef_abs = np.abs(lasso.coef_)

        l1_df = pd.DataFrame({"feature": FEATURES, "coef_abs": coef_abs})
        l1_zero_features = l1_df.loc[l1_df["coef_abs"] <= 1e-12, "feature"].tolist()
        l1_path = OUT_DIR / "l1_selected_features.json"
        json.dump({"l1_zero_coef_features": l1_zero_features}, open(l1_path, "w"), ensure_ascii=False, indent=2)
        print(f"[L1] Features com coeficiente ~0: {len(l1_zero_features)} | arquivo: {l1_path}")
        explain("Como interpretar ‚Äî L1 (coeficiente ~0)",
"""A regulariza√ß√£o L1 zera coeficientes de vari√°veis pouco √∫teis sob o crit√©rio do modelo linear.
Avalia√ß√£o: features com coeficiente ~0 s√£o candidatas a remo√ß√£o, sobretudo se tamb√©m redundantes por correla√ß√£o/VIF
ou com MI baixa. Aten√ß√£o: L1 √© um crit√©rio adicional; mantenha o julgamento de neg√≥cio e estabilidade temporal.""")
    except Exception as e:
        print(f"[L1] Falhou: {e}")
        explain("Como interpretar ‚Äî L1 (falha)",
"""Sem L1, utilize MI (se dispon√≠vel) e os sinais de redund√¢ncia (correla√ß√£o/VIF) para apoiar a sele√ß√£o.""")
else:
    print("\n[Alvo ausente] y_train n√£o encontrado. Pulando MI e L1.")
    explain("Como interpretar ‚Äî Aus√™ncia de alvo",
"""Sem r√≥tulo, priorize decis√µes com base em redund√¢ncia (correla√ß√£o/cluster map/VIF) e em crit√©rios de explicabilidade.
Se futuramente houver alvo, reexecute MI/L1 para consolidar prioridades.""")

# -------------------- 5) Consolida√ß√£o de recomenda√ß√µes e poda sugerida --------------------
reco_path = OUT_DIR / "suggested_drops.json"
reco = {
    "thresholds": {
        "pearson_abs": PEARSON_THR,
        "spearman_abs": SPEARMAN_THR,
        "vif": VIF_THR,
        "lasso_alpha": LASSO_ALPHA
    },
    "drop_candidates": {
        "high_correlation": [],
        "high_vif": [],
        "low_mi_or_zero_coef_L1": []
    }
}

# Heur√≠stica de sugest√£o por pares correlacionados: remove a de menor vari√¢ncia no par
variances = DF.var(numeric_only=True)
def add_corr_suggestions(df_pairs: pd.DataFrame, method: str):
    for _, row in df_pairs.iterrows():
        i, j, c = row["feat_i"], row["feat_j"], row["corr"]
        vi, vj = variances.get(i, np.nan), variances.get(j, np.nan)
        if pd.isna(vi) and pd.isna(vj):
            drop, keep = j, i
        elif pd.isna(vi):
            drop, keep = i, j
        elif pd.isna(vj):
            drop, keep = j, i
        else:
            drop, keep = (i, j) if vi < vj else (j, i)
        reco["drop_candidates"]["high_correlation"].append({
            "method": method, "pair": [i, j], "corr": float(c), "suggest_drop": drop, "suggest_keep": keep
        })

add_corr_suggestions(top_p, method="pearson")
add_corr_suggestions(top_s, method="spearman")

# VIF candidatos
if 'vif_df_sorted' in locals() and isinstance(vif_df_sorted, pd.DataFrame) and ("vif" in vif_df_sorted.columns):
    for _, r in vif_df_sorted.iterrows():
        v = r.get("vif", np.nan)
        if pd.notna(v) and v >= VIF_THR:
            reco["drop_candidates"]["high_vif"].append({"feature": r["feature"], "vif": float(v)})

# MI/L1 candidatos (se dispon√≠veis)
if 'mi_df' in locals() and isinstance(mi_df, pd.DataFrame) and ("mutual_information" in mi_df.columns):
    mi_vals = mi_df["mutual_information"].values
    if len(mi_vals) > 0:
        q10 = np.quantile(mi_vals, 0.10)
        low_mi = mi_df.loc[mi_df["mutual_information"] <= q10, "feature"].tolist()
    else:
        low_mi = []
else:
    low_mi = []

low_signal = sorted(set(low_mi).union(set(l1_zero_features))) if l1_zero_features else low_mi
reco["drop_candidates"]["low_mi_or_zero_coef_L1"] = low_signal

# Salva recomenda√ß√µes
json.dump(reco, open(reco_path, "w"), ensure_ascii=False, indent=2)
print(f"\n[Recomenda√ß√µes] Arquivo salvo em: {reco_path}")
explain("Como interpretar ‚Äî Recomenda√ß√µes de poda",
"""As recomenda√ß√µes consolidam tr√™s sinais: (i) alta correla√ß√£o (redund√¢ncia), (ii) VIF elevado (redund√¢ncia linear),
(iii) baixa utilidade segundo MI/L1 (se alvo dispon√≠vel). Avalia√ß√£o: priorize remo√ß√£o dentro de blocos redundantes
observados no cluster map, confirme consist√™ncia de neg√≥cio e monitore estabilidade temporal (drift) ap√≥s a poda.""")

# Gera√ß√£o opcional de features_cols_pruned.json
if MAKE_PRUNED:
    drops = set()
    # 1) Pares correlacionados: aceitar sugest√µes de 'suggest_drop'
    for item in reco["drop_candidates"]["high_correlation"]:
        drops.add(item["suggest_drop"])
    # 2) VIF alto
    for item in reco["drop_candidates"]["high_vif"]:
        drops.add(item["feature"])
    # 3) Baixo sinal (MI/L1)
    for f in low_signal:
        drops.add(f)

    # Garante n√£o remover todas as colunas; mant√©m pelo menos 1
    pruned = [c for c in FEATURES if c not in drops]
    if len(pruned) == 0:
        pruned = FEATURES[:]  # fallback: n√£o remove nada

    # Relat√≥rio de poda
    pruning_report = {
        "original_count": len(FEATURES),
        "suggested_count": len(pruned),
        "removed_count": len(FEATURES) - len(pruned),
        "removed_list": sorted(list(set(FEATURES) - set(pruned))),
        "kept_list": pruned,
        "criteria_order": ["correlation_suggestion", "vif_high", "low_signal_mi_or_l1"]
    }

    pruned_path = OUT_DIR / "features_cols_pruned.json"
    report_path = OUT_DIR / "pruning_report.json"
    json.dump(pruned, open(pruned_path, "w"), ensure_ascii=False, indent=2)
    json.dump(pruning_report, open(report_path, "w"), ensure_ascii=False, indent=2)

    print(f"\n[Poda sugerida] Lista salva em: {pruned_path}")
    print(f"[Poda sugerida] Relat√≥rio salvo em: {report_path}")
    explain("Como interpretar ‚Äî 'features_cols_pruned.json'",
"""A lista prop√µe remo√ß√µes com base nos sinais combinados. Use-a como INSUMO: avalie impactos na
explicabilidade e na estabilidade temporal antes de aplicar. Recomenda-se testar desempenho/reconstru√ß√£o
e drift ap√≥s a poda, comparando com a lista original.""")
else:
    print("\n[Poda sugerida] Usu√°rio optou por N√ÉO gerar 'features_cols_pruned.json'.")
    explain("Pr√≥ximos passos (sem poda autom√°tica)",
"""Revise os arquivos gerados (pares correlacionados, VIF, MI/L1, PCA e cluster map) e selecione manualmente
as features a remover. Registre as decis√µes para rastreabilidade (auditoria) e reavalie o desempenho.""")

# **Etapa 7:** Autoencoder com early stopping

In [None]:
# @title
from __future__ import annotations
import os, json, math, time, random, re, shutil
from pathlib import Path
from datetime import datetime
from zoneinfo import ZoneInfo

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

print("Skynet Informa: Treinando o modelo.")

# ---------------------------------------------------------------------
# Pr√©-condi√ß√µes
# ---------------------------------------------------------------------
assert 'RUN_DIR' in globals(), "Defina RUN_DIR na Etapa 1."
RUN_DIR = Path(RUN_DIR)
ART_DIR = RUN_DIR / "figures"
ART_DIR.mkdir(parents=True, exist_ok=True)

DATASET_NPZ = RUN_DIR / "dataset_npz.npz"
assert DATASET_NPZ.exists(), "dataset_npz.npz n√£o encontrado. Execute o Etapa 6."

# Diret√≥rio artifacts (snapshot da Etapa 5 deve estar aqui)
PROJ_ROOT = Path(globals().get("PROJ_ROOT", Path.cwd()))
ARTIFACTS_DIR = Path(globals().get("ARTIFACTS_DIR", PROJ_ROOT / "artifacts"))
ARTIFACTS_DIR.mkdir(parents=True, exist_ok=True)

# (Opcional) configura√ß√£o existente para reaproveitar algo (n√£o obrigat√≥rio)
MODEL_CFG_PATH = RUN_DIR / "model_config.json"

# ---------------------------------------------------------------------
# Hiperpar√¢metros (padr√µes seguros; pode ajustar livremente)
# ---------------------------------------------------------------------
SEED            = 42
BATCH_SIZE      = 512
EPOCHS          = 100
PATIENCE        = 10
LR              = 1e-3
WEIGHT_DECAY    = 0.0
HIDDEN_SIZES    = [128, 64]
LATENT_DIM      = 16
LOSS_FN         = "mse"                # ou "mae"
USE_BN          = True
DROPOUT         = 0.0
NUM_WORKERS     = 0

# Permite sobrescrever via dicion√°rio externo (opcional)
if 'MODEL_CFG_OVERRIDE' in globals() and isinstance(MODEL_CFG_OVERRIDE, dict):
    locals().update({k:v for k,v in MODEL_CFG_OVERRIDE.items() if k.isupper()})

# ---------------------------------------------------------------------
# Reprodutibilidade
# ---------------------------------------------------------------------
def set_seed(seed: int = 42):
    random.seed(seed); np.random.seed(seed)
    torch.manual_seed(seed); torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
set_seed(SEED)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Dispositivo - {device}")

# ---------------------------------------------------------------------
# Carregar dados (Etapa 6 gerou dataset_npz.npz)
# ---------------------------------------------------------------------
npz = np.load(DATASET_NPZ)
X_train = npz["X_train"].astype(np.float32)
X_val   = npz["X_val"].astype(np.float32)
input_dim = X_train.shape[1]
print(f"Formas: X_train={X_train.shape}, X_val={X_val.shape}")

train_dl = DataLoader(TensorDataset(torch.from_numpy(X_train)),
                      batch_size=BATCH_SIZE, shuffle=True,  num_workers=NUM_WORKERS, pin_memory=True)
val_dl   = DataLoader(TensorDataset(torch.from_numpy(X_val)),
                      batch_size=BATCH_SIZE, shuffle=False, num_workers=NUM_WORKERS, pin_memory=True)

# ---------------------------------------------------------------------
# Defini√ß√£o do modelo (MLP sim√©trico)
# ---------------------------------------------------------------------
class AE(nn.Module):
    def __init__(self, in_dim: int, hidden: list[int], latent: int,
                 use_bn: bool = True, dropout: float = 0.0):
        super().__init__()
        layers_enc = []; last = in_dim
        for h in hidden:
            layers_enc += [nn.Linear(last, h)]
            if use_bn: layers_enc += [nn.BatchNorm1d(h)]
            layers_enc += [nn.ReLU(inplace=True)]
            if dropout > 0: layers_enc += [nn.Dropout(dropout)]
            last = h
        layers_enc += [nn.Linear(last, latent)]
        self.encoder = nn.Sequential(*layers_enc)
        layers_dec = []; last = latent
        for h in reversed(hidden):
            layers_dec += [nn.Linear(last, h)]
            if use_bn: layers_dec += [nn.BatchNorm1d(h)]
            layers_dec += [nn.ReLU(inplace=True)]
            if dropout > 0: layers_dec += [nn.Dropout(dropout)]
            last = h
        layers_dec += [nn.Linear(last, in_dim)]
        self.decoder = nn.Sequential(*layers_dec)
    def forward(self, x):
        return self.decoder(self.encoder(x))

model = AE(input_dim, HIDDEN_SIZES, LATENT_DIM, USE_BN, DROPOUT).to(device)
criterion = nn.MSELoss(reduction="mean") if LOSS_FN.lower() == "mse" else nn.L1Loss(reduction="mean")
optimizer = torch.optim.Adam(model.parameters(), lr=LR, weight_decay=WEIGHT_DECAY)

# ---------------------------------------------------------------------
# Loop de treinamento com Early Stopping
# ---------------------------------------------------------------------
print("Objetivo - menor train_loss e val_loss")
history = {"epoch": [], "train_loss": [], "val_loss": []}
best_val = float("inf"); best_epoch = -1; pat_left = PATIENCE

for epoch in range(EPOCHS):
    model.train()
    tr_loss_sum, tr_count = 0.0, 0
    for (xb,) in train_dl:
        xb = xb.to(device, non_blocking=True)
        optimizer.zero_grad(set_to_none=True)
        xr = model(xb)
        loss = criterion(xr, xb)
        loss.backward(); optimizer.step()
        bs = xb.size(0)
        tr_loss_sum += loss.item() * bs; tr_count += bs
    train_loss = tr_loss_sum / max(tr_count, 1)

    model.eval()
    va_loss_sum, va_count = 0.0, 0
    with torch.no_grad():
        for (xb,) in val_dl:
            xb = xb.to(device, non_blocking=True)
            xr = model(xb)
            loss = criterion(xr, xb)
            bs = xb.size(0)
            va_loss_sum += loss.item() * bs; va_count += bs
    val_loss = va_loss_sum / max(va_count, 1)

    history["epoch"].append(epoch); history["train_loss"].append(train_loss); history["val_loss"].append(val_loss)
    if epoch % 5 == 0:
        print(f"epoch {epoch:03d} | train_loss={train_loss:.6f} | val_loss={val_loss:.6f}")

    if val_loss + 1e-12 < best_val:
        best_val = val_loss; best_epoch = epoch; pat_left = PATIENCE
        torch.save(model.state_dict(), RUN_DIR / "ae.pt")
    else:
        pat_left -= 1
        if pat_left <= 0:
            print(f"Early stopping em epoch {epoch} (best_epoch={best_epoch}, best_val={best_val:.6f})")
            break

# ---------------------------------------------------------------------
# Salvar hist√≥rico e curva
# ---------------------------------------------------------------------
hist_df = pd.DataFrame(history)
hist_csv = RUN_DIR / "training_history.csv"; hist_df.to_csv(hist_csv, index=False)
print(f"Salvo - {hist_csv}")

plt.figure(figsize=(8,4.6))
plt.plot(hist_df["epoch"], hist_df["train_loss"], label="Treino")
plt.plot(hist_df["epoch"], hist_df["val_loss"],   label="Valida√ß√£o")
plt.title("Curva de treinamento do Autoencoder")
plt.xlabel("√âpoca"); plt.ylabel("Erro m√©dio (loss)")
plt.legend(); plt.grid(alpha=0.2)
curve_png = ART_DIR / "training_curve.png"
plt.tight_layout(); plt.savefig(curve_png, dpi=150, bbox_inches="tight"); plt.show(); plt.close()
print(f"Salvo - {curve_png}")

# ---------------------------------------------------------------------
# Recarregar melhor checkpoint e salvar erros de reconstru√ß√£o (valida√ß√£o)
# ---------------------------------------------------------------------
if (RUN_DIR / "ae.pt").exists():
    model.load_state_dict(torch.load(RUN_DIR / "ae.pt", map_location=device))
    model.eval()

val_tensor = torch.from_numpy(X_val).to(device)
with torch.no_grad():
    xr_val = model(val_tensor).cpu().numpy()
val_err = ((X_val - xr_val)**2).mean(axis=1).astype(np.float32)
recon_err_val_path = RUN_DIR / "reconstruction_errors_val.npy"
np.save(recon_err_val_path, val_err)
print(f"Salvo - {recon_err_val_path} (shape={val_err.shape})")

# ---------------------------------------------------------------------
# Registro do treino (auditoria)
# ---------------------------------------------------------------------
model_config_train = {
    "created_at": datetime.now(ZoneInfo("America/Sao_Paulo")).strftime("%Y-%m-%d %H:%M:%S"),
    "device": str(device),
    "input_dim": int(input_dim),
    "hidden_sizes": list(map(int, HIDDEN_SIZES)),
    "latent_dim": int(LATENT_DIM),
    "use_batchnorm": bool(USE_BN),
    "dropout": float(DROPOUT),
    "loss_fn": LOSS_FN.lower(),
    "optimizer": "Adam",
    "lr": float(LR),
    "weight_decay": float(WEIGHT_DECAY),
    "batch_size": int(BATCH_SIZE),
    "epochs_requested": int(EPOCHS),
    "early_stopping_patience": int(PATIENCE),
    "best_epoch": int(best_epoch),
    "best_val_loss": float(best_val) if math.isfinite(best_val) else None,
}
(RUN_DIR / "model_config.train.json").write_text(json.dumps(model_config_train, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"Salvo - {RUN_DIR / 'model_config.train.json'}")

print("TREINAMENTO CONCLU√çDO.")

# =====================================================================
# ESPELHO + VALIDA√á√ÉO STRICT + PUBLICA√á√ÉO (encoder/ver_N)
# =====================================================================
print("\nDefinir vers√£o do modelo.")

# 1) Espelhar arquitetura do checkpoint -> model_config.json (consumida pela Etapa 8)
state_dict = torch.load(RUN_DIR / "ae.pt", map_location="cpu")
if isinstance(state_dict, dict) and "state_dict" in state_dict:
    state_dict = state_dict["state_dict"]

pat_enc = re.compile(r"encoder\.(\d+)\.weight$")
pat_dec = re.compile(r"decoder\.(\d+)\.weight$")

enc_linear = []; dec_linear = []
for k, v in state_dict.items():
    if hasattr(v, "dim") and v.dim() == 2:  # pesos Linear
        m = pat_enc.match(k)
        if m:
            enc_linear.append((int(m.group(1)), v.shape))
        else:
            m = pat_dec.match(k)
            if m:
                dec_linear.append((int(m.group(1)), v.shape))
enc_linear.sort(key=lambda x: x[0]); dec_linear.sort(key=lambda x: x[0])
if not enc_linear or not dec_linear:
    raise RuntimeError("N√£o foi poss√≠vel inferir camadas lineares do checkpoint.")

def _has_bn(prefix: str, idx: int, sd: dict) -> bool:
    return (f"{prefix}.{idx+1}.running_mean" in sd) and (f"{prefix}.{idx+1}.running_var" in sd)

input_dim_inf   = int(enc_linear[0][1][1])
enc_outs        = [int(s[1][0]) for s in enc_linear]          # inclui o bottleneck na √∫ltima posi√ß√£o
dec_outs        = [int(s[1][0]) for s in dec_linear]          # inclui a sa√≠da final (= input_dim)
enc_bn_flags    = [_has_bn("encoder", idx, state_dict) for (idx, _shape) in [(x[0], x[1]) for x in enc_linear]]
dec_bn_flags    = [_has_bn("decoder", idx, state_dict) for (idx, _shape) in [(x[0], x[1]) for x in dec_linear]]
hidden_list_inf = enc_outs[:-1]
bottleneck_inf  = enc_outs[-1]

model_config_mirrored = {
    # campos can√¥nicos consumidos pela Etapa 8
    "input_dim": input_dim_inf,
    "hidden_list": hidden_list_inf,
    "bottleneck": bottleneck_inf,
    "dropout_p": float(DROPOUT),
    "use_batchnorm": bool(any(enc_bn_flags) or any(dec_bn_flags)),
    "enc_bn_flags": enc_bn_flags,
    "dec_bn_flags": dec_bn_flags,
    # campos completos (eliminam ambiguidade)
    "enc_outs": enc_outs,
    "dec_outs": dec_outs
}
(RUN_DIR / "model_config.json").write_text(json.dumps(model_config_mirrored, ensure_ascii=False, indent=2), encoding="utf-8")
print("model_config.json espelhado do checkpoint.")

# 2) Valida√ß√£o STRICT do espelho (reconstr√≥i o modelo e carrega strict)
class AE_BN_Strict(nn.Module):
    def __init__(self, input_dim, enc_outs, enc_bn_flags, dec_outs, dec_bn_flags, dropout_p=0.0):
        super().__init__()
        enc_layers=[]; last=input_dim
        for i,h in enumerate(enc_outs):
            enc_layers.append(nn.Linear(last,h))
            if i < len(enc_bn_flags) and enc_bn_flags[i]:
                enc_layers.append(nn.BatchNorm1d(h))
            enc_layers.append(nn.ReLU())
            if dropout_p and dropout_p>0:
                enc_layers.append(nn.Dropout(dropout_p))
            last=h
        self.encoder=nn.Sequential(*enc_layers)
        dec_layers=[]; last=enc_outs[-1]
        for i,h in enumerate(dec_outs):
            dec_layers.append(nn.Linear(last,h))
            if i < len(dec_outs)-1:
                if i < len(dec_bn_flags) and dec_bn_flags[i]:
                    dec_layers.append(nn.BatchNorm1d(h))
                dec_layers.append(nn.ReLU())
                if dropout_p and dropout_p>0:
                    dec_layers.append(nn.Dropout(dropout_p))
            last=h
        self.decoder=nn.Sequential(*dec_layers)
    def forward(self,x): return self.decoder(self.encoder(x))

probe = AE_BN_Strict(model_config_mirrored["input_dim"],
                     model_config_mirrored["enc_outs"],
                     model_config_mirrored["enc_bn_flags"],
                     model_config_mirrored["dec_outs"],
                     model_config_mirrored["dec_bn_flags"],
                     model_config_mirrored["dropout_p"])
probe.load_state_dict(state_dict, strict=True)
print("Valida√ß√£o STRICT do espelho OK.")

# 3) Selecionar ‚Äúver_N‚Äù: criar nova ou sobrescrever existente
def _list_versions(encoder_dir: Path):
    if not encoder_dir.exists(): return []
    out=[]
    for d in encoder_dir.iterdir():
        if d.is_dir() and d.name.startswith("ver_"):
            try: int(d.name.split("_")[1]); out.append(d.name)
            except: pass
    out.sort(key=lambda s: int(s.split("_")[1])); return out

def _next_version_name(encoder_dir: Path):
    vers = _list_versions(encoder_dir)
    return "ver_1" if not vers else f"ver_{int(vers[-1].split('_')[1])+1}"

def _prompt_input(prompt: str, default: str = "") -> str:
    try:
        s = input(prompt);
        return default if s is None or s.strip()=="" else s.strip()
    except Exception:
        return default

encoder_dir = PROJ_ROOT / "encoder"
encoder_dir.mkdir(parents=True, exist_ok=True)

existentes = _list_versions(encoder_dir)
print(f"Vers√µes existentes em encoder/: {existentes if existentes else '(nenhuma)'}")
print("[1] Criar NOVA vers√£o")
if existentes: print("[2] SOBRESCREVER uma vers√£o existente")
choice = _prompt_input("Escolha [1-2] (vazio = 1): ", default="1")

if choice == "2" and existentes:
    for i,v in enumerate(existentes,1): print(f"{i}) {v}")
    idx_str = _prompt_input("Informe o √≠ndice da vers√£o a sobrescrever: ")
    try: idx = int(idx_str); ver_name = existentes[idx-1]
    except: raise RuntimeError("√çndice inv√°lido.")
    target = encoder_dir / ver_name
    confirm = _prompt_input(f"Confirma sobrescrever {ver_name}? Digite exatamente '{ver_name}': ")
    if confirm != ver_name: raise RuntimeError("Opera√ß√£o cancelada.")
    # limpar conte√∫do
    for item in list(target.iterdir()):
        if item.is_dir(): shutil.rmtree(item)
        else:
            try: item.unlink()
            except FileNotFoundError: pass
else:
    ver_name = _next_version_name(encoder_dir)
    target = encoder_dir / ver_name
    target.mkdir(parents=True, exist_ok=True)
    print(f"Criando nova vers√£o: {ver_name}")

# 4) Copiar artefatos para a vers√£o
shutil.copy2(RUN_DIR / "ae.pt",               target / "ae.pt")
shutil.copy2(RUN_DIR / "model_config.json",   target / "model_config.json")
features_pkl = RUN_DIR / "features.pkl"; assert features_pkl.exists(), "features.pkl n√£o encontrado na RUN (rode a Etapa 6)."
shutil.copy2(features_pkl,                    target / "features.pkl")
cat_maps = RUN_DIR / "categorical_maps.json"
if cat_maps.exists(): shutil.copy2(cat_maps,  target / "categorical_maps.json")
val_err_np = RUN_DIR / "reconstruction_errors_val.npy"
if val_err_np.exists(): shutil.copy2(val_err_np, target / "reconstruction_errors_val.npy")
threshold_json = RUN_DIR / "threshold.json"
if threshold_json.exists(): shutil.copy2(threshold_json, target / "threshold.json")
snap_py_src = ARTIFACTS_DIR / "pipeline_snapshot.py"
assert snap_py_src.exists(), "pipeline_snapshot.py n√£o encontrado em artifacts/ (rode o congelamento na Etapa 5)."
shutil.copy2(snap_py_src, target / "pipeline_snapshot.py")
md5_src = ARTIFACTS_DIR / "pipeline_snapshot.md5"
if md5_src.exists(): shutil.copy2(md5_src, target / "pipeline_snapshot.md5")

# metadados
version_meta = {
    "created_at": datetime.now().isoformat(),
    "run_dir": str(RUN_DIR),
    "notes": "Vers√£o publicada a partir desta run.",
}
(target / "version_meta.json").write_text(json.dumps(version_meta, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"Vers√£o publicada em: {target}")

# **Etapa 8:** Pontua√ß√£o (gera√ß√£o de scores)

In [None]:
# @title
import os, re, json, shutil, hashlib, gc
from pathlib import Path
from datetime import datetime
import importlib.util

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
from contextlib import nullcontext

print("Skynet Informa: Calculando score de erro e pontuando registros (modo low-RAM).")

# ---------------- contexto base ----------------
PROJ_ROOT  = Path(globals().get("PROJ_ROOT", Path.cwd()))
RUN_DIR    = Path(globals().get("RUN_DIR", PROJ_ROOT / "runs" / datetime.now().strftime("%Y%m%d-%H%M%S")))
PRERUN_DIR = Path(globals().get("PRERUN_DIR", PROJ_ROOT / "prerun"))
FIGURES_DIR= Path(globals().get("FIGURES_DIR", RUN_DIR / "figures"))
for p in [RUN_DIR, FIGURES_DIR]:
    p.mkdir(parents=True, exist_ok=True)

# ---------------- utilit√°rios ----------------
def _list_versions(enc_dir: Path):
    if not enc_dir.exists(): return []
    out=[]
    for d in enc_dir.iterdir():
        if d.is_dir() and d.name.startswith("ver_"):
            try:
                int(d.name.split("_")[1])
                out.append(d.name)
            except:
                pass
    out.sort(key=lambda s: int(s.split("_")[1]))
    return out

def _latest_version_dir(root: Path) -> Path | None:
    enc = root / "encoder"
    vers = _list_versions(enc)
    return None if not vers else enc / vers[-1]

def _prompt_input(prompt: str, default: str = "") -> str:
    try:
        s = input(prompt)
        return default if s is None or s.strip()=="" else s.strip()
    except Exception:
        return default

def _md5(path: Path, nbytes: int = 1<<20) -> str:
    h = hashlib.md5()
    with open(path, "rb") as f:
        while True:
            b = f.read(nbytes)
            if not b: break
            h.update(b)
    return h.hexdigest()

# ---------------- selecionar vers√£o ----------------
ENCODER_VERSION = globals().get("ENCODER_VERSION", None)  # ex.: "ver_2"
encoder_root = PROJ_ROOT / "encoder"
versions = _list_versions(encoder_root)
if not versions:
    raise RuntimeError("Nenhuma vers√£o encontrada em encoder/. Publique uma vers√£o na Etapa 7.")

if ENCODER_VERSION and (encoder_root / ENCODER_VERSION).exists():
    ver_dir = encoder_root / ENCODER_VERSION
    print(f"Usando vers√£o fixa: {ver_dir.name}")
else:
    print(f"Vers√µes dispon√≠veis: {versions}")
    print("[1] Usar a √öLTIMA vers√£o")
    print("[2] Selecionar uma vers√£o pelo √≠ndice")
    choice = _prompt_input("Escolha [1-2] (vazio = 1): ", default="1")
    if choice == "2":
        for i, v in enumerate(versions, 1):
            print(f"{i}) {v}")
        idx_str = _prompt_input("Informe o √≠ndice da vers√£o desejada: ", default=str(len(versions)))
        try:
            idx = int(idx_str)
            ver_dir = encoder_root / versions[idx-1]
        except:
            raise RuntimeError("√çndice inv√°lido.")
    else:
        ver_dir = _latest_version_dir(PROJ_ROOT)
    print(f"Vers√£o selecionada: {ver_dir.name}")

# ---------------- artefatos da vers√£o ----------------
ae_pt         = ver_dir / "ae.pt"
model_cfg_json= ver_dir / "model_config.json"
features_pkl  = ver_dir / "features.pkl"
cat_maps_path = ver_dir / "categorical_maps.json"   # opcional
val_err_path  = ver_dir / "reconstruction_errors_val.npy"  # opcional
snap_py       = ver_dir / "pipeline_snapshot.py"    # snapshot da Etapa 5 (obrigat√≥rio)

assert ae_pt.exists(),          f"{ae_pt.name} ausente em {ver_dir}"
assert model_cfg_json.exists(), f"{model_cfg_json.name} ausente em {ver_dir}"
assert features_pkl.exists(),   f"{features_pkl.name} ausente em {ver_dir}"
assert snap_py.exists(),        f"{snap_py.name} ausente em {ver_dir} (publique a vers√£o na Etapa 7 ap√≥s congelar a Etapa 5)."

# ---------------- importar pipeline da vers√£o (robusto) ----------------
import types, re, json

def _load_pipeline_module(snap_py_path: Path):
    code = snap_py_path.read_text(encoding="utf-8")
    mod = types.ModuleType("pipeline_snapshot")
    # injeta depend√™ncias comuns
    mod.__dict__.update({"pd": pd, "np": np, "re": re, "json": json, "__file__": str(snap_py_path)})
    exec(compile(code, str(snap_py_path), "exec"), mod.__dict__)
    return mod

if "build_features" not in globals() or "encode_categoricals" not in globals():
    mod = _load_pipeline_module(snap_py)
    if "build_features" not in globals():
        globals()["build_features"] = getattr(mod, "build_features")
    if hasattr(mod, "encode_categoricals") and "encode_categoricals" not in globals():
        globals()["encode_categoricals"] = getattr(mod, "encode_categoricals")
    print("Pipeline importada do snapshot da vers√£o (com inje√ß√£o de pd/np/re/json).")

# ---------------- carregar model_config + features.pkl ----------------
with open(model_cfg_json, "r", encoding="utf-8") as f:
    cfg = json.load(f)

import pickle, joblib
def _try_load_features(path: Path):
    last = ""
    try:
        with open(path, "rb") as f:
            return pickle.load(f), "pickle"
    except Exception as e_pick:
        last = f"pickle:{type(e_pick).__name__} {e_pick}"
    try:
        return joblib.load(path), "joblib"
    except Exception as e_job:
        last += f" | joblib:{type(e_job).__name__} {e_job}"
    try:
        obj = torch.load(path, map_location="cpu")
        return obj, "torch"
    except Exception as e_t:
        last += f" | torch:{type(e_t).__name__} {e_t}"
    raise RuntimeError(f"Falha ao carregar features.pkl ({last})")

features_pack, loader_tag = _try_load_features(features_pkl)
print(f"features.pkl | loader={loader_tag} | md5={_md5(features_pkl)} | bytes={features_pkl.stat().st_size}")

for req in ("feature_cols", "imputer", "scaler"):
    if req not in features_pack:
        raise RuntimeError(f"features.pkl incompleto; falta '{req}'. Refa√ßa a Etapa 6.")
feature_cols  = features_pack["feature_cols"]
imputer       = features_pack["imputer"]
scaler        = features_pack["scaler"]
dtype_map     = features_pack.get("dtype", None)
features_hash = features_pack.get("features_hash", None)
if features_hash:
    print(f"features_hash: {features_hash}")

# ---------------- modelo STRICT a partir do config da vers√£o ----------------
class AE_BN_Strict(nn.Module):
    def __init__(self, input_dim, enc_outs, enc_bn_flags, dec_outs, dec_bn_flags, dropout_p=0.0):
        super().__init__()
        enc_layers=[]; last=input_dim
        for i,h in enumerate(enc_outs):
            enc_layers.append(nn.Linear(last,h))
            if i < len(enc_bn_flags) and enc_bn_flags[i]:
                enc_layers.append(nn.BatchNorm1d(h))
            enc_layers.append(nn.ReLU())
            if dropout_p and dropout_p>0:
                enc_layers.append(nn.Dropout(dropout_p))
            last=h
        self.encoder=nn.Sequential(*enc_layers)
        dec_layers=[]; last=enc_outs[-1]
        for i,h in enumerate(dec_outs):
            dec_layers.append(nn.Linear(last,h))
            if i < len(dec_outs)-1:
                if i < len(dec_bn_flags) and dec_bn_flags[i]:
                    dec_layers.append(nn.BatchNorm1d(h))
                dec_layers.append(nn.ReLU())
                if dropout_p and dropout_p>0:
                    dec_layers.append(nn.Dropout(dropout_p))
            last=h
        self.decoder=nn.Sequential(*dec_layers)
    def forward(self,x): return self.decoder(self.encoder(x))

INPUT_DIM   = int(cfg["input_dim"])
HIDDEN_LIST = list(cfg["hidden_list"])
BOTTLENECK  = int(cfg["bottleneck"])
DROPOUT_P   = float(cfg.get("dropout_p", 0.0))
enc_outs    = list(cfg.get("enc_outs", HIDDEN_LIST + [BOTTLENECK]))
dec_outs    = list(cfg.get("dec_outs", HIDDEN_LIST[::-1] + [INPUT_DIM]))
enc_bn      = list(cfg.get("enc_bn_flags", [False]*len(enc_outs)))
dec_bn      = list(cfg.get("dec_bn_flags", [False]*len(dec_outs)))

# --- Normaliza√ß√£o do DEVICE (robusto) ---
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Modelo ser√° carregado no DEVICE: {DEVICE}")

# carrega state_dict e modelo no device normalizado
state_dict = torch.load(ae_pt, map_location=DEVICE)
if isinstance(state_dict, dict) and "state_dict" in state_dict:
    state_dict = state_dict["state_dict"]

model = AE_BN_Strict(INPUT_DIM, enc_outs, enc_bn, dec_outs, dec_bn, DROPOUT_P).to(DEVICE)
with torch.no_grad():
    model.load_state_dict(state_dict, strict=True)
model.eval()
print(f"Modelo carregado (STRICT) | input_dim={INPUT_DIM}, enc_outs={enc_outs}, dec_outs={dec_outs}, device={DEVICE}")

# autocast condicional
amp_ctx = torch.cuda.amp.autocast if DEVICE.type == "cuda" else nullcontext
use_amp = (DEVICE.type == "cuda")

# ---------------- escolher CSV de entrada (interativo) ----------------
def _list_csvs(folder: Path, max_items: int = 20):
    if not folder.exists():
        return []
    # ordena por mtime (mais recente primeiro)
    csvs = sorted(folder.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
    return csvs[:max_items]

# 1) Prioridade: vari√°vel global SCORE_CSV (se definida e existir)
SCORE_CSV = Path(globals().get("SCORE_CSV", "")) if "SCORE_CSV" in globals() else None
if SCORE_CSV and SCORE_CSV.exists():
    print(f"Usando SCORE_CSV definido: {SCORE_CSV}")
else:
    # 2) Menu interativo em prerun/
    candidates = _list_csvs(PRERUN_DIR, max_items=50)
    if not candidates:
        # Sem arquivos em prerun/: pe√ßa um caminho manual
        while True:
            user_path = _prompt_input("Informe o caminho completo de um CSV para pontuar: ").strip()
            SCORE_CSV = Path(user_path)
            if SCORE_CSV.exists() and SCORE_CSV.suffix.lower()==".csv":
                break
            print("Caminho inv√°lido. Tente novamente.")
    else:
        print("CSVs dispon√≠veis em prerun/ (mais recentes primeiro):")
        for i, p in enumerate(candidates, 1):
            print(f"  {i:02d}) {p.name}  |  {datetime.fromtimestamp(p.stat().st_mtime).isoformat()}  |  {p.stat().st_size} bytes")
        print("  0) Digitar um caminho completo (fora de prerun/)")
        sel = _prompt_input("Selecione o √≠ndice (vazio = 1): ", default="1")
        try:
            idx = int(sel)
        except Exception:
            idx = 1
        if idx == 0:
            while True:
                user_path = _prompt_input("Informe o caminho completo do CSV: ").strip()
                SCORE_CSV = Path(user_path)
                if SCORE_CSV.exists() and SCORE_CSV.suffix.lower()==".csv":
                    break
                print("Caminho inv√°lido. Tente novamente.")
        else:
            if idx < 1 or idx > len(candidates):
                idx = 1
            SCORE_CSV = candidates[idx-1]

print(f"Insumo selecionado: {SCORE_CSV.name}")

# ---------------- carregar dados e gerar features ----------------
df = pd.read_csv(SCORE_CSV)
print(f"CSV carregado: shape={df.shape}")

categorical_maps = None
if cat_maps_path.exists():
    try:
        with open(cat_maps_path, "r", encoding="utf-8") as f:
            categorical_maps = json.load(f)
        print("Mapas categ√≥ricos carregados da vers√£o.")
    except Exception as e:
        print(f"Aviso: falha ao carregar categorical_maps.json ({e}). Seguindo sem.")

# Engenharia e codifica√ß√£o
if "build_features" not in globals() or not callable(globals()["build_features"]):
    raise RuntimeError("Fun√ß√£o build_features n√£o encontrada (importe do snapshot da vers√£o).")
df_feat = build_features(df)  # mant√©m exatid√£o da Etapa 5
del df; gc.collect()

if categorical_maps is not None and "encode_categoricals" in globals() and callable(globals()["encode_categoricals"]):
    df_feat = encode_categoricals(df_feat, categorical_maps)

missing = [c for c in feature_cols if c not in df_feat.columns]
if missing:
    raise RuntimeError(f"Faltam colunas de features no insumo processado: {missing[:10]}{'...' if len(missing)>10 else ''}")

# Seleciona apenas as features e libera mem√≥ria do restante
X_df = df_feat.loc[:, feature_cols]
# libera df_feat cedo
drop_cols = [c for c in df_feat.columns if c not in feature_cols]
if drop_cols:
    df_feat.drop(columns=drop_cols, inplace=True)
del df_feat, drop_cols; gc.collect()

# ---------------- pipeline de transforma√ß√£o + infer√™ncia em FATIAS ----------------
N = X_df.shape[0]
BATCH_ROWS = int(globals().get("INFER_BATCH_ROWS", 200_000))  # ajuste fino conforme RAM dispon√≠vel
print(f"Processando em fatias de at√© {BATCH_ROWS} linhas (N={N}).")

# Sa√≠das
scores_csv_path = RUN_DIR / "scores.csv"
# prepara CSV (header)
pd.DataFrame({"score": [], "recon_error": []}).to_csv(scores_csv_path, index=False)

# memmap para reconstru√ß√£o (poupa RAM)
errs_path = RUN_DIR / "reconstruction_errors_score.npy"
errs_mm = np.memmap(errs_path, dtype="float32", mode="w+", shape=(N,))

# PSI/KS ‚Äî prepara bins com base na valida√ß√£o (se existir)
have_val = val_err_path.exists()
if have_val:
    val_err = np.load(val_err_path)
    q = np.quantile(val_err, np.linspace(0, 1, 11))
    q[0], q[-1] = -np.inf, np.inf
    exec_hist = np.zeros(len(q)-1, dtype=np.int64)
    val_hist, _ = np.histogram(val_err, bins=q)
    val_p = np.clip(val_hist / max(1, val_hist.sum()), 1e-8, 1.0)
else:
    q = None
    exec_hist = None
    val_p = None

# estat√≠sticas correntes (Welford)
count = 0
mean = 0.0
M2 = 0.0

with torch.no_grad():
    for start in range(0, N, BATCH_ROWS):
        end = min(start + BATCH_ROWS, N)
        X_chunk = X_df.iloc[start:end]  # DataFrame view

        # dtypes (evita c√≥pias desnecess√°rias)
        if isinstance(dtype_map, dict):
            for col, dt in dtype_map.items():
                if col in X_chunk.columns:
                    try:
                        X_chunk[col] = X_chunk[col].astype(dt, copy=False)
                    except Exception as e:
                        print(f"Aviso: dtype {dt} em {col} falhou: {e}")

        # numpy view sem copiar
        X_np = X_chunk.to_numpy(copy=False)

        # transforma
        X_imp = imputer.transform(X_np)
        X_scl = scaler.transform(X_imp).astype("float32", copy=False)

        xb = torch.from_numpy(X_scl).to(DEVICE)

        # forward (AMP se CUDA)
        if use_amp:
            with amp_ctx(dtype=torch.float16):
                xr = model(xb)
        else:
            xr = model(xb)

        err_chunk = torch.mean((xr - xb)**2, dim=1).cpu().numpy().astype("float32")

        # escreve no memmap e no CSV (append)
        errs_mm[start:end] = err_chunk
        pd.DataFrame({"score": err_chunk, "recon_error": err_chunk}).to_csv(
            scores_csv_path, mode="a", header=False, index=False
        )

        # atualiza estat√≠sticas online (Welford)
        k = err_chunk.size
        count_new = count + k
        delta = err_chunk.mean() - mean
        mean += delta * (k / max(1, count_new))
        M2 += (err_chunk.var() * k) + (delta**2) * (count * k / max(1, count_new))
        count = count_new

        # PSI/KS por histograma
        if have_val:
            h, _ = np.histogram(err_chunk, bins=q)
            exec_hist += h

        # libera tudo da fatia
        del X_chunk, X_np, X_imp, X_scl, xb, xr, err_chunk
        gc.collect()

# garante flush do memmap
del errs_mm
gc.collect()

# ---------------- estat√≠sticas & metadados ----------------
std = float(np.sqrt(M2 / max(1, (count - 1)))) if count > 1 else 0.0
stats = {
    "count": int(count),
    "mean": float(mean) if count else None,
    "std": std if count else None,
    "version_dir": str(ver_dir),
    "source": {
        "file_name": SCORE_CSV.name,
        "file_path": str(SCORE_CSV.resolve()),
        "mtime_iso": datetime.fromtimestamp(SCORE_CSV.stat().st_mtime).isoformat(),
        "n_rows": int(N), "n_cols": int(len(feature_cols))
    },
    "features": {
        "n_features": int(len(feature_cols)),
        "features_hash": features_hash,
        "input_dim_cfg": int(cfg.get("input_dim", len(feature_cols))),
    },
}
(RUN_DIR / "score_stats.json").write_text(json.dumps(stats, ensure_ascii=False, indent=2), encoding="utf-8")

# ---------------- PSI/KS a partir de histogramas (low-RAM) ----------------
exec_stats = {}
if have_val:
    exec_p = np.clip(exec_hist / max(1, exec_hist.sum()), 1e-8, 1.0)
    psi = float(np.sum((exec_p - val_p) * np.log(exec_p / val_p)))
    # KS aprox.: maior diferen√ßa entre CDFs por bin
    cdf_val  = np.cumsum(val_p)
    cdf_exec = np.cumsum(exec_p)
    ks = float(np.max(np.abs(cdf_exec - cdf_val)))
    exec_stats = {"psi": psi, "ks_approx": ks, "val_count": int(val_err.size), "exec_count": int(count)}

    # figura (corrigida: garante mesmo comprimento entre x e y)
    # internal bins = excluir (-inf, q[1]) e (q[-2], +inf) => 8 centros quando q tem 11 bordas
    centers = 0.5 * (q[1:-2] + q[2:-1])          # len = (len(q)-3)
    val_plot = val_p[1:-1]                        # remove extremos => len = (len(q)-3)
    exec_plot = exec_p[1:-1]

    m = min(len(centers), len(val_plot), len(exec_plot))
    if m >= 2:
        centers = centers[:m]
        val_plot = val_plot[:m]
        exec_plot = exec_plot[:m]

        plt.figure()
        plt.step(centers, val_plot, where="mid", label="val")
        plt.step(centers, exec_plot, where="mid", label="exec")
        plt.legend(); plt.title("Distribui√ß√£o (bins quant√≠licos) ‚Äî val vs exec")
        plt.savefig(FIGURES_DIR / "dist_exec_vs_train.png", dpi=120, bbox_inches="tight")
        plt.close()
    else:
        print("Aviso: n√£o foi poss√≠vel plotar distribui√ß√£o (bins insuficientes).")

(RUN_DIR / "exec_stats.json").write_text(json.dumps(exec_stats, ensure_ascii=False, indent=2), encoding="utf-8")

# ---------------- limpeza do snapshot local do insumo (opcional) ----------------
snapshot_csv = Path(globals().get("SNAPSHOT_CSV", "")) if "SNAPSHOT_CSV" in globals() else None
try:
    if snapshot_csv and snapshot_csv.exists():
        snapshot_csv.unlink()
        print(f"Snapshot removido: {snapshot_csv.name}")
except Exception as e:
    print(f"Aviso: falha ao remover snapshot ({e})")

print("Conclu√≠do (modo low-RAM).")

In [None]:
print(f"DEVICE={DEVICE} | type={getattr(DEVICE,'type', None)}")

# **Etapa 9:** Calibra√ß√£o de threshold (budget | meta | costmin)

In [None]:
# @title
"""
Objetivo
--------
Definir o threshold do score (erro de reconstru√ß√£o) que ser√° usado para marcar alertas:
- Modo 'budget' : taxa de alerta alvo (quantil sobre a distribui√ß√£o de valida√ß√£o)
- Modo 'meta'   : n√∫mero absoluto de alertas no LOTE ATUAL (usa distribui√ß√£o atual)
- Modo 'costmin': minimiza custo proxy com (c_fp, c_fn, preval√™ncia esperada p)

Entradas
--------
- RUN_DIR/reconstruction_errors_val.npy  (Etapa 7)
- RUN_DIR/scores.csv                     (Etapa 8)  -> coluna 'score'

Sa√≠das
------
- RUN_DIR/threshold.json                 (modo, par√¢metros, threshold, KS/PSI, taxas)
- RUN_DIR/figures/drift_hist.png         (histograma val vs atual)   [NOVO]
- RUN_DIR/scores_summary.json            (n_alerts, alert_rate, threshold, modo)   [NOVO]
- Impress√£o de resumo para confer√™ncia

Notas
-----
- KS e PSI s√£o calculados entre a distribui√ß√£o de VALIDA√á√ÉO (baseline) e o LOTE ATUAL.
- Para 'budget', o threshold √© o quantil de valida√ß√£o: q = 1 - ALERT_RATE.
- Para 'meta', o threshold √© o quantil do lote atual tal que N_alertas = alvo.
- Para 'costmin' (proxy, sem r√≥tulos): busca thresholds por quantis do lote atual
  minimizando: C = c_fp * rate_alerts + c_fn * max(0, p - rate_alerts).
"""

import json, math
from pathlib import Path
from datetime import datetime

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

assert 'RUN_DIR' in globals(), "Execute a Etapa 1 para definir RUN_DIR."
val_err_path = Path(RUN_DIR) / "reconstruction_errors_val.npy"
scores_path  = Path(RUN_DIR) / "scores.csv"
assert val_err_path.exists(), "Arquivo de valida√ß√£o ausente (reconstruction_errors_val.npy). Rode as Etapas 6‚Äì7."
assert scores_path.exists(),  "scores.csv ausente. Rode a Etapa 8."

# ---------- carregar dados ----------
val_err = np.load(val_err_path)          # distribui√ß√£o baseline (valida√ß√£o)
df_sc   = pd.read_csv(scores_path, sep=",", encoding="utf-8-sig")
assert "score" in df_sc.columns, "scores.csv n√£o possui coluna 'score'."
scores  = df_sc["score"].to_numpy(dtype=float)

# ---------- m√©tricas de drift (KS e PSI) ----------
def ks_stat(a: np.ndarray, b: np.ndarray) -> float:
    a = a[~np.isnan(a)]
    b = b[~np.isnan(b)]
    if a.size == 0 or b.size == 0:
        return float("nan")
    xa = np.sort(a)
    xb = np.sort(b)
    grid = np.unique(np.concatenate([xa, xb], axis=0))
    def _ecdf(x, g):
        return np.searchsorted(x, g, side="right") / x.size
    Fa = np.array([_ecdf(xa, g) for g in grid], dtype=float)
    Fb = np.array([_ecdf(xb, g) for g in grid], dtype=float)
    return float(np.max(np.abs(Fa - Fb)))

def psi_stat(expected: np.ndarray, actual: np.ndarray, bins: int = 20) -> float:
    e = expected[~np.isnan(expected)]
    a = actual[~np.isnan(actual)]
    if e.size == 0 or a.size == 0:
        return float("nan")
    qs = np.linspace(0, 1, bins + 1)
    cuts = np.quantile(e, qs)
    cuts = np.unique(cuts)
    if cuts.size < 3:
        return 0.0
    e_hist, _ = np.histogram(e, bins=cuts)
    a_hist, _ = np.histogram(a, bins=cuts)
    e_prop = np.clip(e_hist / max(e_hist.sum(), 1), 1e-8, 1.0)
    a_prop = np.clip(a_hist / max(a_hist.sum(), 1), 1e-8, 1.0)
    psi = np.sum((a_prop - e_prop) * np.log(a_prop / e_prop))
    return float(psi)

KS  = ks_stat(val_err, scores)
PSI = psi_stat(val_err, scores, bins=20)

print(f"Skynet: KS(val vs atual) = {KS:.4f} | PSI = {PSI:.4f}")

# ---------- modos de calibra√ß√£o ----------
def calib_budget(val_err: np.ndarray, alert_rate: float) -> dict:
    alert_rate = float(alert_rate)
    alert_rate = min(max(alert_rate, 1e-6), 0.99)
    thr = float(np.quantile(val_err, 1.0 - alert_rate))
    rate_val = float((val_err >= thr).mean())
    return {"threshold": thr, "rate_val_expected": rate_val, "params": {"mode":"budget","alert_rate": alert_rate}}

def calib_meta_current(scores: np.ndarray, n_alerts: int) -> dict:
    n_alerts = int(max(0, n_alerts))
    n = scores.size
    if n_alerts <= 0:
        thr = float(np.inf)
    elif n_alerts >= n:
        thr = float(-np.inf)
    else:
        s = np.sort(scores)[::-1]
        thr = float(s[n_alerts - 1])
    rate_curr = float((scores >= thr).mean())
    return {"threshold": thr, "rate_current": rate_curr, "params": {"mode":"meta","n_alerts": n_alerts, "n_rows": n}}

def calib_costmin_proxy(scores: np.ndarray, c_fp: float, c_fn: float, prevalence: float) -> dict:
    c_fp = float(max(c_fp, 0.0))
    c_fn = float(max(c_fn, 0.0))
    p = float(min(max(prevalence, 0.0), 1.0))
    if scores.size == 0:
        return {"threshold": float("nan"), "rate_current": float("nan"),
                "params": {"mode":"costmin","c_fp": c_fp, "c_fn": c_fn, "prevalence": p}}
    qs = np.linspace(0.0, 1.0, 1001)
    thrs = np.quantile(scores, 1.0 - qs)
    s_sorted = np.sort(scores)
    n = s_sorted.size
    best = None; best_thr = None; best_rate = None
    for thr in thrs:
        idx = np.searchsorted(s_sorted, thr, side="left")
        rate = (n - idx) / n
        cost = c_fp * rate + c_fn * max(0.0, p - rate)
        if (best is None) or (cost < best):
            best, best_thr, best_rate = cost, float(thr), float(rate)
    return {"threshold": best_thr, "rate_current": best_rate,
            "params": {"mode":"costmin","c_fp": c_fp, "c_fn": c_fn, "prevalence": p, "grid": "q=0..1 step 0.001"}}

# ---------- intera√ß√£o com o usu√°rio ----------
print("\nSelecione o MODO de threshold:")
print("  [1] budget  ‚Äî Threshold por taxa de alerta alvo (ALERT_RATE, ex.: 0.03)")
print("  [2] meta    ‚Äî Threshold por n√∫mero de alertas desejado no lote atual (N_ALERTS)")
print("  [3] costmin ‚Äî Threshold por custo proxy m√≠nimo (c_fp, c_fn, preval√™ncia p)")
mode_raw = input("Digite o √≠ndice do modo [1-3]: ").strip()

if mode_raw == "1":
    a_raw = input("ALERT_RATE (fra√ß√£o, ex.: 0.03) [default=0.03]: ").strip()
    ALERT_RATE = float(a_raw) if a_raw else 0.03
    result = calib_budget(val_err, ALERT_RATE)
    MODE = "budget"

elif mode_raw == "2":
    default_n = max(1, int(0.02 * scores.size))
    n_raw = input(f"N_ALERTS (inteiro, 0..{scores.size}) [default={default_n}]: ").strip()
    N_ALERTS = int(n_raw) if n_raw else default_n
    result = calib_meta_current(scores, N_ALERTS)
    MODE = "meta"

elif mode_raw == "3":
    cfp_raw = input("c_fp (custo do falso positivo) [default=1.0]: ").strip()
    cfn_raw = input("c_fn (custo do falso negativo) [default=5.0]: ").strip()
    p_raw   = input("preval√™ncia esperada p (0..1) [default=0.01]: ").strip()
    c_fp = float(cfp_raw) if cfp_raw else 1.0
    c_fn = float(cfn_raw) if cfn_raw else 5.0
    p    = float(p_raw)   if p_raw   else 0.01
    result = calib_costmin_proxy(scores, c_fp, c_fn, p)
    MODE = "costmin"

else:
    print("Entrada inv√°lida. Usando modo [1] budget com ALERT_RATE=0.03 por padr√£o.")
    ALERT_RATE = 0.03
    result = calib_budget(val_err, ALERT_RATE)
    MODE = "budget"

THRESHOLD = float(result["threshold"])

# taxas estimadas (valida√ß√£o e lote atual)
rate_val     = float((val_err >= THRESHOLD).mean())
rate_current = float((scores  >= THRESHOLD).mean())

# ---------- salvar threshold.json (mantendo compatibilidade) ----------
summary = {
    "mode": MODE,
    "threshold": THRESHOLD,
    "ks_val_vs_current": KS,
    "psi_val_vs_current": PSI,
    "rate_val_expected": rate_val,
    "rate_current_estimated": rate_current,
    "mode_config": result.get("params", {}),   # <‚Äî ajuda a Etapa 12 a descrever o m√©todo
    "drift": {"ks_stat": KS, "psi": PSI},      # <‚Äî bloco amig√°vel para leitura posterior
    "inputs": {
        "val_err_path": str(val_err_path),
        "scores_path": str(scores_path),
        "n_val": int(val_err.shape[0]),
        "n_current": int(scores.shape[0]),
    },
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
out_path = Path(RUN_DIR) / "threshold.json"
out_path.write_text(json.dumps(summary, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"threshold.json salvo em: {out_path.name}")

# ---------- salvar figura de compara√ß√£o das distribui√ß√µes (drift_hist.png) ----------
fig_dir = Path(RUN_DIR) / "figures"
fig_dir.mkdir(parents=True, exist_ok=True)
plt.figure(figsize=(8,4.6))
plt.hist(val_err, bins=50, alpha=0.5, label="Valida√ß√£o", density=True)
plt.hist(scores,  bins=50, alpha=0.5, label="Lote atual", density=True)
plt.axvline(THRESHOLD, color="k", linestyle="--", linewidth=1.2, label=f"Threshold = {THRESHOLD:.5f}")
plt.title("Compara√ß√£o de distribui√ß√µes de erro (valida√ß√£o vs lote atual)")
plt.xlabel("Erro de reconstru√ß√£o")
plt.ylabel("Densidade")
plt.legend()
plt.tight_layout()
drift_png = fig_dir / "drift_hist.png"
plt.savefig(drift_png, dpi=150, bbox_inches="tight")
plt.close()
print(f"Figura salva: {drift_png.name}")

# ---------- salvar scores_summary.json (n√£o altera scores.csv; Etapa 10 materializa 'alert') ----------
n_alerts = int((scores >= THRESHOLD).sum())
scores_summary = {
    "n_linhas": int(scores.shape[0]),
    "n_alerts": n_alerts,
    "alert_rate": float(n_alerts / max(scores.shape[0], 1)),
    "threshold": THRESHOLD,
    "mode": MODE,
    "mode_config": result.get("params", {}),
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
(Path(RUN_DIR) / "scores_summary.json").write_text(json.dumps(scores_summary, ensure_ascii=False, indent=2), encoding="utf-8")
print("scores_summary.json salvo.")

print("\nCalibra√ß√£o conclu√≠da.")
print(f"threshold = {THRESHOLD:.6f}")
print(f"taxas: val={rate_val:.4%}  |  atual={rate_current:.4%}")
print(f"KS={KS:.4f}  PSI={PSI:.4f}")
print("Pr√≥ximo passo: Etapa 10 ‚Äî materializar alerts no scores.csv usando este threshold.")

# **Etapa 10:** Marca√ß√£o dos alertas de anomalia nos registros e gera√ß√£o do arquivo de output

In [None]:
# @title
"""
Objetivo
--------
- Ler os artefatos de infer√™ncia da ¬ß8 (scores + threshold) a partir de RUN_DIR.
- Descobrir o CSV de origem usado na ¬ß8 e copi√°-lo para output/ com timestamp.
- Se n√£o encontrar automaticamente, perguntar ao usu√°rio e listar os CSVs em PROJ_ROOT/prerun/.
- Anexar colunas: anom_score, rank_desc (ordem decrescente de score) e alert (0/1).
- Garantir a exist√™ncia da coluna 'username' no CSV de sa√≠da.
- Salvar CSV final em PROJ_ROOT/output.
"""

import json
from pathlib import Path
from datetime import datetime
import pandas as pd
import re

print("Skynet Informa: Marcando score de anomalia nos registros originais.")

# -------------------- Diret√≥rios esperados no ambiente ----------------------
assert 'PROJ_ROOT' in globals(), "Defina PROJ_ROOT (Path) no ambiente."
assert 'RUN_DIR'   in globals(), "Defina RUN_DIR (Path) no ambiente."
PROJ_ROOT = Path(PROJ_ROOT)
RUN_DIR   = Path(RUN_DIR)
PRERUN_DIR = PROJ_ROOT / "prerun"
OUTPUT_DIR = PROJ_ROOT / "output"
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# -------------------- (Opcional) For√ßar caminho do CSV de origem -----------
SOURCE_CSV_OVERRIDE = None  # exemplo: Path(PROJ_ROOT / "prerun" / "meu_dataset_validado.csv")

# -------------------- Localiza√ß√£o de threshold e scores ---------------------
thr_path = RUN_DIR / "threshold.json"
scores_parquet = RUN_DIR / "scores.parquet"
scores_csv     = RUN_DIR / "scores.csv"
assert thr_path.exists(), f"threshold.json n√£o encontrado em {thr_path}"

if scores_parquet.exists():
    scores_path = scores_parquet
elif scores_csv.exists():
    scores_path = scores_csv
else:
    raise FileNotFoundError("Arquivo de scores n√£o encontrado em RUN_DIR (scores.parquet ou scores.csv).")

print(f"Usando scores: {scores_path.name} | threshold: {thr_path.name}")

# -------------------- Ler threshold ----------------------------------------
with open(thr_path, "r", encoding="utf-8") as f:
    thr_obj = json.load(f)
thr_candidates = ["threshold", "thr", "cutoff", "score_threshold"]
thr_value = None
for k in thr_candidates:
    if k in thr_obj:
        thr_value = float(thr_obj[k])
        break
assert thr_value is not None, f"threshold.json n√£o cont√©m nenhuma das chaves esperadas: {thr_candidates}"
print(f"Threshold carregado: {thr_value:.6f}")

# -------------------- Ler scores -------------------------------------------
if scores_path.suffix.lower() == ".parquet":
    df_scores = pd.read_parquet(scores_path)
else:
    df_scores = pd.read_csv(scores_path)

# Normalizar nome da coluna de score
score_col_candidates = ["score", "anom_score", "recon_error", "reconstruction_error"]
score_col = None
for c in score_col_candidates:
    if c in df_scores.columns:
        score_col = c
        break
assert score_col is not None, f"Coluna de score n√£o encontrada. Esperado uma de: {score_col_candidates}"
if score_col != "anom_score":
    df_scores = df_scores.rename(columns={score_col: "anom_score"})

# Detectar coluna de chave/√≠ndice (se existir)
row_id_col = None
for c in ["row_id", "row_idx", "index_original", "_row_id"]:
    if c in df_scores.columns:
        row_id_col = c
        break

# Se n√£o houver row_id, usa a posi√ß√£o (0..n-1)
if row_id_col is None:
    df_scores = df_scores.reset_index(drop=False).rename(columns={"index": "row_id"})
    row_id_col = "row_id"

# Garantir tipos e ordena√ß√£o
df_scores["row_id"] = pd.to_numeric(df_scores[row_id_col], errors="coerce").astype("Int64")
df_scores = df_scores.sort_values(["row_id"]).reset_index(drop=True)

# -------------------- Calcular rank_desc e alert ---------------------------
df_scores["rank_desc"] = df_scores["anom_score"].rank(method="first", ascending=False).astype(int)
df_scores["alert"] = (df_scores["anom_score"] >= thr_value).astype(int)
df_scores_short = df_scores[["row_id", "anom_score", "rank_desc", "alert"]]

# -------------------- Helpers: detectar/selecionar CSV da ¬ß8 ----------------
def _probe_source_csv_from_meta(run_dir):
    # 1) inference_meta.json
    cand = run_dir / "inference_meta.json"
    if cand.exists():
        try:
            obj = json.loads(cand.read_text(encoding="utf-8"))
            for k in ["source_csv", "input_csv", "csv_path"]:
                if k in obj and obj[k]:
                    p = Path(obj[k])
                    if p.exists():
                        return p
        except Exception:
            pass
    # 2) run_meta.json
    cand = run_dir / "run_meta.json"
    if cand.exists():
        try:
            obj = json.loads(cand.read_text(encoding="utf-8"))
            for k in ["source_csv", "input_csv", "csv_path"]:
                if k in obj and obj[k]:
                    p = Path(obj[k])
                    if p.exists():
                        return p
        except Exception:
            pass
    # 3) source_csv.txt
    cand = run_dir / "source_csv.txt"
    if cand.exists():
        try:
            p = Path(cand.read_text(encoding="utf-8").strip())
            if p.exists():
                return p
        except Exception:
            pass
    return None

def _pick_file_from_prerun(prerun_dir):
    assert prerun_dir.exists(), f"Pasta n√£o encontrada: {prerun_dir}"
    files = sorted([p for p in prerun_dir.glob("*.csv") if p.is_file()])
    if not files:
        raise FileNotFoundError(f"N√£o h√° arquivos .csv em {prerun_dir}.")
    print("Selecione o CSV de origem (listado a partir de PROJ_ROOT/prerun):")
    for i, p in enumerate(files, start=1):
        print(f"  [{i}] {p.name}")
    print("Pressione ENTER para aceitar [1].")
    while True:
        sel = input("Digite o √≠ndice do arquivo desejado: ").strip()
        if sel == "":
            idx = 1
        else:
            if not sel.isdigit():
                print("Entrada inv√°lida. Informe um n√∫mero.")
                continue
            idx = int(sel)
        if 1 <= idx <= len(files):
            choice = files[idx - 1]
            print(f"Arquivo selecionado: {choice}")
            return choice
        else:
            print(f"√çndice fora do intervalo (1..{len(files)}). Tente novamente.")

# -------------------- Determinar source_csv --------------------
if SOURCE_CSV_OVERRIDE is not None:
    source_csv = Path(SOURCE_CSV_OVERRIDE)
else:
    source_csv = _probe_source_csv_from_meta(RUN_DIR)

if not source_csv or not source_csv.exists():
    print("CSV de origem da ¬ß8 n√£o encontrado automaticamente.")
    source_csv = _pick_file_from_prerun(PRERUN_DIR)

print(f"CSV de origem: {source_csv}")

# -------------------- Ler CSV de origem -------------------
df_src = pd.read_csv(source_csv)
df_src = df_src.reset_index(drop=True).reset_index(drop=False).rename(columns={"index": "row_id"})
df_src["row_id"] = pd.to_numeric(df_src["row_id"], errors="coerce").astype("Int64")

# -------------------- Garantir coluna 'username' -------------------
def _ensure_username_column(df: pd.DataFrame) -> pd.DataFrame:
    # mapa lower->original
    lower_map = {c.lower(): c for c in df.columns}
    # lista de candidatos por prioridade
    candidates = [
        "username", "user", "usuario", "user_name", "usernm", "nm_usuario",
        "login", "matricula", "id_usuario", "idusuario", "usr", "employee",
        "employee_id", "user_id"
    ]
    # busca direta por nome exato (case-insensitive)
    for key in candidates:
        if key in lower_map:
            src_col = lower_map[key]
            df["username"] = df[src_col].astype(str)
            print(f"Coluna 'username' criada a partir de '{src_col}'.")
            return df
    # busca por padr√µes comuns
    rx = re.compile(r'\b(user(name)?|usuario|login|matr(icula)?|id_?usuario|user_?id)\b', flags=re.I)
    for c in df.columns:
        if rx.search(c):
            df["username"] = df[c].astype(str)
            print(f"Coluna 'username' criada a partir de '{c}' (padr√£o detectado).")
            return df
    # fallback: cria coluna com "NA"
    df["username"] = "NA"
    print("Aviso: nenhuma coluna equivalente a 'username' encontrada. Criada 'username' preenchida com 'NA'.")
    return df

df_src = _ensure_username_column(df_src)

# -------------------- Merge com scores -------------------
if len(df_src) != len(df_scores_short):
    print(f"Aten√ß√£o: tamanhos diferentes ‚Äî origem={len(df_src)} vs scores={len(df_scores_short)}. "
          "O merge ser√° feito por 'row_id' (posi√ß√£o). Verifique consist√™ncia se necess√°rio.")

df_out = df_src.merge(df_scores_short, on="row_id", how="left").drop(columns=["row_id"])

# -------------------- Salvar c√≥pia em output/ com timestamp ----------------
ts = datetime.now().strftime("%Y%m%d-%H%M%S")
out_name = f"{source_csv.stem}_etapa10_{ts}.csv"
out_path = OUTPUT_DIR / out_name
df_out.to_csv(out_path, index=False, encoding="utf-8")

print("Etapa 10 conclu√≠da.")
print(f"- CSV final: {out_path}")
print("- Colunas adicionadas: ['anom_score', 'rank_desc', 'alert']")
print(f"- Registros: {len(df_out)}")

In [None]:
# @title
"""
Objetivo
--------
1) Ler RUN_DIR/scores.csv (Etapa 8) e RUN_DIR/threshold.json (Etapa 9).
2) Aplicar threshold ‚Üí coluna 'alert' (0/1).
3) Gerar ranking est√°vel por 'score' (desc) e metadados de auditoria.
4) Salvar:
   - runs/<RUN_ID>/scores_alerts.csv         (dataset completo com alert=0/1)
   - runs/<RUN_ID>/scores_alerts_top1000.csv (amostra priorizada)
   - runs/<RUN_ID>/alerts_summary.json       (sum√°rio de m√©tricas)
   - runs/<RUN_ID>/alerts_by_username.csv    (agrega√ß√£o √∫til para triagem, se houver 'username')
   - runs/<RUN_ID>/alerts_top100.csv         (TOP 100 alertas, p/ relat√≥rio Etapa 12)   [NOVO]
   - runs/<RUN_ID>/scores_summary.json       (n_alerts/alert_rate/threshold/mode)  [NOVO]

Pontos FIXOS:
- Separador ';' e encoding 'utf-8-sig'
- Ordena√ß√£o est√°vel (mergesort) por score desc para ranking
- Colunas de metadados adicionadas: threshold_used, mode, ks, psi, rank_desc

Pontos CALIBR√ÅVEIS:
- TOP_K exportado (por padr√£o 1000)
- Colunas de contexto extra no in√≠cio do CSV final (ORDER_FRONT)
"""

import json
from pathlib import Path
from datetime import datetime
import numpy as np
import pandas as pd

# -------- Pr√©-checagens --------
assert 'RUN_DIR' in globals(), "Execute a Etapa 1 antes (RUN_DIR)."
run_dir = Path(RUN_DIR)
scores_path = run_dir / "scores.csv"
th_path     = run_dir / "threshold.json"
assert scores_path.exists(),  "scores.csv ausente (rode a Etapa 8)."
assert th_path.exists(),      "threshold.json ausente (rode a Etapa 9)."

# -------- Carregar dados --------
CSV_SEP, CSV_ENC = ",", "utf-8-sig"
df = pd.read_csv(scores_path, sep=CSV_SEP, encoding=CSV_ENC, dtype=str)

# garante colunas base
assert "score" in df.columns, "scores.csv precisa ter coluna 'score'."
# preserva uma c√≥pia do √≠ndice original (√∫til p/ rastreio)
df.insert(0, "_rowid", np.arange(len(df), dtype=np.int64))

# coer√ß√£o num√©rica do score
df["score"] = pd.to_numeric(df["score"], errors="coerce").astype(float)

# -------- Ler threshold e metadados --------
cfg = json.loads(th_path.read_text(encoding="utf-8"))
THRESHOLD = float(cfg["threshold"])
MODE      = cfg.get("mode", "?")
KS        = float(cfg.get("ks_val_vs_current", np.nan))
PSI       = float(cfg.get("psi_val_vs_current", np.nan))

# -------- Aplicar threshold ‚Üí alert --------
df["alert"] = (df["score"] >= THRESHOLD).astype("int8")
rate_current = float(df["alert"].mean())

# -------- Ordena√ß√£o est√°vel por score desc (ranking) --------
# mergesort √© est√°vel ‚Üí se empatar score, mant√©m a ordem original (_rowid)
df_sorted = df.sort_values(by=["score", "_rowid"], ascending=[False, True], kind="mergesort").copy()
df_sorted.insert(1, "rank_desc", np.arange(1, len(df_sorted) + 1, dtype=np.int64))

# -------- Metadados √∫teis --------
df_sorted.insert(2, "threshold_used", THRESHOLD)
df_sorted.insert(3, "mode", MODE)
df_sorted.insert(4, "ks_val_vs_current", KS)
df_sorted.insert(5, "psi_val_vs_current", PSI)

# -------- Reorganizar colunas (frente com contexto) --------
ORDER_FRONT = [
    "alert", "rank_desc", "score", "threshold_used", "mode",
    "ks_val_vs_current", "psi_val_vs_current",
    "_rowid",
]
cols_final = ORDER_FRONT + [c for c in df_sorted.columns if c not in ORDER_FRONT]
df_final = df_sorted[cols_final].copy()

# -------- Salvar sa√≠das principais --------
out_full = run_dir / "scores_alerts.csv"
out_topk = run_dir / "scores_alerts_top1000.csv"
TOP_K = 1000  # CALIBR√ÅVEL

df_final.to_csv(out_full, index=False, sep=CSV_SEP, encoding=CSV_ENC)
df_final.head(TOP_K).to_csv(out_topk, index=False, sep=CSV_SEP, encoding=CSV_ENC)

# -------- Agrega√ß√£o por usu√°rio (se existir coluna 'username') --------
if "username" in df_final.columns:
    by_user = (
        df_final.groupby("username", dropna=False)
                .agg(alerts=("alert", "sum"),
                     total=("alert", "count"),
                     pct_alerts=("alert", "mean"),
                     max_score=("score", "max"))
                .reset_index()
                .sort_values(["alerts","max_score"], ascending=[False, False])
    )
    by_user["pct_alerts"] = (by_user["pct_alerts"] * 100).round(2)
    out_by_user = run_dir / "alerts_by_username.csv"
    by_user.to_csv(out_by_user, index=False, sep=CSV_SEP, encoding=CSV_ENC)
    print(f"Salvo {out_by_user.name}")
else:
    print("coluna 'username' ausente ‚Äî pulando alerts_by_username.csv")

# -------- Top 100 alertas (p/ relat√≥rio Etapa 12) ‚Äî NOVO --------
top100 = df_final[df_final["alert"] == 1].copy()
top100 = top100.sort_values(by=["score", "_rowid"], ascending=[False, True], kind="mergesort").head(100)
out_top100 = run_dir / "alerts_top100.csv"
top100.to_csv(out_top100, index=False, sep=CSV_SEP, encoding=CSV_ENC)
print(f"Salvo {out_top100.name}")

# -------- Sum√°rios --------
summary = {
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "threshold": THRESHOLD,
    "mode": MODE,
    "ks_val_vs_current": KS,
    "psi_val_vs_current": PSI,
    "n_rows": int(len(df_final)),
    "n_alerts": int(df_final["alert"].sum()),
    "alert_rate": float(rate_current),
    "top_k": TOP_K,
    "outputs": {
        "scores_alerts_csv": str(out_full),
        "scores_alerts_topk_csv": str(out_topk),
        "alerts_top100_csv": str(out_top100),
        "alerts_by_username_csv": str(run_dir / "alerts_by_username.csv"),
    }
}
(run_dir / "alerts_summary.json").write_text(json.dumps(summary, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"Skynet: salvo alerts_summary.json")

# -------- Atualizar/criar scores_summary.json (p/ Etapa 12) ‚Äî NOVO --------
scores_summary_path = run_dir / "scores_summary.json"
scores_summary = {
    "n_linhas": int(len(df_final)),
    "n_alerts": int(df_final["alert"].sum()),
    "alert_rate": float(rate_current),
    "threshold": THRESHOLD,
    "mode": MODE,
    "created_at": datetime.now().isoformat(timespec="seconds"),
}
try:
    # mant√©m 'mode_config' se j√° existir (do Etapa 9)
    if scores_summary_path.exists():
        existing = json.loads(scores_summary_path.read_text(encoding="utf-8"))
        if isinstance(existing, dict):
            for k in ("mode_config",):
                if k in existing and k not in scores_summary:
                    scores_summary[k] = existing[k]
    scores_summary_path.write_text(json.dumps(scores_summary, ensure_ascii=False, indent=2), encoding="utf-8")
    print(f"Salvo {scores_summary_path.name}")
except Exception as e:
    print(f"Aviso - falha ao salvar scores_summary.json: {e}")

print("\nALERTS materializados com sucesso.")
print(f"threshold={THRESHOLD:.6f}  modo={MODE}  KS={KS:.4f}  PSI={PSI:.4f}")
print(f"taxa de alertas no lote atual: {rate_current:.2%}")
print(f"Salvo {out_full.name}, {out_topk.name}")
print("Pr√≥ximo passo: Etapa 11 ‚Äî monitoramento de drift (distribui√ß√£o do score e do erro).")

# **Etapa 11:** Monitoramento de drifts

---

Score atual vs erro de valida√ß√£o.

S√©ries di√°rias: exibe e salva figuras.

KS - Kolmogorov-Smirnov

PSI - Population Stability Index

**Crit√©rio de retreino: PSI>0,25**

---

In [None]:
# @title
"""
Objetivo
--------
1) Carregar:
   - RUN_DIR/reconstruction_errors_val.npy  (baseline - Etapa 7)
   - RUN_DIR/scores.csv                     (lote atual - Etapas 8/10)
2) Calcular m√©tricas de drift: KS e PSI
3) Gerar, SALVAR e EXIBIR figuras:
   - Histograma comparativo (baseline vs atual)
   - CDF comparativa (ECDF baseline vs ECDF atual)
   - Boxplot MENSAL (se existir 'data_lcto' + 'recon_error')
4) Salvar artefatos:
   - runs/<RUN_ID>/drift_metrics.json
   - runs/<RUN_ID>/figures/drift_hist.png
   - runs/<RUN_ID>/figures/drift_cdf.png
   - runs/<RUN_ID>/figures/drift_monthly_box.png (se aplic√°vel)
   - runs/<RUN_ID>/drift_bins_psi.csv
   - runs/<RUN_ID>/images_base64.json
   - runs/<RUN_ID>/drift_monitoring.json   [compat√≠vel com Etapa 12]
"""

import json, io, base64
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Image, display  # para exibir PNGs gerados

# --- par√¢metros gr√°ficos ---
NUM_BINS = 50
FIG_DPI  = 140

assert 'RUN_DIR' in globals(), "Execute a Etapa 1 para definir RUN_DIR."
run_dir = Path(RUN_DIR)
fig_dir = run_dir / "figures"   # Etapa 12 espera figuras aqui
fig_dir.mkdir(parents=True, exist_ok=True)

val_err_path = run_dir / "reconstruction_errors_val.npy"
scores_path  = run_dir / "scores.csv"
assert val_err_path.exists(), "reconstruction_errors_val.npy ausente (rode Etapa 7)."
assert scores_path.exists(),  "scores.csv ausente (rode Etapas 8‚Äì10)."

# ----------------- carregar dados -----------------
val_err = np.load(val_err_path)                                  # baseline (val)
df_sc   = pd.read_csv(scores_path, sep=",", encoding="utf-8-sig")
assert "score" in df_sc.columns, "scores.csv precisa ter coluna 'score'."
scores  = pd.to_numeric(df_sc["score"], errors="coerce").to_numpy()

# ----------------- helpers m√©tricas -----------------
def ks_stat(a: np.ndarray, b: np.ndarray) -> float:
    a = a[~np.isnan(a)]
    b = b[~np.isnan(b)]
    if a.size == 0 or b.size == 0:
        return float("nan")
    xa, xb = np.sort(a), np.sort(b)
    grid = np.unique(np.concatenate([xa, xb]))
    def _ecdf(x, g): return np.searchsorted(x, g, side="right") / x.size
    Fa = np.array([_ecdf(xa, g) for g in grid], dtype=float)
    Fb = np.array([_ecdf(xb, g) for g in grid], dtype=float)
    return float(np.max(np.abs(Fa - Fb)))

def psi_stat(expected: np.ndarray, actual: np.ndarray, bins: int = 20):
    """Population Stability Index com bins por quantis do baseline."""
    e = expected[~np.isnan(expected)]
    a = actual[~np.isnan(actual)]
    if e.size == 0 or a.size == 0:
        return float("nan"), pd.DataFrame()
    qs = np.linspace(0, 1, bins + 1)
    cuts = np.quantile(e, qs)
    cuts = np.unique(cuts)
    if cuts.size < 3:
        # n√£o h√° bins suficientes
        return 0.0, pd.DataFrame()
    e_hist, edges = np.histogram(e, bins=cuts)
    a_hist, _     = np.histogram(a, bins=cuts)
    e_prop = np.clip(e_hist / max(1, e_hist.sum()), 1e-8, 1.0)
    a_prop = np.clip(a_hist / max(1, a_hist.sum()), 1e-8, 1.0)
    contrib = (a_prop - e_prop) * np.log(a_prop / e_prop)
    psi = float(np.sum(contrib))
    bins_df = pd.DataFrame({
        "bin_left": edges[:-1],
        "bin_right": edges[1:],
        "expected_count": e_hist,
        "actual_count": a_hist,
        "expected_prop": e_prop,
        "actual_prop": a_prop,
        "psi_contrib": contrib,
    })
    return psi, bins_df

# ----------------- m√©tricas KS/PSI -----------------
KS  = ks_stat(val_err, scores)
PSI, psi_bins = psi_stat(val_err, scores, bins=20)

# ----------------- figuras: histograma comparativo -----------------
fig1, ax1 = plt.subplots(figsize=(9.6, 4.8), dpi=FIG_DPI)
ax1.hist(val_err, bins=NUM_BINS, density=True, alpha=0.5, label="Valida√ß√£o (baseline)")
ax1.hist(scores,  bins=NUM_BINS, density=True, alpha=0.5, label="Lote atual (scores)")
ax1.set_title(f"Distribui√ß√µes ‚Äî baseline vs atual  |  KS={KS:.4f}  PSI={PSI:.4f}")
ax1.set_xlabel("Erro / Score")
ax1.set_ylabel("Densidade")
ax1.legend()
hist_path = fig_dir / "drift_hist.png"
fig1.tight_layout()
fig1.savefig(hist_path, dpi=FIG_DPI, bbox_inches="tight")
plt.close(fig1)

# EXIBIR histograma
display(Image(filename=str(hist_path)))

# ----------------- figuras: CDF comparativa -----------------
def _ecdf_values(x: np.ndarray):
    x = x[~np.isnan(x)]
    x = np.sort(x)
    y = np.arange(1, x.size + 1) / x.size if x.size else np.array([])
    return x, y

xv, yv = _ecdf_values(val_err)
xs, ys = _ecdf_values(scores)

fig2, ax2 = plt.subplots(figsize=(9.6, 4.8), dpi=FIG_DPI)
if xv.size: ax2.step(xv, yv, where="post", label="ECDF valida√ß√£o")
if xs.size: ax2.step(xs, ys, where="post", label="ECDF atual")
ax2.set_title("CDF acumulada ‚Äî baseline vs atual")
ax2.set_xlabel("Erro / Score")
ax2.set_ylabel("Propor√ß√£o ‚â§ x")
ax2.legend()
cdf_path = fig_dir / "drift_cdf.png"
fig2.tight_layout()
fig2.savefig(cdf_path, dpi=FIG_DPI, bbox_inches="tight")
plt.close(fig2)

# EXIBIR CDF
display(Image(filename=str(cdf_path)))

# ----------------- figura: boxplot MENSAL do erro de reconstru√ß√£o -----------------
monthly_path = None
if {"data_lcto", "recon_error"}.issubset(set(df_sc.columns)):
    dt = pd.to_datetime(df_sc["data_lcto"], errors="coerce")
    err = pd.to_numeric(df_sc["recon_error"], errors="coerce")
    ok = dt.notna() & err.notna()
    if ok.any():
        df_m = pd.DataFrame({"ym": dt.dt.to_period("M").astype(str), "recon_error": err}).loc[ok]
        groups = df_m.groupby("ym")["recon_error"].apply(list)
        labels = list(groups.index)
        data   = list(groups.values)

        fig3, ax3 = plt.subplots(figsize=(9.6, 4.8), dpi=FIG_DPI)
        ax3.boxplot(data, showfliers=False)
        ax3.set_title("Distribui√ß√£o MENSAL do erro de reconstru√ß√£o (boxplot sem outliers)")
        ax3.set_xlabel("m√™s (YYYY-MM)")
        ax3.set_ylabel("erro de reconstru√ß√£o")

        # r√≥tulos enxutos (no m√°x. ~20 r√≥tulos no eixo X)
        step = max(1, len(labels)//20)
        ax3.set_xticks(range(1, len(labels)+1)[::step], labels[::step], rotation=45, ha="right")

        fig3.tight_layout()
        monthly_path = fig_dir / "drift_monthly_box.png"
        fig3.savefig(monthly_path, dpi=FIG_DPI, bbox_inches="tight")
        plt.close(fig3)

        display(Image(filename=str(monthly_path)))

# ----------------- salvar tabelas auxiliares (PSI bins) -----------------
psi_bins_path = None
if isinstance(psi_bins, pd.DataFrame) and not psi_bins.empty:
    psi_bins_path = run_dir / "drift_bins_psi.csv"
    psi_bins.to_csv(psi_bins_path, index=False, sep=",", encoding="utf-8-sig")

# ----------------- export base64 para Etapa 12 (HTML) -----------------
def _png_to_b64(path: Path) -> str:
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("ascii")

images_b64 = {}
images_b64["drift_hist.png"] = _png_to_b64(hist_path)
images_b64["drift_cdf.png"]  = _png_to_b64(cdf_path)
if monthly_path:
    images_b64["drift_monthly_box.png"] = _png_to_b64(monthly_path)

(run_dir / "images_base64.json").write_text(json.dumps(images_b64), encoding="utf-8")

# ----------------- salvar m√©tricas (compat) -----------------
metrics = {
    "ks_val_vs_current": float(KS),
    "psi_val_vs_current": float(PSI),
    "n_val": int(np.sum(~np.isnan(val_err))),
    "n_current": int(np.sum(~np.isnan(scores))),
    "hist_png": str(hist_path),
    "cdf_png": str(cdf_path),
    "monthly_box_png": (str(monthly_path) if monthly_path else None),
    "psi_bins_csv": (str(psi_bins_path) if psi_bins_path else None),
}
(run_dir / "drift_metrics.json").write_text(json.dumps(metrics, ensure_ascii=False, indent=2), encoding="utf-8")

# ----------------- salvar drift_monitoring.json (formato simples p/ Etapa 12) -----------------
drift_monitoring = {
    "kpis": {"KS": float(KS), "PSI": float(PSI)},
    "figures": {
        "hist": str(hist_path),
        "cdf": str(cdf_path),
        "monthly_box": (str(monthly_path) if monthly_path else None)
    },
    "bins_psi_csv": (str(psi_bins_path) if psi_bins_path else None)
}
(run_dir / "drift_monitoring.json").write_text(json.dumps(drift_monitoring, ensure_ascii=False, indent=2), encoding="utf-8")

print("\nSkynet Informa: Monitoramento de drift conclu√≠do.")
print(f"KS={KS:.4f}  PSI={PSI:.4f}")
print(f"Figuras salvas e exibidas: {hist_path.name}, {cdf_path.name}" + (f", {Path(monthly_path).name}" if monthly_path else ""))
if psi_bins_path:
    print(f"Tabela de bins do PSI: {Path(psi_bins_path).name}")
print("images_base64.json, drift_metrics.json e drift_monitoring.json prontos para a Etapa 12.")

# **Etapa 12:** Relat√≥rio HTML

In [None]:
# @title
"""
Etapa 12 ‚Äî Gera√ß√£o de Relat√≥rio HTML (executivo + t√©cnico, imagens embutidas)

Atualiza√ß√µes desta vers√£o:
- Salva em RUN_DIR/report
- Completa ‚Äúutilidade‚Äù na lista de artefatos (fam√≠lias por prefixo)
- Fallback de features: features_config.json ‚Üí feature_cols_autogen.json (lista/objeto) ‚Üí features.pkl
- Remove a tabela estat√≠stica por feature do treino (mant√©m formas/√©pocas/curvas)
- Incorpora figuras existentes como base64 (largura m√°x. 500 px)
- Top 15 a partir do CSV mais recente em PROJ_ROOT/output com colunas: rank_desc, anom_score, username, lotacao, dc, contacontabil, nome_conta, valormi, data_lcto
- Textos e fundamenta√ß√µes adicionais (introdu√ß√£o, pipeline, m√©tricas, drift, conclus√£o)
- Explicitar divis√£o de dados (preven√ß√£o de vazamento temporal) e nota de multicolinearidade/sele√ß√£o de features
- Exibir JSON de arquitetura/hiperpar√¢metros a partir de model_config.train.json (se existir)
- Explicitar m√©todo de normaliza√ß√£o (Z-score) em texto
- Incluir quantis do erro de reconstru√ß√£o (p50/p90/p95/p99), se vetor existir
- Garantir embed das figuras drift_hist.png e drift_cdf.png em RUN_DIR/figures
- NOVO: calcular e exibir ‚Äúcorrela√ß√£o m√©dia absoluta‚Äù por feature (amostra leve), com pequena visualiza√ß√£o
- Removidas men√ß√µes a ‚Äúlinguagem simples/simples‚Äù
"""
from __future__ import annotations
import os, io, json, base64, re
from pathlib import Path
from datetime import datetime
import numpy as np
import pandas as pd
from typing import Any, Dict, List, Tuple

# --------------------------
# Pr√©-checagens M√çNIMAS
# --------------------------
assert 'RUN_DIR' in globals(), "Execute Etapa 1 antes (RUN_DIR)."
assert 'PROJ_ROOT' in globals(), "Execute Etapa 1 antes (PROJ_ROOT)."

RUN_DIR = Path(RUN_DIR)
PROJ_ROOT = Path(PROJ_ROOT)
# Salva na pasta correta: RUN_DIR/report
REPORTS_DIR = RUN_DIR / "report"
REPORTS_DIR.mkdir(parents=True, exist_ok=True)

# Pasta de figuras do run (para salvar o gr√°fico leve de correla√ß√£o, se gerado)
FIG_DIR = RUN_DIR / "figures"
FIG_DIR.mkdir(parents=True, exist_ok=True)

# --------------------------
# Utilidades
# --------------------------
def _b64_img(path: Path, max_width_px: int = 500) -> str:
    """
    Retorna uma <img> com base64 inline. O redimensionamento por largura √© feito via atributo HTML/CSS.
    (N√£o reamostra o arquivo ‚Äî usa width para layout.)
    """
    try:
        data = path.read_bytes()
        mime = "image/png" if path.suffix.lower()==".png" else "image/jpeg"
        b64 = base64.b64encode(data).decode("ascii")
        return f'<img src="data:{mime};base64,{b64}" alt="{path.name}" style="max-width:{max_width_px}px;width:100%;height:auto;border:1px solid #ddd;border-radius:6px;"/>'
    except Exception as e:
        return f'<div style="color:#b00;">(Falha ao embutir imagem {path.name}: {e})</div>'

def _fmt_money(v) -> str:
    try:
        f = float(v)
        return f"{f:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")
    except Exception:
        return str(v)

def _fmt_stat(v) -> str:
    try:
        f = float(v)
        s = f"{f:.5f}"
        s = re.sub(r"(\.[0-9]*?)0+$", r"\1", s)
        s = re.sub(r"\.$", "", s)
        return s
    except Exception:
        return str(v)

def _safe_json(path: Path) -> Any | None:
    try:
        return json.loads(path.read_text(encoding="utf-8"))
    except Exception:
        return None

def _safe_csv(path: Path, **kw) -> pd.DataFrame | None:
    try:
        return pd.read_csv(path, **kw)
    except Exception:
        return None

def _list_files_human(folder: Path) -> List[tuple[str, str]]:
    out = []
    for p in sorted(folder.rglob("*")):
        if p.is_file():
            size = p.stat().st_size
            n = size
            for u in ["B","KB","MB","GB","TB"]:
                if n < 1024:
                    try:
                        rel = str(p.relative_to(PROJ_ROOT))
                    except Exception:
                        rel = str(p)
                    out.append((rel, f"{n:.1f}{u}"))
                    break
                n /= 1024.0
    return out

def _section(title: str, body_html: str, anchor_id: str | None = None) -> str:
    _id = f' id="{anchor_id}"' if anchor_id else ""
    return f"""
    <section{_id} style="margin:24px 0;">
      <h2 style="margin:0 0 8px 0;font-family:Inter,Arial;font-weight:700;font-size:16px;">{title}</h2>
      <div style="font-family:Inter,Arial;line-height:1.6;font-size:14px;color:#222;">
        {body_html}
      </div>
    </section>
    """

def _table_dicts(rows: List[Dict[str, Any]], col_order: List[str]|None=None, monetary_cols: List[str]|None=None, max_rows:int=1000) -> str:
    if not rows:
        return "<div style='color:#555;'>Sem dados.</div>"
    # normaliza numpy types
    norm_rows = []
    for r in rows[:max_rows]:
        nr = {}
        for k,v in r.items():
            if isinstance(v, (np.floating, np.integer)):
                v = v.item()
            nr[k] = v
        norm_rows.append(nr)
    rows = norm_rows

    if col_order is None:
        col_order = list(rows[0].keys())
    monetary_cols = set(monetary_cols or [])
    head = "".join(f"<th style='text-align:left;padding:6px 8px;background:#f5f5f5;border-bottom:1px solid #ddd;'>{c}</th>" for c in col_order)
    body = []
    for r in rows[:max_rows]:
        tds = []
        for c in col_order:
            v = r.get(c, "")
            if c in monetary_cols:
                v = _fmt_money(v)
            elif isinstance(v, (int, float, np.floating)) and c not in monetary_cols:
                v = _fmt_stat(v)
            tds.append(f"<td style='padding:6px 8px;border-bottom:1px solid #eee;'>{v}</td>")
        body.append("<tr>" + "".join(tds) + "</tr>")
    return f"<div style='overflow:auto;'><table style='border-collapse:collapse;width:100%;min-width:480px;'><thead><tr>{head}</tr></thead><tbody>{''.join(body)}</tbody></table></div>"

# --------------------------
# Localiza artefatos
# --------------------------
paths = {
    "run_json"            : RUN_DIR / "run.json",
    "selected_source_csv" : RUN_DIR / "selected_source.csv",
    "features_config"     : RUN_DIR / "features_config.json",
    "feature_cols_autogen": RUN_DIR / "feature_cols_autogen.json",      # fallback
    "features_pkl"        : RUN_DIR / "features.pkl",                   # fallback
    "features_desc"       : RUN_DIR / "features_desc.json",
    "categorical_maps"    : RUN_DIR / "categorical_maps.json",
    "training_history"    : RUN_DIR / "training_history.csv",            # Etapa 7
    "model_config_train"  : RUN_DIR / "model_config.train.json",         # prefer√≠vel
    "model_config"        : RUN_DIR / "model_config.json",               # alternativo
    "ae_weights"          : RUN_DIR / "ae.pt",                           # Etapa 7
    "recon_err_val"       : RUN_DIR / "reconstruction_errors_val.npy",   # Etapa 7
    "recon_err_score"     : RUN_DIR / "reconstruction_errors_score.npy", # Etapa 10/exec
    "scores_summary"      : RUN_DIR / "scores_summary.json",             # Etapa 9/10
    "threshold_json"      : RUN_DIR / "threshold.json",                  # Etapa 9/10
    "alerts_top_csv"      : RUN_DIR / "alerts_top100.csv",               # legado
    "exec_stats_json"     : RUN_DIR / "exec_stats.json",                 # Etapa 8
    "dist_compare_png"    : RUN_DIR / "figures/dist_exec_vs_train.png",  # Etapa 8
    "drift_json"          : RUN_DIR / "drift_monitoring.json",           # Etapa 11
    "drift_metrics_json"  : RUN_DIR / "drift_metrics.json",              # alternativa
    "drift_fig_dir"       : RUN_DIR / "figures",                         # pasta com gr√°ficos
}

# --------------------------
# 1) informa√ß√µes da execu√ß√£o
# --------------------------
run_meta = _safe_json(paths["run_json"]) or {}
created_at = run_meta.get("created_at")
paths_meta = run_meta.get("paths", {})
lista_arquivos = _list_files_human(RUN_DIR)

# utilidades completas (inclui fam√≠lias/prefixos e itens citados)
util_map = {
    # snapshots e configs
    "run.json": "Metadados da execu√ß√£o (datas, timezone, caminhos).",
    "selected_source.csv": "Snapshot da base usada para treino/val.",
    "journal_entries.parquet": "Snapshot parquet da base (registros).",
    "features_config.json": "Configura√ß√£o manual de colunas de features.",
    "feature_cols_autogen.json": "Lista de features gerada automaticamente (fallback).",
    "features.pkl": "Pacote de pr√©-processamento (feature_cols, imputa√ß√£o, normaliza√ß√£o, dtypes).",
    "features_desc.json": "Estat√≠sticas descritivas de X_train/X_val (formas, m√©dias, desvios).",
    "categorical_maps.json": "Vocabul√°rio categ√≥rico congelado e mapeamentos.",
    # treino
    "training_history.csv": "Hist√≥rico de perdas (treino/val) por √©poca.",
    "model_config.train.json": "Arquitetura/hiperpar√¢metros efetivos do AE no treino.",
    "model_config.json": "Configura√ß√£o do modelo (alternativa/legado).",
    "ae.pt": "Pesos do modelo treinado.",
    "reconstruction_errors_val.npy": "Erros de reconstru√ß√£o no conjunto de valida√ß√£o.",
    # execu√ß√£o/calibra√ß√£o
    "scores_summary.json": "Sum√°rio de pontua√ß√µes/limiar/alertas.",
    "threshold.json": "Calibra√ß√£o do limiar (valor, modo, quantis/budget).",
    "reconstruction_errors_score.npy": "Vetor de erros de reconstru√ß√£o no lote pontuado.",
    "alerts_top100.csv": "Top 100 alertas (legado da Etapa 10).",
    # drift e figuras
    "drift_monitoring.json": "KPIs e caminhos de figuras de drift (Etapa 11).",
    "drift_metrics.json": "M√©tricas de drift (PSI/KS/p-valor) entre refer√™ncia e lote atual.",
    "training_curve.png": "Curva de perda por √©poca (treino/val).",
    "loss_history.png": "Curva alternativa de perda.",
    "dist_exec_vs_train.png": "Compara√ß√£o de distribui√ß√µes (execu√ß√£o vs treino).",
    "drift_hist.png": "Histograma comparativo (baseline vs atual).",
    "drift_cdf.png": "CDF acumulada comparativa (baseline vs atual).",
    "drift_daily_box.png": "Boxplot temporal do score/erro.",
    "images_base64.json": "Export auxiliar de imagens para o HTML.",
    # pontua√ß√µes/alertas agregados
    "scores_alerts.csv": "Scores com coluna alert (0/1).",
    "alerts_summary.json": "Sum√°rio de alertas por usu√°rio/conta.",
    "alerts_by_username.csv": "Agregado de alertas por usu√°rio.",
    # fam√≠lias com sufixo de data
    "categorical_cardinality.json": "Cardinalidade por coluna categ√≥rica.",
    "categorical_frequencies_*": "Frequ√™ncias dos valores categ√≥ricos (ordenam/fixam vocabul√°rio).",
    "categorical_rev_maps_*": "Mapas reversos √≠ndice‚Üír√≥tulo para decodifica√ß√£o em relat√≥rios.",
    "features_behavior_*": "Features comportamentais agregadas (CSV/Parquet).",
    "features_schema_*": "Esquema/dtypes da base de features comportamentais.",
    "preprocess_report_BASE-*": "Relat√≥rio do pr√©-processo da base BASE.",
    "preprocess_report_DESAFIO-*": "Relat√≥rio do pr√©-processo da base DESAFIO.",
    "train_base_*": "Snapshot do conjunto de treino (CSV/Parquet).",
    "train_schema_*": "Esquema/dtypes do snapshot de treino.",
    "vocab_manifest_*": "Manifesto do vocabul√°rio categ√≥rico congelado.",
}

def _util_for_rel(rel_path: str) -> str:
    base = os.path.basename(rel_path)
    if base in util_map:
        return util_map[base]
    # fam√≠lias por prefixo
    prefixes = [
        ("categorical_frequencies_", "categorical_frequencies_*"),
        ("categorical_rev_maps_", "categorical_rev_maps_*"),
        ("features_behavior_", "features_behavior_*"),
        ("features_schema_", "features_schema_*"),
        ("preprocess_report_BASE-", "preprocess_report_BASE-*"),
        ("preprocess_report_DESAFIO-", "preprocess_report_DESAFIO-*"),
        ("train_base_", "train_base_*"),
        ("train_schema_", "train_schema_*"),
        ("vocab_manifest_", "vocab_manifest_*"),
    ]
    for pref, key in prefixes:
        if base.startswith(pref):
            return util_map.get(key, "")
    return util_map.get(base, "")

html_exec = []
# Introdu√ß√£o (neutra)
intro_exec = """
<div style="background:#f6f8fa;padding:12px;border-radius:8px;">
  <p><b>Objetivo.</b> Apresentar resultados do Autoencoder Tabular aplicado a lan√ßamentos cont√°beis/financeiros, consolidando artefatos gerados nas etapas anteriores.</p>
  <p><b>Interpreta√ß√£o.</b> ‚ÄúAlertas‚Äù indicam prioridade de revis√£o com base em comportamento at√≠pico; n√£o significam, por si, erro de registro.</p>
</div>
"""

html_exec.append(f"<p><b>Data/hora da execu√ß√£o:</b> {created_at or '(desconhecido)'} &nbsp; <b>Timezone:</b> {run_meta.get('timezone','?')}</p>")
if paths_meta:
    html_exec.append("<p><b>Pastas relevantes</b></p>")
    html_exec.append(_table_dicts(
        [{"chave": k, "caminho": v} for k,v in paths_meta.items()],
        col_order=["chave","caminho"]
    ))

if lista_arquivos:
    rows = []
    for rel, sz in lista_arquivos:
        rows.append({"arquivo": rel, "tamanho": sz, "utilidade": _util_for_rel(rel)})
    html_exec.append("<p><b>Arquivos gerados nesta execu√ß√£o</b></p>")
    html_exec.append(_table_dicts(rows, col_order=["arquivo","tamanho","utilidade"]))
else:
    html_exec.append("<p style='color:#b00;'>Aviso: n√£o foi poss√≠vel listar arquivos em RUN_DIR.</p>")

sec1 = _section("1) Informa√ß√µes da execu√ß√£o", "".join(html_exec), anchor_id="sec1")

# --------------------------
# 2) contextualiza√ß√£o AE Tabular (texto)
# --------------------------
ctx = """
<p><b>Autoencoder (AE) tabular.</b> Modelo que aprende a reconstruir os dados de entrada, capturando padr√µes de refer√™ncia.
Registros que se afastam do padr√£o tendem a apresentar erro de reconstru√ß√£o maior e podem ser priorizados para verifica√ß√£o.</p>

<p><b>Funcionamento resumido.</b> O AE comprime as informa√ß√µes em uma camada central (gargalo) e tenta reconstruir os dados originais.
Desvios significativos na reconstru√ß√£o sinalizam comportamento at√≠pico a ser analisado.</p>
"""
sec2 = _section("2) Contextualiza√ß√£o do AE Tabular", ctx, anchor_id="sec2")

# --------------------------
# 2.1) Fluxo simplificado do processo (pipeline a partir de artefatos)
# --------------------------
pipeline_steps = []
if list(RUN_DIR.glob("preprocess_report_BASE-*.json")) or list(RUN_DIR.glob("preprocess_report_DESAFIO-*.json")):
    pipeline_steps.append("1) Prepara√ß√£o de dados e padroniza√ß√£o dos campos.")
if (RUN_DIR / "categorical_maps.json").exists() or list(RUN_DIR.glob("vocab_manifest_*.json")):
    pipeline_steps.append("2) Convers√£o de colunas categ√≥ricas em representa√ß√µes num√©ricas (vocabul√°rio congelado).")
if (RUN_DIR / "features_config.json").exists() or (RUN_DIR / "feature_cols_autogen.json").exists() or (RUN_DIR / "features.pkl").exists():
    pipeline_steps.append("3) Engenharia de features (imputa√ß√£o e normaliza√ß√£o).")
if (RUN_DIR / "training_history.csv").exists() or (RUN_DIR / "model_config.train.json").exists():
    pipeline_steps.append("4) Treinamento do AE com dados hist√≥ricos.")
if (RUN_DIR / "scores_summary.json").exists() or (RUN_DIR / "threshold.json").exists():
    pipeline_steps.append("5) Defini√ß√£o do limiar (threshold) para destacar casos at√≠picos.")
if (RUN_DIR / "reconstruction_errors_score.npy").exists() or (RUN_DIR / "scores_summary.json").exists():
    pipeline_steps.append("6) Aplica√ß√£o na base de execu√ß√£o e gera√ß√£o de alertas.")
if (RUN_DIR / "drift_monitoring.json").exists() or (RUN_DIR / "drift_metrics.json").exists():
    pipeline_steps.append("7) Monitoramento de mudan√ßa de padr√£o (drift).")

pipe_html = "<ul>" + "".join(f"<li>{s}</li>" for s in pipeline_steps) + "</ul>" if pipeline_steps else "<p class='muted'>Pipeline n√£o p√¥de ser inferido a partir dos artefatos.</p>"
sec2a = _section("2.1) Fluxo do processo", pipe_html, anchor_id="sec2a")

# --------------------------
# 3) features ‚Äî descri√ß√£o com fallback + notas (normaliza√ß√£o e multicolinearidade)
# --------------------------
def _read_features_fallback(paths: Dict[str, Path]) -> tuple[list[str], str]:
    # 1) features_config.json
    cfg = _safe_json(paths["features_config"])
    if isinstance(cfg, dict):
        fc = cfg.get("feature_cols")
        if isinstance(fc, list) and all(isinstance(x, str) for x in fc):
            return fc, "features_config.json"

    # 2) feature_cols_autogen.json (pode ser lista ou {"feature_cols":[...]})
    aut = _safe_json(paths["feature_cols_autogen"])
    if isinstance(aut, list) and all(isinstance(x, str) for x in aut):
        return aut, "feature_cols_autogen.json (lista)"
    if isinstance(aut, dict):
        fc = aut.get("feature_cols")
        if isinstance(fc, list) and all(isinstance(x, str) for x in fc):
            return fc, "feature_cols_autogen.json"

    # 3) features.pkl (dict com "feature_cols")
    try:
        import pickle
        if paths["features_pkl"].exists():
            with open(paths["features_pkl"], "rb") as f:
                obj = pickle.load(f)
            if isinstance(obj, dict):
                fc = obj.get("feature_cols")
                if isinstance(fc, (list, tuple)) and all(isinstance(x, str) for x in fc):
                    return list(fc), "features.pkl"
    except Exception:
        pass

    return [], ""

feature_cols, feat_source = _read_features_fallback(paths)

desc_features_html = []
desc_features_html.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;">
  <p><b>Features.</b> S√£o as vari√°veis de entrada que representam cada lan√ßamento. Exemplos: conta cont√°bil, d√©bito/cr√©dito, unidade, valor, data, agrega√ß√µes e derivados.</p>
</div>
""")
# Normaliza√ß√£o (Z-score) ‚Äì explica√ß√£o textual
desc_features_html.append("""
<p><b>Normaliza√ß√£o.</b> Valores num√©ricos padronizados por Z-score (m√©dia e desvio do treino em <code>features_desc.json</code>).
Essa padroniza√ß√£o evita distor√ß√µes entre vari√°veis em escalas distintas.</p>
""")
# Nota sobre multicolinearidade/sele√ß√£o (texto)
desc_features_html.append("""
<p><b>Correla√ß√£o e redund√¢ncia.</b> Vari√°veis derivadas podem apresentar correla√ß√µes elevadas.
A etapa de pr√©-processamento pode reduzir colunas altamente correlacionadas (|œÅ| ‚â• 0,95), favorecendo estabilidade e interpretabilidade.</p>
""")

if feature_cols:
    desc_features_html.append(f"<p><b>Fonte das features:</b> {feat_source or 'n√£o informada'}</p>")
    desc_features_html.append("<p>Colunas com sufixo <code>_int</code> s√£o categorias codificadas; prefixo <code>feat_</code> indica derivadas num√©ricas.</p>")
    rows = [{"#": i+1, "feature": c, "tipo": ("categ√≥rica codificada" if c.endswith("_int") else "derivada/num√©rica")} for i,c in enumerate(feature_cols)]
    desc_features_html.append(_table_dicts(rows, col_order=["#","feature","tipo"]))
else:
    desc_features_html.append("<p style='color:#b00;'>Aviso: n√£o foi poss√≠vel identificar a lista de features. Verifique <code>features_config.json</code>, <code>feature_cols_autogen.json</code> ou <code>features.pkl</code>.</p>")

sec3 = _section("3) Features do modelo", "".join(desc_features_html), anchor_id="sec3")

# --------------------------
# 3.1) Correla√ß√£o m√©dia absoluta por feature (amostra leve)
# --------------------------
def _compute_light_corr(feature_cols: List[str]) -> Tuple[pd.DataFrame, Path | None]:
    """
    Procura um arquivo leve com dados de features para estimar correla√ß√µes:
      - RUN_DIR/features_behavior_*.parquet ou *.csv (prefer√™ncia)
      - Caso n√£o haja, tenta RUN_DIR/train_base_*.parquet/csv (como fallback)
    L√™ no m√°ximo 10.000 linhas e at√© 200 colunas num√©ricas para limitar custo.
    Retorna (tabela_meanabs_corr, caminho_figura_heatmap | None).
    """
    # candidatos
    cand = []
    cand += sorted(RUN_DIR.glob("features_behavior_*.parquet"))
    cand += sorted(RUN_DIR.glob("features_behavior_*.csv"))
    cand += sorted(RUN_DIR.glob("train_base_*.parquet"))
    cand += sorted(RUN_DIR.glob("train_base_*.csv"))

    target = cand[-1] if cand else None
    if target is None:
        return pd.DataFrame(), None

    # leitura leve
    try:
        if target.suffix.lower() == ".parquet":
            import pyarrow  # noqa: F401
            import pyarrow.parquet as pq  # noqa: F401
            df = pd.read_parquet(target)
        else:
            df = pd.read_csv(target)
    except Exception:
        return pd.DataFrame(), None

    if df.empty:
        return pd.DataFrame(), None

    # sele√ß√£o de colunas num√©ricas que estejam nas features (se informado)
    num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    if feature_cols:
        num_cols = [c for c in num_cols if c in feature_cols]
    # limitar quantidade de colunas para heatmap leve
    if len(num_cols) > 200:
        num_cols = num_cols[:200]

    if not num_cols:
        return pd.DataFrame(), None

    # amostragem de linhas
    N = min(10000, len(df))
    df_s = df.loc[:N-1, num_cols].copy()

    # correla√ß√£o absoluta
    corr = df_s.corr().abs()

    # correla√ß√£o m√©dia absoluta (exclui diagonal)
    with np.errstate(invalid="ignore"):
        mean_abs_corr = corr.where(~np.eye(len(corr), dtype=bool)).mean(axis=1).sort_values(ascending=False)

    tab = pd.DataFrame({
        "feature": mean_abs_corr.index,
        "corr_m√©dia_absoluta": mean_abs_corr.values
    })

    # pequena figura (heatmap) para top-K
    try:
        import matplotlib.pyplot as plt
        topk = min(20, len(num_cols))
        top_feats = mean_abs_corr.index[:topk].tolist()
        C = corr.loc[top_feats, top_feats].values

        fig_path = FIG_DIR / "corr_heatmap_top20.png"
        plt.figure(figsize=(6, 5), dpi=120)
        plt.imshow(C, aspect="auto")
        plt.xticks(range(len(top_feats)), top_feats, rotation=90, fontsize=7)
        plt.yticks(range(len(top_feats)), top_feats, fontsize=7)
        plt.title("Correla√ß√£o absoluta ‚Äî Top 20 por correla√ß√£o m√©dia")
        plt.colorbar(fraction=0.046, pad=0.04)
        plt.tight_layout()
        plt.savefig(fig_path, bbox_inches="tight")
        plt.close()
    except Exception:
        fig_path = None

    return tab.reset_index(drop=True), fig_path

corr_tab, corr_fig = _compute_light_corr(feature_cols)

corr_html = []
corr_html.append("""
<p><b>Correla√ß√£o m√©dia absoluta.</b> Indicador de redund√¢ncia entre vari√°veis num√©ricas (amostra limitada).
Valores altos sugerem grupos de colunas com informa√ß√£o semelhantes; pode-se reduzir colunas muito correlacionadas.</p>
""")
if not corr_tab.empty:
    # mostrar top 20
    corr_tab_view = corr_tab.head(20).copy()
    corr_html.append(_table_dicts(
        corr_tab_view.to_dict(orient="records"),
        col_order=["feature", "corr_m√©dia_absoluta"]
    ))
    if corr_fig and Path(corr_fig).exists():
        corr_html.append(_b64_img(Path(corr_fig), 500))
else:
    corr_html.append("<p style='color:#555;'>Sem dados adequados para c√°lculo leve de correla√ß√£o (artefatos ausentes ou n√£o num√©ricos).</p>")

sec3b = _section("3.1) Correla√ß√£o entre vari√°veis (amostra)", "".join(corr_html), anchor_id="sec3b")

# --------------------------
# 3.2) Arquitetura/Hiperpar√¢metros do AE (exibe JSON se existir)
# --------------------------
model_cfg = _safe_json(paths["model_config_train"]) or _safe_json(paths["model_config"]) or {}
arch_html = []
if model_cfg:
    pretty = json.dumps(model_cfg, indent=2, ensure_ascii=False)
    arch_html.append("<p><b>Arquitetura e hiperpar√¢metros</b> (extra√≠dos de <code>model_config.train.json</code> ou equivalente).</p>")
    arch_html.append(f"<pre style='background:#f6f8fa;padding:8px;border-radius:6px;font-size:12px;white-space:pre-wrap;'>{pretty[:4000]}</pre>")
else:
    arch_html.append("<p><b>Arquitetura do modelo.</b> Recomenda-se expor no arquivo <code>model_config.train.json</code> o n√∫mero de camadas, tamanho do gargalo (bottleneck), fun√ß√£o de ativa√ß√£o e dropout, crit√©rios de early-stopping, otimizador, taxa de aprendizado e batch size.</p>")

sec3a = _section("3.2) Arquitetura e hiperpar√¢metros do AE", "".join(arch_html), anchor_id="sec3a")

# --------------------------
# 4) treino/valida√ß√£o: formas, √©pocas e curvas (sem tabela por feature) + nota de divis√£o
# --------------------------
feat_desc = _safe_json(paths["features_desc"]) or {}
hist_df = _safe_csv(paths["training_history"])
html_tv = []

html_tv.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;margin-bottom:8px;">
  <p><b>Estabilidade do treinamento.</b> Avalie a curva de perda; a estabiliza√ß√£o com valida√ß√£o consistente indica aprendizado de padr√£o sem memoriza√ß√£o indevida.</p>
</div>
""")

if feat_desc:
    shape_tr = feat_desc.get("train", {}).get("shape")
    shape_va = feat_desc.get("val", {}).get("shape")
    html_tv.append(f"<p><b>Formas:</b> train={shape_tr}, val={shape_va}</p>")
else:
    html_tv.append("<p style='color:#b00;'>Aviso: ausente <code>features_desc.json</code> (gerado na Etapa 6).</p>")

# Nota sobre divis√£o dos dados / vazamento temporal
html_tv.append("""
<p><b>Divis√£o dos dados.</b> A separa√ß√£o entre treino e valida√ß√£o considera per√≠odos distintos
e/ou estratifica√ß√£o por atributos relevantes (ex.: usu√°rio, unidade), reduzindo a possibilidade de vazamento temporal.</p>
""")

if hist_df is not None and not hist_df.empty:
    n_epochs = int(hist_df["epoch"].max()) + 1 if "epoch" in hist_df.columns else len(hist_df)
    html_tv.append(f"<p><b>√âpocas de treino:</b> {n_epochs}</p>")
    last = hist_df.sort_values("epoch").iloc[-1].to_dict()
    train_loss = last.get("train_loss", last.get("loss", None))
    val_loss   = last.get("val_loss",   last.get("val",  None))
    parts = []
    if train_loss is not None: parts.append(f"<b>erro (treino)</b>: {_fmt_stat(train_loss)}")
    if val_loss   is not None: parts.append(f"<b>erro (val)</b>: {_fmt_stat(val_loss)}")
    if parts:
        html_tv.append("<p>" + " &nbsp;‚Ä¢&nbsp; ".join(parts) + "</p>")
    # curvas (se existirem)
    for cand in [RUN_DIR / "figures" / "training_curve.png", RUN_DIR / "figures" / "loss_history.png"]:
        if cand.exists():
            html_tv.append(_b64_img(cand, 500))
else:
    html_tv.append("<p style='color:#b00;'>Aviso: ausente <code>training_history.csv</code> (gerado na Etapa 7).</p>")

sec4 = _section("4) Base de treino e valida√ß√£o", "".join(html_tv), anchor_id="sec4")

# --------------------------
# 5) estat√≠stica da base de EXECU√á√ÉO (Etapa 8) + compara√ß√£o
# --------------------------
html_execset = []
html_execset.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;margin-bottom:8px;">
  <p><b>Comparabilidade.</b> Esta se√ß√£o verifica se os dados atuais permanecem condizentes com o padr√£o de refer√™ncia utilizado no treinamento.</p>
</div>
""")
exec_stats = _safe_json(paths["exec_stats_json"]) or {}

if exec_stats:
    basic = exec_stats.get("basic", {})
    if basic:
        rows = [{"m√©trica": k, "valor": _fmt_stat(v)} for k, v in basic.items()]
        html_execset.append("<p><b>Resumo estat√≠stico da base de execu√ß√£o</b></p>")
        html_execset.append(_table_dicts(rows, col_order=["m√©trica","valor"]))

    num_rows = exec_stats.get("numeric", [])
    if num_rows:
        html_execset.append("<p><b>Colunas num√©ricas</b></p>")
        html_execset.append(_table_dicts(num_rows, col_order=["col","count","missing","mean","std","min","max"]))

    cat_rows = exec_stats.get("categorical", [])
    if cat_rows:
        def _pack(d):
            if not d: return ""
            v = d.get("value", "")
            f = d.get("freq", "")
            return f"{v} ({f})"
        for r in cat_rows:
            r["most_freq"]  = _pack(r.get("most_freq"))
            r["least_freq"] = _pack(r.get("least_freq"))
        html_execset.append("<p><b>Colunas categ√≥ricas</b></p>")
        html_execset.append(_table_dicts(cat_rows, col_order=["col","n_distinct","missing","most_freq","least_freq"]))
else:
    html_execset.append("<p style='color:#555;'>Sem <code>exec_stats.json</code> (Etapa 8).</p>")

# figura de compara√ß√£o execu√ß√£o vs treino
if paths["dist_compare_png"].exists():
    html_execset.append("<p><b>Compara√ß√£o de distribui√ß√£o</b></p>")
    html_execset.append(_b64_img(paths["dist_compare_png"], 500))
else:
    html_execset.append("<p style='color:#b00;'>Gr√°fico de compara√ß√£o de distribui√ß√£o ausente.</p>"
                        "<p>Para gerar, execute a Etapa 8 e salve em "
                        "<code>figures/dist_exec_vs_train.png</code>.</p>")

sec5 = _section("5) Base de execu√ß√£o: estat√≠stica e compara√ß√£o de distribui√ß√£o", "".join(html_execset), anchor_id="sec5")

# --------------------------
# 6) M√©tricas de erro e calibra√ß√£o do limiar (+ quantis)
# --------------------------
html_metrics = []
html_metrics.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;margin-bottom:8px;">
  <p><b>Medi√ß√µes.</b> O erro de reconstru√ß√£o quantifica o afastamento do padr√£o. O limiar separa observa√ß√µes t√≠picas das at√≠picas e pode ser definido por percentil ou por or√ßamento de alertas.</p>
</div>
""")

scores_sum = _safe_json(paths["scores_summary"]) or {}
thr_json   = _safe_json(paths["threshold_json"]) or {}
stats_rows = []

# Estat√≠sticas dispon√≠veis em scores_summary.json
for k in ["mean","std","p50","p75","p90","p95","p99","min","max"]:
    if k in scores_sum:
        stats_rows.append({"m√©trica": k, "valor": _fmt_stat(scores_sum[k])})

# MAE/MSE + QUANTIS se existir vetor de erros (score ou val)
err_paths = [paths["recon_err_score"], paths["recon_err_val"]]
mae_mse_rows = []
quantis_html = ""
for ep in err_paths:
    if ep and ep.exists():
        try:
            arr = np.load(ep)
            arr = np.array(arr).reshape(-1)
            mae = float(np.mean(np.abs(arr)))
            mse = float(np.mean(np.square(arr)))
            src = ep.name
            mae_mse_rows.append({"m√©trica": f"MAE ({src})", "valor": _fmt_stat(mae)})
            mae_mse_rows.append({"m√©trica": f"MSE ({src})", "valor": _fmt_stat(mse)})
            qs = np.quantile(arr, [0.5, 0.9, 0.95, 0.99])
            qrows = [{"quantil": lab, "erro": _fmt_stat(val)} for lab, val in zip(["50%","90%","95%","99%"], qs)]
            quantis_html += "<p><b>Quantis do erro de reconstru√ß√£o ‚Äî " + src + "</b></p>" + _table_dicts(qrows, col_order=["quantil","erro"])
        except Exception:
            pass

if stats_rows:
    html_metrics.append("<p><b>Estat√≠sticas do score/erro</b></p>")
    html_metrics.append(_table_dicts(stats_rows, col_order=["m√©trica","valor"]))

if mae_mse_rows:
    html_metrics.append("<p><b>M√©tricas derivadas (MAE/MSE)</b></p>")
    html_metrics.append(_table_dicts(mae_mse_rows, col_order=["m√©trica","valor"]))

if quantis_html:
    html_metrics.append(quantis_html)

# Limiar/alertas
thr_lines = []
source_thr = scores_sum if "threshold" in scores_sum else thr_json
if source_thr:
    if "threshold" in source_thr: thr_lines.append(f"<b>Limiar</b>: {_fmt_stat(source_thr['threshold'])}")
    if "mode" in source_thr: thr_lines.append(f"<b>M√©todo</b>: {source_thr['mode']}")
    if "quantile" in source_thr: thr_lines.append(f"<b>Quantil</b>: {_fmt_stat(source_thr['quantile'])}")
    if "budget" in source_thr: thr_lines.append(f"<b>Budget de alertas</b>: {source_thr['budget']}")
if "n_alerts" in scores_sum and "n_linhas" in scores_sum:
    try:
        rate = float(scores_sum.get("alert_rate", 0.0)) * 100
        thr_lines.append(f"<b>Alertas</b>: {int(scores_sum['n_alerts']):,} de {int(scores_sum['n_linhas']):,} ({rate:.2f}%)".replace(",", "."))
    except Exception:
        thr_lines.append(f"<b>Alertas</b>: {int(scores_sum['n_alerts']):,} de {int(scores_sum['n_linhas']):,}".replace(",", "."))

if thr_lines:
    html_metrics.append("<p>" + " &nbsp;‚Ä¢&nbsp; ".join(thr_lines) + "</p>")

sec6 = _section("6) M√©tricas de erro e calibra√ß√£o do limiar", "".join(html_metrics), anchor_id="sec6")

# --------------------------
# 7) Monitoramento de drift (KS/PSI, figuras)
# --------------------------
html_drift = []
html_drift.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;margin-bottom:8px;">
  <p><b>Mudan√ßa de padr√£o (drift).</b> KS e PSI medem a diferen√ßa entre distribui√ß√µes de refer√™ncia e atuais. PSI baixo (&le; 0,10) sugere estabilidade; entre 0,10 e 0,25 monitoramento; acima de 0,25 altera√ß√£o relevante.</p>
</div>
""")

drift_obj = _safe_json(paths["drift_json"]) or {}
drift_metrics = _safe_json(paths["drift_metrics_json"]) or {}

# agrega kpis
kpis = {}
if isinstance(drift_obj.get("kpis"), dict):
    kpis.update(drift_obj["kpis"])
for key in ["KS","PSI","ks","psi","pvalue","n_bins","ref_period","cur_period"]:
    if key in drift_metrics:
        kpis[key] = drift_metrics[key]

if kpis:
    psi = kpis.get("PSI", kpis.get("psi"))
    ks  = kpis.get("KS",  kpis.get("ks"))
    rows = [{"m√©trica": k, "valor": _fmt_stat(v)} for k,v in kpis.items()]
    html_drift.append(_table_dicts(rows, col_order=["m√©trica","valor"]))

    # interpreta√ß√£o pr√°tica
    if isinstance(psi, (int,float)):
        if psi > 0.25:
            sev_txt = "PSI alto: recomenda-se revis√£o/calibra√ß√£o do limiar e an√°lise de processo."
        elif psi > 0.10:
            sev_txt = "Mudan√ßa moderada: monitorar pr√≥ximos lotes e avaliar ajustes, se persistente."
        else:
            sev_txt = "Estabilidade observada."
        html_drift.append(f"<p><b>Interpreta√ß√£o do PSI</b>: {sev_txt}</p>")
    if isinstance(ks, (int,float)):
        html_drift.append("<p><b>Leitura do KS.</b> Valores mais altos indicam maior diferen√ßa entre as distribui√ß√µes acumuladas; na pr√°tica, valores acima de ~0,30 sugerem altera√ß√£o relevante.</p>")
else:
    html_drift.append("<p style='color:#555;'>Sem m√©tricas de drift (<code>drift_monitoring.json</code> ou <code>drift_metrics.json</code>).</p>")

# figuras de drift em base64 ‚Äî garantir caminhos corretos: RUN_DIR/figures/drift_hist.png e RUN_DIR/figures/drift_cdf.png
drift_imgs = []
for name in ["drift_hist.png","drift_cdf.png","drift_daily_box.png"]:
    p = paths["drift_fig_dir"] / name
    if p.exists():
        drift_imgs.append(_b64_img(p, 500))
if drift_imgs:
    html_drift.append("<p><b>Gr√°ficos de drift</b></p>" + "".join(drift_imgs))
else:
    html_drift.append("<p style='color:#b00;'>Figuras de drift ausentes.</p>"
                      "<p>Para an√°lise visual, garanta que os arquivos <code>drift_hist.png</code> e <code>drift_cdf.png</code> "
                      "estejam em <code>RUN_DIR/figures</code>.</p>")

sec7 = _section("7) Monitoramento de mudan√ßa de padr√£o (drift)", "".join(html_drift), anchor_id="sec7")

# --------------------------
# 8) Top 15 lan√ßamentos (CSV em PROJ_ROOT/output)
# --------------------------
html_alerts = []
html_alerts.append("""
<div style="background:#f6f8fa;padding:8px;border-radius:6px;margin-bottom:8px;">
  <p><b>Prioridades de revis√£o.</b> Lan√ßamentos mais at√≠picos conforme o modelo. ‚Äúanom_score‚Äù √© a intensidade do desvio estimado.</p>
</div>
""")

OUTPUT_DIR = PROJ_ROOT / "output"
wanted_cols = ["rank_desc","anom_score","username","lotacao","dc","contacontabil","nome_conta","valormi","data_lcto"]
top15_html = "<p style='color:#555;'>Nenhum CSV em <code>output/</code> com as colunas exigidas foi encontrado.</p>"

if OUTPUT_DIR.exists():
    csvs = sorted(OUTPUT_DIR.glob("*.csv"), key=lambda p: p.stat().st_mtime, reverse=True)
    target = None
    for csvp in csvs:
        try:
            head = pd.read_csv(csvp, nrows=0)
            if all(c in head.columns for c in wanted_cols):
                target = csvp
                break
        except Exception:
            continue
    if target is not None:
        df = pd.read_csv(target)
        if "rank_desc" in df.columns:
            df["rank_desc"] = pd.to_numeric(df["rank_desc"], errors="coerce")
            df = df[df["rank_desc"].notna()]
            df = df.sort_values("rank_desc", ascending=True)
            df = df[df["rank_desc"] <= 15]
        df = df.loc[:, [c for c in wanted_cols if c in df.columns]]
        if not df.empty:
            top15_html = (
                f"<p><b>Fonte:</b> <code>{str(target.relative_to(PROJ_ROOT)) if PROJ_ROOT in target.parents else str(target)}</code></p>"
                + _table_dicts(df.to_dict(orient="records"), col_order=[c for c in wanted_cols if c in df.columns], monetary_cols=["valormi"], max_rows=15)
            )

sec8 = _section("8) Top 15 lan√ßamentos (prioridade de revis√£o)", top15_html, anchor_id="sec8")

# --------------------------
# 9) Conclus√£o
# --------------------------
psi_val = None
for source in (drift_obj.get("kpis", {}) if isinstance(drift_obj.get("kpis"), dict) else {}, drift_metrics):
    if isinstance(source, dict):
        if "PSI" in source and isinstance(source["PSI"], (int,float)):
            psi_val = float(source["PSI"])
            break
        if "psi" in source and isinstance(source["psi"], (int,float)):
            psi_val = float(source["psi"])
            break

conclusion_txt = []
if psi_val is None:
    conclusion_txt.append("N√£o foi poss√≠vel avaliar a mudan√ßa de padr√£o (PSI ausente). Recomenda-se manter a monitora√ß√£o nas pr√≥ximas execu√ß√µes.")
else:
    if psi_val > 0.25:
        conclusion_txt.append("Foram identificadas altera√ß√µes relevantes nos padr√µes dos dados recentes. Recomenda-se revisar a calibra√ß√£o do limiar e analisar poss√≠veis mudan√ßas de processo.")
    elif psi_val > 0.10:
        conclusion_txt.append("Foram observadas mudan√ßas moderadas nos dados recentes. Recomenda-se acompanhar em execu√ß√µes subsequentes e avaliar ajustes finos, se necess√°rio.")
    else:
        conclusion_txt.append("Os dados recentes permanecem est√°veis em rela√ß√£o ao padr√£o aprendido neste ciclo.")

conclusion_txt.append("Os casos listados no Top 15 devem ser tratados como prioridades de verifica√ß√£o, sem prejulgar corre√ß√£o cont√°bil.")

sec9 = _section("9) Conclus√£o", "<p>" + "</p><p>".join(conclusion_txt) + "</p>", anchor_id="sec9")

# --------------------------
# Montagem final do HTML
# --------------------------
now_str = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
title = f"Relat√≥rio AE Tabular ‚Äî Run {RUN_DIR.name}"

STYLE = """
<style>
  @media (prefers-color-scheme: dark){
    body{ background:#0f1115; color:#e6e6e6; }
    table{ color:#e6e6e6; }
    a{ color:#9ecbff; }
  }
  a{ text-decoration:none; }
  a:hover{ text-decoration:underline; }
</style>
"""

# Sum√°rio (navega√ß√£o interna)
NAV = """
<nav style="margin:12px 0; font-size:14px;">
  <b>Sum√°rio:</b>
  <a href="#sec1">1. Execu√ß√£o</a> ‚Ä¢
  <a href="#sec2">2. AE Tabular</a> ‚Ä¢
  <a href="#sec2a">2.1. Processo</a> ‚Ä¢
  <a href="#sec3">3. Features</a> ‚Ä¢
  <a href="#sec3b">3.1. Correla√ß√£o</a> ‚Ä¢
  <a href="#sec3a">3.2. Arquitetura</a> ‚Ä¢
  <a href="#sec4">4. Treino</a> ‚Ä¢
  <a href="#sec5">5. Execu√ß√£o</a> ‚Ä¢
  <a href="#sec6">6. M√©tricas</a> ‚Ä¢
  <a href="#sec7">7. Drift</a> ‚Ä¢
  <a href="#sec8">8. Top 15</a> ‚Ä¢
  <a href="#sec9">9. Conclus√£o</a>
</nav>
"""

html_full = f"""<!DOCTYPE html>
<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<title>{title}</title>
{STYLE}
</head>
<body style="margin:24px; font-family:Inter,Arial;">
  <header style="margin-bottom:16px;">
    <h1 style="margin:0 0 4px 0;">{title}</h1>
    <div style="color:#666;font-size:12px;">Gerado em {now_str}</div>
    <hr style="margin-top:12px;border:none;border-top:1px solid #ddd;"/>
  </header>

  {intro_exec}
  {NAV}

  {sec1}
  {sec2}
  {sec2a}
  {sec3}
  {sec3b}
  {sec3a}
  {sec4}
  {sec5}
  {sec6}
  {sec7}
  {sec8}
  {sec9}

  <footer style="margin-top:24px;color:#888;font-size:12px;">
    <hr style="border:none;border-top:1px solid #ddd;"/>
    <div>Este relat√≥rio agrega artefatos existentes no <code>RUN_DIR</code>; nenhuma etapa de processamento foi reexecutada al√©m de c√°lculos leves para sumariza√ß√£o.</div>
  </footer>
</body>
</html>
"""

out_html = REPORTS_DIR / f"relatorio_run_{RUN_DIR.name}.html"
out_html.write_text(html_full, encoding="utf-8")
print(f"Relat√≥rio HTML gerado: {out_html}")

# **Etapa 13:** Revis√£o por LLM
---

Coment√°rios de uma LLM sobre o relat√≥rio gerado pelo modelo, sem visibilidade dos dados (apenas par√¢metros, distribui√ß√µes e resultados estat√≠sticos).

---

In [None]:
# @title
# ============================
# Etapa 13 ‚Äî Avalia√ß√£o por LLM (OpenRouter): cr√≠tica estat√≠stica do relat√≥rio
# ============================
# Esta vers√£o:
#  - Lista RUN_DIR existentes e permite selecionar um
#  - Busca o relat√≥rio exclusivamente em RUN_DIR/report/*.html
#  - Se n√£o encontrar HTML, informa claramente e encerra (falha cedo)
#  - Remove men√ß√µes a "Skynet" e usa prints simples

from __future__ import annotations
import os
import sys
import re
import json
from pathlib import Path
from datetime import datetime, timezone, timedelta
from typing import List, Dict, Any

# ---------------------- Diret√≥rios base ----------------------
CWD = Path.cwd()

# Ra√≠zes candidatas para descoberta autom√°tica (expandida mais adiante)
ROOT_CANDIDATES = [
    CWD,
    CWD / "ae-tabular",
    Path("/content"),
    Path("/content/ae-tabular"),
    Path("/content/drive/MyDrive"),
    Path("/content/drive/MyDrive/ae-tabular"),
]

def _first_existing(path: Path) -> Path | None:
    return path if path.exists() else None

# Pasta reports/evaluations para salvar a cr√≠tica da LLM (n√£o √© o relat√≥rio HTML)
REPORTS_DIR = (
    _first_existing(CWD / "reports")
    or _first_existing(CWD / "ae-tabular" / "reports")
    or _first_existing(Path("/content/ae-tabular/reports"))
    or (CWD / "reports")
)
EVAL_DIR = REPORTS_DIR / "evaluations"
REPORTS_DIR.mkdir(parents=True, exist_ok=True)
EVAL_DIR.mkdir(parents=True, exist_ok=True)

# ---------------------- Depend√™ncias sob demanda ----------------------
def _ensure_pkg(pkg: str, pip_name: str | None = None):
    import importlib.util
    if importlib.util.find_spec(pkg) is None:
        if "google.colab" in sys.modules:
            get_ipython().run_line_magic("pip", f"install -q {pip_name or pkg}")
        else:
            os.system(f"{sys.executable} -m pip install -q {pip_name or pkg}")

_bs4_ready = False
_pdfminer_ready = False

def _need_bs4():
    global _bs4_ready
    if not _bs4_ready:
        _ensure_pkg("bs4", "beautifulsoup4")
        _bs4_ready = True

def _need_pdfminer():
    global _pdfminer_ready
    if not _pdfminer_ready:
        _ensure_pkg("pdfminer", "pdfminer.six")
        _pdfminer_ready = True

# ---------------------- Cliente OpenRouter via HTTP ----------------------
def _ensure_http_client():
    """
    Retorna tuple: (post_func, default_model, default_temperature, headers_base)
    onde post_func(url, json, headers) faz POST e retorna dict.
    """
    _ensure_pkg("requests", "requests")
    import requests

    key = os.getenv("OPENROUTER_API_KEY")
    if not key:
        try:
            from google.colab import userdata
            key = userdata.get("OPENROUTER_API_KEY")
        except Exception:
            key = None
    if not key:
        raise RuntimeError(
            "OPENROUTER_API_KEY ausente. No Colab, defina em Secrets.\n"
            "Alternativa: os.environ['OPENROUTER_API_KEY']='sk-or-...'"
        )
    os.environ["OPENROUTER_API_KEY"] = key

    headers_base = {
        "Authorization": f"Bearer {key}",
        "HTTP-Referer": os.getenv("OPENROUTER_HTTP_REFERER", "https://colab.research.google.com"),
        "X-Title": os.getenv("OPENROUTER_X_TITLE", "AE-Tabular-LLM-Eval"),
        "Content-Type": "application/json",
    }
    default_model = os.getenv("OPENROUTER_MODEL", "x-ai/grok-4-fast")
    try:
        default_temperature = float(os.getenv("OPENROUTER_TEMPERATURE", "0.0"))
    except Exception:
        default_temperature = 0.0

    def _post(url: str, payload: dict, headers: dict):
        resp = requests.post(url, json=payload, headers=headers, timeout=120)
        if resp.status_code >= 400:
            try:
                data = resp.json()
            except Exception:
                data = {"error": resp.text}
            raise RuntimeError(f"HTTP {resp.status_code} ‚Äî {data}")
        try:
            return resp.json()
        except Exception as e:
            raise RuntimeError(f"Falha ao decodificar JSON da resposta: {e}")

    return _post, default_model, default_temperature, headers_base

# ---------------------- Leitura de texto do relat√≥rio ----------------------
def _read_text_from_file(path: Path, max_chars: int = 45_000) -> str:
    ext = path.suffix.lower()
    try:
        if ext in [".md", ".txt"]:
            text = path.read_text(encoding="utf-8", errors="ignore")
        elif ext in [".html", ".htm"]:
            _need_bs4()
            from bs4 import BeautifulSoup
            raw = path.read_text(encoding="utf-8", errors="ignore")
            soup = BeautifulSoup(raw, "html.parser")
            for tag in soup(["script", "style", "noscript"]):
                tag.extract()
            text = soup.get_text(separator="\n")
        elif ext == ".pdf":
            _need_pdfminer()
            from pdfminer.high_level import extract_text
            text = extract_text(str(path)) or ""
        else:
            text = path.read_text(encoding="utf-8", errors="ignore")
    except Exception as e:
        raise RuntimeError(f"Falha ao ler/extrair texto de {path.name}: {e}") from e

    text = re.sub(r"\n{3,}", "\n\n", text)
    if len(text) > max_chars:
        head = text[: int(max_chars * 0.6)]
        tail = text[-int(max_chars * 0.4):]
        text = head + "\n\n[...conte√∫do omitido por limite de contexto...]\n\n" + tail
    return text.strip()

# ---------------------- Artefatos num√©ricos (opcional) ----------------------
def _load_metrics_context() -> str:
    parts = []
    json_candidates = [
        Path("scores_summary.json"),
        Path("threshold.json"),
        Path("artifacts") / "scores_summary.json",
        Path("artifacts") / "threshold.json",
        Path("ae-tabular") / "scores_summary.json",
        Path("ae-tabular") / "threshold.json",
        Path("ae-tabular") / "artifacts" / "scores_summary.json",
        Path("ae-tabular") / "artifacts" / "threshold.json",
        Path("/content/ae-tabular/scores_summary.json"),
        Path("/content/ae-tabular/threshold.json"),
        Path("/content/ae-tabular/artifacts/scores_summary.json"),
        Path("/content/ae-tabular/artifacts/threshold.json"),
    ]
    seen = set()
    for p in json_candidates:
        if p.exists() and p.suffix.lower() == ".json" and p not in seen:
            try:
                d = json.loads(p.read_text(encoding="utf-8"))
                parts.append(f"# {p.name}\n{json.dumps(d, ensure_ascii=False, indent=2)}")
                seen.add(p)
            except Exception:
                pass
    return "\n\n".join(parts).strip()

# ---------------------- Descoberta e sele√ß√£o de RUN_DIR ----------------------
def _known_roots() -> List[Path]:
    roots = set()
    # CWD e pais imediatos
    for up in [CWD, *CWD.parents[:3]]:
        roots.add(up)

    # PROJ_ROOT (se existir)
    pr = globals().get("PROJ_ROOT", None)
    if pr:
        pr = Path(pr)
        if pr.exists():
            for up in [pr, *pr.parents[:3]]:
                roots.add(up)

    # RUN_DIR (se existir)
    rd = globals().get("RUN_DIR", None)
    if rd:
        rd = Path(rd)
        if rd.exists():
            for up in [rd, rd.parent, *rd.parents[:3]]:
                roots.add(up)

    # candidatos fixos
    for p in ROOT_CANDIDATES:
        if p.exists():
            roots.add(p)

    return [p for p in roots if isinstance(p, Path) and p.exists()]

def _discover_run_dirs(max_dirs: int = 200) -> List[Path]:
    """
    Estrat√©gias:
      A) <root>/runs/*              ‚Üí cada subpasta √© um RUN_DIR
      B) pastas com nome YYYYmmdd-HHMMSS
      C) qualquer pasta que contenha report/*.html ‚Üí o RUN_DIR √© o pai dessa pasta
    """
    candidates: List[Path] = []
    seen = set()
    roots = _known_roots()

    # A) <root>/runs/*
    for root in roots:
        runs_root = root / "runs"
        if runs_root.exists() and runs_root.is_dir():
            for d in runs_root.iterdir():
                if d.is_dir():
                    key = str(d.resolve())
                    if key not in seen:
                        candidates.append(d)
                        seen.add(key)

    # B) pastas com padr√£o YYYYmmdd-HHMMSS
    pat = re.compile(r"^\d{8}-\d{6}$")
    for root in roots:
        try:
            for d in root.iterdir():
                if d.is_dir() and pat.match(d.name):
                    key = str(d.resolve())
                    if key not in seen:
                        candidates.append(d)
                        seen.add(key)
        except Exception:
            pass

    # C) qualquer pasta que contenha report/*.html (sobe um n√≠vel)
    for root in roots:
        try:
            for report_dir in root.rglob("report"):
                if report_dir.is_dir():
                    htmls = list(report_dir.glob("*.html"))
                    if htmls:
                        rd = report_dir.parent
                        key = str(rd.resolve())
                        if key not in seen:
                            candidates.append(rd)
                            seen.add(key)
                if len(candidates) >= max_dirs:
                    break
        except Exception:
            pass

    # Ordena por mtime desc e dedup
    candidates = list({str(p.resolve()): p for p in candidates}.values())
    candidates.sort(key=lambda p: p.stat().st_mtime, reverse=True)
    return candidates

def _prompt_select_run_dir(run_dirs: List[Path]) -> Path:
    # Prioriza RUN_DIR global, se houver
    rd_global = globals().get("RUN_DIR", None)
    ordered = []
    if rd_global and Path(rd_global).exists():
        rd_global = Path(rd_global).resolve()
        ordered.append(rd_global)
    for d in run_dirs:
        if not ordered or d.resolve() != ordered[0]:
            ordered.append(d)

    if not ordered:
        searched = "\n - " + "\n - ".join(str(p) for p in _known_roots())
        raise RuntimeError(
            "Nenhum RUN_DIR encontrado nas ra√≠zes conhecidas.\n"
            "Locais verificados:" + searched + "\n"
            "Dica: garanta que exista um diret√≥rio como runs/AAAAmmdd-HHMMSS "
            "com subpasta 'report' contendo ao menos um .html."
        )

    print("\n=== Selecione o RUN_DIR para avalia√ß√£o ===")
    for i, d in enumerate(ordered, start=1):
        ts = datetime.fromtimestamp(d.stat().st_mtime).strftime("%Y-%m-%d %H:%M:%S")
        star = "  (RUN_DIR atual)" if i == 1 and 'RUN_DIR' in globals() and Path(globals()['RUN_DIR']).resolve() == d.resolve() else ""
        print(f"{i:2d}) {d}   (modificado: {ts}){star}")
    print(" 0) Digitar caminho manualmente")

    try:
        opt = input("Escolha um n√∫mero (ou 0 para informar caminho): ").strip()
    except EOFError:
        opt = "1"  # padr√£o: primeira op√ß√£o

    if opt == "0":
        manual = input("Informe o caminho do RUN_DIR: ").strip()
        sel = Path(manual)
        if not sel.exists() or not sel.is_dir():
            raise RuntimeError(f"RUN_DIR inv√°lido: {sel}")
        return sel

    try:
        idx = int(opt)
        if 1 <= idx <= len(ordered):
            return ordered[idx - 1]
        else:
            raise ValueError
    except Exception:
        raise RuntimeError("Sele√ß√£o inv√°lida. Reinicie a etapa e escolha uma op√ß√£o v√°lida.")

def _find_report_in_run_dir(run_dir: Path) -> Path:
    """
    Procura HTML em RUN_DIR/report/*.html.
    Se n√£o houver, alerta e falha cedo (n√£o cria stub).
    """
    report_dir = run_dir / "report"
    if not report_dir.exists():
        raise RuntimeError(f"Pasta de relat√≥rio n√£o encontrada: {report_dir}")
    htmls = sorted(report_dir.glob("*.html"), key=lambda p: p.stat().st_mtime, reverse=True)
    if not htmls:
        raise RuntimeError(
            f"Nenhum relat√≥rio HTML encontrado em {report_dir}.\n"
            "Execute a Etapa 12 para gerar o relat√≥rio antes de avaliar."
        )
    return htmls[0]

# ---------------------- Prompts para a LLM ----------------------
SYSTEM_PROMPT = (
    "Voc√™ √© um cientista de dados e estat√≠stico s√™nior. "
    "Sua fun√ß√£o √© auditar criticamente um RELAT√ìRIO T√âCNICO de um projeto de "
    "detec√ß√£o de anomalias com autoencoder tabular aplicado a lan√ßamentos cont√°beis/financeiros. "
    "N√£o assuma acesso a dados linha-a-linha; avalie somente o que foi fornecido (texto e m√©tricas agregadas). "
    "Seja preciso, objetivo e tecnicamente rigoroso."
)

USER_PROMPT_TEMPLATE = """\
Contexto e confidencialidade:
- O conte√∫do refere-se a um projeto de detec√ß√£o de anomalias em registros cont√°beis/financeiros.
- N√£o utilize exemplos sint√©ticos sem aviso.
- N√£o solicite dados brutos; sua avalia√ß√£o deve se limitar ao material fornecido.

Materiais fornecidos:
1) Relat√≥rio do projeto (trechos extra√≠dos; pode estar truncado por limite de contexto. caso isso ocorra, avise).
2) Artefatos de m√©tricas agregadas (quando dispon√≠veis).

=== RELAT√ìRIO (TEXTO) ===
{report_text}

=== ARTEFATOS (M√âTRICAS) ===
{metrics_text}

Tarefa:
Produza uma avalia√ß√£o cr√≠tica, como um parecer t√©cnico independente, cobrindo os pontos:

1) CONSIST√äNCIA METODOL√ìGICA
   - O pipeline e as escolhas est√£o coerentes? H√° lacunas?
   - As hip√≥teses impl√≠citas est√£o claras e razo√°veis?

2) PAR√ÇMETROS DO MODELO (AE Tabular)
   - Estrutura do AE (camadas, bottleneck, ativa√ß√£o, dropout), crit√©rios de early-stopping.
   - Hiperpar√¢metros: justificativas e poss√≠veis alternativas.
   - Normaliza√ß√£o/Padroniza√ß√£o, codifica√ß√£o categ√≥rica, balanceamento de classes (se aplic√°vel).

3) M√âTRICAS E ESTAT√çSTICA
   - Interprete MAE/MSE/quantis do erro de reconstru√ß√£o, KS/PSI e eventuais taxas de alerta vs. valida√ß√£o.
   - Avalie calibra√ß√£o do threshold (budget/meta/cost-min), risco de over/under-alerting e poss√≠veis ajustes.

4) DISTRIBUI√á√ïES E DRIFT
   - Avalie o uso de histogramas e dist√¢ncias (KS/PSI); discuta estabilidade e monitoramento em produ√ß√£o.
   - Sugira limites de controle (controle estat√≠stico de processo) e checagens peri√≥dicas.

5) RISCOS
   - Riscos de modelo (drift, mudan√ßa de regime, dados faltantes, vazamento).

6) RECOMENDA√á√ïES PRIORIZADAS
   - Lista objetiva (curta) em ordem de impacto/esfor√ßo, com a√ß√µes execut√°veis.
   - Sugerir experimentos de baixo custo para pr√≥ximo ciclo.

Formato de sa√≠da:
- Responda em Markdown com se√ß√µes e listas.
- Seja espec√≠fico e acion√°vel, evitando jarg√£o desnecess√°rio.
- N√£o invente valores; quando algo n√£o estiver claro, sinalize explicitamente.

Lembrete: N√ÉO ACESSE dados brutos; avalie somente o texto e m√©tricas agregadas acima.
"""

# ---------------------- Execu√ß√£o principal ----------------------
def etapa_13_avaliacao_llm(run_dir: Path,
                           model_override: str | None = None,
                           temperature: float | None = None,
                           default_model: str = "x-ai/grok-4-fast") -> Path:
    print("Iniciando avalia√ß√£o por LLM...")

    # 1) Cliente HTTP do OpenRouter
    post, model_env_default, temp_env_default, headers = _ensure_http_client()
    model = model_override or model_env_default or default_model
    temp = float(temperature if temperature is not None else temp_env_default)
    print(f"LLM configurada | model={model} | temperature={temp}")

    # 2) Sele√ß√£o do relat√≥rio dentro do RUN_DIR escolhido
    rpt = _find_report_in_run_dir(run_dir)
    print(f"Relat√≥rio selecionado: {rpt}")

    # 3) Extra√ß√£o do texto
    report_text = _read_text_from_file(rpt, max_chars=45_000)
    if not report_text:
        raise RuntimeError("Falha ao extrair texto do relat√≥rio ou relat√≥rio vazio.")

    # 4) M√©tricas agregadas (opcional, fora do RUN_DIR)
    metrics_text = _load_metrics_context() or "(sem artefatos JSON encontrados)"

    # 5) Prompt
    user_prompt = USER_PROMPT_TEMPLATE.format(report_text=report_text, metrics_text=metrics_text)
    messages = [
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user",   "content": user_prompt},
    ]

    # 6) Chamada √† LLM (HTTP)
    print("Enviando relat√≥rio √† LLM (sem dados brutos)...")
    try:
        payload = {
            "model": model,
            "messages": messages,
            "temperature": temp,
        }
        data = post("https://openrouter.ai/api/v1/chat/completions", payload, headers)
        choices = data.get("choices") or []
        if not choices or not choices[0].get("message", {}).get("content"):
            raise RuntimeError(f"Resposta inesperada do OpenRouter: {data}")
        critique = choices[0]["message"]["content"].strip()
    except Exception as e:
        raise RuntimeError(f"Falha na chamada √† LLM: {e}") from e

    # 7) Imprimir no console
    print("\n" + "="*80 + "\n" + critique + "\n" + "="*80 + "\n")
    print("Avalia√ß√£o recebida da LLM ‚Äì fim")

    # 8) Salvar .md + metadata.json
    ts_sp = datetime.now(timezone(timedelta(hours=-3))).strftime("%Y-%m-%d_%H-%M-%S")  # fuso S√£o Paulo
    base_name = f"avaliacao_llm_{ts_sp}"
    out_md = (EVAL_DIR / f"{base_name}.md")
    out_meta = (EVAL_DIR / f"{base_name}.metadata.json")

    header = (
        "# Avalia√ß√£o por LLM ‚Äî Projeto AE-Tabular\n\n"
        f"- Data/Hora (SP): {ts_sp}\n"
        f"- Relat√≥rio avaliado: `{rpt.name}`\n"
        f"- Modelo: {model}\n"
        f"- Temperatura: {temp}\n"
        f"- Observa√ß√£o: Sem acesso a dados brutos; somente texto e m√©tricas agregadas.\n\n"
        "---\n\n"
    )
    out_md.write_text(header + critique + "\n", encoding="utf-8")

    metadata = {
        "timestamp_sp": ts_sp,
        "report_path": str(rpt),
        "run_dir": str(run_dir),
        "evaluation_path": str(out_md),
        "model": model,
        "temperature": temp,
        "context_chars": {
            "report": len(report_text),
            "metrics": len(metrics_text),
        },
        "notes": "Avalia√ß√£o gerada sem acesso a dados linha-a-linha.",
    }
    out_meta.write_text(json.dumps(metadata, ensure_ascii=False, indent=2), encoding="utf-8")

    print(f"Relat√≥rio de avalia√ß√£o salvo: {out_md}")
    print(f"Metadata salva: {out_meta}")
    return out_md

# ---------------------- Intera√ß√£o: listar RUN_DIR e selecionar ----------------------
run_dirs = _discover_run_dirs()
selected_run_dir = _prompt_select_run_dir(run_dirs)

DEFAULT_OPENROUTER_MODEL = "x-ai/grok-4-fast"
model_env = os.getenv("OPENROUTER_MODEL") or None
temp_env = os.getenv("OPENROUTER_TEMPERATURE")
temp_arg = float(temp_env) if temp_env is not None else None

out_path = etapa_13_avaliacao_llm(
    run_dir=selected_run_dir,
    model_override=model_env or DEFAULT_OPENROUTER_MODEL,
    temperature=temp_arg
)
print(f"Conclu√≠da. Arquivo final: {out_path}")