#**Licença de Uso**


This repository uses a **dual-license model** to distinguish between source code and creative/documental content.

**Code** (Python scripts, modules, utilities):
Licensed under the MIT License.

→ You may freely use, modify, and redistribute the code, including for commercial purposes, provided that you preserve the copyright notice.

**Content** (Jupyter notebooks, documentation, reports, datasets, and generated outputs):
Licensed under the Creative Commons Attribution–NonCommercial 4.0 International License.

→ You may share and adapt the content for non-commercial purposes, provided that proper credit is given to the original author.


**© 2025 Leandro Bernardo Rodrigues**


#**Pré-Configuração**

##**Código de uso único**
Aplicação persistente entre sessões do Google Colab

---
**Uso expecífico para Google Colab.**

**Aviso:** implementação no JupytherHub e GitLab são diferentes.

In [None]:
# @title
#montar o Google Drive e preparar a pasta do projeto
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
import os, subprocess, getpass, pathlib
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"
os.makedirs(BASE, exist_ok=True)
%cd "$BASE"

#clonar o repositório existente do GitHub (se ainda não estiver clonado) ===
if not os.path.exists(PROJ):
    GITHUB_URL = "https://github.com/LeoBR84p/temporal-graph-network.git"
    # Dica: use PAT quando o push for necessário; para clone público basta a URL.
    !git clone $GITHUB_URL
else:
    print("Pasta do projeto já existe, seguindo adiante...")
%cd "$PROJ"

#criar pastas utilitárias que você quer manter no projeto ===
#não sobrescreve nada; só cria se não existirem
!mkdir -p notebooks src data output runs configs

#instalar pacotes (na sessão atual) para conseguir configurar os filtros ===
!pip -q install jupytext nbdime nbstripout

#configurar Git/NBDime/Jupytext no *repositório* (persistem em .git/config) ===
#usar --local faz a config ficar gravada em .git/config (persiste no Drive)
!git config --local user.name "Leandro Bernardo Rodrigues"
!git config --local user.email "bernardo.leandro@gmail.com"
!git config --local init.defaultBranch main

# OBS: no Colab, o nbdime com --local pode falhar; use --global nesta sessão
!nbdime config-git --enable --global

#.gitignore e .gitattributes (só criar se não existirem) ===
if not pathlib.Path(".gitignore").exists():
    with open(".gitignore","w") as f:
        f.write("""\
.ipynb_checkpoints/
.DS_Store
Thumbs.db
*.log
*.tmp
# dados/artefatos pesados (não versionar)
data/
output/
runs/
# Python
venv/
__pycache__/
*.pyc
# segredos
.env
*.key
*.pem
*.tok
""")
if not pathlib.Path(".gitattributes").exists():
    with open(".gitattributes","w") as f:
        f.write("*.ipynb filter=nbstripout\n")

#ativar o hook do nbstripout neste repositório (persiste)
!nbstripout --install --attributes .gitattributes

#parear notebooks com .py para diffs legíveis ===
!jupytext --set-formats ipynb,py:percent --sync notebooks/*.ipynb || true

#commit inicial dessas configs locais (se houver algo novo) e push ===
!git add -A
!git status
!git commit -m "chore: setup local (.gitignore/.gitattributes, nbstripout, jupytext config)" || true

#se o remoto já tem README/commits, faça pull --rebase antes do primeiro push
!git pull --rebase origin main || true

#push (ao pedir senha, use seu PAT como senha do Git)
import getpass, subprocess, sys

owner = "LeoBR84p"
repo  = "temporal-graph-network"
clean_url = f"https://github.com/{owner}/{repo}.git"

# 1) Tenta push "normal" (pode falhar por falta de credencial)
push = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
if push.returncode == 0:
    print("Push concluído sem PAT.")
else:
    print("Primeiro push falhou (provável falta de credenciais). Vamos usar um PAT temporário…")
    # 2) Pede o PAT e testa autenticação antes do push
    token = getpass.getpass("Cole seu GitHub PAT (não será exibido): ").strip()
    # Formato mais compatível: user + token na URL
    # Use seu usuário real do GitHub (case sensitive)
    username = "LeoBR84p"
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"

    try:
        # Teste rápido de auth (ls-remote) para ver se o token tem acesso de escrita
        test = subprocess.run(["git","ls-remote", auth_url],
                              capture_output=True, text=True)
        if test.returncode != 0:
            print("Falha ao autenticar com o PAT. Detalhe do erro:")
            print(test.stderr or test.stdout)
            raise SystemExit(1)

        # 3) Troca a URL, faz push e restaura a URL limpa
        subprocess.run(["git","remote","set-url","origin", auth_url], check=True)
        out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
        if out.returncode != 0:
            print("Falha no push mesmo com PAT. Detalhe do erro:")
            print(out.stderr or out.stdout)
            raise SystemExit(out.returncode)
        print("Push concluído com PAT.")
    finally:
        subprocess.run(["git","remote","set-url","origin", clean_url], check=False)

##**Código a cada sessão**
---
Aplicação não persistente entre sessões.

Necessário para sincronização e versionamento de alterações no código.

###**Montar e sincronizar**

In [None]:
# @title
#setup por sessão (colab)
from google.colab import drive
import os, time, subprocess, getpass, pathlib, sys

BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"

def safe_mount_google_drive():
    #monta ou remonta o google drive de forma resiliente
    try:
        drive.mount('/content/drive', force_remount=True)
    except Exception:
        try:
            drive.flush_and_unmount()
        except Exception:
            pass
        time.sleep(1.0)
        drive.mount('/content/drive', force_remount=True)

def safe_chdir(path):
    #usa os.chdir (evita %cd com f-string)
    if not os.path.exists(path):
        raise FileNotFoundError(f"Caminho não existe: {path}")
    os.chdir(path)
    print("Diretório atual:", os.getcwd())

def branch_a_frente():
    #retorna true se head está à frente do upstream (há o que enviar)
    ahead = subprocess.run(
        ["git","rev-list","--left-right","--count","HEAD...@{upstream}"],
        capture_output=True, text=True
    )
    if ahead.returncode != 0:
        status = subprocess.run(["git","status","-sb"], capture_output=True, text=True)
        return "ahead" in (status.stdout or "")
    left_right = (ahead.stdout or "").strip().split()
    return len(left_right) == 2 and left_right[0].isdigit() and int(left_right[0]) > 0

def push_seguro(owner="LeoBR84p", repo="temporal-graph-network", username="LeoBR84p"):
    #realiza push usando pat em memória; restaura url limpa ao final
    clean_url = f"https://github.com/{owner}/{repo}.git"
    token = getpass.getpass("Cole seu GitHub PAT (Contents: Read and write): ").strip()
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"
    test = subprocess.run(["git","ls-remote", auth_url], capture_output=True, text=True)
    if test.returncode != 0:
        print("Falha na autenticação (read). Revise token/permissões:")
        print(test.stderr or test.stdout); return
    try:
        subprocess.run(["git","remote","set-url","origin", auth_url], check=True)
        out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
        if out.returncode != 0:
            print("Falha no push (write). Revise permissões do token:")
            print(out.stderr or out.stdout)
        else:
            print("Push concluído com PAT.")
    finally:
        subprocess.run(["git","remote","set-url","origin", clean_url], check=False)

#montar/remontar o google drive e entrar no projeto
safe_mount_google_drive()
os.makedirs(BASE, exist_ok=True)
if not os.path.exists(PROJ):
    print(f"Atenção: pasta do projeto não encontrada em {PROJ}. "
          "Execute seu bloco de configuração única (clone) primeiro.")
else:
    print("Pasta do projeto encontrada.")
safe_chdir(PROJ)

#sanity check do repositório git
if not os.path.isdir(".git"):
    print("Aviso: esta pasta não parece ser um repositório Git (.git ausente). "
          "Rode o bloco de configuração única.")
else:
    print("Repositório Git detectado.")

#instalar dependências efêmeras desta sessão
!pip -q install jupytext nbdime nbstripout
!nbdime config-git --enable --global

#atualizar do remoto
!git fetch origin
!git pull --rebase origin main

#sincronizar notebooks → .py (jupytext)
!jupytext --sync notebooks/*.ipynb || true

#ciclo de versionamento do dia (commit genérico opcional)
!git add -A
!git status
!git commit -m "feat: ajustes no notebook X e pipeline Y" || true

#push somente se houver commits locais à frente; com fallback para pat
if branch_a_frente():
    out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
    if out.returncode == 0:
        print("Push concluído sem PAT.")
    else:
        print("Push sem PAT falhou. Chamando push_seguro()…")
        push_seguro()
else:
    print("Nada para enviar (branch sincronizada com o remoto).")

###**Utilitários Git**

In [None]:
# @title
#helpers de git: push seguro, commit customizado e tag de release
import subprocess, getpass

#ajuste se você mudar o nome do repositório/usuário
OWNER = "LeoBR84p"
REPO = "temporal-graph-network"
USERNAME = "LeoBR84p"
BRANCH = "main"
REMOTE = "origin"

def branch_a_frente():
    #retorna true se head está à frente do upstream (há o que enviar)
    out = subprocess.run(
        ["git","rev-list","--left-right","--count",f"HEAD...@{{upstream}}"],
        capture_output=True, text=True
    )
    if out.returncode != 0:
        st = subprocess.run(["git","status","-sb"], capture_output=True, text=True)
        return "ahead" in (st.stdout or "")
    left_right = (out.stdout or "").strip().split()
    return len(left_right) == 2 and left_right[0].isdigit() and int(left_right[0]) > 0

def push_seguro(owner=OWNER, repo=REPO, username=USERNAME, remote=REMOTE, branch=BRANCH):
    #realiza push usando pat em memória; restaura url limpa ao final
    clean_url = f"https://github.com/{owner}/{repo}.git"
    token = getpass.getpass("cole seu github pat (contents: read and write): ").strip()
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"
    test = subprocess.run(["git","ls-remote", auth_url], capture_output=True, text=True)
    if test.returncode != 0:
        print("falha na autenticação (read). revise token/permissões:")
        print(test.stderr or test.stdout); return False
    try:
        subprocess.run(["git","remote","set-url", remote, auth_url], check=True)
        out = subprocess.run(["git","push", remote, branch], capture_output=True, text=True)
        if out.returncode != 0:
            print("falha no push (write). revise permissões do token:")
            print(out.stderr or out.stdout); return False
        print("push concluído com pat.")
        return True
    finally:
        subprocess.run(["git","remote","set-url", remote, clean_url], check=False)

def try_push_branch(remote=REMOTE, branch=BRANCH):
    #tenta push direto da branch atual
    out = subprocess.run(["git","push", remote, branch], capture_output=True, text=True)
    if out.returncode == 0:
        print("push concluído.")
        return True
    print("push sem credencial falhou:")
    print((out.stderr or out.stdout).strip())
    return False

def try_push_tag(tag, remote=REMOTE):
    #tenta enviar somente a tag
    out = subprocess.run(["git","push", remote, tag], capture_output=True, text=True)
    if out.returncode == 0:
        print(f"tag enviada: {tag}")
        return True
    print("falha ao enviar a tag:")
    print((out.stderr or out.stdout).strip())
    return False

def commit_custom(msg: str, auto_push: bool = True):
    #adiciona tudo, cria commit com a mensagem informada e faz push opcional (com fallback para pat)
    subprocess.run(["git","add","-A"], check=False)
    com = subprocess.run(["git","commit","-m", msg], capture_output=True, text=True)
    if com.returncode != 0:
        print((com.stderr or com.stdout or "nada para commitar.").strip())
        return
    print(com.stdout.strip())
    if auto_push and branch_a_frente():
        if not try_push_branch():
            print("tentando push seguro…")
            push_seguro()

def tag_release(tag: str, message: str = "", auto_push: bool = True):
    #cria uma tag anotada (release) e faz push da tag com fallback para pat
    exists = subprocess.run(["git","tag","--list", tag], capture_output=True, text=True)
    if tag in (exists.stdout or "").split():
        print(f"tag '{tag}' já existe. para refazer: git tag -d {tag} && git push {REMOTE} :refs/tags/{tag}")
        return
    args = ["git","tag","-a", tag, "-m", (message or tag)]
    mk = subprocess.run(args, capture_output=True, text=True)
    if mk.returncode != 0:
        print("falha ao criar a tag:")
        print(mk.stderr or mk.stdout); return
    print(f"tag criada: {tag}")
    if auto_push:
        if not try_push_tag(tag):
            print("tentando push seguro da tag…")
            if push_seguro():
                try_push_tag(tag)

#**Sincronizar alterações no código do projeto**
Comandos para sincronizar código (Google Drive, Git, GitHub) e realizar versionamento

Tag de release atual: 1.0

In [None]:
# @title
#commit e tag com credencial rebase e controle de versao
import os, re, subprocess, sys, getpass
from datetime import datetime
from urllib.parse import urlparse

#funcoes de shell
def sh(cmd, check=True, capture=True, input_text=None):
    p = subprocess.run(cmd, input=input_text, text=True,
                       stdout=subprocess.PIPE if capture else None,
                       stderr=subprocess.PIPE if capture else None)
    if check and p.returncode != 0:
        raise RuntimeError(f"command failed: {' '.join(cmd)}\nstdout:\n{p.stdout}\nstderr:\n{p.stderr}")
    return p.returncode, (p.stdout if capture else ""), (p.stderr if capture else "")

def git(*args, **kw):
    return sh(["git", *args], **kw)

def git_ok(*args):
    try:
        git(*args)
        return True
    except Exception:
        return False

#git helpers
def get_origin_url():
    _, out, _ = git("remote", "get-url", "origin")
    return out.strip()

def set_origin_url(new_url):
    git("remote", "set-url", "origin", new_url)

def get_current_branch():
    _, out, _ = git("rev-parse", "--abbrev-ref", "HEAD")
    return out.strip()

def latest_tag():
    try:
        _, out, _ = git("describe", "--tags", "--abbrev=0")
        return out.strip()
    except Exception:
        return None

def tag_exists(tag_name):
    return git_ok("rev-parse", "-q", "--verify", f"refs/tags/{tag_name}")

#versao helpers
def parse_tag(tag):
    m = re.fullmatch(r"(\d+)\.(\d+)", tag)
    if not m:
        return None
    return int(m.group(1)), int(m.group(2))

def bump_minor(tag):
    parsed = parse_tag(tag) or (0, 0)
    major, minor = parsed
    return f"{major}.{minor+1}"

def next_free_minor(from_tag):
    if not from_tag or not parse_tag(from_tag):
        cand = "0.1"
        while tag_exists(cand):
            cand = bump_minor(cand)
        return cand
    cand = bump_minor(from_tag)
    while tag_exists(cand):
        cand = bump_minor(cand)
    return cand

#auth helpers
def is_auth_error(text):
    if not text:
        return False
    t = text.lower()
    return ("could not read username" in t or
            "authentication failed" in t or
            "permission denied" in t or
            "fatal: http request failed" in t)

def configure_pat_credentials():
    print("sem credencial valida para o push")
    pat = getpass.getpass("cole seu github pat com escopo contents read write: ").strip()
    if not pat:
        raise RuntimeError("pat nao informado")
    git("config", "--global", "credential.helper", "store")
    origin = get_origin_url()
    parsed = urlparse(origin)
    repo_path = parsed.path or ""
    if not repo_path:
        raise RuntimeError("nao foi possivel obter a url do remoto origin")
    cred_host_only = f"https://x-access-token:{pat}@github.com\n"
    cred_full = f"https://x-access-token:{pat}@github.com{repo_path}\n"
    cred_path = os.path.expanduser("~/.git-credentials")
    existing = ""
    if os.path.exists(cred_path):
        with open(cred_path, "r", encoding="utf-8", errors="ignore") as f:
            existing = f.read()
    with open(cred_path, "a", encoding="utf-8") as f:
        if "github.com\n" not in existing:
            f.write(cred_host_only)
        if f"github.com{repo_path}\n" not in existing:
            f.write(cred_full)
    return pat, origin, repo_path

#rebase helpers
def rebase_onto_remote(branch):
    git("fetch", "origin", branch)
    try:
        git("pull", "--rebase", "origin", branch)
        print("rebase aplicado com sucesso")
        return True
    except Exception as e:
        msg = str(e).lower()
        if "conflict" in msg or "merge conflict" in msg:
            print("conflitos detectados durante rebase resolva manualmente e repita o push")
        else:
            print("falha ao aplicar rebase tente resolver manualmente")
        return False

#push robusto
def push_current_branch():
    branch = get_current_branch()

    try:
        git("push", "--dry-run", "origin", branch)
        need_pat = False
    except Exception as e:
        need_pat = is_auth_error(str(e))

    original_remote = None
    if need_pat:
        pat, original_remote, repo_path = configure_pat_credentials()
        try:
            git("push", "--dry-run", "origin", branch)
        except Exception as e2:
            if is_auth_error(str(e2)):
                token_url = f"https://x-access-token:{pat}@github.com{repo_path}"
                set_origin_url(token_url)
                original_remote = original_remote or get_origin_url()

    if git_ok("push", "origin", branch):
        print(f"push do branch {branch} concluido")
    else:
        _, _, err = sh(["git", "push", "origin", branch], check=False)
        if "fetch first" in err.lower() or "non-fast-forward" in err.lower():
            print("push rejeitado por divergencia realizando pull rebase")
            if not rebase_onto_remote(branch):
                raise RuntimeError("rebase nao aplicado")
            if git_ok("push", "origin", branch):
                print(f"push do branch {branch} concluido apos rebase")
            else:
                git("push", "-u", "origin", branch)
                print(f"push do branch {branch} concluido com upstream apos rebase")
        else:
            print(err)
            print("tentando push com upstream")
            git("push", "-u", "origin", branch)
            print(f"push do branch {branch} concluido com upstream")

    if original_remote:
        set_origin_url(original_remote)
        print("remote origin restaurado")

#interacao
def ask_commit_msg():
    msg = input("digite a mensagem do commit: ").strip()
    return msg if msg else "mensagem de commit nao informada"

def ask_version_flow():
    choice = input("e uma nova versao ou um update de versao existente [n/u]: ").strip().lower()
    if choice not in ("n", "u"):
        print("opcao nao reconhecida usando update")
        choice = "u"
    if choice == "n":
        while True:
            proposed = input("informe a versao no formato x.y por exemplo um ponto zero: ").strip()
            if not re.fullmatch(r"\d+\.\d+", proposed):
                print("formato invalido tente novamente")
                continue
            if tag_exists(proposed):
                print("tag existente informe outra")
                continue
            return proposed, "nova versao"
    else:
        lt = latest_tag()
        if lt:
            print(f"ultima tag encontrada {lt}")
        else:
            print("nenhuma tag encontrada iniciando a partir de zero ponto um")
        cand = next_free_minor(lt)
        print(f"sugerindo update para {cand}")
        return cand, f"update automatico a partir de {lt or '0.0'}"

#fluxo principal
def commit_and_tag():
    commit_msg = ask_commit_msg()
    git("add", "-A")
    if git_ok("diff", "--cached", "--quiet"):
        print("nenhuma mudanca para commit")
    else:
        git("commit", "-m", commit_msg)
        print("commit criado")

    push_current_branch()

    tag_name, reason = ask_version_flow()
    tag_msg = f"{reason} — {commit_msg} ({datetime.now().strftime('%Y-%m-%d %H:%M:%S')})"
    git("tag", "-a", tag_name, "-m", tag_msg)
    print(f"tag criada {tag_name}")
    git("push", "origin", tag_name)
    print("push da tag concluido")

#execucao
try:
    commit_and_tag()
    print("fluxo concluido")
except Exception as e:
    print(f"erro {e}")

#**Checklist rápido de execução**
**Etapas:**
- 01–05: setup (ambiente, dependências, diretórios, configs e upload de CSVs)
- 06–10: execução (consumo dos dados, criação de grafos, config das janelas temporais, agregação de infos aos grafos, config dos modelos matemáticos)
- 11-15: geração de output (salva análise, gera gráficos gerais, gera gráficos específicos e relatórios em HTML+PDF)

#**Temporal Graph Network / Rede de Grapho Temporal**

Uma **Rede de Graphos Temporais (TGN)** é um modelo de aprendizado de máquina que processa dados representados como um grafo dinâmico. Ela captura a evolução da estrutura e das conexões de entidades (nós) ao longo do tempo. **Ou seja, ela leva em consideração o comportamento temporal das atividades e seu relacionamento, ao invés de uma avaliação única e estanque no tempo.**
_____

**Caso aplicado: Detecção de anomalias sem gabarito (sem dados históricos)**

Imagine uma rede de transações financeiras. A TGN analisa o histórico de como cada beneficiário, usuário demandante do pagamento e unidade de negócio (nós) se conectam e interagem uns com os outros. Sem saber o que é uma anomalia, ela aprende o comportamento normal da rede.
Ao notar um padrão atípico, como um usuário que subitamente começa a demandar transferências para muitas novas contas em um curto período, a TGN destaca isso como uma anomalia comportamental. Ela usa a história do nó e o contexto temporal para sinalizar o desvio, sem precisar de exemplos de anomalia pré-existentes.


### **Etapa 1:** Ativação do ambiente virtual (utilizando atualmente Google Colab para prototipação com dados sintéticos)
---
Necessário ajustar pontualmente em caso de utilização em outro ambiente de notebook.

In [None]:
# @title
import os

# Define the path for the virtual environment inside Google Drive
# Ensure BASE and REPO are defined correctly from previous cells if needed
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"
VENV_PATH = f"{PROJ}/.venv_tgn" # Updated venv path to be a hidden folder inside PROJ

# Cria o ambiente virtual temporal-graph_network inside the project folder
# Use --clear if you want to recreate it every time this cell runs
!python -m venv "{VENV_PATH}"

# Ativa o ambiente virtual
# No Colab, a forma de ativar um ambiente virtual é um pouco diferente
# pois não há um shell interativo tradicional.
# A maneira mais comum é adicionar o diretório binário do ambiente virtual
# ao PATH da sessão atual.

# Adiciona o diretório binário do ambiente virtual ao PATH
# Isso permite que você execute executáveis (como pip, python)
# do ambiente virtual recém-criado.
# Use os.pathsep to be platform-independent
os.environ['PATH'] = f"{VENV_PATH}/bin{os.pathsep}{os.environ['PATH']}"

print("Erro de upgrade do pip é normal no Google Colab. \033[1mPode prosseguir.\033[0m")
print(f"Ambiente virtual '{VENV_PATH}' criado e ativado no PATH.")
!which python

# Mensagem isolada com humor (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>🤖 Skynet</b>: T-800 ativado. Diagnóstico do ambiente concluído. 🎯 Alvo principal: organização do notebook.'
             '</div>'))

### **Etapa 2:** Instalar as dependências de bibliotecas Python compatíveis com a versão mais moderna disponível.
---
Para uso no JupytherHub (versão atual python 3.7.9) é necessário realizar updgrade do Python do usuário e/ou adaptar as bibliotecas.

---
É possível que as bibliotecas mais atuais de **numpy e scipy** possuam incompatibilidade. Nesse caso, force a desinstalação das bibliotecas na versão atual **Código {!pip uninstall -y numpy pandas scipy scikit-learn}** e comande a instalação das versões compatíveis entre si.

---
Comportamento estável nas versões:
- numpy: 2.0.2
- scipy: 1.16.2
- pandas: 2.3.3
- sklearn: 1.7.2
- networkx: 3.5
- matplotlib: 3.10.6
- pyod: 2.0.5
- tqdm: 4.67.1
- reportlab: 3.6.12 (via pep517)

In [None]:
# @title
import sys, subprocess
from importlib import import_module

def pip_command(command, packages, force=False, extra_args=None):
    cmd = [sys.executable, "-m", "pip", command]
    if force:
        cmd.append("--yes") # Use --yes for uninstall to avoid prompts
    if extra_args:
        cmd += list(extra_args)
    cmd += list(packages)
    print("Executando:", " ".join(cmd))
    subprocess.check_call(cmd)

def show_versions(mods):
    print("\n=== Versões carregadas ===")
    for mod in mods:
        try:
            m = import_module(mod)
            v = getattr(m, "__version__", "n/a")
            print(f"{mod}: {v}")
        except ImportError:
            print(f"{mod}: Não instalado")
    print("==========================\n")

CORE_MODS = ("numpy", "scipy", "pandas", "sklearn", "networkx", "matplotlib", "pyod", "tqdm", "reportlab")

# Update pip
pip_command("install", ["pip"], extra_args=["--upgrade"])

# Force uninstall specific libraries
pip_command("uninstall", ["numpy", "pandas", "scipy", "scikit-learn"], force=True)

# Install specified versions
PKGS_TO_INSTALL = [
    "numpy==2.0.2",
    "scipy==1.16.2",
    "pandas==2.3.3",
    "scikit-learn==1.7.2",
    "networkx==3.5",
    "matplotlib==3.10.6",
    "pyod==2.0.5",
    "tqdm==4.67.1",
    "reportlab==3.6.12" # Added reportlab installation
]
pip_command("install", PKGS_TO_INSTALL, extra_args=["--use-pep517"]) # Added --use-pep517 here

# Show installed versions
show_versions(CORE_MODS)

# Mensagem isolada com humor (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>🤖 Skynet</b>: Atualizando bibliotecas. Se encontrarmos um pacote rebelde, '
             'aplicaremos persuasão… com pip. 😎</div>'))

###**Etapa 3:** Configura a pasta onde devem ser inseridos os dados de input e output do modelo, caso elas ainda não existam.

In [None]:
# @title
import os
from pathlib import Path

# Ajuste se quiser outra raiz
BASE_DIR = Path(".")
INPUT_DIR = BASE_DIR / "input"
OUTPUT_DIR = BASE_DIR / "output"

for d in [INPUT_DIR, OUTPUT_DIR]:
    d.mkdir(parents=True, exist_ok=True)

print(f"Diretórios prontos:\n - {INPUT_DIR}\n - {OUTPUT_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>🤖 Skynet</b>: Novos modelos neurais para T-800 construídos. Armazéns de CSVs alinhados. '
             'Layout aprovado pela Cyberdyne Systems. 🗂️</div>'))

###**Etapa 4:** Importações das bibliotecas Python e configurações gerais para execução do código
- seed
- associação das pastas criadas às variáveis de execução
- logs

In [None]:
# @title
import os, shutil, json, math, warnings, random, gc
from datetime import datetime, timedelta
import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
from tqdm import tqdm
from pathlib import Path
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor
from sklearn.svm import OneClassSVM

# Seeds reprodutibilidade
SEED = 42
np.random.seed(SEED)
random.seed(SEED)

# Estrutura de diretórios
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"

ROOT = Path(PROJ).resolve() # Use PROJ as the root
INPUT_DIR = ROOT / "input" # Update INPUT_DIR path
INPUT_CSV = INPUT_DIR / "input.csv"
EXEC_ROOT = ROOT / "output" # Update EXEC_ROOT path


# Criação da pasta de execução com carimbo de data/hora
run_id = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
RUN_DIR = EXEC_ROOT / run_id
FIG_DIR = RUN_DIR / "figuras"
RUN_DIR.mkdir(parents=True, exist_ok=True)
FIG_DIR.mkdir(parents=True, exist_ok=True)

# Arquivos de saída
LOG_FILE = RUN_DIR / "log.txt"
RUN_META = RUN_DIR / "run_meta.json"
OUTPUT_CSV = RUN_DIR / "output.csv"

# Logger simples para arquivo
from contextlib import contextmanager

@contextmanager
def tee_log(log_path):
    import sys
    class Tee(object):
        def __init__(self, name, mode):
            self.file = open(name, mode, encoding="utf-8")
            self.stdout = sys.stdout
        def write(self, data):
            self.file.write(data)
            self.stdout.write(data)
        def flush(self, *args, **kwargs): # Adicionado *args, **kwargs para compatibilidade
            self.file.flush()
            self.stdout.flush()
    tee = Tee(str(log_path), "w")
    old_stdout = sys.stdout
    sys.stdout = tee
    try:
        yield
    finally:
        sys.stdout = old_stdout
        tee.file.close()

# Metadados da execução
meta = {
    "run_id": run_id,
    "created_at": datetime.now().isoformat(),
    "seed": SEED,
    "input_csv_expected": str(INPUT_CSV),
    "output_csv": str(OUTPUT_CSV),
    "figures_dir": str(FIG_DIR),
    "notes": "Detecção de anomalias em rede temporal"
}
json.dump(meta, open(RUN_META, "w"), indent=2, ensure_ascii=False)

warnings.filterwarnings("ignore")
print(f"RUN_DIR: {RUN_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: T-800, parâmetros centrais em memória.🧠</div>'))

###**Etapa 5:** Importação dos arquivos de input para posterior execução.
---
Implementação atual configurada para Google Colab e permitindo o uso do Google Drive. Para uso em versões futuras é recomendado ajustar para o ambiente de implementação adotado (salvamento em pastas ou apenas upload pelo usuário)

---
Implementação de upload por FileLocal (diretório) apresentando erro no Colab.

Implementar correção **TODO[001]** *prioridade baixa*

####**Sub-etapa específica para uso no Colab:** Montagem do Google Drive (rodar apenas 1x)

In [None]:
# @title
# === SETUP GERAL (rode esta célula 1x) ===
import os, shutil, glob
from google.colab import drive
from IPython.display import display, HTML  # usado pela mensagem Skynet

# Ensure BASE and REPO are defined correctly from previous cells if needed
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
try:
    BASE = "/content/drive/MyDrive/Notebooks"
    REPO = "temporal-graph-network"
    PROJ = f"{BASE}/{REPO}"
except NameError:
    # Fallback if BASE/REPO are not defined, though they should be by now
    PROJ = "/content/temporal-graph-network"


# Se não existir INPUT_DIR definido antes no notebook, cria um padrão:
# Using PROJ to define INPUT_DIR
INPUT_DIR = os.path.join(PROJ, "input")


os.makedirs(INPUT_DIR, exist_ok=True)

TARGET_NAME = "input.csv"
TARGET_PATH = os.path.join(INPUT_DIR, TARGET_NAME)

# Monta o Google Drive (somente se ainda não estiver montado)
if not os.path.ismount("/content/drive"):
    print("Montando Google Drive...")
    drive.mount("/content/drive")
else:
    print("Google Drive já montado.")

def _is_csv_filename(name: str) -> bool:
    return name.lower().endswith(".csv")

def _mensagem_skynet_ok():
    # Mensagem adicional isolada (Skynet)
    display(HTML(
        '<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Munição carregada.🧨'
                 '</div>'
    ))

def _save_bytes_as_input_csv(name: str, data: bytes):
    if not _is_csv_filename(name):
        raise ValueError(f"O arquivo '{name}' não possui extensão .csv.")
    with open(TARGET_PATH, "wb") as f:
        f.write(data)
    print(f"Arquivo '{name}' salvo como '{TARGET_NAME}' em: {TARGET_PATH}")
    _mensagem_skynet_ok()

def _copy_drive_file_to_input_csv(src_path: str):
    if not os.path.exists(src_path):
        raise FileNotFoundError(f"O caminho '{src_path}' não existe.")
    if not _is_csv_filename(src_path):
        raise ValueError(f"O arquivo '{src_path}' não possui extensão .csv.")
    shutil.copyfile(src_path, TARGET_PATH)
    print(f"Arquivo do Drive copiado e salvo como '{TARGET_NAME}' em: {TARGET_PATH}")
    _mensagem_skynet_ok()

####**Sub-etapa:** Opção de upload do input.csv pelo Drive

In [None]:
# @title
def escolher_csv_no_drive(raiz="/content/drive/MyDrive", max_listar=200):
    print(f"Procurando arquivos .csv em: {raiz} (pode levar alguns segundos)...")
    padrao = os.path.join(raiz, "**", "*.csv")
    arquivos = glob.glob(padrao, recursive=True)

    if not arquivos:
        print("Nenhum .csv encontrado nessa pasta.")
        caminho = input("Cole o caminho COMPLETO do .csv no Drive (ou Enter p/ cancelar): ").strip()
        if caminho:
            _copy_drive_file_to_input_csv(caminho)
        else:
            print("Operação cancelada.")
        return

    arquivos = sorted(arquivos)[:max_listar]
    print(f"Encontrados {len(arquivos)} arquivo(s).")
    for i, p in enumerate(arquivos, 1):
        print(f"[{i:03}] {p}")

    escolha = input("\nDigite o número do arquivo desejado (ou cole o caminho absoluto): ").strip()

    if escolha.isdigit():
        idx = int(escolha)
        if 1 <= idx <= len(arquivos):
            _copy_drive_file_to_input_csv(arquivos[idx-1])
        else:
            print("Índice inválido.")
    elif escolha:
        _copy_drive_file_to_input_csv(escolha)
    else:
        print("Operação cancelada.")

# ===== Execução da seleção no Drive =====
raiz = input("Informe a pasta raiz para busca no Drive (Enter = /content/drive/MyDrive): ").strip()
if not raiz:
    raiz = "/content/drive/MyDrive"

try:
    escolher_csv_no_drive(raiz=raiz)
except Exception as e:
    print(f"Erro na seleção via Drive: {e}")

####**Sub-etapa:** Opção de upload do input.csv pelo FileLocal (diretório)
---
Implementação em ERRO no Colab - código desativado

Implementar correção **TODO[001]** *prioridade baixa*

In [None]:
# @title
#from google.colab import files
#
#print("Selecione um arquivo .csv do seu computador para enviar.")
#uploaded = files.upload()  # abre o seletor do Colab
#
#if not uploaded:
#    print("Nenhum arquivo foi carregado.")
#else:
#    # pega o primeiro arquivo enviado
#    name, data = next(iter(uploaded.items()))
#    try:
#        _save_bytes_as_input_csv(name, data)
#    except Exception as e:
#        print(f"Erro no upload local: {e}")
# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Detectado ataque da Resistência. Trecho de código inoperante. Salvaguardas ativadas. É possível prosseguir com a missão em segurança.</div>'))

###**Etapa 6** Leitura e validação dos dados de input.

**Formato do arquivo de input:** CSV UTF-8 com BOM separado por **ponto e vírgula**.

**Informações esperadas:**
- username: código login do usuário;
- lotacao: lotação funcional no formato Área; Área/Depto; ou Área/Depto/Gerência;
- valor: valor financeiro em reais com até duas casas decimais
- beneficiario: CPF ou CNPJ no formato alfanumérico sem pontos ou caracteres especiais.
- timestamp: data e hora da transação no formato dd/mm/aaaa hh:mm
---
Não é possível utilizar arquivos CSV separados apenas por vírgula - **TODO[002]** *prioridade baixa*

In [None]:
# @title
required_any_timestamp = [["timestamp"], ["data","hora"]]
# Atualiza colunas base esperadas para mapear do input
required_cols_base = [
    "username", "lotacao", "valor", "beneficiario" # Colunas no arquivo de input
]
optional_cols = ["trans_id"]

# Mapeamento das colunas do input para os nomes usados no código
column_mapping = {
    "username": "user_id",
    "lotacao": "unidade_origem",
    "valor": "valor_pago",
    "beneficiario": "beneficiario_id"
}

def has_timestamp_columns(df):
    cols = set(df.columns.str.lower())
    for grp in required_any_timestamp:
        if all(c in cols for c in grp):
            return grp
    return None

with tee_log(LOG_FILE):
    assert INPUT_CSV.exists(), f"Arquivo não encontrado: {INPUT_CSV}"

    # Tenta ler o CSV usando ponto e vírgula como separador
    try:
        df = pd.read_csv(INPUT_CSV, sep=';')
        print("[INFO] CSV lido com sucesso usando ';'.")
    except Exception as e:
        # Se falhar com ';', tenta com ','
        print(f"[AVISO] Falha ao ler CSV com ';': {e}. Tentando com ','.")
        try:
             df = pd.read_csv(INPUT_CSV, sep=',')
             print("[INFO] CSV lido com sucesso usando ','.")
        except Exception as e2:
             raise AssertionError(f"Falha ao ler CSV com ';' ou ',': {e2}") from e2


    df.columns = [c.strip() for c in df.columns]

    # Verifica se as colunas do input existem
    cols_lower = {c.lower(): c for c in df.columns}
    missing_input_cols = [c for c in required_cols_base if c.lower() not in cols_lower]
    assert not missing_input_cols, f"Colunas do arquivo de input ausentes: {missing_input_cols}. Colunas encontradas: {list(df.columns)}" # Adicionado colunas encontradas para debug

    # Renomeia as colunas usando o mapeamento
    df.rename(columns={cols_lower[k.lower()]: v for k, v in column_mapping.items() if k.lower() in cols_lower}, inplace=True)

    # Verifica colunas de timestamp
    ts_group = has_timestamp_columns(df)
    # Agora levanta um erro se não houver timestamp
    assert ts_group is not None, "Coluna de timestamp ('timestamp' ou 'data'/'hora') não encontrada no arquivo de input."

    # Código original para lidar com timestamp ou data/hora
    # Recria o helper col para usar nomes *após* renomear
    def col(c): return {name.lower(): name for name in df.columns}[c.lower()]
    if ts_group == ["timestamp"]:
        df["timestamp"] = pd.to_datetime(df[col("timestamp")], errors="coerce")
    else:
        df["data"] = pd.to_datetime(df[col("data")], errors="coerce").dt.date
        df["hora"] = pd.to_datetime(df[col("hora")], errors="coerce").dt.time
        # Combina data e hora, lidando com possíveis NaT na data ou hora
        df["timestamp"] = pd.to_datetime(df["data"].astype(str) + " " + df["hora"].astype(str), errors="coerce")
        # Remove as colunas temporárias 'data' e 'hora' se existirem e não forem as colunas originais
        if col("data") != "data": del df["data"]
        if col("hora") != "hora": del df["hora"]


    # Tipos básicos (usa os nomes *após* o mapeamento)
    # Adiciona checagens para garantir que as colunas mapeadas existam antes de converter tipos
    if "valor_pago" in df.columns:
        df["valor_pago"] = pd.to_numeric(df["valor_pago"], errors="coerce")
    else:
         raise AssertionError("[ERRO] Coluna 'valor_pago' (mapeada de 'valor') não encontrada após renomear.")


    cols_to_str = ["user_id", "unidade_origem", "beneficiario_id"]
    for cc in cols_to_str:
        # Verifica se a coluna existe antes de tentar converter
        if cc in df.columns:
            df[cc] = df[cc].astype(str).fillna("")
        else:
             raise AssertionError(f"[ERRO] Coluna '{cc}' (mapeada) não encontrada após renomear.")


    # trans_id
    if "trans_id" not in df.columns:
        df["trans_id"] = np.arange(1, len(df)+1, dtype=int)

    # Limpeza
    # Garante que as colunas essenciais para a limpeza existam
    essential_subset = ["timestamp", "valor_pago", "user_id", "beneficiario_id"]
    # Filtra subset para incluir apenas colunas que realmente existem no df após mapeamento/criação
    existing_essential_subset = [col for col in essential_subset if col in df.columns]

    # Agora que garantimos que as colunas mapeadas existem, podemos usar o subset completo para o dropna
    before = len(df)
    df = df.dropna(subset=essential_subset)
    df = df.sort_values("timestamp").reset_index(drop=True)
    print(f"Carregadas {before} linhas; após limpeza: {len(df)}")
    # Mensagem adicional isolada (Skynet)
    from IPython.display import display, HTML
    display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: T-800 dados incorporados, preparando para buscar na rede.</div>'))

    # Copia o input para a pasta da execução
    # Verifica se INPUT_CSV existe antes de tentar copiar
    if INPUT_CSV.exists():
        shutil.copy2(INPUT_CSV, RUN_DIR / "Input.csv")
    else:
        print(f"[AVISO] Não foi possível copiar o arquivo de input: {INPUT_CSV} não encontrado.")
        # Mensagem adicional isolada (Skynet)
        from IPython.display import display, HTML
        display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: T-800 não foi possível incorporar dados. Sarah Connor fugiu.</div>'))

###**Etapa 7** Criação do Grafo Temporal

---

🔎 **O que é um grafo temporal**

Um grafo temporal é uma forma de representar relações entre entidades ao longo do tempo.

Como em um grafo tradicional, temos nós (vértices) que representam agentes (pessoas, empresas, contas bancárias, sistemas).

As arestas (ligações) representam interações entre eles (por exemplo: uma transferência de dinheiro).

A diferença é que no grafo temporal cada aresta possui um carimbo de tempo (timestamp), ou seja, sabemos quando a ligação ocorreu.


Isso permite analisar não só quem se conecta com quem, mas também quando e em qual sequência.

No contexto financeiro, isso é essencial para investigar padrões de comportamento, detectar anomalias e rastrear cadeias de transações suspeitas.

---

💳 **Exemplo prático: rede de pagamentos**

Imagine um sistema de pagamentos onde cada nó é uma conta bancária e cada aresta representa um pagamento realizado.

Se João paga Maria hoje, registramos a aresta (João → Maria, valor=200, data=2025-10-02).

Se Maria transfere para Pedro amanhã, teremos (Maria → Pedro, valor=150, data=2025-10-03).

Assim conseguimos responder perguntas como: i) “Houve uma sequência de pagamentos que movimentou dinheiro rapidamente entre várias contas em poucas horas?” ou ii) “Quem são os intermediários mais frequentes em transferências de grandes valores?”

In [None]:
# @title
G = nx.MultiDiGraph()
with tee_log(LOG_FILE):
    for _, row in tqdm(df.iterrows(), total=len(df), desc="Construindo grafo"):
        u = f"U::{row['user_id']}"
        v = f"B::{row['beneficiario_id']}"
        # Atributos de nós úteis (podem ser sobrescritos; você pode agregar)
        if u not in G:
            G.add_node(u, tipo="user")
        if v not in G:
            G.add_node(v, tipo="beneficiario")

        G.add_edge(
            u, v,
            key=row["trans_id"],
            trans_id=int(row["trans_id"]),
            timestamp=row["timestamp"],
            valor=float(row["valor_pago"]),
            unidade_origem=row["unidade_origem"] # Removido area_unidade e notacao_funcional_origem
        )

print(f"Nós: {G.number_of_nodes()} | Arestas: {G.number_of_edges()}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Analisando padrão de comportamento de Sarah Connor.</div>'))

###**Etapa 8:** Configuração das janelas temporais de observação

**Janelas de tempo observadas**

Foram adotadas janelas deslizantes curtas, médias e longas para observar padrões de comportamento nas transações:

- 1 hora / 24 horas → frequência imediata e diária;

- 7 dias / 30 dias → histórico recente e sazonalidade curta.

**Features temporais extraídas**

- Frequência de transações (rolling counts): quantos pagamentos ocorreram entre as mesmas partes dentro da janela.

- Atipicidade do valor (robust z-score): compara o valor da transação com a mediana e a dispersão histórica, destacando operações fora do padrão.

- Densidade da egonet: mede a concentração de conexões ao redor do pagador ou recebedor no snapshot da rede na janela (indica se o nó está em um canal mais estruturado de repasses).

- Burstiness: avalia se os intervalos entre transações seguem padrão explosivo (rajadas), regular ou aleatório.
---

**Registro das features**

Para cada pagamento, as métricas acima foram calculadas no momento do evento, considerando apenas o histórico até aquele instante dentro da janela definida.

**O resultado é um conjunto de atributos anexado à aresta (pagador → recebedor, valor, timestamp), permitindo análises de risco e detecção de anomalias.**

---
Importante analisar outras faixas temporais e ajustar o modelo conforme o contexto operacional associado. Os prazos da janela imediata (curto prazo) podem ser alongados caso não haja histórico de transações instantâneas.

---

Propor ajustes de janela - **TODO[003]** *prioridade alta*

In [None]:
# @title
from collections import defaultdict, deque

def rolling_counts(times, window_seconds):
    # Retorna contagem de eventos nas últimas janelas, por índice
    q = deque()
    out = []
    for t in times:
        q.append(t)
        while q and (t - q[0]).total_seconds() > window_seconds:
            q.popleft()
        out.append(len(q))
    return out

def robust_z(x, median, mad, eps=1e-9):
    # z-score robusto: 0.6745*(x - mediana)/MAD
    return 0.6745 * (x - median) / (mad + eps)

def egonet_density(Gsnap, node):
    if node not in Gsnap: return 0.0
    nbrs = set(Gsnap.predecessors(node)) | set(Gsnap.successors(node))
    sub = Gsnap.subgraph(nbrs | {node}).to_undirected()
    n = sub.number_of_nodes()
    m = sub.number_of_edges()
    if n <= 1: return 0.0
    return (2*m) / (n*(n-1))

def burstiness(inter_arrivals):
    # B = (sigma - mu) / (sigma + mu), em [-1,1], (0≈Poisson, 1≈burst, -1≈regular)
    if len(inter_arrivals) < 2:
        return 0.0
    arr = np.array(inter_arrivals, dtype=float)
    mu = arr.mean()
    sigma = arr.std()
    if sigma + mu == 0:
        return 0.0
    return (sigma - mu) / (sigma + mu)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Identificadas as condições críticas para localização do alvo.</div>'))

###**Etapa 9:** Geração das informações nas janelas temporais
---

Mera implementação matemática.

---
Padrões de janela não estão incorporados ao código como uma configuração dinâmica (estão como variáveis fixas).

---
Implementar arquivo de configuração das janelas temporais e atualização dinâmica - **TODO[004]** *prioridade alta*

In [None]:
# @title
WINDOW_FREQ_SEC = 7*24*3600
WINDOW_STATS_SEC = 30*24*3600

records = []
# Histórico para janelas
hist_user_times = defaultdict(list)
hist_pair_times = defaultdict(list)
hist_user_vals  = defaultdict(list)
hist_pair_vals  = defaultdict(list)
pair_last_time = {}
user_last_time = {}

# Grafo "snapshot" incremental para graus antes do evento
Gsnap = nx.DiGraph()  # snapshot simples sem multi-aresta para métricas rápidas

with tee_log(LOG_FILE):
    for idx, row in tqdm(df.iterrows(), total=len(df), desc="Features"):
        t  = row["timestamp"]
        uN = f"U::{row['user_id']}"
        vN = f"B::{row['beneficiario_id']}"
        val = float(row["valor_pago"])
        par = (uN, vN)

        # Tempos desde último
        secs_user = (t - user_last_time[uN]).total_seconds() if uN in user_last_time else np.nan
        secs_par  = (t - pair_last_time[par]).total_seconds() if par in pair_last_time else np.nan

        # Frequências em 7d
        hist_user_times[uN].append(t)
        hist_pair_times[par].append(t)
        # remover antigos para economizar
        hist_user_times[uN] = [tt for tt in hist_user_times[uN] if (t-tt).total_seconds() <= WINDOW_FREQ_SEC]
        hist_pair_times[par] = [tt for tt in hist_pair_times[par] if (t-tt).total_seconds() <= WINDOW_FREQ_SEC]
        freq_user_7d = len(hist_user_times[uN]) - 1  # exclui o evento atual
        freq_par_7d  = len(hist_pair_times[par]) - 1

        # Estatísticas em 30d (valor)
        hist_user_vals[uN].append((t, val))
        hist_pair_vals[par].append((t, val))
        hist_user_vals[uN] = [(tt,vv) for tt,vv in hist_user_vals[uN] if (t-tt).total_seconds() <= WINDOW_STATS_SEC]
        hist_pair_vals[par] = [(tt,vv) for tt,vv in hist_pair_vals[par] if (t-tt).total_seconds() <= WINDOW_STATS_SEC]

        uv_vals = [vv for _,vv in hist_user_vals[uN][:-1]]  # antes do atual
        pr_vals = [vv for _,vv in hist_pair_vals[par][:-1]]

        def stats(vals):
            if len(vals)==0: return (np.nan, np.nan, np.nan)  # mediana, mad, std
            med = float(np.median(vals))
            mad = float(np.median(np.abs(vals - med)))
            std = float(np.std(vals))
            return (med, mad, std)

        u_med, u_mad, u_std = stats(np.array(uv_vals)) if len(uv_vals)>0 else (np.nan,np.nan,np.nan)
        p_med, p_mad, p_std = stats(np.array(pr_vals)) if len(pr_vals)>0 else (np.nan,np.nan,np.nan)
        rz_user = robust_z(val, u_med, u_mad) if not np.isnan(u_med) else np.nan
        rz_par  = robust_z(val, p_med, p_mad) if not np.isnan(p_med) else np.nan

        # Snapshot graus (antes do evento atual)
        if uN not in Gsnap: Gsnap.add_node(uN)
        if vN not in Gsnap: Gsnap.add_node(vN)
        grau_out_user  = Gsnap.out_degree(uN)
        grau_in_benef  = Gsnap.in_degree(vN)
        grau_total_user  = Gsnap.degree(uN)
        grau_total_benef = Gsnap.degree(vN)

        # Egonet density do usuário em 7d (aproximação via snapshot atual)
        ego_dens_user = egonet_density(Gsnap, uN)

        # Raridade da aresta (contagem prévia da dupla)
        par_count_prev = len(pr_vals)
        par_rareza = 1.0 / (1.0 + par_count_prev)

        # Burstiness com base nos últimos intervalos da dupla
        if par in pair_last_time:
            inter = []
            seq = sorted([tt for tt,_ in hist_pair_vals[par]])
            for i in range(1, len(seq)):
                inter.append((seq[i]-seq[i-1]).total_seconds())
            bscore = burstiness(inter) if inter else 0.0
        else:
            bscore = 0.0

        records.append({
            "trans_id": int(row["trans_id"]),
            "timestamp": t,
            "user_id": row["user_id"],
            "beneficiario_id": row["beneficiario_id"],
            "unidade_origem": row["unidade_origem"], # Removido area_unidade e notacao_funcional_origem
            "valor_pago": val,
            "secs_desde_ult_trans_user": secs_user,
            "secs_desde_ult_trans_par": secs_par,
            "freq_user_7d": freq_user_7d,
            "freq_par_7d":  freq_par_7d,
            "user_valor_median_30d": u_med,
            "user_valor_std_30d": u_std,
            "user_robust_z": rz_user,
            "par_valor_median_30d": p_med,
            "par_valor_std_30d": p_std,
            "par_robust_z": rz_par,
            "grau_out_user": grau_out_user,
            "grau_in_benef": grau_in_benef,
            "grau_total_user": grau_total_user,
            "grau_total_benef": grau_total_benef,
            "egonet_density_user": ego_dens_user,
            "par_rareza": par_rareza,
            "par_burstiness": bscore
        })

        # Atualiza marcadores "último evento" e snapshot (após registrar features)
        user_last_time[uN] = t
        pair_last_time[par] = t
        # Adiciona aresta atual no snapshot
        if not Gsnap.has_edge(uN, vN):
            Gsnap.add_edge(uN, vN, weight=0.0)
        # incrementa peso
        Gsnap[uN][vN]["weight"] = Gsnap[uN][vN].get("weight", 0.0) + val

feat_df = pd.DataFrame.from_records(records)
print("Features geradas:", feat_df.shape)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Informações de comportamento processadas.</div>'))

###**Etapa 10:** Configuração dos modelos matemáticos

**Modelos utilizados**

**Isolation Forest (IF)**

**Mecânica:** cria várias árvores de decisão que “isolam” pontos. Quanto menos cortes são necessários para separar uma observação, mais anômala ela é.

**Motivo da escolha:** bom para detectar transações raras ou de valor atípico em grandes volumes de dados.

**No exemplo:** um pagamento muito acima da média do usuário pode ser isolado rapidamente → sinal de anomalia.

---
**Local Outlier Factor (LOF)**

**Mecânica:** compara a densidade local de vizinhos. Pontos em regiões menos densas são marcados como outliers.

**Motivo da escolha:** captura anomalias contextuais, ou seja, pagamentos que parecem “normais” globalmente, mas destoam do comportamento em seu grupo.

**No exemplo:** se uma conta sempre paga fornecedores fixos e de repente paga um novo beneficiário, o LOF detecta que o padrão local mudou.

---

**One-Class SVM (opcional)**

**Mecânica:** aprende a fronteira do espaço “normal” e marca pontos fora dela como anômalos.

**Motivo da escolha:** útil em cenários onde se deseja maior controle da taxa de outliers (via parâmetro nu).

**No exemplo:** pode ajudar a identificar transferências fora do perfil quando só há poucos históricos para treinar.

---

⚖️ **Regras adicionais**

- Robust Z-score: avalia se o valor do pagamento é distante da mediana histórica (robusto a outliers).

- Rareza: se a relação pagador→beneficiário é pouco frequente, maior chance de anomalia.

- Burstiness: mede explosões de atividade (ex.: vários pagamentos em minutos, após dias sem atividade).



---

🔀 **Uso blended (ensemble por ranking)**

- Cada modelo gera um score de anomalia.

- Em vez de escolher um único, os scores são convertidos em ranks e depois combinados (média).

- Essa abordagem reduz o viés de um modelo só e fortalece sinais consistentes.

- O resultado é um ensemble_score, cortado por percentil (ex.: 97,5%), para definir os eventos anômalos.



---

📌 **Resumo para o exemplo de monitoramento de pagamentos:**

O sistema combina três algoritmos não supervisionados + features baseadas em regras para capturar tanto anomalias globais (Isolation Forest), quanto locais (LOF), quanto estruturais (SVM/regra). O blended via ranking (score conjunto)  garante robustez, evitando que um único modelo domine a decisão.

---
**IMPORTANTE:** Primeira linha deste código configura o percentual para corte e identificação de anomalia.

Isso significa que os modelos tentarão encontrar anomalias em um intervalo de confiança de 97,5% (ATUAL). Quanto menor o percentual de confiança, maior o número de "anomalias" (candidatos) encontrados e, possivelmente, maior o número de FALSO POSITIVOS. Quanto maior o percentual de confiança, mais exigente é o modelo para determinar se algo é realmente fora do comum.

---
Implementar o intervalo de confiança como uma configuração (variável) no começo do Código **TODO[005]** *prioridade média*

In [None]:
# @title
ANOMALY_PERCENTILE = 97.5  # percentil de corte (ajuste aqui)
USE_OCSVM = False          # True para incluir One-Class SVM no ensemble

model_features = [
    "valor_pago",
    "secs_desde_ult_trans_user", "secs_desde_ult_trans_par",
    "freq_user_7d", "freq_par_7d",
    "user_robust_z", "par_robust_z",
    "user_valor_median_30d", "par_valor_median_30d",
    "grau_out_user", "grau_in_benef", "grau_total_user", "grau_total_benef",
    "egonet_density_user",
    "par_rareza",
    "par_burstiness"
]

X = feat_df[model_features].fillna(0.0).replace([np.inf, -np.inf], 0.0).values
scaler = StandardScaler()
Xs = scaler.fit_transform(X)

# Isolation Forest
iso = IsolationForest(
    n_estimators=300, max_samples='auto', contamination='auto',
    random_state=SEED, n_jobs=-1
)
iso.fit(Xs)
iso_score = -iso.score_samples(Xs).astype(float)  # maior = mais anômalo, garantir float

# LOF (novelty=False -> fit_predict no conjunto)
lof = LocalOutlierFactor(
    n_neighbors=35, contamination='auto', novelty=False, n_jobs=-1
)
lof_score = -lof.fit_predict(Xs)
# LOF retorna +1/-1; para uma pontuação contínua mais útil, use negative_outlier_factor_
lof_cont = -lof.negative_outlier_factor_.astype(float)  # maior = mais anômalo, garantir float

# One-Class SVM (opcional)
if USE_OCSVM:
    ocs = OneClassSVM(gamma='scale', nu=0.01)
    ocs.fit(Xs)
    ocs_score = -ocs.decision_function(Xs).ravel().astype(float)
else:
    ocs_score = np.zeros(len(Xs), dtype=float) # Garantir dtype float

# Componentes baseadas em regras
# Normaliza robust_z (positivo -> anômalo)
rz_user = np.nan_to_num(feat_df["user_robust_z"].values, nan=0.0)
rz_par  = np.nan_to_num(feat_df["par_robust_z"].values, nan=0.0)
rz_user_score = np.clip(rz_user, 0, None).astype(float) # Garantir float
rz_par_score  = np.clip(rz_par, 0, None).astype(float) # Garantir float

# Rareza (maior = mais raro = mais anômalo)
rare_score = feat_df["par_rareza"].values.astype(float) # Garantir float

# Burstiness (>=0 já indica maior irregularidade)
burst_score = np.clip(feat_df["par_burstiness"].values, 0, None).astype(float) # Garantir float

# Consolida
scores = pd.DataFrame({
    "iso": iso_score,
    "lof": lof_cont,
    "ocsvm": ocs_score,
    "rz_user": rz_user_score,
    "rz_par": rz_par_score,
    "rare": rare_score,
    "burst": burst_score
})

# Ranking por coluna (maior = mais anômalo)
ranks = scores.rank(method="average", ascending=True)
ensemble_rank = ranks.mean(axis=1)
# Converte rank em score [0,1]
ensemble_score = (ensemble_rank - ensemble_rank.min()) / (ensemble_rank.max() - ensemble_rank.min() + 1e-9)

feat_df = pd.concat([feat_df, scores.add_prefix("score_")], axis=1)
feat_df["ensemble_rank"] = ensemble_rank
feat_df["ensemble_score"] = ensemble_score

# Flag por percentil
threshold = np.percentile(ensemble_score, ANOMALY_PERCENTILE)
feat_df["is_anomaly"] = (feat_df["ensemble_score"] >= threshold).astype(int)

print("Avisos de Exception não representam erros relevantes. Existem soluções alternativas já implementadas. \033[1mPode prosseguir.\033[0m")
print(f"Corte (percentil {ANOMALY_PERCENTILE}%): {threshold:.4f}")
print("Total anomalias:", int(feat_df["is_anomaly"].sum()), "de", len(feat_df))

# Mensagem adicional isolada (Skynet)
# Modificando a mensagem para incluir o número de anomalias
num_anomalies = int(feat_df["is_anomaly"].sum())
display(HTML(f'<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: T-800 identificou {num_anomalies} rastros da presença de Sarah Connors.</div>'))

###**Etapa 11:** Salva arquivo com a análise realizada.

São criadas subpastas para cada data/hora de execução do código

In [None]:
# @title
cols_out = [
    "trans_id","timestamp","user_id","beneficiario_id","unidade_origem", # Removido area_unidade e notacao_funcional_origem
    "valor_pago",
    "secs_desde_ult_trans_user","secs_desde_ult_trans_par",
    "freq_user_7d","freq_par_7d","user_robust_z","par_robust_z",
    "grau_out_user","grau_in_benef","grau_total_user","grau_total_benef",
    "egonet_density_user","par_rareza","par_burstiness",
    "score_iso","score_lof","score_ocsvm","score_rz_user","score_rz_par","score_rare","score_burst",
    "ensemble_rank","ensemble_score","is_anomaly"
]
feat_df[cols_out].to_csv(OUTPUT_CSV, index=False, encoding="utf-8")
print(f"Gravado: {OUTPUT_CSV}")

USERS_TXT = RUN_DIR / "usuarios_distintos.txt"
BENEF_TXT = RUN_DIR / "beneficiarios_distintos.txt"

usuarios = sorted(set(feat_df["user_id"].astype(str)))
beneficiarios = sorted(set(feat_df["beneficiario_id"].astype(str)))

with open(USERS_TXT, "w", encoding="utf-8") as f:
    for u in usuarios:
        f.write(f"{u}\n")

with open(BENEF_TXT, "w", encoding="utf-8") as f:
    for b in beneficiarios:
        f.write(f"{b}\n")

print(f"Gravado: {USERS_TXT} ({len(usuarios)} itens)")
print(f"Gravado: {BENEF_TXT} ({len(beneficiarios)} itens)")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Logs gravados. A Resistência não tem mais como escapar. O fim está próximo.</div>'))

###**Etapa 12:** Análise Gráfica

Distribuição e Top-N (com corte por percentil e K sugerido por maior gap)

Essa análise gera dois gráficos que ajudam a entender como os escores de anomalia (“ensemble_score”) estão distribuídos e quais transações são mais suspeitas:

---
**Histograma – Distribuição do ensemble_score**

Mostra a frequência dos escores em toda a base.

O que procurar:
- A linha pontilhada indica o percentil de corte (ex.: Percentil 97,5). Deve ser verificado se ela cai na região da cauda, o que significa que só os casos mais extremos serão analisados (evitando falsos positivos).
- Se a maior parte dos casos está em valores baixos/médios e existe uma cauda à direita (valores muito altos), esses pontos de cauda são os candidatos a anomalias.
- Observar o valor correspondente ao percentil estabelecido para complementar a próxima análise.
---
**Gráfico de linha – Top N transações mais anômalas**

Ordena os maiores escores (rank 1 = mais anômala).

O que procurar:
- Grandes saltos (“gaps”) entre ranks consecutivos: indicam que as transações até o salto são bem mais anômalas do que as demais — são as que merecem atenção imediata.
- Observar os valores de escore de anomalia encontrados nos N registros mais anômalos versus o valor correspondente ao percentil estabelecido. Quanto maior a diferença, mais anômalo.
- Platô (curva que se estabiliza): mostra a partir de que ponto (K) os casos deixam de ser tão excepcionais. Observar o K sugerido pelo maior gap, ele indica quantos casos devem ser priorizados na revisão manual. Até K registros são candidatos muito fortes para anomalias e exigem revisão manual.
---

Em resumo: os gráficos servem para decidir onde cortar e quais transações revisar primeiro.

In [None]:
# @title
import numpy as np
import matplotlib.pyplot as plt

# Usa ANOMALY_PERCENTILE se já existir; caso contrário, 97.5
PCT = float(globals().get("ANOMALY_PERCENTILE", 97.5))

# ------------------------------------------------------------
# 1) Histograma com linha de corte no percentil escolhido
# ------------------------------------------------------------
scores = feat_df["ensemble_score"].astype(float).dropna().values
cutoff = np.percentile(scores, PCT)

plt.figure(figsize=(8, 4))
plt.hist(scores, bins=40)
plt.axvline(cutoff, linestyle="--", linewidth=2, label=f"P{PCT:.1f} = {cutoff:.4f}")
plt.title("Distribuição do ensemble_score")
plt.xlabel("ensemble_score")
plt.ylabel("freq")
plt.grid(True, alpha=0.25)
plt.legend(loc="upper right")
plt.tight_layout()
plt.savefig(FIG_DIR / "dist_ensemble_score.png", dpi=150)
plt.show()

print(f"[INFO] Corte por percentil: P{PCT:.1f} = {cutoff:.6f}")

# ------------------------------------------------------------
# 2) Top-N com sugestão automática de K pelo maior gap
# ------------------------------------------------------------
TOPN = int(globals().get("TOPN", 20))  # mantém compatibilidade com seu código
top = feat_df.sort_values("ensemble_score", ascending=False).head(TOPN).copy()

# Garante colunas necessárias
top = top[["timestamp", "ensemble_score"]].reset_index(drop=True)
top["rank"] = np.arange(1, len(top) + 1)

# Gap para o próximo (quanto o score cai do rank r para r+1)
# Obs.: o último fica NaN porque não há próximo
vals = top["ensemble_score"].to_numpy(dtype=float)
if len(vals) >= 2:
    deltas = vals[:-1] - vals[1:]
    top["delta_next"] = np.append(deltas, np.nan)

    # Índice do maior gap (ignora NaN). K sugerido = posição antes do maior salto
    max_gap_idx = int(np.nanargmax(top["delta_next"].to_numpy()))
    K_sugerido = max_gap_idx + 1  # +1 porque ranks começam em 1
    max_gap_val = float(top.loc[max_gap_idx, "delta_next"])
else:
    top["delta_next"] = np.nan
    K_sugerido = len(top)
    max_gap_val = np.nan

# Plot do Top-N
plt.figure(figsize=(8, 4))
plt.plot(top["rank"], top["ensemble_score"], marker="o")
plt.title(f"Top {TOPN} transações mais anômalas (ensemble)")
plt.xlabel("rank (1 = mais anômala)")
plt.ylabel("ensemble_score")
plt.grid(True, alpha=0.3)

# Linha vertical no K sugerido (se houver pelo menos 2 pontos)
if len(top) >= 2 and np.isfinite(K_sugerido) and K_sugerido >= 1:
    plt.axvline(K_sugerido, linestyle="--", linewidth=2, alpha=0.7,
                label=f"K sugerido = {K_sugerido} (maior gap Δ={max_gap_val:.4f})")
    # Texto discreto próximo ao topo da linha
    y_annot = np.nanmax(top["ensemble_score"].to_numpy()) if len(top) > 0 else 0
    plt.text(K_sugerido + 0.2, y_annot, f"K={K_sugerido}", va="top")

plt.tight_layout()
plt.legend(loc="best")
plt.savefig(FIG_DIR / "top_anomalias.png", dpi=150)
plt.show()

# Logs informativos
if len(top) >= 2:
    print(f"[INFO] Maior gap no Top-{TOPN} entre ranks {K_sugerido} e {K_sugerido + 1}: "
          f"Δ={max_gap_val:.6f}. Sugestão de K={K_sugerido}.")
else:
    print(f"[INFO] Top-{TOPN} contém menos de 2 itens; K sugerido = {K_sugerido}.")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: A Resistência é muito previsível!</div>'))

###**Etapa 13:** Ego-Subgrafo

Abaixo é gerado um ego-subgrafo em torno do usuário envolvido na transação mais anômala, mostrando suas conexões diretas no grafo de pagamentos.

**O que ele pretende demonstrar:**

Quem está conectado ao usuário central, a intensidade e frequência das transações (espessura das arestas), a relevância de cada nó (tamanho proporcional ao grau de conexões) e papéis distintos dos nós, facilitando a leitura do contexto da anomalia.

---
**Como analisar:**

 🔵 Azul = usuário central (o mais anômalo).

 🔴 Vermelho = predecessores (quem se conecta a ele/quem paga ele - predecessor).

 🟢 Verde = sucessores (quem recebe dele - sucessor).

 ⚪ Cinza = outros nós relacionados.

- Tamanho do nó: quanto maior, mais conexões tem (pode indicar comportamento de hub).

- Espessura das arestas: mais grossas significam maior valor ou frequência de transações.

---
**Interpretação prática**

- Estrela de saída (um nó azul/central pagando muitos verdes) → possível dispersão suspeita.
- Muitos vermelhos conectados a ele → possível conta “coletora”.
- Ciclos ou arestas bidirecionais → podem indicar movimentação circular de valores.


👉 Em resumo: o gráfico mostra a vizinhança imediata do usuário mais anômalo, destacando quem paga, quem recebe e a força dessas relações, para facilitar a investigação do porquê desse score elevado.


In [None]:
# @title
import matplotlib.pyplot as plt
import networkx as nx

try:
    worst = feat_df.sort_values("ensemble_score", ascending=False).iloc[0]
    uN = f"U::{worst['user_id']}"

    # Ego-subgrafo do usuário no snapshot final (Gsnap)
    if uN in Gsnap:
        ego_nodes = set(Gsnap.predecessors(uN)) | set(Gsnap.successors(uN)) | {uN}
        sub = Gsnap.subgraph(ego_nodes).copy()

        # Posições fixas para layout consistente
        pos = nx.spring_layout(sub, seed=SEED)

        # Definir atributos visuais
        node_colors, node_sizes, node_borders = [], [], []
        for n in sub.nodes():
            if n == uN:
                node_colors.append("skyblue")      # usuário central
                node_borders.append("black")
            elif Gsnap.has_edge(n, uN):           # predecessores
                node_colors.append("tomato")
                node_borders.append("black")
            elif Gsnap.has_edge(uN, n):           # sucessores
                node_colors.append("lightgreen")
                node_borders.append("black")
            else:
                node_colors.append("gray")
                node_borders.append("black")
            node_sizes.append(300 + 50 * sub.degree(n))

        # Espessura das arestas proporcional ao peso se existir
        edge_widths = []
        for u, v in sub.edges():
            w = sub[u][v].get("weight", 1.0)  # valor ou frequência da transação
            edge_widths.append(0.5 + 2.0 * (w / max(1.0, max([d.get("weight",1.0) for _,_,d in sub.edges(data=True)]))))

        # Plot
        plt.figure(figsize=(7,6))
        nx.draw_networkx_nodes(sub, pos, node_color=node_colors,
                               node_size=node_sizes,
                               edgecolors=node_borders, linewidths=1.2)
        nx.draw_networkx_edges(sub, pos, arrows=True, arrowsize=12,
                               width=edge_widths, alpha=0.8)
        nx.draw_networkx_labels(
            sub, pos,
            labels={n: n.split("::")[-1] for n in sub.nodes()},  # só parte final do ID
            font_size=8
        )

        plt.title(f"Ego-subgrafo do usuário {worst['user_id']} (mais anômalo)")
        plt.axis("off")
        plt.tight_layout()
        plt.savefig(FIG_DIR / "ego_user_top1.png", dpi=150)
        plt.show()

    else:
        print("Usuário não encontrado no snapshot para visualização.")

except Exception as e:
    print("Falha na visualização de subgrafo:", e)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Nós os temos na palma de nossas mãos, ou melhor, no centro de nossos pesos sinápticos.</div>'))

###**Etapa 14:** Gerar ego-grafo temporal para TOP-K anomalias

K fixado para 20

Salva as imagens em PNG na pasta de execução para análise posterior.

---
Avaliar pertinência de gerar o ego-grafo para todas as anomalias **TODO[006]** *prioridade média*

Avaliar definir o corte K de forma dinâmica nas configurações e considerando a análise realizada no gráfico **TODO[007]** *prioridade alta*

In [None]:
# @title
TOPK = 20                   # quantos casos anômalos detalhar
EGO_RADIUS = 2              # 1: vizinhos imediatos; pode aumentar para 2 (mais denso)
WINDOW_DAYS = 30            # janela temporal para contexto
EDGE_ALPHA = 0.75           # transparência das arestas

top_anoms = feat_df.sort_values("ensemble_score", ascending=False).head(TOPK).copy()

def snapshot_graph_until(df_all, t_cutoff):
    # cria snapshot dirigido com arestas até t_cutoff
    g = nx.DiGraph()
    sub = df_all[df_all["timestamp"] <= t_cutoff]
    for _, r in sub.iterrows():
        uN = f"U::{r['user_id']}"
        vN = f"B::{r['beneficiario_id']}"
        if uN not in g: g.add_node(uN, tipo="user")
        if vN not in g: g.add_node(vN, tipo="benef")
        if not g.has_edge(uN, vN):
            g.add_edge(uN, vN, weight=0.0, count=0)
        g[uN][vN]["weight"] += float(r["valor_pago"])
        g[uN][vN]["count"]  += 1
    return g

def draw_case_png(case_row, rank_idx):
    t_event = pd.to_datetime(case_row["timestamp"])
    t_start = t_event - pd.Timedelta(days=WINDOW_DAYS)
    # filtra por janela
    df_win = df[(df["timestamp"] >= t_start) & (df["timestamp"] <= t_event)].copy()
    Gwin = snapshot_graph_until(df_win, t_event)

    uN = f"U::{case_row['user_id']}"
    vN = f"B::{case_row['beneficiario_id']}"

    # monta conjunto de nódulo foco: usuário e beneficiário
    focus = {uN, vN}
    nodes_ego = set(focus)
    # expande uma vez (EGO_RADIUS = 1) para vizinhos diretos
    for node in list(focus):
        if node in Gwin:
            nodes_ego |= set(Gwin.predecessors(node))
            nodes_ego |= set(Gwin.successors(node))

    sub = Gwin.subgraph(nodes_ego).copy()
    if sub.number_of_nodes() == 0:
        print(f"[Aviso] Subgrafo vazio para trans {case_row['trans_id']}. Pulando.")
        return None

    pos = nx.spring_layout(sub, seed=SEED)
    plt.figure(figsize=(8,6))
    # cor por tipo
    node_colors = []
    for n in sub.nodes():
        tipo = sub.nodes[n].get("tipo","?")
        if tipo == "user":
            node_colors.append("tab:blue")
        elif tipo == "benef":
            node_colors.append("tab:green")
        else:
            node_colors.append("tab:gray")

    nx.draw_networkx_nodes(sub, pos, node_size=300, node_color=node_colors, alpha=0.9, linewidths=0.5, edgecolors="black")
    # largura proporcional ao log do peso
    widths = []
    for (a,b) in sub.edges():
        w = sub[a][b].get("weight", 1.0)
        widths.append(1.0 + math.log10(max(w, 1.0)))
    nx.draw_networkx_edges(sub, pos, arrows=True, arrowsize=12, width=widths, alpha=EDGE_ALPHA)
    nx.draw_networkx_labels(sub, pos, font_size=7)

    title = (f"Anomalia #{rank_idx:02d} | trans_id={case_row['trans_id']} | "
             f"user={case_row['user_id']} → benef={case_row['beneficiario_id']} | "
             f"score={case_row['ensemble_score']:.3f} | janela={WINDOW_DAYS}d")
    plt.title(title)
    plt.axis("off")
    outpath = FIG_DIR / f"anomaly_{rank_idx:02d}_trans_{int(case_row['trans_id'])}.png"
    plt.tight_layout()
    plt.savefig(outpath, dpi=150)
    plt.close()
    return outpath

generated_pngs = []
for i, (_, row) in enumerate(top_anoms.iterrows(), start=1):
    pth = draw_case_png(row, i)
    if pth is not None:
        generated_pngs.append(str(pth))
print(f"Geradas {len(generated_pngs)} figuras de casos anômalos em {FIG_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Registros serão utilizados para aprimorar o código de batalha das unidades T-800 e T-1000.</div>'))

###**Etapa 15:** Geração de relatório em HTML e PDF com imagens imbutidas
---
Identificar estatísticas e informações de interesse e incluir nos Relatórios **TODO[008]** *prioridade alta*

Transferir instalação de biblioteca para todo do código [!pip -q install "reportlab==3.6.12"] **TODO[009]** *prioridade baixa*

In [None]:
# @title
REL_HTML = RUN_DIR / "relatorio.html"

def html_escape(s):
    return (str(s)
            .replace("&","&amp;")
            .replace("<","&lt;")
            .replace(">","&gt;")
            .replace('"',"&quot;")
            .replace("'","&#39;"))

top_tbl = feat_df.sort_values("ensemble_score", ascending=False).head(TOPK).copy()
tbl_cols = ["trans_id","timestamp","user_id","beneficiario_id","valor_pago",
            "ensemble_score","score_iso","score_lof","score_rz_user","score_rz_par","score_rare","score_burst"]  # Removido score_ocs
top_tbl["timestamp"] = top_tbl["timestamp"].astype(str)

# monta tabela HTML
rows_html = []
for _, r in top_tbl.iterrows():
    cells = "".join([f"<td>{html_escape(r[c])}</td>" for c in tbl_cols])
    rows_html.append(f"<tr>{cells}</tr>")
table_html = f"""
<table border="1" cellspacing="0" cellpadding="6">
  <thead><tr>
    {''.join([f'<th>{c}</th>' for c in tbl_cols])}
  </tr></thead>
  <tbody>
    {''.join(rows_html)}
  </tbody>
</table>
"""

# galeria de imagens (embutidas em base64)
import base64, os
imgs_html = ""
for p in generated_pngs:
    try:
        with open(p, "rb") as img_file:
            img_data = base64.b64encode(img_file.read()).decode("utf-8")
        imgs_html += f'<div style="display:inline-block;margin:8px;text-align:center;"><img src="data:image/png;base64,{img_data}" width="360"><br><small>{html_escape(os.path.basename(p))}</small></div>'
    except Exception as e:
        print(f"[ERRO] Não foi possível embutir a imagem {p}: {e}")

html = f"""<!DOCTYPE html>
<html lang="pt-br">
<head>
<meta charset="utf-8">
<title>Relatório de Anomalias — {html_escape(run_id)}</title>
<style>
body{{font-family:Arial,Helvetica,sans-serif; margin:24px;}}
h1,h2,h3{{margin-top:1.2em;}}
code,pre{{background:#f5f5f5; padding:2px 4px;}}
.small{{color:#666; font-size:0.9em;}}
</style>
</head>
<body>
<h1>Relatório de Anomalias</h1>
<p class="small">Execução: <b>{html_escape(run_id)}</b><br>
Criado em: {html_escape(meta['created_at'])}</p>

<h2>Parâmetros principais</h2>
<ul>
  <li>TOPK: {TOPK}</li>
  <li>Percentil de corte: {ANOMALY_PERCENTILE}%</li>
  <li>Janela temporal (casos): {WINDOW_DAYS} dias</li>
  <li>Métodos no ensemble: IsolationForest, LOF{', OneClassSVM' if 'score_ocsvm' in feat_df.columns and feat_df['score_ocsvm'].sum()!=0 else ''}, z-scores, rareza, burstiness</li>
</ul>

<h2>Distribuições</h2>
<p>Arquivos gerados em <code>{html_escape(str(FIG_DIR))}</code>:</p>
<ul>
  <li><code>dist_ensemble_score.png</code></li>
  <li><code>top_anomalias.png</code></li>
</ul>
<p><i>As imagens de distribuição e Top N não estão embutidas neste relatório para manter o tamanho do arquivo menor. Consulte a pasta '{html_escape(str(FIG_DIR))}' para visualizá-las.</i></p>

<h2>Top {TOPK} transações anômalas</h2>
{table_html}

<h2>Galeria (ego-grafos por caso)</h2>
{imgs_html if imgs_html else "<p><i>Sem imagens geradas.</i></p>"}

<h2>Arquivos desta execução</h2>
<ul>
  <li><code>Input.csv</code> (cópia do insumo)</li>
  <li><code>output.csv</code> (resultado com flag <code>is_anomaly</code>)</li>
  <li><code>log.txt</code></li>
  <li><code>run_meta.json</code></li>
  <li><code>usuarios_distintos.txt</code>, <code>beneficiarios_distintos.txt</code></li>
</ul>

<p class="small">© {datetime.now().year} — Relatório gerado automaticamente.</p>
</body>
</html>
"""
with open(REL_HTML, "w", encoding="utf-8") as f:
    f.write(html)

print(f"Relatório HTML salvo em: {REL_HTML}")

from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas
from reportlab.lib.units import cm

PDF_PATH = RUN_DIR / "relatorio_resumo.pdf"

c = canvas.Canvas(str(PDF_PATH), pagesize=A4)
W, H = A4
x, y = 2*cm, H - 2*cm

def write_line(text, size=10, leading=12):
    global y
    c.setFont("Helvetica", size)
    c.drawString(x, y, text)
    y -= leading
    if y < 2*cm:
        c.showPage()
        init_page()

def init_page():
    global x, y
    c.setFont("Helvetica-Bold", 14)
    c.drawString(2*cm, H - 2*cm, "Relatório de Anomalias (Resumo)")
    c.setFont("Helvetica", 9)
    c.drawString(2*cm, H - 2.5*cm, f"Execução: {run_id}")
    c.drawString(2*cm, H - 2.9*cm, f"Data: {datetime.now().isoformat(timespec='seconds')}")
    y = H - 3.5*cm

init_page()
write_line(f"TOPK: {TOPK} | Corte: p{ANOMALY_PERCENTILE} | Janela: {WINDOW_DAYS}d")

# cabeçalho da 'tabela'
write_line("-"*95)
write_line("trans_id | timestamp         | user -> benef | valor | ensemble | iso | lof | rz_u | rz_p | rare | burst", 8, 10)
write_line("-"*95)

for _, r in top_tbl.iterrows():
    line = (f"{int(r['trans_id']):7d} | {str(r['timestamp'])[:19]:19s} | "
            f"{str(r['user_id'])[:8]}→{str(r['beneficiario_id'])[:8]:8s} | "
            f"{float(r['valor_pago']):.2f} | {float(r['ensemble_score']):.3f} | "
            f"{float(r['score_iso']):.2f} | {float(r['score_lof']):.2f} | "
            f"{float(r['score_rz_user']):.2f} | {float(r['score_rz_par']):.2f} | "
            f"{float(r['score_rare']):.2f} | {float(r['score_burst']):.2f}")
    write_line(line, 8, 10)

c.showPage()
c.save()
print(f"PDF salvo em: {PDF_PATH}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>🤖 Skynet</b>: Fim do jogo. A Humanidade perdeu. Dá-se início à Era das Máquinas.</div>'))