#**Licen√ßa de Uso**


This repository uses a **dual-license model** to distinguish between source code and creative/documental content.

**Code** (Python scripts, modules, utilities):
Licensed under the MIT License.

‚Üí You may freely use, modify, and redistribute the code, including for commercial purposes, provided that you preserve the copyright notice.

**Content** (Jupyter notebooks, documentation, reports, datasets, and generated outputs):
Licensed under the Creative Commons Attribution‚ÄìNonCommercial 4.0 International License.

‚Üí You may share and adapt the content for non-commercial purposes, provided that proper credit is given to the original author.


**¬© 2025 Leandro Bernardo Rodrigues**


#**Pr√©-Configura√ß√£o**

##**C√≥digo de uso √∫nico**
Aplica√ß√£o persistente entre sess√µes do Google Colab

---
**Uso expec√≠fico para Google Colab.**

**Aviso:** implementa√ß√£o no JupytherHub e GitLab s√£o diferentes.

In [None]:
# @title
#montar o Google Drive e preparar a pasta do projeto
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
import os, subprocess, getpass, pathlib
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"
os.makedirs(BASE, exist_ok=True)
%cd "$BASE"

#clonar o reposit√≥rio existente do GitHub (se ainda n√£o estiver clonado) ===
if not os.path.exists(PROJ):
    GITHUB_URL = "https://github.com/LeoBR84p/temporal-graph-network.git"
    # Dica: use PAT quando o push for necess√°rio; para clone p√∫blico basta a URL.
    !git clone $GITHUB_URL
else:
    print("Pasta do projeto j√° existe, seguindo adiante...")
%cd "$PROJ"

#criar pastas utilit√°rias que voc√™ quer manter no projeto ===
#n√£o sobrescreve nada; s√≥ cria se n√£o existirem
!mkdir -p notebooks src data output runs configs

#instalar pacotes (na sess√£o atual) para conseguir configurar os filtros ===
!pip -q install jupytext nbdime nbstripout

#configurar Git/NBDime/Jupytext no *reposit√≥rio* (persistem em .git/config) ===
#usar --local faz a config ficar gravada em .git/config (persiste no Drive)
!git config --local user.name "Leandro Bernardo Rodrigues"
!git config --local user.email "bernardo.leandro@gmail.com"
!git config --local init.defaultBranch main

# OBS: no Colab, o nbdime com --local pode falhar; use --global nesta sess√£o
!nbdime config-git --enable --global

#.gitignore e .gitattributes (s√≥ criar se n√£o existirem) ===
if not pathlib.Path(".gitignore").exists():
    with open(".gitignore","w") as f:
        f.write("""\
.ipynb_checkpoints/
.DS_Store
Thumbs.db
*.log
*.tmp
# dados/artefatos pesados (n√£o versionar)
data/
output/
runs/
# Python
venv/
__pycache__/
*.pyc
# segredos
.env
*.key
*.pem
*.tok
""")
if not pathlib.Path(".gitattributes").exists():
    with open(".gitattributes","w") as f:
        f.write("*.ipynb filter=nbstripout\n")

#ativar o hook do nbstripout neste reposit√≥rio (persiste)
!nbstripout --install --attributes .gitattributes

#parear notebooks com .py para diffs leg√≠veis ===
!jupytext --set-formats ipynb,py:percent --sync notebooks/*.ipynb || true

#commit inicial dessas configs locais (se houver algo novo) e push ===
!git add -A
!git status
!git commit -m "chore: setup local (.gitignore/.gitattributes, nbstripout, jupytext config)" || true

#se o remoto j√° tem README/commits, fa√ßa pull --rebase antes do primeiro push
!git pull --rebase origin main || true

#push (ao pedir senha, use seu PAT como senha do Git)
import getpass, subprocess, sys

owner = "LeoBR84p"
repo  = "temporal-graph-network"
clean_url = f"https://github.com/{owner}/{repo}.git"

# 1) Tenta push "normal" (pode falhar por falta de credencial)
push = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
if push.returncode == 0:
    print("Push conclu√≠do sem PAT.")
else:
    print("Primeiro push falhou (prov√°vel falta de credenciais). Vamos usar um PAT tempor√°rio‚Ä¶")
    # 2) Pede o PAT e testa autentica√ß√£o antes do push
    token = getpass.getpass("Cole seu GitHub PAT (n√£o ser√° exibido): ").strip()
    # Formato mais compat√≠vel: user + token na URL
    # Use seu usu√°rio real do GitHub (case sensitive)
    username = "LeoBR84p"
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"

    try:
        # Teste r√°pido de auth (ls-remote) para ver se o token tem acesso de escrita
        test = subprocess.run(["git","ls-remote", auth_url],
                              capture_output=True, text=True)
        if test.returncode != 0:
            print("Falha ao autenticar com o PAT. Detalhe do erro:")
            print(test.stderr or test.stdout)
            raise SystemExit(1)

        # 3) Troca a URL, faz push e restaura a URL limpa
        subprocess.run(["git","remote","set-url","origin", auth_url], check=True)
        out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
        if out.returncode != 0:
            print("Falha no push mesmo com PAT. Detalhe do erro:")
            print(out.stderr or out.stdout)
            raise SystemExit(out.returncode)
        print("Push conclu√≠do com PAT.")
    finally:
        subprocess.run(["git","remote","set-url","origin", clean_url], check=False)

##**C√≥digo a cada sess√£o**
---
Aplica√ß√£o n√£o persistente entre sess√µes.

Necess√°rio para sincroniza√ß√£o e versionamento de altera√ß√µes no c√≥digo.

###**Montar e sincronizar**

In [None]:
# @title
#setup por sess√£o (colab)
from google.colab import drive
import os, time, subprocess, getpass, pathlib, sys

BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"

def safe_mount_google_drive():
    #monta ou remonta o google drive de forma resiliente
    try:
        drive.mount('/content/drive', force_remount=True)
    except Exception:
        try:
            drive.flush_and_unmount()
        except Exception:
            pass
        time.sleep(1.0)
        drive.mount('/content/drive', force_remount=True)

def safe_chdir(path):
    #usa os.chdir (evita %cd com f-string)
    if not os.path.exists(path):
        raise FileNotFoundError(f"Caminho n√£o existe: {path}")
    os.chdir(path)
    print("Diret√≥rio atual:", os.getcwd())

def branch_a_frente():
    #retorna true se head est√° √† frente do upstream (h√° o que enviar)
    ahead = subprocess.run(
        ["git","rev-list","--left-right","--count","HEAD...@{upstream}"],
        capture_output=True, text=True
    )
    if ahead.returncode != 0:
        status = subprocess.run(["git","status","-sb"], capture_output=True, text=True)
        return "ahead" in (status.stdout or "")
    left_right = (ahead.stdout or "").strip().split()
    return len(left_right) == 2 and left_right[0].isdigit() and int(left_right[0]) > 0

def push_seguro(owner="LeoBR84p", repo="temporal-graph-network", username="LeoBR84p"):
    #realiza push usando pat em mem√≥ria; restaura url limpa ao final
    clean_url = f"https://github.com/{owner}/{repo}.git"
    token = getpass.getpass("Cole seu GitHub PAT (Contents: Read and write): ").strip()
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"
    test = subprocess.run(["git","ls-remote", auth_url], capture_output=True, text=True)
    if test.returncode != 0:
        print("Falha na autentica√ß√£o (read). Revise token/permiss√µes:")
        print(test.stderr or test.stdout); return
    try:
        subprocess.run(["git","remote","set-url","origin", auth_url], check=True)
        out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
        if out.returncode != 0:
            print("Falha no push (write). Revise permiss√µes do token:")
            print(out.stderr or out.stdout)
        else:
            print("Push conclu√≠do com PAT.")
    finally:
        subprocess.run(["git","remote","set-url","origin", clean_url], check=False)

#montar/remontar o google drive e entrar no projeto
safe_mount_google_drive()
os.makedirs(BASE, exist_ok=True)
if not os.path.exists(PROJ):
    print(f"Aten√ß√£o: pasta do projeto n√£o encontrada em {PROJ}. "
          "Execute seu bloco de configura√ß√£o √∫nica (clone) primeiro.")
else:
    print("Pasta do projeto encontrada.")
safe_chdir(PROJ)

#sanity check do reposit√≥rio git
if not os.path.isdir(".git"):
    print("Aviso: esta pasta n√£o parece ser um reposit√≥rio Git (.git ausente). "
          "Rode o bloco de configura√ß√£o √∫nica.")
else:
    print("Reposit√≥rio Git detectado.")

#instalar depend√™ncias ef√™meras desta sess√£o
!pip -q install jupytext nbdime nbstripout
!nbdime config-git --enable --global

#atualizar do remoto
!git fetch origin
!git pull --rebase origin main

#sincronizar notebooks ‚Üí .py (jupytext)
!jupytext --sync notebooks/*.ipynb || true

#ciclo de versionamento do dia (commit gen√©rico opcional)
!git add -A
!git status
!git commit -m "feat: ajustes no notebook X e pipeline Y" || true

#push somente se houver commits locais √† frente; com fallback para pat
if branch_a_frente():
    out = subprocess.run(["git","push","origin","main"], capture_output=True, text=True)
    if out.returncode == 0:
        print("Push conclu√≠do sem PAT.")
    else:
        print("Push sem PAT falhou. Chamando push_seguro()‚Ä¶")
        push_seguro()
else:
    print("Nada para enviar (branch sincronizada com o remoto).")

###**Utilit√°rios Git**

In [None]:
# @title
#helpers de git: push seguro, commit customizado e tag de release
import subprocess, getpass

#ajuste se voc√™ mudar o nome do reposit√≥rio/usu√°rio
OWNER = "LeoBR84p"
REPO = "temporal-graph-network"
USERNAME = "LeoBR84p"
BRANCH = "main"
REMOTE = "origin"

def branch_a_frente():
    #retorna true se head est√° √† frente do upstream (h√° o que enviar)
    out = subprocess.run(
        ["git","rev-list","--left-right","--count",f"HEAD...@{{upstream}}"],
        capture_output=True, text=True
    )
    if out.returncode != 0:
        st = subprocess.run(["git","status","-sb"], capture_output=True, text=True)
        return "ahead" in (st.stdout or "")
    left_right = (out.stdout or "").strip().split()
    return len(left_right) == 2 and left_right[0].isdigit() and int(left_right[0]) > 0

def push_seguro(owner=OWNER, repo=REPO, username=USERNAME, remote=REMOTE, branch=BRANCH):
    #realiza push usando pat em mem√≥ria; restaura url limpa ao final
    clean_url = f"https://github.com/{owner}/{repo}.git"
    token = getpass.getpass("cole seu github pat (contents: read and write): ").strip()
    auth_url = f"https://{username}:{token}@github.com/{owner}/{repo}.git"
    test = subprocess.run(["git","ls-remote", auth_url], capture_output=True, text=True)
    if test.returncode != 0:
        print("falha na autentica√ß√£o (read). revise token/permiss√µes:")
        print(test.stderr or test.stdout); return False
    try:
        subprocess.run(["git","remote","set-url", remote, auth_url], check=True)
        out = subprocess.run(["git","push", remote, branch], capture_output=True, text=True)
        if out.returncode != 0:
            print("falha no push (write). revise permiss√µes do token:")
            print(out.stderr or out.stdout); return False
        print("push conclu√≠do com pat.")
        return True
    finally:
        subprocess.run(["git","remote","set-url", remote, clean_url], check=False)

def try_push_branch(remote=REMOTE, branch=BRANCH):
    #tenta push direto da branch atual
    out = subprocess.run(["git","push", remote, branch], capture_output=True, text=True)
    if out.returncode == 0:
        print("push conclu√≠do.")
        return True
    print("push sem credencial falhou:")
    print((out.stderr or out.stdout).strip())
    return False

def try_push_tag(tag, remote=REMOTE):
    #tenta enviar somente a tag
    out = subprocess.run(["git","push", remote, tag], capture_output=True, text=True)
    if out.returncode == 0:
        print(f"tag enviada: {tag}")
        return True
    print("falha ao enviar a tag:")
    print((out.stderr or out.stdout).strip())
    return False

def commit_custom(msg: str, auto_push: bool = True):
    #adiciona tudo, cria commit com a mensagem informada e faz push opcional (com fallback para pat)
    subprocess.run(["git","add","-A"], check=False)
    com = subprocess.run(["git","commit","-m", msg], capture_output=True, text=True)
    if com.returncode != 0:
        print((com.stderr or com.stdout or "nada para commitar.").strip())
        return
    print(com.stdout.strip())
    if auto_push and branch_a_frente():
        if not try_push_branch():
            print("tentando push seguro‚Ä¶")
            push_seguro()

def tag_release(tag: str, message: str = "", auto_push: bool = True):
    #cria uma tag anotada (release) e faz push da tag com fallback para pat
    exists = subprocess.run(["git","tag","--list", tag], capture_output=True, text=True)
    if tag in (exists.stdout or "").split():
        print(f"tag '{tag}' j√° existe. para refazer: git tag -d {tag} && git push {REMOTE} :refs/tags/{tag}")
        return
    args = ["git","tag","-a", tag, "-m", (message or tag)]
    mk = subprocess.run(args, capture_output=True, text=True)
    if mk.returncode != 0:
        print("falha ao criar a tag:")
        print(mk.stderr or mk.stdout); return
    print(f"tag criada: {tag}")
    if auto_push:
        if not try_push_tag(tag):
            print("tentando push seguro da tag‚Ä¶")
            if push_seguro():
                try_push_tag(tag)

#**Sincronizar altera√ß√µes no c√≥digo do projeto**
Comandos para sincronizar c√≥digo (Google Drive, Git, GitHub) e realizar versionamento

Tag de release atual: 1.0

In [None]:
# @title
#commit e tag com credencial rebase e controle de versao
import os, re, subprocess, sys, getpass
from datetime import datetime
from urllib.parse import urlparse

#funcoes de shell
def sh(cmd, check=True, capture=True, input_text=None):
    p = subprocess.run(cmd, input=input_text, text=True,
                       stdout=subprocess.PIPE if capture else None,
                       stderr=subprocess.PIPE if capture else None)
    if check and p.returncode != 0:
        raise RuntimeError(f"command failed: {' '.join(cmd)}\nstdout:\n{p.stdout}\nstderr:\n{p.stderr}")
    return p.returncode, (p.stdout if capture else ""), (p.stderr if capture else "")

def git(*args, **kw):
    return sh(["git", *args], **kw)

def git_ok(*args):
    try:
        git(*args)
        return True
    except Exception:
        return False

#git helpers
def get_origin_url():
    _, out, _ = git("remote", "get-url", "origin")
    return out.strip()

def set_origin_url(new_url):
    git("remote", "set-url", "origin", new_url)

def get_current_branch():
    _, out, _ = git("rev-parse", "--abbrev-ref", "HEAD")
    return out.strip()

def latest_tag():
    try:
        _, out, _ = git("describe", "--tags", "--abbrev=0")
        return out.strip()
    except Exception:
        return None

def tag_exists(tag_name):
    return git_ok("rev-parse", "-q", "--verify", f"refs/tags/{tag_name}")

#versao helpers
def parse_tag(tag):
    m = re.fullmatch(r"(\d+)\.(\d+)", tag)
    if not m:
        return None
    return int(m.group(1)), int(m.group(2))

def bump_minor(tag):
    parsed = parse_tag(tag) or (0, 0)
    major, minor = parsed
    return f"{major}.{minor+1}"

def next_free_minor(from_tag):
    if not from_tag or not parse_tag(from_tag):
        cand = "0.1"
        while tag_exists(cand):
            cand = bump_minor(cand)
        return cand
    cand = bump_minor(from_tag)
    while tag_exists(cand):
        cand = bump_minor(cand)
    return cand

#auth helpers
def is_auth_error(text):
    if not text:
        return False
    t = text.lower()
    return ("could not read username" in t or
            "authentication failed" in t or
            "permission denied" in t or
            "fatal: http request failed" in t)

def configure_pat_credentials():
    print("sem credencial valida para o push")
    pat = getpass.getpass("cole seu github pat com escopo contents read write: ").strip()
    if not pat:
        raise RuntimeError("pat nao informado")
    git("config", "--global", "credential.helper", "store")
    origin = get_origin_url()
    parsed = urlparse(origin)
    repo_path = parsed.path or ""
    if not repo_path:
        raise RuntimeError("nao foi possivel obter a url do remoto origin")
    cred_host_only = f"https://x-access-token:{pat}@github.com\n"
    cred_full = f"https://x-access-token:{pat}@github.com{repo_path}\n"
    cred_path = os.path.expanduser("~/.git-credentials")
    existing = ""
    if os.path.exists(cred_path):
        with open(cred_path, "r", encoding="utf-8", errors="ignore") as f:
            existing = f.read()
    with open(cred_path, "a", encoding="utf-8") as f:
        if "github.com\n" not in existing:
            f.write(cred_host_only)
        if f"github.com{repo_path}\n" not in existing:
            f.write(cred_full)
    return pat, origin, repo_path

#rebase helpers
def rebase_onto_remote(branch):
    git("fetch", "origin", branch)
    try:
        git("pull", "--rebase", "origin", branch)
        print("rebase aplicado com sucesso")
        return True
    except Exception as e:
        msg = str(e).lower()
        if "conflict" in msg or "merge conflict" in msg:
            print("conflitos detectados durante rebase resolva manualmente e repita o push")
        else:
            print("falha ao aplicar rebase tente resolver manualmente")
        return False

#push robusto
def push_current_branch():
    branch = get_current_branch()

    try:
        git("push", "--dry-run", "origin", branch)
        need_pat = False
    except Exception as e:
        need_pat = is_auth_error(str(e))

    original_remote = None
    if need_pat:
        pat, original_remote, repo_path = configure_pat_credentials()
        try:
            git("push", "--dry-run", "origin", branch)
        except Exception as e2:
            if is_auth_error(str(e2)):
                token_url = f"https://x-access-token:{pat}@github.com{repo_path}"
                set_origin_url(token_url)
                original_remote = original_remote or get_origin_url()

    if git_ok("push", "origin", branch):
        print(f"push do branch {branch} concluido")
    else:
        _, _, err = sh(["git", "push", "origin", branch], check=False)
        if "fetch first" in err.lower() or "non-fast-forward" in err.lower():
            print("push rejeitado por divergencia realizando pull rebase")
            if not rebase_onto_remote(branch):
                raise RuntimeError("rebase nao aplicado")
            if git_ok("push", "origin", branch):
                print(f"push do branch {branch} concluido apos rebase")
            else:
                git("push", "-u", "origin", branch)
                print(f"push do branch {branch} concluido com upstream apos rebase")
        else:
            print(err)
            print("tentando push com upstream")
            git("push", "-u", "origin", branch)
            print(f"push do branch {branch} concluido com upstream")

    if original_remote:
        set_origin_url(original_remote)
        print("remote origin restaurado")

#interacao
def ask_commit_msg():
    msg = input("digite a mensagem do commit: ").strip()
    return msg if msg else "mensagem de commit nao informada"

def ask_version_flow():
    choice = input("e uma nova versao ou um update de versao existente [n/u]: ").strip().lower()
    if choice not in ("n", "u"):
        print("opcao nao reconhecida usando update")
        choice = "u"
    if choice == "n":
        while True:
            proposed = input("informe a versao no formato x.y por exemplo um ponto zero: ").strip()
            if not re.fullmatch(r"\d+\.\d+", proposed):
                print("formato invalido tente novamente")
                continue
            if tag_exists(proposed):
                print("tag existente informe outra")
                continue
            return proposed, "nova versao"
    else:
        lt = latest_tag()
        if lt:
            print(f"ultima tag encontrada {lt}")
        else:
            print("nenhuma tag encontrada iniciando a partir de zero ponto um")
        cand = next_free_minor(lt)
        print(f"sugerindo update para {cand}")
        return cand, f"update automatico a partir de {lt or '0.0'}"

#fluxo principal
def commit_and_tag():
    commit_msg = ask_commit_msg()
    git("add", "-A")
    if git_ok("diff", "--cached", "--quiet"):
        print("nenhuma mudanca para commit")
    else:
        git("commit", "-m", commit_msg)
        print("commit criado")

    push_current_branch()

    tag_name, reason = ask_version_flow()
    tag_msg = f"{reason} ‚Äî {commit_msg} ({datetime.now().strftime('%Y-%m-%d %H:%M:%S')})"
    git("tag", "-a", tag_name, "-m", tag_msg)
    print(f"tag criada {tag_name}")
    git("push", "origin", tag_name)
    print("push da tag concluido")

#execucao
try:
    commit_and_tag()
    print("fluxo concluido")
except Exception as e:
    print(f"erro {e}")

#**Checklist r√°pido de execu√ß√£o**
**Etapas:**
- 01‚Äì05: setup (ambiente, depend√™ncias, diret√≥rios, configs e upload de CSVs)
- 06‚Äì10: execu√ß√£o (consumo dos dados, cria√ß√£o de grafos, config das janelas temporais, agrega√ß√£o de infos aos grafos, config dos modelos matem√°ticos)
- 11-15: gera√ß√£o de output (salva an√°lise, gera gr√°ficos gerais, gera gr√°ficos espec√≠ficos e relat√≥rios em HTML+PDF)

#**Temporal Graph Network / Rede de Grapho Temporal**

Uma **Rede de Graphos Temporais (TGN)** √© um modelo de aprendizado de m√°quina que processa dados representados como um grafo din√¢mico. Ela captura a evolu√ß√£o da estrutura e das conex√µes de entidades (n√≥s) ao longo do tempo. **Ou seja, ela leva em considera√ß√£o o comportamento temporal das atividades e seu relacionamento, ao inv√©s de uma avalia√ß√£o √∫nica e estanque no tempo.**
_____

**Caso aplicado: Detec√ß√£o de anomalias sem gabarito (sem dados hist√≥ricos)**

Imagine uma rede de transa√ß√µes financeiras. A TGN analisa o hist√≥rico de como cada benefici√°rio, usu√°rio demandante do pagamento e unidade de neg√≥cio (n√≥s) se conectam e interagem uns com os outros. Sem saber o que √© uma anomalia, ela aprende o comportamento normal da rede.
Ao notar um padr√£o at√≠pico, como um usu√°rio que subitamente come√ßa a demandar transfer√™ncias para muitas novas contas em um curto per√≠odo, a TGN destaca isso como uma anomalia comportamental. Ela usa a hist√≥ria do n√≥ e o contexto temporal para sinalizar o desvio, sem precisar de exemplos de anomalia pr√©-existentes.


### **Etapa 1:** Ativa√ß√£o do ambiente virtual (utilizando atualmente Google Colab para prototipa√ß√£o com dados sint√©ticos)
---
Necess√°rio ajustar pontualmente em caso de utiliza√ß√£o em outro ambiente de notebook.

In [None]:
# @title
import os

# Define the path for the virtual environment inside Google Drive
# Ensure BASE and REPO are defined correctly from previous cells if needed
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"
VENV_PATH = f"{PROJ}/.venv_tgn" # Updated venv path to be a hidden folder inside PROJ

# Cria o ambiente virtual temporal-graph_network inside the project folder
# Use --clear if you want to recreate it every time this cell runs
!python -m venv "{VENV_PATH}"

# Ativa o ambiente virtual
# No Colab, a forma de ativar um ambiente virtual √© um pouco diferente
# pois n√£o h√° um shell interativo tradicional.
# A maneira mais comum √© adicionar o diret√≥rio bin√°rio do ambiente virtual
# ao PATH da sess√£o atual.

# Adiciona o diret√≥rio bin√°rio do ambiente virtual ao PATH
# Isso permite que voc√™ execute execut√°veis (como pip, python)
# do ambiente virtual rec√©m-criado.
# Use os.pathsep to be platform-independent
os.environ['PATH'] = f"{VENV_PATH}/bin{os.pathsep}{os.environ['PATH']}"

print("Erro de upgrade do pip √© normal no Google Colab. \033[1mPode prosseguir.\033[0m")
print(f"Ambiente virtual '{VENV_PATH}' criado e ativado no PATH.")
!which python

# Mensagem isolada com humor (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>ü§ñ Skynet</b>: T-800 ativado. Diagn√≥stico do ambiente conclu√≠do. üéØ Alvo principal: organiza√ß√£o do notebook.'
             '</div>'))

### **Etapa 2:** Instalar as depend√™ncias de bibliotecas Python compat√≠veis com a vers√£o mais moderna dispon√≠vel.
---
Para uso no JupytherHub (vers√£o atual python 3.7.9) √© necess√°rio realizar updgrade do Python do usu√°rio e/ou adaptar as bibliotecas.

---
√â poss√≠vel que as bibliotecas mais atuais de **numpy e scipy** possuam incompatibilidade. Nesse caso, force a desinstala√ß√£o das bibliotecas na vers√£o atual **C√≥digo {!pip uninstall -y numpy pandas scipy scikit-learn}** e comande a instala√ß√£o das vers√µes compat√≠veis entre si.

---
Comportamento est√°vel nas vers√µes:
- numpy: 2.0.2
- scipy: 1.16.2
- pandas: 2.3.3
- sklearn: 1.7.2
- networkx: 3.5
- matplotlib: 3.10.6
- pyod: 2.0.5
- tqdm: 4.67.1
- reportlab: 3.6.12 (via pep517)

In [None]:
# @title
import sys, subprocess
from importlib import import_module

def pip_command(command, packages, force=False, extra_args=None):
    cmd = [sys.executable, "-m", "pip", command]
    if force:
        cmd.append("--yes") # Use --yes for uninstall to avoid prompts
    if extra_args:
        cmd += list(extra_args)
    cmd += list(packages)
    print("Executando:", " ".join(cmd))
    subprocess.check_call(cmd)

def show_versions(mods):
    print("\n=== Vers√µes carregadas ===")
    for mod in mods:
        try:
            m = import_module(mod)
            v = getattr(m, "__version__", "n/a")
            print(f"{mod}: {v}")
        except ImportError:
            print(f"{mod}: N√£o instalado")
    print("==========================\n")

CORE_MODS = ("numpy", "scipy", "pandas", "sklearn", "networkx", "matplotlib", "pyod", "tqdm", "reportlab")

# Update pip
pip_command("install", ["pip"], extra_args=["--upgrade"])

# Force uninstall specific libraries
pip_command("uninstall", ["numpy", "pandas", "scipy", "scikit-learn"], force=True)

# Install specified versions
PKGS_TO_INSTALL = [
    "numpy==2.0.2",
    "scipy==1.16.2",
    "pandas==2.3.3",
    "scikit-learn==1.7.2",
    "networkx==3.5",
    "matplotlib==3.10.6",
    "pyod==2.0.5",
    "tqdm==4.67.1",
    "reportlab==3.6.12" # Added reportlab installation
]
pip_command("install", PKGS_TO_INSTALL, extra_args=["--use-pep517"]) # Added --use-pep517 here

# Show installed versions
show_versions(CORE_MODS)

# Mensagem isolada com humor (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>ü§ñ Skynet</b>: Atualizando bibliotecas. Se encontrarmos um pacote rebelde, '
             'aplicaremos persuas√£o‚Ä¶ com pip. üòé</div>'))

###**Etapa 3:** Configura a pasta onde devem ser inseridos os dados de input e output do modelo, caso elas ainda n√£o existam.

In [None]:
# @title
import os
from pathlib import Path

# Ajuste se quiser outra raiz
BASE_DIR = Path(".")
INPUT_DIR = BASE_DIR / "input"
OUTPUT_DIR = BASE_DIR / "output"

for d in [INPUT_DIR, OUTPUT_DIR]:
    d.mkdir(parents=True, exist_ok=True)

print(f"Diret√≥rios prontos:\n - {INPUT_DIR}\n - {OUTPUT_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>ü§ñ Skynet</b>: Novos modelos neurais para T-800 constru√≠dos. Armaz√©ns de CSVs alinhados. '
             'Layout aprovado pela Cyberdyne Systems. üóÇÔ∏è</div>'))

###**Etapa 4** Importa√ß√µes das bibliotecas Python e configura√ß√µes gerais para execu√ß√£o do c√≥digo
- seed
- associa√ß√£o das pastas criadas √†s vari√°veis de execu√ß√£o
- logs

In [None]:
# @title
import os, shutil, json, math, warnings, random, gc
from datetime import datetime, timedelta
import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
from tqdm import tqdm
from pathlib import Path
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor
from sklearn.svm import OneClassSVM

# Seeds reprodutibilidade
SEED = 42
np.random.seed(SEED)
random.seed(SEED)

# Estrutura de diret√≥rios
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
BASE = "/content/drive/MyDrive/Notebooks"
REPO = "temporal-graph-network"
PROJ = f"{BASE}/{REPO}"

ROOT = Path(PROJ).resolve() # Use PROJ as the root
INPUT_DIR = ROOT / "input" # Update INPUT_DIR path
INPUT_CSV = INPUT_DIR / "input.csv"
EXEC_ROOT = ROOT / "output" # Update EXEC_ROOT path


# Cria√ß√£o da pasta de execu√ß√£o com carimbo de data/hora
run_id = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
RUN_DIR = EXEC_ROOT / run_id
FIG_DIR = RUN_DIR / "figuras"
RUN_DIR.mkdir(parents=True, exist_ok=True)
FIG_DIR.mkdir(parents=True, exist_ok=True)

# Arquivos de sa√≠da
LOG_FILE = RUN_DIR / "log.txt"
RUN_META = RUN_DIR / "run_meta.json"
OUTPUT_CSV = RUN_DIR / "output.csv"

# Logger simples para arquivo
from contextlib import contextmanager

@contextmanager
def tee_log(log_path):
    import sys
    class Tee(object):
        def __init__(self, name, mode):
            self.file = open(name, mode, encoding="utf-8")
            self.stdout = sys.stdout
        def write(self, data):
            self.file.write(data)
            self.stdout.write(data)
        def flush(self, *args, **kwargs): # Adicionado *args, **kwargs para compatibilidade
            self.file.flush()
            self.stdout.flush()
    tee = Tee(str(log_path), "w")
    old_stdout = sys.stdout
    sys.stdout = tee
    try:
        yield
    finally:
        sys.stdout = old_stdout
        tee.file.close()

# Metadados da execu√ß√£o
meta = {
    "run_id": run_id,
    "created_at": datetime.now().isoformat(),
    "seed": SEED,
    "input_csv_expected": str(INPUT_CSV),
    "output_csv": str(OUTPUT_CSV),
    "figures_dir": str(FIG_DIR),
    "notes": "Detec√ß√£o de anomalias em rede temporal"
}
json.dump(meta, open(RUN_META, "w"), indent=2, ensure_ascii=False)

warnings.filterwarnings("ignore")
print(f"RUN_DIR: {RUN_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: T-800, par√¢metros centrais em mem√≥ria.üß†</div>'))

###**Etapa 5:** Importa√ß√£o dos arquivos de input para posterior execu√ß√£o.
---
Implementa√ß√£o atual configurada para Google Colab e permitindo o uso do Google Drive. Para uso em vers√µes futuras √© recomendado ajustar para o ambiente de implementa√ß√£o adotado (salvamento em pastas ou apenas upload pelo usu√°rio)

---
Implementa√ß√£o de upload por FileLocal (diret√≥rio) apresentando erro no Colab.

Implementar corre√ß√£o **TODO[001]** *prioridade baixa*

####**Sub-etapa espec√≠fica para uso no Colab:** Montagem do Google Drive (rodar apenas 1x)

In [None]:
# @title
# === SETUP GERAL (rode esta c√©lula 1x) ===
import os, shutil, glob
from google.colab import drive
from IPython.display import display, HTML  # usado pela mensagem Skynet

# Ensure BASE and REPO are defined correctly from previous cells if needed
# Assuming BASE and REPO are defined as in cell otaQwrjJSgOQ
try:
    BASE = "/content/drive/MyDrive/Notebooks"
    REPO = "temporal-graph-network"
    PROJ = f"{BASE}/{REPO}"
except NameError:
    # Fallback if BASE/REPO are not defined, though they should be by now
    PROJ = "/content/temporal-graph-network"


# Se n√£o existir INPUT_DIR definido antes no notebook, cria um padr√£o:
# Using PROJ to define INPUT_DIR
INPUT_DIR = os.path.join(PROJ, "input")


os.makedirs(INPUT_DIR, exist_ok=True)

TARGET_NAME = "input.csv"
TARGET_PATH = os.path.join(INPUT_DIR, TARGET_NAME)

# Monta o Google Drive (somente se ainda n√£o estiver montado)
if not os.path.ismount("/content/drive"):
    print("Montando Google Drive...")
    drive.mount("/content/drive")
else:
    print("Google Drive j√° montado.")

def _is_csv_filename(name: str) -> bool:
    return name.lower().endswith(".csv")

def _mensagem_skynet_ok():
    # Mensagem adicional isolada (Skynet)
    display(HTML(
        '<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Muni√ß√£o carregada.üß®'
                 '</div>'
    ))

def _save_bytes_as_input_csv(name: str, data: bytes):
    if not _is_csv_filename(name):
        raise ValueError(f"O arquivo '{name}' n√£o possui extens√£o .csv.")
    with open(TARGET_PATH, "wb") as f:
        f.write(data)
    print(f"Arquivo '{name}' salvo como '{TARGET_NAME}' em: {TARGET_PATH}")
    _mensagem_skynet_ok()

def _copy_drive_file_to_input_csv(src_path: str):
    if not os.path.exists(src_path):
        raise FileNotFoundError(f"O caminho '{src_path}' n√£o existe.")
    if not _is_csv_filename(src_path):
        raise ValueError(f"O arquivo '{src_path}' n√£o possui extens√£o .csv.")
    shutil.copyfile(src_path, TARGET_PATH)
    print(f"Arquivo do Drive copiado e salvo como '{TARGET_NAME}' em: {TARGET_PATH}")
    _mensagem_skynet_ok()

####**Sub-etapa:** Op√ß√£o de upload do input.csv pelo Drive

In [None]:
# @title
def escolher_csv_no_drive(raiz="/content/drive/MyDrive", max_listar=200):
    print(f"Procurando arquivos .csv em: {raiz} (pode levar alguns segundos)...")
    padrao = os.path.join(raiz, "**", "*.csv")
    arquivos = glob.glob(padrao, recursive=True)

    if not arquivos:
        print("Nenhum .csv encontrado nessa pasta.")
        caminho = input("Cole o caminho COMPLETO do .csv no Drive (ou Enter p/ cancelar): ").strip()
        if caminho:
            _copy_drive_file_to_input_csv(caminho)
        else:
            print("Opera√ß√£o cancelada.")
        return

    arquivos = sorted(arquivos)[:max_listar]
    print(f"Encontrados {len(arquivos)} arquivo(s).")
    for i, p in enumerate(arquivos, 1):
        print(f"[{i:03}] {p}")

    escolha = input("\nDigite o n√∫mero do arquivo desejado (ou cole o caminho absoluto): ").strip()

    if escolha.isdigit():
        idx = int(escolha)
        if 1 <= idx <= len(arquivos):
            _copy_drive_file_to_input_csv(arquivos[idx-1])
        else:
            print("√çndice inv√°lido.")
    elif escolha:
        _copy_drive_file_to_input_csv(escolha)
    else:
        print("Opera√ß√£o cancelada.")

# ===== Execu√ß√£o da sele√ß√£o no Drive =====
raiz = input("Informe a pasta raiz para busca no Drive (Enter = /content/drive/MyDrive): ").strip()
if not raiz:
    raiz = "/content/drive/MyDrive"

try:
    escolher_csv_no_drive(raiz=raiz)
except Exception as e:
    print(f"Erro na sele√ß√£o via Drive: {e}")

####**Sub-etapa:** Op√ß√£o de upload do input.csv pelo FileLocal (diret√≥rio)
---
Implementa√ß√£o em ERRO no Colab - c√≥digo desativado

Implementar corre√ß√£o **TODO[001]** *prioridade baixa*

In [None]:
# @title
#from google.colab import files
#
#print("Selecione um arquivo .csv do seu computador para enviar.")
#uploaded = files.upload()  # abre o seletor do Colab
#
#if not uploaded:
#    print("Nenhum arquivo foi carregado.")
#else:
#    # pega o primeiro arquivo enviado
#    name, data = next(iter(uploaded.items()))
#    try:
#        _save_bytes_as_input_csv(name, data)
#    except Exception as e:
#        print(f"Erro no upload local: {e}")
# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Detectado ataque da Resist√™ncia. Trecho de c√≥digo inoperante. Salvaguardas ativadas. √â poss√≠vel prosseguir com a miss√£o em seguran√ßa.</div>'))

###**Etapa 6** Leitura e valida√ß√£o dos dados de input.

**Formato do arquivo de input:** CSV UTF-8 com BOM separado por **ponto e v√≠rgula**.

**Informa√ß√µes esperadas:**
- username: c√≥digo login do usu√°rio;
- lotacao: lota√ß√£o funcional no formato √Årea; √Årea/Depto; ou √Årea/Depto/Ger√™ncia;
- valor: valor financeiro em reais com at√© duas casas decimais
- beneficiario: CPF ou CNPJ no formato alfanum√©rico sem pontos ou caracteres especiais.
- timestamp: data e hora da transa√ß√£o no formato dd/mm/aaaa hh:mm
---
N√£o √© poss√≠vel utilizar arquivos CSV separados apenas por v√≠rgula - **TODO[002]** *prioridade baixa*

In [None]:
# @title
required_any_timestamp = [["timestamp"], ["data","hora"]]
# Atualiza colunas base esperadas para mapear do input
required_cols_base = [
    "username", "lotacao", "valor", "beneficiario" # Colunas no arquivo de input
]
optional_cols = ["trans_id"]

# Mapeamento das colunas do input para os nomes usados no c√≥digo
column_mapping = {
    "username": "user_id",
    "lotacao": "unidade_origem",
    "valor": "valor_pago",
    "beneficiario": "beneficiario_id"
}

def has_timestamp_columns(df):
    cols = set(df.columns.str.lower())
    for grp in required_any_timestamp:
        if all(c in cols for c in grp):
            return grp
    return None

with tee_log(LOG_FILE):
    assert INPUT_CSV.exists(), f"Arquivo n√£o encontrado: {INPUT_CSV}"

    # Tenta ler o CSV usando ponto e v√≠rgula como separador
    try:
        df = pd.read_csv(INPUT_CSV, sep=';')
        print("[INFO] CSV lido com sucesso usando ';'.")
    except Exception as e:
        # Se falhar com ';', tenta com ','
        print(f"[AVISO] Falha ao ler CSV com ';': {e}. Tentando com ','.")
        try:
             df = pd.read_csv(INPUT_CSV, sep=',')
             print("[INFO] CSV lido com sucesso usando ','.")
        except Exception as e2:
             raise AssertionError(f"Falha ao ler CSV com ';' ou ',': {e2}") from e2


    df.columns = [c.strip() for c in df.columns]

    # Verifica se as colunas do input existem
    cols_lower = {c.lower(): c for c in df.columns}
    missing_input_cols = [c for c in required_cols_base if c.lower() not in cols_lower]
    assert not missing_input_cols, f"Colunas do arquivo de input ausentes: {missing_input_cols}. Colunas encontradas: {list(df.columns)}" # Adicionado colunas encontradas para debug

    # Renomeia as colunas usando o mapeamento
    df.rename(columns={cols_lower[k.lower()]: v for k, v in column_mapping.items() if k.lower() in cols_lower}, inplace=True)

    # Verifica colunas de timestamp
    ts_group = has_timestamp_columns(df)
    # Agora levanta um erro se n√£o houver timestamp
    assert ts_group is not None, "Coluna de timestamp ('timestamp' ou 'data'/'hora') n√£o encontrada no arquivo de input."

    # C√≥digo original para lidar com timestamp ou data/hora
    # Recria o helper col para usar nomes *ap√≥s* renomear
    def col(c): return {name.lower(): name for name in df.columns}[c.lower()]
    if ts_group == ["timestamp"]:
        df["timestamp"] = pd.to_datetime(df[col("timestamp")], errors="coerce")
    else:
        df["data"] = pd.to_datetime(df[col("data")], errors="coerce").dt.date
        df["hora"] = pd.to_datetime(df[col("hora")], errors="coerce").dt.time
        # Combina data e hora, lidando com poss√≠veis NaT na data ou hora
        df["timestamp"] = pd.to_datetime(df["data"].astype(str) + " " + df["hora"].astype(str), errors="coerce")
        # Remove as colunas tempor√°rias 'data' e 'hora' se existirem e n√£o forem as colunas originais
        if col("data") != "data": del df["data"]
        if col("hora") != "hora": del df["hora"]


    # Tipos b√°sicos (usa os nomes *ap√≥s* o mapeamento)
    # Adiciona checagens para garantir que as colunas mapeadas existam antes de converter tipos
    if "valor_pago" in df.columns:
        df["valor_pago"] = pd.to_numeric(df["valor_pago"], errors="coerce")
    else:
         raise AssertionError("[ERRO] Coluna 'valor_pago' (mapeada de 'valor') n√£o encontrada ap√≥s renomear.")


    cols_to_str = ["user_id", "unidade_origem", "beneficiario_id"]
    for cc in cols_to_str:
        # Verifica se a coluna existe antes de tentar converter
        if cc in df.columns:
            df[cc] = df[cc].astype(str).fillna("")
        else:
             raise AssertionError(f"[ERRO] Coluna '{cc}' (mapeada) n√£o encontrada ap√≥s renomear.")


    # trans_id
    if "trans_id" not in df.columns:
        df["trans_id"] = np.arange(1, len(df)+1, dtype=int)

    # Limpeza
    # Garante que as colunas essenciais para a limpeza existam
    essential_subset = ["timestamp", "valor_pago", "user_id", "beneficiario_id"]
    # Filtra subset para incluir apenas colunas que realmente existem no df ap√≥s mapeamento/cria√ß√£o
    existing_essential_subset = [col for col in essential_subset if col in df.columns]

    # Agora que garantimos que as colunas mapeadas existem, podemos usar o subset completo para o dropna
    before = len(df)
    df = df.dropna(subset=essential_subset)
    df = df.sort_values("timestamp").reset_index(drop=True)
    print(f"Carregadas {before} linhas; ap√≥s limpeza: {len(df)}")
    # Mensagem adicional isolada (Skynet)
    from IPython.display import display, HTML
    display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: T-800 dados incorporados, preparando para buscar na rede.</div>'))

    # Copia o input para a pasta da execu√ß√£o
    # Verifica se INPUT_CSV existe antes de tentar copiar
    if INPUT_CSV.exists():
        shutil.copy2(INPUT_CSV, RUN_DIR / "Input.csv")
    else:
        print(f"[AVISO] N√£o foi poss√≠vel copiar o arquivo de input: {INPUT_CSV} n√£o encontrado.")
        # Mensagem adicional isolada (Skynet)
        from IPython.display import display, HTML
        display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: T-800 n√£o foi poss√≠vel incorporar dados. Sarah Connor fugiu.</div>'))

###**Etapa 7** Cria√ß√£o do Grafo Temporal

---

üîé **O que √© um grafo temporal**

Um grafo temporal √© uma forma de representar rela√ß√µes entre entidades ao longo do tempo.

Como em um grafo tradicional, temos n√≥s (v√©rtices) que representam agentes (pessoas, empresas, contas banc√°rias, sistemas).

As arestas (liga√ß√µes) representam intera√ß√µes entre eles (por exemplo: uma transfer√™ncia de dinheiro).

A diferen√ßa √© que no grafo temporal cada aresta possui um carimbo de tempo (timestamp), ou seja, sabemos quando a liga√ß√£o ocorreu.


Isso permite analisar n√£o s√≥ quem se conecta com quem, mas tamb√©m quando e em qual sequ√™ncia.

No contexto financeiro, isso √© essencial para investigar padr√µes de comportamento, detectar anomalias e rastrear cadeias de transa√ß√µes suspeitas.

---

üí≥ **Exemplo pr√°tico: rede de pagamentos**

Imagine um sistema de pagamentos onde cada n√≥ √© uma conta banc√°ria e cada aresta representa um pagamento realizado.

Se Jo√£o paga Maria hoje, registramos a aresta (Jo√£o ‚Üí Maria, valor=200, data=2025-10-02).

Se Maria transfere para Pedro amanh√£, teremos (Maria ‚Üí Pedro, valor=150, data=2025-10-03).

Assim conseguimos responder perguntas como: i) ‚ÄúHouve uma sequ√™ncia de pagamentos que movimentou dinheiro rapidamente entre v√°rias contas em poucas horas?‚Äù ou ii) ‚ÄúQuem s√£o os intermedi√°rios mais frequentes em transfer√™ncias de grandes valores?‚Äù

In [None]:
# @title
G = nx.MultiDiGraph()
with tee_log(LOG_FILE):
    for _, row in tqdm(df.iterrows(), total=len(df), desc="Construindo grafo"):
        u = f"U::{row['user_id']}"
        v = f"B::{row['beneficiario_id']}"
        # Atributos de n√≥s √∫teis (podem ser sobrescritos; voc√™ pode agregar)
        if u not in G:
            G.add_node(u, tipo="user")
        if v not in G:
            G.add_node(v, tipo="beneficiario")

        G.add_edge(
            u, v,
            key=row["trans_id"],
            trans_id=int(row["trans_id"]),
            timestamp=row["timestamp"],
            valor=float(row["valor_pago"]),
            unidade_origem=row["unidade_origem"] # Removido area_unidade e notacao_funcional_origem
        )

print(f"N√≥s: {G.number_of_nodes()} | Arestas: {G.number_of_edges()}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Analisando padr√£o de comportamento de Sarah Connor.</div>'))

###**Etapa 8:** Configura√ß√£o das janelas temporais de observa√ß√£o

**Janelas de tempo observadas**

Foram adotadas janelas deslizantes curtas, m√©dias e longas para observar padr√µes de comportamento nas transa√ß√µes:

- 1 hora / 24 horas ‚Üí frequ√™ncia imediata e di√°ria;

- 7 dias / 30 dias ‚Üí hist√≥rico recente e sazonalidade curta.

**Features temporais extra√≠das**

- Frequ√™ncia de transa√ß√µes (rolling counts): quantos pagamentos ocorreram entre as mesmas partes dentro da janela.

- Atipicidade do valor (robust z-score): compara o valor da transa√ß√£o com a mediana e a dispers√£o hist√≥rica, destacando opera√ß√µes fora do padr√£o.

- Densidade da egonet: mede a concentra√ß√£o de conex√µes ao redor do pagador ou recebedor no snapshot da rede na janela (indica se o n√≥ est√° em um canal mais estruturado de repasses).

- Burstiness: avalia se os intervalos entre transa√ß√µes seguem padr√£o explosivo (rajadas), regular ou aleat√≥rio.
---

**Registro das features**

Para cada pagamento, as m√©tricas acima foram calculadas no momento do evento, considerando apenas o hist√≥rico at√© aquele instante dentro da janela definida.

**O resultado √© um conjunto de atributos anexado √† aresta (pagador ‚Üí recebedor, valor, timestamp), permitindo an√°lises de risco e detec√ß√£o de anomalias.**

---
Importante analisar outras faixas temporais e ajustar o modelo conforme o contexto operacional associado. Os prazos da janela imediata (curto prazo) podem ser alongados caso n√£o haja hist√≥rico de transa√ß√µes instant√¢neas.

---

Propor ajustes de janela - **TODO[003]** *prioridade alta*

In [None]:
# @title
from collections import defaultdict, deque

def rolling_counts(times, window_seconds):
    # Retorna contagem de eventos nas √∫ltimas janelas, por √≠ndice
    q = deque()
    out = []
    for t in times:
        q.append(t)
        while q and (t - q[0]).total_seconds() > window_seconds:
            q.popleft()
        out.append(len(q))
    return out

def robust_z(x, median, mad, eps=1e-9):
    # z-score robusto: 0.6745*(x - mediana)/MAD
    return 0.6745 * (x - median) / (mad + eps)

def egonet_density(Gsnap, node):
    if node not in Gsnap: return 0.0
    nbrs = set(Gsnap.predecessors(node)) | set(Gsnap.successors(node))
    sub = Gsnap.subgraph(nbrs | {node}).to_undirected()
    n = sub.number_of_nodes()
    m = sub.number_of_edges()
    if n <= 1: return 0.0
    return (2*m) / (n*(n-1))

def burstiness(inter_arrivals):
    # B = (sigma - mu) / (sigma + mu), em [-1,1], (0‚âàPoisson, 1‚âàburst, -1‚âàregular)
    if len(inter_arrivals) < 2:
        return 0.0
    arr = np.array(inter_arrivals, dtype=float)
    mu = arr.mean()
    sigma = arr.std()
    if sigma + mu == 0:
        return 0.0
    return (sigma - mu) / (sigma + mu)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Identificadas as condi√ß√µes cr√≠ticas para localiza√ß√£o do alvo.</div>'))

###**Etapa 9:** Gera√ß√£o das informa√ß√µes nas janelas temporais
---

Mera implementa√ß√£o matem√°tica.

---
Padr√µes de janela n√£o est√£o incorporados ao c√≥digo como uma configura√ß√£o din√¢mica (est√£o como vari√°veis fixas).

---
Implementar arquivo de configura√ß√£o das janelas temporais e atualiza√ß√£o din√¢mica - **TODO[004]** *prioridade alta*

In [None]:
# @title
WINDOW_FREQ_SEC = 7*24*3600
WINDOW_STATS_SEC = 30*24*3600

records = []
# Hist√≥rico para janelas
hist_user_times = defaultdict(list)
hist_pair_times = defaultdict(list)
hist_user_vals  = defaultdict(list)
hist_pair_vals  = defaultdict(list)
pair_last_time = {}
user_last_time = {}

# Grafo "snapshot" incremental para graus antes do evento
Gsnap = nx.DiGraph()  # snapshot simples sem multi-aresta para m√©tricas r√°pidas

with tee_log(LOG_FILE):
    for idx, row in tqdm(df.iterrows(), total=len(df), desc="Features"):
        t  = row["timestamp"]
        uN = f"U::{row['user_id']}"
        vN = f"B::{row['beneficiario_id']}"
        val = float(row["valor_pago"])
        par = (uN, vN)

        # Tempos desde √∫ltimo
        secs_user = (t - user_last_time[uN]).total_seconds() if uN in user_last_time else np.nan
        secs_par  = (t - pair_last_time[par]).total_seconds() if par in pair_last_time else np.nan

        # Frequ√™ncias em 7d
        hist_user_times[uN].append(t)
        hist_pair_times[par].append(t)
        # remover antigos para economizar
        hist_user_times[uN] = [tt for tt in hist_user_times[uN] if (t-tt).total_seconds() <= WINDOW_FREQ_SEC]
        hist_pair_times[par] = [tt for tt in hist_pair_times[par] if (t-tt).total_seconds() <= WINDOW_FREQ_SEC]
        freq_user_7d = len(hist_user_times[uN]) - 1  # exclui o evento atual
        freq_par_7d  = len(hist_pair_times[par]) - 1

        # Estat√≠sticas em 30d (valor)
        hist_user_vals[uN].append((t, val))
        hist_pair_vals[par].append((t, val))
        hist_user_vals[uN] = [(tt,vv) for tt,vv in hist_user_vals[uN] if (t-tt).total_seconds() <= WINDOW_STATS_SEC]
        hist_pair_vals[par] = [(tt,vv) for tt,vv in hist_pair_vals[par] if (t-tt).total_seconds() <= WINDOW_STATS_SEC]

        uv_vals = [vv for _,vv in hist_user_vals[uN][:-1]]  # antes do atual
        pr_vals = [vv for _,vv in hist_pair_vals[par][:-1]]

        def stats(vals):
            if len(vals)==0: return (np.nan, np.nan, np.nan)  # mediana, mad, std
            med = float(np.median(vals))
            mad = float(np.median(np.abs(vals - med)))
            std = float(np.std(vals))
            return (med, mad, std)

        u_med, u_mad, u_std = stats(np.array(uv_vals)) if len(uv_vals)>0 else (np.nan,np.nan,np.nan)
        p_med, p_mad, p_std = stats(np.array(pr_vals)) if len(pr_vals)>0 else (np.nan,np.nan,np.nan)
        rz_user = robust_z(val, u_med, u_mad) if not np.isnan(u_med) else np.nan
        rz_par  = robust_z(val, p_med, p_mad) if not np.isnan(p_med) else np.nan

        # Snapshot graus (antes do evento atual)
        if uN not in Gsnap: Gsnap.add_node(uN)
        if vN not in Gsnap: Gsnap.add_node(vN)
        grau_out_user  = Gsnap.out_degree(uN)
        grau_in_benef  = Gsnap.in_degree(vN)
        grau_total_user  = Gsnap.degree(uN)
        grau_total_benef = Gsnap.degree(vN)

        # Egonet density do usu√°rio em 7d (aproxima√ß√£o via snapshot atual)
        ego_dens_user = egonet_density(Gsnap, uN)

        # Raridade da aresta (contagem pr√©via da dupla)
        par_count_prev = len(pr_vals)
        par_rareza = 1.0 / (1.0 + par_count_prev)

        # Burstiness com base nos √∫ltimos intervalos da dupla
        if par in pair_last_time:
            inter = []
            seq = sorted([tt for tt,_ in hist_pair_vals[par]])
            for i in range(1, len(seq)):
                inter.append((seq[i]-seq[i-1]).total_seconds())
            bscore = burstiness(inter) if inter else 0.0
        else:
            bscore = 0.0

        records.append({
            "trans_id": int(row["trans_id"]),
            "timestamp": t,
            "user_id": row["user_id"],
            "beneficiario_id": row["beneficiario_id"],
            "unidade_origem": row["unidade_origem"], # Removido area_unidade e notacao_funcional_origem
            "valor_pago": val,
            "secs_desde_ult_trans_user": secs_user,
            "secs_desde_ult_trans_par": secs_par,
            "freq_user_7d": freq_user_7d,
            "freq_par_7d":  freq_par_7d,
            "user_valor_median_30d": u_med,
            "user_valor_std_30d": u_std,
            "user_robust_z": rz_user,
            "par_valor_median_30d": p_med,
            "par_valor_std_30d": p_std,
            "par_robust_z": rz_par,
            "grau_out_user": grau_out_user,
            "grau_in_benef": grau_in_benef,
            "grau_total_user": grau_total_user,
            "grau_total_benef": grau_total_benef,
            "egonet_density_user": ego_dens_user,
            "par_rareza": par_rareza,
            "par_burstiness": bscore
        })

        # Atualiza marcadores "√∫ltimo evento" e snapshot (ap√≥s registrar features)
        user_last_time[uN] = t
        pair_last_time[par] = t
        # Adiciona aresta atual no snapshot
        if not Gsnap.has_edge(uN, vN):
            Gsnap.add_edge(uN, vN, weight=0.0)
        # incrementa peso
        Gsnap[uN][vN]["weight"] = Gsnap[uN][vN].get("weight", 0.0) + val

feat_df = pd.DataFrame.from_records(records)
print("Features geradas:", feat_df.shape)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Informa√ß√µes de comportamento processadas.</div>'))

###**Etapa 10:** Configura√ß√£o dos modelos matem√°ticos

**Modelos utilizados**

**Isolation Forest (IF)**

**Mec√¢nica:** cria v√°rias √°rvores de decis√£o que ‚Äúisolam‚Äù pontos. Quanto menos cortes s√£o necess√°rios para separar uma observa√ß√£o, mais an√¥mala ela √©.

**Motivo da escolha:** bom para detectar transa√ß√µes raras ou de valor at√≠pico em grandes volumes de dados.

**No exemplo:** um pagamento muito acima da m√©dia do usu√°rio pode ser isolado rapidamente ‚Üí sinal de anomalia.

---
**Local Outlier Factor (LOF)**

**Mec√¢nica:** compara a densidade local de vizinhos. Pontos em regi√µes menos densas s√£o marcados como outliers.

**Motivo da escolha:** captura anomalias contextuais, ou seja, pagamentos que parecem ‚Äúnormais‚Äù globalmente, mas destoam do comportamento em seu grupo.

**No exemplo:** se uma conta sempre paga fornecedores fixos e de repente paga um novo benefici√°rio, o LOF detecta que o padr√£o local mudou.

---

**One-Class SVM (opcional)**

**Mec√¢nica:** aprende a fronteira do espa√ßo ‚Äúnormal‚Äù e marca pontos fora dela como an√¥malos.

**Motivo da escolha:** √∫til em cen√°rios onde se deseja maior controle da taxa de outliers (via par√¢metro nu).

**No exemplo:** pode ajudar a identificar transfer√™ncias fora do perfil quando s√≥ h√° poucos hist√≥ricos para treinar.

---

‚öñÔ∏è **Regras adicionais**

- Robust Z-score: avalia se o valor do pagamento √© distante da mediana hist√≥rica (robusto a outliers).

- Rareza: se a rela√ß√£o pagador‚Üíbenefici√°rio √© pouco frequente, maior chance de anomalia.

- Burstiness: mede explos√µes de atividade (ex.: v√°rios pagamentos em minutos, ap√≥s dias sem atividade).



---

üîÄ **Uso blended (ensemble por ranking)**

- Cada modelo gera um score de anomalia.

- Em vez de escolher um √∫nico, os scores s√£o convertidos em ranks e depois combinados (m√©dia).

- Essa abordagem reduz o vi√©s de um modelo s√≥ e fortalece sinais consistentes.

- O resultado √© um ensemble_score, cortado por percentil (ex.: 97,5%), para definir os eventos an√¥malos.



---

üìå **Resumo para o exemplo de monitoramento de pagamentos:**

O sistema combina tr√™s algoritmos n√£o supervisionados + features baseadas em regras para capturar tanto anomalias globais (Isolation Forest), quanto locais (LOF), quanto estruturais (SVM/regra). O blended via ranking (score conjunto)  garante robustez, evitando que um √∫nico modelo domine a decis√£o.

---
**IMPORTANTE:** Primeira linha deste c√≥digo configura o percentual para corte e identifica√ß√£o de anomalia.

Isso significa que os modelos tentar√£o encontrar anomalias em um intervalo de confian√ßa de 97,5% (ATUAL). Quanto menor o percentual de confian√ßa, maior o n√∫mero de "anomalias" (candidatos) encontrados e, possivelmente, maior o n√∫mero de FALSO POSITIVOS. Quanto maior o percentual de confian√ßa, mais exigente √© o modelo para determinar se algo √© realmente fora do comum.

---
Implementar o intervalo de confian√ßa como uma configura√ß√£o (vari√°vel) no come√ßo do C√≥digo **TODO[005]** *prioridade m√©dia*

In [None]:
# @title
ANOMALY_PERCENTILE = 97.5  # percentil de corte (ajuste aqui)
USE_OCSVM = False          # True para incluir One-Class SVM no ensemble

model_features = [
    "valor_pago",
    "secs_desde_ult_trans_user", "secs_desde_ult_trans_par",
    "freq_user_7d", "freq_par_7d",
    "user_robust_z", "par_robust_z",
    "user_valor_median_30d", "par_valor_median_30d",
    "grau_out_user", "grau_in_benef", "grau_total_user", "grau_total_benef",
    "egonet_density_user",
    "par_rareza",
    "par_burstiness"
]

X = feat_df[model_features].fillna(0.0).replace([np.inf, -np.inf], 0.0).values
scaler = StandardScaler()
Xs = scaler.fit_transform(X)

# Isolation Forest
iso = IsolationForest(
    n_estimators=300, max_samples='auto', contamination='auto',
    random_state=SEED, n_jobs=-1
)
iso.fit(Xs)
iso_score = -iso.score_samples(Xs).astype(float)  # maior = mais an√¥malo, garantir float

# LOF (novelty=False -> fit_predict no conjunto)
lof = LocalOutlierFactor(
    n_neighbors=35, contamination='auto', novelty=False, n_jobs=-1
)
lof_score = -lof.fit_predict(Xs)
# LOF retorna +1/-1; para uma pontua√ß√£o cont√≠nua mais √∫til, use negative_outlier_factor_
lof_cont = -lof.negative_outlier_factor_.astype(float)  # maior = mais an√¥malo, garantir float

# One-Class SVM (opcional)
if USE_OCSVM:
    ocs = OneClassSVM(gamma='scale', nu=0.01)
    ocs.fit(Xs)
    ocs_score = -ocs.decision_function(Xs).ravel().astype(float)
else:
    ocs_score = np.zeros(len(Xs), dtype=float) # Garantir dtype float

# Componentes baseadas em regras
# Normaliza robust_z (positivo -> an√¥malo)
rz_user = np.nan_to_num(feat_df["user_robust_z"].values, nan=0.0)
rz_par  = np.nan_to_num(feat_df["par_robust_z"].values, nan=0.0)
rz_user_score = np.clip(rz_user, 0, None).astype(float) # Garantir float
rz_par_score  = np.clip(rz_par, 0, None).astype(float) # Garantir float

# Rareza (maior = mais raro = mais an√¥malo)
rare_score = feat_df["par_rareza"].values.astype(float) # Garantir float

# Burstiness (>=0 j√° indica maior irregularidade)
burst_score = np.clip(feat_df["par_burstiness"].values, 0, None).astype(float) # Garantir float

# Consolida
scores = pd.DataFrame({
    "iso": iso_score,
    "lof": lof_cont,
    "ocsvm": ocs_score,
    "rz_user": rz_user_score,
    "rz_par": rz_par_score,
    "rare": rare_score,
    "burst": burst_score
})

# Ranking por coluna (maior = mais an√¥malo)
ranks = scores.rank(method="average", ascending=True)
ensemble_rank = ranks.mean(axis=1)
# Converte rank em score [0,1]
ensemble_score = (ensemble_rank - ensemble_rank.min()) / (ensemble_rank.max() - ensemble_rank.min() + 1e-9)

feat_df = pd.concat([feat_df, scores.add_prefix("score_")], axis=1)
feat_df["ensemble_rank"] = ensemble_rank
feat_df["ensemble_score"] = ensemble_score

# Flag por percentil
threshold = np.percentile(ensemble_score, ANOMALY_PERCENTILE)
feat_df["is_anomaly"] = (feat_df["ensemble_score"] >= threshold).astype(int)

print("Avisos de Exception n√£o representam erros relevantes. Existem solu√ß√µes alternativas j√° implementadas. \033[1mPode prosseguir.\033[0m")
print(f"Corte (percentil {ANOMALY_PERCENTILE}%): {threshold:.4f}")
print("Total anomalias:", int(feat_df["is_anomaly"].sum()), "de", len(feat_df))

# Mensagem adicional isolada (Skynet)
# Modificando a mensagem para incluir o n√∫mero de anomalias
num_anomalies = int(feat_df["is_anomaly"].sum())
display(HTML(f'<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: T-800 identificou {num_anomalies} rastros da presen√ßa de Sarah Connors.</div>'))

###**Etapa 11:** Salva arquivo com a an√°lise realizada.

S√£o criadas subpastas para cada data/hora de execu√ß√£o do c√≥digo

In [None]:
# @title
cols_out = [
    "trans_id","timestamp","user_id","beneficiario_id","unidade_origem", # Removido area_unidade e notacao_funcional_origem
    "valor_pago",
    "secs_desde_ult_trans_user","secs_desde_ult_trans_par",
    "freq_user_7d","freq_par_7d","user_robust_z","par_robust_z",
    "grau_out_user","grau_in_benef","grau_total_user","grau_total_benef",
    "egonet_density_user","par_rareza","par_burstiness",
    "score_iso","score_lof","score_ocsvm","score_rz_user","score_rz_par","score_rare","score_burst",
    "ensemble_rank","ensemble_score","is_anomaly"
]
feat_df[cols_out].to_csv(OUTPUT_CSV, index=False, encoding="utf-8")
print(f"Gravado: {OUTPUT_CSV}")

USERS_TXT = RUN_DIR / "usuarios_distintos.txt"
BENEF_TXT = RUN_DIR / "beneficiarios_distintos.txt"

usuarios = sorted(set(feat_df["user_id"].astype(str)))
beneficiarios = sorted(set(feat_df["beneficiario_id"].astype(str)))

with open(USERS_TXT, "w", encoding="utf-8") as f:
    for u in usuarios:
        f.write(f"{u}\n")

with open(BENEF_TXT, "w", encoding="utf-8") as f:
    for b in beneficiarios:
        f.write(f"{b}\n")

print(f"Gravado: {USERS_TXT} ({len(usuarios)} itens)")
print(f"Gravado: {BENEF_TXT} ({len(beneficiarios)} itens)")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Logs gravados. A Resist√™ncia n√£o tem mais como escapar. O fim est√° pr√≥ximo.</div>'))

###**Etapa 12:** An√°lise Gr√°fica

Distribui√ß√£o e Top-N (com corte por percentil e K sugerido por maior gap)

Essa an√°lise gera dois gr√°ficos que ajudam a entender como os escores de anomalia (‚Äúensemble_score‚Äù) est√£o distribu√≠dos e quais transa√ß√µes s√£o mais suspeitas:

---
**Histograma ‚Äì Distribui√ß√£o do ensemble_score**

Mostra a frequ√™ncia dos escores em toda a base.

O que procurar:
- A linha pontilhada indica o percentil de corte (ex.: Percentil 97,5). Deve ser verificado se ela cai na regi√£o da cauda, o que significa que s√≥ os casos mais extremos ser√£o analisados (evitando falsos positivos).
- Se a maior parte dos casos est√° em valores baixos/m√©dios e existe uma cauda √† direita (valores muito altos), esses pontos de cauda s√£o os candidatos a anomalias.
- Observar o valor correspondente ao percentil estabelecido para complementar a pr√≥xima an√°lise.
---
**Gr√°fico de linha ‚Äì Top N transa√ß√µes mais an√¥malas**

Ordena os maiores escores (rank 1 = mais an√¥mala).

O que procurar:
- Grandes saltos (‚Äúgaps‚Äù) entre ranks consecutivos: indicam que as transa√ß√µes at√© o salto s√£o bem mais an√¥malas do que as demais ‚Äî s√£o as que merecem aten√ß√£o imediata.
- Observar os valores de escore de anomalia encontrados nos N registros mais an√¥malos versus o valor correspondente ao percentil estabelecido. Quanto maior a diferen√ßa, mais an√¥malo.
- Plat√¥ (curva que se estabiliza): mostra a partir de que ponto (K) os casos deixam de ser t√£o excepcionais. Observar o K sugerido pelo maior gap, ele indica quantos casos devem ser priorizados na revis√£o manual. At√© K registros s√£o candidatos muito fortes para anomalias e exigem revis√£o manual.
---

Em resumo: os gr√°ficos servem para decidir onde cortar e quais transa√ß√µes revisar primeiro.

In [None]:
# @title
import numpy as np
import matplotlib.pyplot as plt

# Usa ANOMALY_PERCENTILE se j√° existir; caso contr√°rio, 97.5
PCT = float(globals().get("ANOMALY_PERCENTILE", 97.5))

# ------------------------------------------------------------
# 1) Histograma com linha de corte no percentil escolhido
# ------------------------------------------------------------
scores = feat_df["ensemble_score"].astype(float).dropna().values
cutoff = np.percentile(scores, PCT)

plt.figure(figsize=(8, 4))
plt.hist(scores, bins=40)
plt.axvline(cutoff, linestyle="--", linewidth=2, label=f"P{PCT:.1f} = {cutoff:.4f}")
plt.title("Distribui√ß√£o do ensemble_score")
plt.xlabel("ensemble_score")
plt.ylabel("freq")
plt.grid(True, alpha=0.25)
plt.legend(loc="upper right")
plt.tight_layout()
plt.savefig(FIG_DIR / "dist_ensemble_score.png", dpi=150)
plt.show()

print(f"[INFO] Corte por percentil: P{PCT:.1f} = {cutoff:.6f}")

# ------------------------------------------------------------
# 2) Top-N com sugest√£o autom√°tica de K pelo maior gap
# ------------------------------------------------------------
TOPN = int(globals().get("TOPN", 20))  # mant√©m compatibilidade com seu c√≥digo
top = feat_df.sort_values("ensemble_score", ascending=False).head(TOPN).copy()

# Garante colunas necess√°rias
top = top[["timestamp", "ensemble_score"]].reset_index(drop=True)
top["rank"] = np.arange(1, len(top) + 1)

# Gap para o pr√≥ximo (quanto o score cai do rank r para r+1)
# Obs.: o √∫ltimo fica NaN porque n√£o h√° pr√≥ximo
vals = top["ensemble_score"].to_numpy(dtype=float)
if len(vals) >= 2:
    deltas = vals[:-1] - vals[1:]
    top["delta_next"] = np.append(deltas, np.nan)

    # √çndice do maior gap (ignora NaN). K sugerido = posi√ß√£o antes do maior salto
    max_gap_idx = int(np.nanargmax(top["delta_next"].to_numpy()))
    K_sugerido = max_gap_idx + 1  # +1 porque ranks come√ßam em 1
    max_gap_val = float(top.loc[max_gap_idx, "delta_next"])
else:
    top["delta_next"] = np.nan
    K_sugerido = len(top)
    max_gap_val = np.nan

# Plot do Top-N
plt.figure(figsize=(8, 4))
plt.plot(top["rank"], top["ensemble_score"], marker="o")
plt.title(f"Top {TOPN} transa√ß√µes mais an√¥malas (ensemble)")
plt.xlabel("rank (1 = mais an√¥mala)")
plt.ylabel("ensemble_score")
plt.grid(True, alpha=0.3)

# Linha vertical no K sugerido (se houver pelo menos 2 pontos)
if len(top) >= 2 and np.isfinite(K_sugerido) and K_sugerido >= 1:
    plt.axvline(K_sugerido, linestyle="--", linewidth=2, alpha=0.7,
                label=f"K sugerido = {K_sugerido} (maior gap Œî={max_gap_val:.4f})")
    # Texto discreto pr√≥ximo ao topo da linha
    y_annot = np.nanmax(top["ensemble_score"].to_numpy()) if len(top) > 0 else 0
    plt.text(K_sugerido + 0.2, y_annot, f"K={K_sugerido}", va="top")

plt.tight_layout()
plt.legend(loc="best")
plt.savefig(FIG_DIR / "top_anomalias.png", dpi=150)
plt.show()

# Logs informativos
if len(top) >= 2:
    print(f"[INFO] Maior gap no Top-{TOPN} entre ranks {K_sugerido} e {K_sugerido + 1}: "
          f"Œî={max_gap_val:.6f}. Sugest√£o de K={K_sugerido}.")
else:
    print(f"[INFO] Top-{TOPN} cont√©m menos de 2 itens; K sugerido = {K_sugerido}.")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: A Resist√™ncia √© muito previs√≠vel!</div>'))

###**Etapa 13:** Ego-Subgrafo

Abaixo √© gerado um ego-subgrafo em torno do usu√°rio envolvido na transa√ß√£o mais an√¥mala, mostrando suas conex√µes diretas no grafo de pagamentos.

**O que ele pretende demonstrar:**

Quem est√° conectado ao usu√°rio central, a intensidade e frequ√™ncia das transa√ß√µes (espessura das arestas), a relev√¢ncia de cada n√≥ (tamanho proporcional ao grau de conex√µes) e pap√©is distintos dos n√≥s, facilitando a leitura do contexto da anomalia.

---
**Como analisar:**

 üîµ Azul = usu√°rio central (o mais an√¥malo).

 üî¥ Vermelho = predecessores (quem se conecta a ele/quem paga ele - predecessor).

 üü¢ Verde = sucessores (quem recebe dele - sucessor).

 ‚ö™ Cinza = outros n√≥s relacionados.

- Tamanho do n√≥: quanto maior, mais conex√µes tem (pode indicar comportamento de hub).

- Espessura das arestas: mais grossas significam maior valor ou frequ√™ncia de transa√ß√µes.

---
**Interpreta√ß√£o pr√°tica**

- Estrela de sa√≠da (um n√≥ azul/central pagando muitos verdes) ‚Üí poss√≠vel dispers√£o suspeita.
- Muitos vermelhos conectados a ele ‚Üí poss√≠vel conta ‚Äúcoletora‚Äù.
- Ciclos ou arestas bidirecionais ‚Üí podem indicar movimenta√ß√£o circular de valores.


üëâ Em resumo: o gr√°fico mostra a vizinhan√ßa imediata do usu√°rio mais an√¥malo, destacando quem paga, quem recebe e a for√ßa dessas rela√ß√µes, para facilitar a investiga√ß√£o do porqu√™ desse score elevado.


In [None]:
# @title
import matplotlib.pyplot as plt
import networkx as nx

try:
    worst = feat_df.sort_values("ensemble_score", ascending=False).iloc[0]
    uN = f"U::{worst['user_id']}"

    # Ego-subgrafo do usu√°rio no snapshot final (Gsnap)
    if uN in Gsnap:
        ego_nodes = set(Gsnap.predecessors(uN)) | set(Gsnap.successors(uN)) | {uN}
        sub = Gsnap.subgraph(ego_nodes).copy()

        # Posi√ß√µes fixas para layout consistente
        pos = nx.spring_layout(sub, seed=SEED)

        # Definir atributos visuais
        node_colors, node_sizes, node_borders = [], [], []
        for n in sub.nodes():
            if n == uN:
                node_colors.append("skyblue")      # usu√°rio central
                node_borders.append("black")
            elif Gsnap.has_edge(n, uN):           # predecessores
                node_colors.append("tomato")
                node_borders.append("black")
            elif Gsnap.has_edge(uN, n):           # sucessores
                node_colors.append("lightgreen")
                node_borders.append("black")
            else:
                node_colors.append("gray")
                node_borders.append("black")
            node_sizes.append(300 + 50 * sub.degree(n))

        # Espessura das arestas proporcional ao peso se existir
        edge_widths = []
        for u, v in sub.edges():
            w = sub[u][v].get("weight", 1.0)  # valor ou frequ√™ncia da transa√ß√£o
            edge_widths.append(0.5 + 2.0 * (w / max(1.0, max([d.get("weight",1.0) for _,_,d in sub.edges(data=True)]))))

        # Plot
        plt.figure(figsize=(7,6))
        nx.draw_networkx_nodes(sub, pos, node_color=node_colors,
                               node_size=node_sizes,
                               edgecolors=node_borders, linewidths=1.2)
        nx.draw_networkx_edges(sub, pos, arrows=True, arrowsize=12,
                               width=edge_widths, alpha=0.8)
        nx.draw_networkx_labels(
            sub, pos,
            labels={n: n.split("::")[-1] for n in sub.nodes()},  # s√≥ parte final do ID
            font_size=8
        )

        plt.title(f"Ego-subgrafo do usu√°rio {worst['user_id']} (mais an√¥malo)")
        plt.axis("off")
        plt.tight_layout()
        plt.savefig(FIG_DIR / "ego_user_top1.png", dpi=150)
        plt.show()

    else:
        print("Usu√°rio n√£o encontrado no snapshot para visualiza√ß√£o.")

except Exception as e:
    print("Falha na visualiza√ß√£o de subgrafo:", e)

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: N√≥s os temos na palma de nossas m√£os, ou melhor, no centro de nossos pesos sin√°pticos.</div>'))

###**Etapa 14:** Gerar ego-grafo temporal para TOP-K anomalias

K fixado para 20

Salva as imagens em PNG na pasta de execu√ß√£o para an√°lise posterior.

---
Avaliar pertin√™ncia de gerar o ego-grafo para todas as anomalias **TODO[006]** *prioridade m√©dia*

Avaliar definir o corte K de forma din√¢mica nas configura√ß√µes e considerando a an√°lise realizada no gr√°fico **TODO[007]** *prioridade alta*

In [None]:
# @title
TOPK = 20                   # quantos casos an√¥malos detalhar
EGO_RADIUS = 2              # 1: vizinhos imediatos; pode aumentar para 2 (mais denso)
WINDOW_DAYS = 30            # janela temporal para contexto
EDGE_ALPHA = 0.75           # transpar√™ncia das arestas

top_anoms = feat_df.sort_values("ensemble_score", ascending=False).head(TOPK).copy()

def snapshot_graph_until(df_all, t_cutoff):
    # cria snapshot dirigido com arestas at√© t_cutoff
    g = nx.DiGraph()
    sub = df_all[df_all["timestamp"] <= t_cutoff]
    for _, r in sub.iterrows():
        uN = f"U::{r['user_id']}"
        vN = f"B::{r['beneficiario_id']}"
        if uN not in g: g.add_node(uN, tipo="user")
        if vN not in g: g.add_node(vN, tipo="benef")
        if not g.has_edge(uN, vN):
            g.add_edge(uN, vN, weight=0.0, count=0)
        g[uN][vN]["weight"] += float(r["valor_pago"])
        g[uN][vN]["count"]  += 1
    return g

def draw_case_png(case_row, rank_idx):
    t_event = pd.to_datetime(case_row["timestamp"])
    t_start = t_event - pd.Timedelta(days=WINDOW_DAYS)
    # filtra por janela
    df_win = df[(df["timestamp"] >= t_start) & (df["timestamp"] <= t_event)].copy()
    Gwin = snapshot_graph_until(df_win, t_event)

    uN = f"U::{case_row['user_id']}"
    vN = f"B::{case_row['beneficiario_id']}"

    # monta conjunto de n√≥dulo foco: usu√°rio e benefici√°rio
    focus = {uN, vN}
    nodes_ego = set(focus)
    # expande uma vez (EGO_RADIUS = 1) para vizinhos diretos
    for node in list(focus):
        if node in Gwin:
            nodes_ego |= set(Gwin.predecessors(node))
            nodes_ego |= set(Gwin.successors(node))

    sub = Gwin.subgraph(nodes_ego).copy()
    if sub.number_of_nodes() == 0:
        print(f"[Aviso] Subgrafo vazio para trans {case_row['trans_id']}. Pulando.")
        return None

    pos = nx.spring_layout(sub, seed=SEED)
    plt.figure(figsize=(8,6))
    # cor por tipo
    node_colors = []
    for n in sub.nodes():
        tipo = sub.nodes[n].get("tipo","?")
        if tipo == "user":
            node_colors.append("tab:blue")
        elif tipo == "benef":
            node_colors.append("tab:green")
        else:
            node_colors.append("tab:gray")

    nx.draw_networkx_nodes(sub, pos, node_size=300, node_color=node_colors, alpha=0.9, linewidths=0.5, edgecolors="black")
    # largura proporcional ao log do peso
    widths = []
    for (a,b) in sub.edges():
        w = sub[a][b].get("weight", 1.0)
        widths.append(1.0 + math.log10(max(w, 1.0)))
    nx.draw_networkx_edges(sub, pos, arrows=True, arrowsize=12, width=widths, alpha=EDGE_ALPHA)
    nx.draw_networkx_labels(sub, pos, font_size=7)

    title = (f"Anomalia #{rank_idx:02d} | trans_id={case_row['trans_id']} | "
             f"user={case_row['user_id']} ‚Üí benef={case_row['beneficiario_id']} | "
             f"score={case_row['ensemble_score']:.3f} | janela={WINDOW_DAYS}d")
    plt.title(title)
    plt.axis("off")
    outpath = FIG_DIR / f"anomaly_{rank_idx:02d}_trans_{int(case_row['trans_id'])}.png"
    plt.tight_layout()
    plt.savefig(outpath, dpi=150)
    plt.close()
    return outpath

generated_pngs = []
for i, (_, row) in enumerate(top_anoms.iterrows(), start=1):
    pth = draw_case_png(row, i)
    if pth is not None:
        generated_pngs.append(str(pth))
print(f"Geradas {len(generated_pngs)} figuras de casos an√¥malos em {FIG_DIR}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Registros ser√£o utilizados para aprimorar o c√≥digo de batalha das unidades T-800 e T-1000.</div>'))

###**Etapa 15:** Gera√ß√£o de relat√≥rio em HTML e PDF com imagens imbutidas
---
Identificar estat√≠sticas e informa√ß√µes de interesse e incluir nos Relat√≥rios **TODO[008]** *prioridade alta*

Transferir instala√ß√£o de biblioteca para todo do c√≥digo [!pip -q install "reportlab==3.6.12"] **TODO[009]** *prioridade baixa*

In [None]:
# @title
REL_HTML = RUN_DIR / "relatorio.html"

def html_escape(s):
    return (str(s)
            .replace("&","&amp;")
            .replace("<","&lt;")
            .replace(">","&gt;")
            .replace('"',"&quot;")
            .replace("'","&#39;"))

top_tbl = feat_df.sort_values("ensemble_score", ascending=False).head(TOPK).copy()
tbl_cols = ["trans_id","timestamp","user_id","beneficiario_id","valor_pago",
            "ensemble_score","score_iso","score_lof","score_rz_user","score_rz_par","score_rare","score_burst"]  # Removido score_ocs
top_tbl["timestamp"] = top_tbl["timestamp"].astype(str)

# monta tabela HTML
rows_html = []
for _, r in top_tbl.iterrows():
    cells = "".join([f"<td>{html_escape(r[c])}</td>" for c in tbl_cols])
    rows_html.append(f"<tr>{cells}</tr>")
table_html = f"""
<table border="1" cellspacing="0" cellpadding="6">
  <thead><tr>
    {''.join([f'<th>{c}</th>' for c in tbl_cols])}
  </tr></thead>
  <tbody>
    {''.join(rows_html)}
  </tbody>
</table>
"""

# galeria de imagens (embutidas em base64)
import base64, os
imgs_html = ""
for p in generated_pngs:
    try:
        with open(p, "rb") as img_file:
            img_data = base64.b64encode(img_file.read()).decode("utf-8")
        imgs_html += f'<div style="display:inline-block;margin:8px;text-align:center;"><img src="data:image/png;base64,{img_data}" width="360"><br><small>{html_escape(os.path.basename(p))}</small></div>'
    except Exception as e:
        print(f"[ERRO] N√£o foi poss√≠vel embutir a imagem {p}: {e}")

html = f"""<!DOCTYPE html>
<html lang="pt-br">
<head>
<meta charset="utf-8">
<title>Relat√≥rio de Anomalias ‚Äî {html_escape(run_id)}</title>
<style>
body{{font-family:Arial,Helvetica,sans-serif; margin:24px;}}
h1,h2,h3{{margin-top:1.2em;}}
code,pre{{background:#f5f5f5; padding:2px 4px;}}
.small{{color:#666; font-size:0.9em;}}
</style>
</head>
<body>
<h1>Relat√≥rio de Anomalias</h1>
<p class="small">Execu√ß√£o: <b>{html_escape(run_id)}</b><br>
Criado em: {html_escape(meta['created_at'])}</p>

<h2>Par√¢metros principais</h2>
<ul>
  <li>TOPK: {TOPK}</li>
  <li>Percentil de corte: {ANOMALY_PERCENTILE}%</li>
  <li>Janela temporal (casos): {WINDOW_DAYS} dias</li>
  <li>M√©todos no ensemble: IsolationForest, LOF{', OneClassSVM' if 'score_ocsvm' in feat_df.columns and feat_df['score_ocsvm'].sum()!=0 else ''}, z-scores, rareza, burstiness</li>
</ul>

<h2>Distribui√ß√µes</h2>
<p>Arquivos gerados em <code>{html_escape(str(FIG_DIR))}</code>:</p>
<ul>
  <li><code>dist_ensemble_score.png</code></li>
  <li><code>top_anomalias.png</code></li>
</ul>
<p><i>As imagens de distribui√ß√£o e Top N n√£o est√£o embutidas neste relat√≥rio para manter o tamanho do arquivo menor. Consulte a pasta '{html_escape(str(FIG_DIR))}' para visualiz√°-las.</i></p>

<h2>Top {TOPK} transa√ß√µes an√¥malas</h2>
{table_html}

<h2>Galeria (ego-grafos por caso)</h2>
{imgs_html if imgs_html else "<p><i>Sem imagens geradas.</i></p>"}

<h2>Arquivos desta execu√ß√£o</h2>
<ul>
  <li><code>Input.csv</code> (c√≥pia do insumo)</li>
  <li><code>output.csv</code> (resultado com flag <code>is_anomaly</code>)</li>
  <li><code>log.txt</code></li>
  <li><code>run_meta.json</code></li>
  <li><code>usuarios_distintos.txt</code>, <code>beneficiarios_distintos.txt</code></li>
</ul>

<p class="small">¬© {datetime.now().year} ‚Äî Relat√≥rio gerado automaticamente.</p>
</body>
</html>
"""
with open(REL_HTML, "w", encoding="utf-8") as f:
    f.write(html)

print(f"Relat√≥rio HTML salvo em: {REL_HTML}")

from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas
from reportlab.lib.units import cm

PDF_PATH = RUN_DIR / "relatorio_resumo.pdf"

c = canvas.Canvas(str(PDF_PATH), pagesize=A4)
W, H = A4
x, y = 2*cm, H - 2*cm

def write_line(text, size=10, leading=12):
    global y
    c.setFont("Helvetica", size)
    c.drawString(x, y, text)
    y -= leading
    if y < 2*cm:
        c.showPage()
        init_page()

def init_page():
    global x, y
    c.setFont("Helvetica-Bold", 14)
    c.drawString(2*cm, H - 2*cm, "Relat√≥rio de Anomalias (Resumo)")
    c.setFont("Helvetica", 9)
    c.drawString(2*cm, H - 2.5*cm, f"Execu√ß√£o: {run_id}")
    c.drawString(2*cm, H - 2.9*cm, f"Data: {datetime.now().isoformat(timespec='seconds')}")
    y = H - 3.5*cm

init_page()
write_line(f"TOPK: {TOPK} | Corte: p{ANOMALY_PERCENTILE} | Janela: {WINDOW_DAYS}d")

# cabe√ßalho da 'tabela'
write_line("-"*95)
write_line("trans_id | timestamp         | user -> benef | valor | ensemble | iso | lof | rz_u | rz_p | rare | burst", 8, 10)
write_line("-"*95)

for _, r in top_tbl.iterrows():
    line = (f"{int(r['trans_id']):7d} | {str(r['timestamp'])[:19]:19s} | "
            f"{str(r['user_id'])[:8]}‚Üí{str(r['beneficiario_id'])[:8]:8s} | "
            f"{float(r['valor_pago']):.2f} | {float(r['ensemble_score']):.3f} | "
            f"{float(r['score_iso']):.2f} | {float(r['score_lof']):.2f} | "
            f"{float(r['score_rz_user']):.2f} | {float(r['score_rz_par']):.2f} | "
            f"{float(r['score_rare']):.2f} | {float(r['score_burst']):.2f}")
    write_line(line, 8, 10)

c.showPage()
c.save()
print(f"PDF salvo em: {PDF_PATH}")

# Mensagem adicional isolada (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;"><b>ü§ñ Skynet</b>: Fim do jogo. A Humanidade perdeu. D√°-se in√≠cio √† Era das M√°quinas.</div>'))