# 📊 Análise, Sumarização e Reclassificação de tópicos (Clusters) com LLM

Este script tem como objetivo principal a **análise, sumarização e reclassificação de tópicos (clusters)** associados a processos judiciais envolvendo MEI, utilizando modelos de linguagem (LLMs). A seguir, as principais etapas executadas:

---

## 🧠 Sumarização dos Clusters

- São selecionados os **20 processos mais próximos do centróide** de cada tópico identificado.
- Para cada tópico (ou cluster), o LLM gera **5 informações-chave** com base nos textos:
  - `descricao_caso`
  - `questoes_em_discussao`
  - `solucoes_propostas`
  - `tese_juridica`
- O modelo responde com os seguintes resumos, que são armazenados no banco de dados:
  - `descricao_curta_cluster`
  - `descricao_longa_cluster`
  - `questoes_discussao_cluster`
  - `solucoes_propostas_cluster`
  - `teses_cluster`

---

## 🔁 Agrupamento de Tópicos Menores

- São identificados os **30 tópicos com maior número de registros**.
- Os tópicos restantes (menores) são comparados com os principais:
  - Para cada tópico menor, o LLM verifica se ele pode ser **agrupado a um dos 30 maiores**, usando como referência suas descrições.
  - Caso seja possível, os registros são reclassificados para o tópico mais adequado.

---

## 🔄 Repescagem dos Processos "Noise"

- Um prompt específico é definido na função `verificar_classificacao`.
- O script seleciona todos os **tópicos já existentes** (com coordenadas UMAP).
- Em seguida, seleciona todos os **processos que não possuem número de tópico atribuído** (`noise`).
- Para cada processo "noise", o LLM avalia se ele pode ser incluído em algum dos tópicos existentes:
  - Se sim, os campos do processo são atualizados com as informações do tópico correspondente.

---

## 📍 Visualização dos Clusters (Gráfico de Bolhas)

- São selecionados os campos:
  - `descricao_caso`, `questoes_em_discussao`, `coordenadas_umap`, `numero_topico_bertopic_padrao`
- Esses dados são enviados à função `visualizar_grafico_cluster`, que:
  - Plota cada processo no espaço 2D (reduzido por UMAP).
  - Agrupa visualmente os processos do mesmo tópico com:
    - **Mesma cor**
    - **Círculo ao redor**
    - **Raio proporcional à quantidade de registros**
    - **Centro do círculo localizado no centróide do cluster**
  - Exibe **legenda com percentual de processos por tópico**

---



In [1]:

import os
import re
import time
import json
import math
import warnings
from datetime import datetime, date
from collections import Counter
from psycopg2.extras import execute_values
from typing import Optional
import requests
import psycopg2
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.patches import Circle
from adjustText import adjust_text
from dotenv import load_dotenv
from tqdm.auto import tqdm
import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
from IPython.display import display, clear_output
from collections import defaultdict, deque

warnings.filterwarnings("ignore", message=".*pandas only supports SQLAlchemy.*")


In [2]:
# Conexão
def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="",
        password="",
        host="localhost",
        port="5432"
    )

In [3]:
# Variáveis globais para armazenar o token e o horário em que foi gerado
token = None
last_token_time = 0

# Função para obter o token da API
def get_token():
    client_id = ''
    client_secret = ''
    result = requests.request('POST', 
        "...", 
        data={"grant_type":"client_credentials"}, 
        auth=(client_id, client_secret))

    if result.ok:
        return result.json()['access_token']
    else:
        raise Exception("Erro ao obter o token")

# Função para verificar se o token está expirado (renova se necessário)
def get_valid_token():
    global token, last_token_time
    current_time = time.time()
    
    # Se o token não existe ou já passaram mais de 20 minutos, obtemos um novo
    if token is None or (current_time - last_token_time) > 20 * 60:  # 20 minutos em segundos
        token = get_token()
        last_token_time = current_time
        print("Novo token obtido.")

    return token

# Função para invocar o LLM
def invoke(prompt, modelo,token, temperature=0, max_tokens=10000, stream=False):
    # Obtém o token válido (renova se necessário)
    

    payload_data = {
        "model": modelo,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": stream
    }

    result = requests.request("POST", 
        '...', 

        data=json.dumps(payload_data), 
        headers={
            "Authorization": f"Bearer {token}", 
            "Content-Type":"application/json"})

    if result.ok:
        res = result.json()
        resposta = res["choices"][0]["message"]['content']
        return resposta
    else:
        print(result.text)


In [None]:
def gerar_e_salvar_clusters(modelo, token):
    conn = get_connection()
    cur = conn.cursor()
    modelo = 'pixtral-12b'

    # =========================
    # 0) Limpar campos antigos antes de atualizar
    # =========================
    print("🧹 Limpando campos anteriores dos clusters...")
    cur.execute("""
        UPDATE processos SET
            descricao_curta_cluster = NULL,
            descricao_longa_cluster = NULL,
            questoes_discussao_cluster = NULL,
            solucoes_propostas_cluster = NULL,
            teses_cluster = NULL
    """)
    conn.commit()
    print("✅ Campos limpos com sucesso.\n")

    df = pd.read_sql_query("""
        SELECT id, numero_processo_tribunal, descricao_caso, questoes_em_discussao, 
               solucoes_propostas, tese, numero_topico_llm, descricao_topico_llm, 
               proximo_do_centroid
        FROM processos 
        WHERE proximo_do_centroid = 1
    """, conn)

    grupos = df.groupby("descricao_topico_llm")

    for topico, grupo in grupos:
        casos = "\n\n".join(grupo['descricao_caso'].dropna())

        questoes = "\n\n".join(grupo['questoes_em_discussao'].dropna())
        solucoes = "\n\n".join(grupo['solucoes_propostas'].dropna())
        teses = "\n\n".join(grupo['tese'].dropna())

        clear_output(wait=True)
        print(f"\n\n===========================")
        print(f"🔎 Tópico {topico} - {grupo['descricao_topico_llm'].iloc[0]}")
        print(f"IDs: {grupo['id'].tolist()}")

        # 1. Descrição curta
        prompt_1 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um resumo curto (1 parágrafo com até 150 caracteres) que represente o tema central em comum nos processos judiciais listados:\n\n" + casos
        texto_1 = invoke(prompt_1, modelo, token)
        print("\n📌 Descrição curta:")
        print(texto_1)

        # 2. Descrição longa
        #prompt_2 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um texto descritivo em até 500 caracteres sobre o tema comum desses processos:\n\n" + casos
        #texto_2 = invoke(prompt_2, modelo, token)
        #print("\n📘 Descrição longa:")
        #print(texto_2)
        texto_2 = ""
        
        # 3. Questões em discussão
        #prompt_3 = "A partir das informações abaixo, escreva até 5 principais questões comuns em discussão nos processos, o retorno não precisa ser em formato de pergunta:\n\n" + questoes
        #texto_3 = invoke(prompt_3, modelo, token)
        #print("\n❓ Questões em discussão:")
        #print(texto_3)
        texto_3 = ""

        # 4. Soluções propostas
        #prompt_4 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das soluções propostas comuns nos processos:\n\n" + solucoes
        #texto_4 = invoke(prompt_4, modelo, token)
        #print("\n💡 Soluções propostas:")
       # print(texto_4)
        texto_4 = ""
        
        # 5. Teses jurídicas
        #prompt_5 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das teses jurídicas comuns nesses processos:\n\n" + teses
        #texto_5 = invoke(prompt_5, modelo, token)
        #print("\n⚖️ Teses jurídicas:")
        #print(texto_5)
        texto_5 = ""
        
        # Atualiza apenas uma vez por topico LLM
        cur.execute("""
            UPDATE processos SET 
                descricao_curta_cluster = %s,
                descricao_longa_cluster = %s,
                questoes_discussao_cluster = %s,
                solucoes_propostas_cluster = %s,
                teses_cluster = %s
            WHERE descricao_topico_llm = %s
        """, (
            texto_1, texto_2, texto_3, texto_4, texto_5, topico
        ))
        conn.commit()

    cur.close()
    conn.close()


In [None]:
gerar_e_salvar_clusters("pixtral-12b", get_token())

## Agrupando os tópicos
### 1 - Gera o embedding do nome do tópico + descrição curta (isso foi testado em várias estrategias diferentes)

### 2 - Cria uma matriz de similaridade de cada par de topicos onde o valor da célula é a similaridade entr5e os topicos

### 3 - Pergunta ao LLM, para aqueles pares com similaridade maior que um limiar, se eles poderiam ser agrupados

### 4 - Gerra a matriz de similiaridade de cada par de topicos onde o valor da célula é 1, caso os topicos sejam semelhantes ou 0 caso não sejam

In [None]:
# =========================
# PARÂMETROS AJUSTÁVEIS
# =========================
DB_NAME = "PROCESSOS"
DB_USER = "postgres"
DB_PASS = ""
DB_HOST = ""
DB_PORT = "5432"

BERT_LOCAL_PATH = "C:/Users/Loreane/Documents/bert"  # caminho local do BERTimbau
MAX_LENGTH = 512
LIMIAR_MUITO_PARECIDO = 0.80     # limiar para enviar par ao LLM

CSV_SIMILARIDADE = "matriz_similaridade_topicos.csv"
CSV_BINARIA = "matriz_mesmo_problema_llm.csv"

LLM_MODELO = "pixtral-12b"
LLM_DELAY_S = 0.05               # atraso entre chamadas
CASAS_PRINT = 3                  # casas decimais para imprimir similaridade

# =========================
# 0) Autenticação e chamada ao LLM (SERPRO)
# =========================
token = None
last_token_time = 0.0

def get_token():
    client_id = ''
    client_secret = ''
    result = requests.request(
        'POST',
        "...",
        data={"grant_type": "client_credentials"},
        auth=(client_id, client_secret),
        timeout=60
    )
    if result.ok:
        return result.json()['access_token']
    else:
        raise Exception(f"Erro ao obter o token: {result.text}")

def get_valid_token():
    global token, last_token_time
    current_time = time.time()
    if token is None or (current_time - last_token_time) > 20 * 60:  # 20 minutos
        token = get_token()
        last_token_time = current_time
        print("Novo token obtido.")
    return token

def invoke(prompt, modelo, token, temperature=0, max_tokens=8, stream=False):
    payload_data = {
        "model": modelo,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": stream
    }
    result = requests.request(
        "POST",
        "...",
        data=json.dumps(payload_data),
        headers={
            "Authorization": f"Bearer {token}",
            "Content-Type": "application/json"
        },
        timeout=120
    )
    if result.ok:
        res = result.json()
        return res["choices"][0]["message"]["content"]
    else:
        raise RuntimeError(f"Erro no LLM: {result.status_code} - {result.text}")

# =========================
# 1) Conexão e busca de tópicos
# =========================
def conectar_banco():
    conn = psycopg2.connect(
        host=DB_HOST,
        database=DB_NAME,
        user=DB_USER,
        password=DB_PASS,
        port=DB_PORT
    )
    return conn

def buscar_topicos(conn):
    sql = """
        SELECT
            descricao_topico_llm,
            descricao_curta_cluster,
            questoes_discussao_cluster,
            cor_cluster,
            COUNT(*) AS total_registros
        FROM processos
        WHERE descricao_topico_llm IS NOT NULL
          AND descricao_curta_cluster IS NOT NULL
        GROUP BY
            descricao_topico_llm,
            descricao_curta_cluster,
            questoes_discussao_cluster,
            cor_cluster
        ORDER BY total_registros DESC
    """
    df = pd.read_sql_query(sql, conn)
    return df.reset_index(drop=True)

# =========================
# 2) Preparar texto de cada tópico
# =========================
def _safe_str(x):
    return "" if x is None else str(x)

def montar_texto_topico(row):
    """
    Concatena: descricao_topico_llm [SEP] descricao_curta_cluster [SEP] questoes_discussao_cluster
    (Atualmente está usando apenas o título para embedding, conforme seu ajuste.)
    """
    p1 = _safe_str(row.get("descricao_topico_llm", ""))
    # Para usar também as outras descrições, descomente:
    #p2 = _safe_str(row.get("descricao_curta_cluster", ""))
    # p3 = _safe_str(row.get("questoes_discussao_cluster", ""))
    p3 = p2 = ""
    def _clean(s): return " ".join(s.split()).strip()
    return " [SEP] ".join([_clean(p1), _clean(p2), _clean(p3)])

# =========================
# 3) Vetorização com BERTimbau local (robusta a overflow)
# =========================
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(BERT_LOCAL_PATH)
model = AutoModel.from_pretrained(BERT_LOCAL_PATH).to(device)
model.eval()

def gerar_vetor(texto: str, max_length: int = MAX_LENGTH) -> np.ndarray:
    """
    Embedding por mean pooling com máscara (ignora padding) + normalização L2.
    Robusto a estouro de tokens (alinha máscara ao tamanho real de saída do modelo).
    Retorna np.ndarray shape (hidden_size,).
    """
    if not isinstance(texto, str):
        texto = "" if texto is None else str(texto)

    # Respeita limites do modelo/tokenizer
    model_max = int(getattr(model.config, "max_position_embeddings", 512))
    tok_max = getattr(tokenizer, "model_max_length", model_max)
    if tok_max is None or tok_max > 10_000:
        tok_max = model_max
    effective_max = int(min(max_length, model_max, tok_max))
    effective_max = max(8, effective_max)

    with torch.no_grad():
        ins = tokenizer(
            texto,
            return_tensors="pt",
            truncation=True,
            padding=False,
            max_length=effective_max
        ).to(device)

        out = model(**ins)
        hidden = out.last_hidden_state              # [1, Tm, H]
        seq_len = hidden.size(1)                    # Tm
        attn = ins["attention_mask"][:, :seq_len]   # [1, Tm]
        mask = attn.unsqueeze(-1).expand(hidden.size()).float()

        sent = (hidden * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-9)   # [1, H]
        sent = F.normalize(sent, p=2, dim=1)                                   # [1, H]
        return sent.squeeze(0).detach().cpu().numpy().astype(np.float32)

def embed_textos(textos):
    """Gera um vetor por texto chamando gerar_vetor()."""
    vecs = [gerar_vetor(t) for t in tqdm(textos, desc="Gerando embeddings")]
    if not vecs:
        dim = getattr(model.config, "hidden_size", 768)
        return np.empty((0, dim), dtype=np.float32)
    return np.vstack(vecs)

# =========================
# 4) Matriz de similaridade
# =========================
def matriz_similaridade(embs: np.ndarray) -> np.ndarray:
    """
    Como os embeddings já estão normalizados (L2), o produto interno vira cosseno.
    Retorna matriz S (N x N) com diag=1.0.
    """
    if embs.size == 0:
        return np.empty((0, 0), dtype=np.float32)
    S = embs @ embs.T
    np.fill_diagonal(S, 1.0)
    return S.astype(np.float32)

# =========================
# 5) Impressão/CSV com rótulos
# =========================
def imprimir_dataframe_com_rotulos(matriz, labels, casas=3, titulo=None):
    """
    Imprime um DataFrame com rótulos nas linhas e colunas.
    """
    if titulo:
        print(f"\n=== {titulo} ===")
    df = pd.DataFrame(np.round(matriz, casas), index=labels, columns=labels)
    pd.set_option("display.max_rows", None)
    pd.set_option("display.max_columns", None)
    pd.set_option("display.width", 200)
    df

def salvar_csv_com_rotulos(matriz, labels, path_csv):
    """
    Salva CSV com rótulos de linhas e colunas.
    """
    df_full = pd.DataFrame(matriz, index=labels, columns=labels)
    df_full.to_csv(path_csv, encoding="utf-8", index=True)
    print(f"[OK] CSV salvo: {path_csv}")

# =========================
# 6) Similaridade: pipeline + impressão
# =========================
def imprimir_matriz_similaridade(conn, arredondar=3, salvar_csv=CSV_SIMILARIDADE):
    # 6.1 Buscar dados
    df_top = buscar_topicos(conn)
    if df_top.empty:
        print("Nenhum tópico encontrado.")
        return df_top, np.empty((0, 0)), pd.DataFrame()

    # 6.2 Texto completo por tópico
    df_top["texto_full"] = df_top.apply(montar_texto_topico, axis=1)

    # 6.3 Embeddings
    embs = embed_textos(df_top["texto_full"].tolist())

    # 6.4 Matriz de similaridade
    S = matriz_similaridade(embs)

    # 6.5 Rótulos únicos (duplicados desambiguados)
    labels = df_top["descricao_topico_llm"].astype(str).tolist()
    count = Counter(labels)
    seen = defaultdict(int)
    labels_uniq = []
    for L in labels:
        if count[L] > 1:
            seen[L] += 1
            labels_uniq.append(f"{L} [{seen[L]}]")
        else:
            labels_uniq.append(L)

    # 6.6 Imprimir e salvar
    imprimir_dataframe_com_rotulos(S, labels_uniq, casas=arredondar, titulo="MATRIZ DE SIMILARIDADE (cos)")
    if salvar_csv:
        salvar_csv_com_rotulos(S, labels_uniq, salvar_csv)

    # Retorna DataFrame com rótulos nas colunas/índice
    sim_df = pd.DataFrame(S, index=labels_uniq, columns=labels_uniq)
    return df_top, embs, sim_df

# =========================
# 7) LLM: prompt e normalização 1/0
# =========================
def construir_prompt_mesmo_problema(topico_a, desc_a, quest_a, topico_b, desc_b, quest_b):
    qa = (quest_a or "").strip()
    qb = (quest_b or "").strip()
    return f"""
Você é um assistente jurídico. Decida se os dois tópicos abaixo tratam essencialmente do MESMO PROBLEMA central,
desconsiderando variações de redação. Responda APENAS com um único caractere: "1" (mesmo problema) ou "0" (problemas diferentes).

Tópico A:
- Título: {topico_a}
- Descrição curta: {desc_a}

Tópico B:
- Título: {topico_b}
- Descrição curta: {desc_b}

Responda somente com 1 ou 0:
""".strip()

def normalizar_0_1(texto) -> int:
    if not isinstance(texto, str):
        return 0
    t = texto.strip()
    if t.startswith("1"): return 1
    if t.startswith("0"): return 0
    return 0

# =========================
# 8) Matriz binária NxN via LLM (consome df_top, sim_df)
# =========================
def construir_matriz_binaria_por_llm(
    df_top: pd.DataFrame,
    sim_df: pd.DataFrame,
    limiar: float = LIMIAR_MUITO_PARECIDO,
    modelo: str = LLM_MODELO,
    delay_s: float = LLM_DELAY_S,
    casas_print: int = 0,
    csv_saida: str = CSV_BINARIA
):
    """
    Constrói a matriz binária NxN (1 = mesmo problema; 0 = diferente) usando o LLM,
    a partir de df_top e da matriz de similaridade sim_df retornados por imprimir_matriz_similaridade.
    Imprime a matriz como DataFrame com nomes nas linhas e colunas e salva CSV.

    Retorna:
      - M (np.ndarray NxN)
      - labels (lista de rótulos)
      - df_bin (DataFrame NxN com rótulos)
    """
    # 8.1 Extrai similaridade e rótulos na MESMA ORDEM
    S = sim_df.values.astype(float)
    labels = list(sim_df.index)  # ordem já consistente entre índice e colunas
    n = S.shape[0]

    if n == 0:
        print("Matriz de similaridade vazia. Nada a validar no LLM.")
        return np.empty((0, 0), dtype=np.int8), [], pd.DataFrame()

    # 8.2 Preparar descrições/questões para prompts
    topicos_df = df_top["descricao_topico_llm"].astype(str).tolist()
    descs_df   = df_top["descricao_curta_cluster"].astype(str).tolist()
    quests_df  = df_top.get("questoes_discussao_cluster", pd.Series([""] * len(df_top))).astype(str).tolist()

    # mapa rápido por título → (desc, quest)
    mapa_por_titulo = {}
    for t, d, q in zip(topicos_df, descs_df, quests_df):
        if t not in mapa_por_titulo:
            mapa_por_titulo[t] = (d, q)

    def obter_desc_e_quest_por_pos(i):
        titulo = labels[i]
        if titulo in mapa_por_titulo:
            return mapa_por_titulo[titulo]
        # fallback pela posição (assumindo mesma execução/ordem)
        if i < len(descs_df):
            return descs_df[i], quests_df[i]
        return "", ""

    # 8.3 Matriz 1/0
    M = np.zeros((n, n), dtype=np.int8)
    np.fill_diagonal(M, 1)

    print(f"\n[LLM] Avaliando pares com similaridade >= {limiar:.3f} (resposta: 1/0)...")
    for i in range(n):
        di, qi = obter_desc_e_quest_por_pos(i)
        for j in range(i + 1, n):
            if S[i, j] >= limiar:
                dj, qj = obter_desc_e_quest_por_pos(j)
                prompt = construir_prompt_mesmo_problema(
                    labels[i], di, qi,
                    labels[j], dj, qj
                )
                # Logs opcionais (tire se quiser rodar silencioso)
                clear_output(wait=True)
                print(f"[{i},{j}] {labels[i]}  ↔  {labels[j]}\n")
                print(prompt)

                try:
                    tok = get_valid_token()
                    resp = invoke(prompt, modelo, tok, temperature=0, max_tokens=8, stream=False)
                    #bit = normalizar_0_1(resp)
                    bit = resp
                    print(f"LLM → {resp!r}  ⇒  {bit}")
                except Exception as e:
                    print(f"[WARN] Erro LLM no par ({i},{j}) '{labels[i]}' vs '{labels[j]}': {e}")
                    bit = 0

                M[i, j] = M[j, i] = bit
                time.sleep(delay_s)
            else:
                M[i, j] = M[j, i] = 0

    # 8.4 Salvar e imprimir com rótulos
    if csv_saida:
        salvar_csv_com_rotulos(M, labels, csv_saida)
    imprimir_dataframe_com_rotulos(M, labels, casas=casas_print, titulo="MATRIZ MESMO PROBLEMA (LLM) — 1/0")

    df_bin = pd.DataFrame(M, index=labels, columns=labels)
    return M, labels, df_bin




In [None]:
conn = conectar_banco()
# 1) Similaridade
df_top, embs, sim_df = imprimir_matriz_similaridade(
            conn,
            arredondar=CASAS_PRINT,
            salvar_csv=CSV_SIMILARIDADE
        )
sim_df

In [None]:
    # 2) Matriz binária via LLM (executar após a similaridade)
M, labels, df_bin = construir_matriz_binaria_por_llm(
        df_top=df_top,
        sim_df=sim_df,
        limiar=0.75,
        modelo=LLM_MODELO,
        delay_s=LLM_DELAY_S,
        casas_print=0,
        csv_saida=CSV_BINARIA
    )

df_bin

## AGRUPAMENTO: Realiza a busca de grupos no grafo correspondente a matriz
### 1 cria o grafo (com opção de exigir reciprocidade ou não),
### 2 acha os grupos por busca em largura (BFS), Agrupa apenas se o elemento a ser agrupado possui similaridade de até um limiar com os demais
### 3 imprime os grupos em ordem decrescente de tamanho,


In [None]:

def grupos_estritos_por_binaria_e_similaridade(
    df_bin: pd.DataFrame,
    sim_df: pd.DataFrame,
    thr: float = 0.70,                 # exige > thr com TODOS do grupo
    exigir_mutual: bool = False,       # True: precisa A[i,j]==1 e A[j,i]==1
    incluir_isolados: bool = True,     # mantém tópicos sem conexões como grupos unitários
    df_top: Optional[pd.DataFrame] = None  # para escolher "líder" pelo total_registros
):
    # --- 1) Preparar matriz binária e simétrica conforme regra ---
    labels = list(df_bin.index)
    assert labels == list(df_bin.columns) == list(sim_df.index) == list(sim_df.columns), \
        "df_bin e sim_df precisam ter a MESMA ordem de linhas/colunas"

    A = df_bin.applymap(lambda x: 1 if str(x).strip().startswith("1") else 0).values.astype(np.int8)
    if exigir_mutual:
        A_und = (A & A.T).astype(np.int8)
    else:
        A_und = (A | A.T).astype(np.int8)

    # similaridade
    S = sim_df.values.astype(float)
    np.fill_diagonal(A_und, 1)  # um nó conecta a si mesmo

    n = len(labels)
    usados = np.zeros(n, dtype=bool)

    # grau (nº de conexões válidas) para ordenar seeds
    graus = A_und.sum(axis=1)
    seeds = np.argsort(-graus)  # decrescente

    grupos = []
    for s in seeds:
        if usados[s]:
            continue

        # se não quer incluir isolados e s não tem vizinhos, pule
        tem_viz = (A_und[s].sum() - 1) > 0  # desconsidera auto-conexão
        if not incluir_isolados and not tem_viz:
            usados[s] = True
            continue

        # inicia grupo com seed s
        grupo = [s]
        usados[s] = True

        # candidatos elegíveis: conectados ao seed e ainda não usados
        cand = [i for i in range(n) if (i != s) and (not usados[i]) and (A_und[s, i] == 1)]

        # estratégia gulosa: só entra se respeitar TODAS as arestas e similaridade > thr com TODOS do grupo
        # repete varrendo enquanto conseguir incluir alguém
        mudou = True
        while mudou:
            mudou = False
            novos = []
            for i in cand:
                if usados[i]:
                    continue
                # precisa aresta binária com TODOS do grupo...
                if not np.all(A_und[i, grupo] == 1):
                    continue
                # ...e similaridade > thr com TODOS do grupo
                if not np.all(S[i, grupo] > thr):
                    continue
                novos.append(i)

            if novos:
                # para estabilidade, adicione em ordem por (grau decrescente, label)
                novos.sort(key=lambda j: (-graus[j], labels[j].lower()))
                for j in novos:
                    if not usados[j]:
                        grupo.append(j)
                        usados[j] = True
                        mudou = True

                # atualiza candidatos: vizinhos de qualquer membro do grupo, não usados
                vizinhos = np.where(A_und[grupo].any(axis=0))[0]
                cand = [i for i in vizinhos if (not usados[i]) and (i not in grupo)]

        # ordena rótulos do grupo
        grupo_sorted = sorted(grupo, key=lambda idx: labels[idx].lower())
        grupos.append(grupo_sorted)

    # ordena grupos por tamanho e pelo primeiro rótulo
    grupos.sort(key=lambda g: (-len(g), [labels[i].lower() for i in g]))

    # montar saída legível e líder opcional
    linhas, grupos_legiveis = [], []
    for gid, idxs in enumerate(grupos, start=1):
        rotulos = [labels[i] for i in idxs]
        lider = rotulos[0]
        if df_top is not None and {"descricao_topico_llm", "total_registros"}.issubset(df_top.columns):
            sub = df_top[df_top["descricao_topico_llm"].astype(str).isin(rotulos)]
            if not sub.empty:
                lider = sub.sort_values("total_registros", ascending=False).iloc[0]["descricao_topico_llm"]
        grupos_legiveis.append(rotulos)
        for r in rotulos:
            linhas.append({
                "group_id": gid,
                "leader": lider,
                "topic": r,
                "group_size": len(rotulos)
            })

    df_grupos = pd.DataFrame(linhas, columns=["group_id", "leader", "topic", "group_size"])
    return grupos_legiveis, df_grupos




In [None]:
grupos, df_groups = grupos_estritos_por_binaria_e_similaridade(
    df_bin=df_bin,
    sim_df=sim_df,
    thr=0.75,        # seu limiar (ex.: 0.9)
    exigir_mutual=False  # se quiser mais conservador, troque para True
)

for i, g in enumerate(grupos, 1):
    print(f"Grupo {i} ({len(g)}):")
    for t in g:
        print("  -", t)
    print()

# opcional: salvar
df_groups.to_csv("grupos_conectividade.csv", index=False, encoding="utf-8")


# Atualizar os integrantes do grupo, escolhendo o representante como o que tem maior qtd de registros

In [None]:
# --- helper: escolhe o representante (maior COUNT(*)) dentro de um grupo de tópicos ---
def escolher_representante(conn, topics):
    """
    Retorna um dict do representante do grupo:
    {descricao_topico_llm, numero_topico_llm, cor_cluster, total}
    """
    with conn.cursor() as cur:
        cur.execute("""
            SELECT 
                descricao_topico_llm,
                numero_topico_llm,
                cor_cluster,
                descricao_topico_bertopic_padrao,
                COUNT(*) AS total
            FROM processos
            WHERE descricao_topico_llm = ANY(%s)
            GROUP BY descricao_topico_llm, numero_topico_llm, cor_cluster,descricao_topico_bertopic_padrao
            ORDER BY total DESC
            LIMIT 1
        """, (topics,))
        row = cur.fetchone()
        if not row:
            return None
        return {
            "descricao_topico_llm": row[0],
            "numero_topico_llm": row[1],
            "cor_cluster": row[2],
            "descricao_topico_bertopic_padrao": row[3],  
            "total": row[4],                             
        }
# --- helper: atualiza todo o grupo para o representante ---
def atualizar_grupo_para_representante(conn, topics, rep):
    """
    Atualiza todos os registros cujos tópicos estejam em 'topics'
    para os campos do representante 'rep'.
    """
    with conn.cursor() as cur:
        cur.execute("""
            UPDATE processos
            SET
                descricao_topico_llm = %s,
                numero_topico_llm   = %s,
                cor_cluster         = %s,
                descricao_topico_bertopic_padrao = %s
            WHERE descricao_topico_llm = ANY(%s)
        """, (
            rep["descricao_topico_llm"],
            rep["numero_topico_llm"],
            rep["cor_cluster"],
            rep["descricao_topico_bertopic_padrao"],
            topics
        ))

# --- pipeline principal ---
def aplicar_grupos_por_conectividade(conn, grupos):
    """
    Para cada grupo (lista de títulos de tópico):
      1) escolhe o representante (maior COUNT(*));
      2) atualiza todos os registros dos tópicos do grupo para os campos do representante.
    Tudo numa única transação.
    """
    with conn:
        with conn.cursor() as cur:
            pass  # só para abrir a transação via context manager

        for gid, topics in enumerate(grupos, start=1):
            # sanitiza lista: remove vazios/duplicados
            topics = sorted({str(t).strip() for t in topics if t and str(t).strip()})
            if not topics:
                continue

            rep = escolher_representante(conn, topics)
            if not rep:
                print(f"[Grupo {gid}] Sem registros para: {topics}")
                continue

            atualizar_grupo_para_representante(conn, topics, rep)
            print(f"[Grupo {gid}] {topics}  →  representante: "
                  f"{rep['descricao_topico_llm']} (nº {rep['numero_topico_llm']}, cor {rep['cor_cluster']}, total={rep['total']})")

    print("✅ Atualizações concluídas.")

conn = get_connection()
aplicar_grupos_por_conectividade(conn, grupos)


In [None]:
# Obtendo novamente a descrição e titulo de cada cluster, pois agora foram agrupados e é interessante atualizar

In [None]:
def gerar_e_salvar_detalhes_cluster(modelo, token):
    conn = get_connection()
    cur = conn.cursor()
    modelo = 'pixtral-12b'

    # =========================
    # 0) Limpar campos antigos antes de atualizar
    # =========================
    print("🧹 Limpando campos anteriores dos clusters...")
    cur.execute("""
        UPDATE processos SET
            descricao_curta_cluster = NULL,
            descricao_longa_cluster = NULL,
            questoes_discussao_cluster = NULL,
            solucoes_propostas_cluster = NULL,
            teses_cluster = NULL
    """)
    conn.commit()
    print("✅ Campos limpos com sucesso.\n")

    df = pd.read_sql_query("""
        SELECT id, numero_processo_tribunal, descricao_caso, questoes_em_discussao, 
               solucoes_propostas, tese, numero_topico_llm, descricao_topico_llm, 
               proximo_do_centroid, descricao_topico_bertopic_padrao
        FROM processos 
        WHERE proximo_do_centroid = 1
    """, conn)

    grupos = df.groupby("descricao_topico_llm")

    for topico, grupo in grupos:
        casos = "\n\n".join(grupo['descricao_caso'].dropna())
        keywords = "\n\n Palavras chave:".join(grupo['descricao_caso'].dropna())
        questoes = "\n\n".join(grupo['questoes_em_discussao'].dropna())
        solucoes = "\n\n".join(grupo['solucoes_propostas'].dropna())
        teses = "\n\n".join(grupo['tese'].dropna())

        clear_output(wait=True)
        print(f"\n\n===========================")
        print(f"🔎 Tópico {topico} - {grupo['descricao_topico_llm'].iloc[0]}")
        print(f"IDs: {grupo['id'].tolist()}")

        # 0. Título do cluster
        prompt_0 = """Você é um assistente inteligente de extração de tópicos, especializado em nomear tópicos de forma curta, clara e amigável, com base em textos representativos e palavras-chave. 
        Seu objetivo é criar um **rótulo conciso** que represente o problema central em comum dos conteúdos discutidos no tópico, facilitando a identificação do assunto por usuários finais. 
        
        Siga as diretrizes abaixo:
        - Não inclua o termo "MEI" no nome do tópico.
        - O nome deve ter de 1 a 3 palavras.
        - Não cite nome de pessoas, locais ou instituições.

        Responda apenas o nome do rótulo, sem asteriscos.
        """ + keywords + casos
        texto_0 = invoke(prompt_0, modelo, token)
        print("\n📌 Título:")
        print(texto_0)

        # 1. Descrição curta
        prompt_1 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um resumo curto (1 parágrafo com até 150 caracteres) que represente o tema comum entre os processos:\n\n" + casos
        #print(prompt_1)
        texto_1 = invoke(prompt_1, modelo, token)
        
        print("\n📌 Descrição curta:")
        print(texto_1)

        # 2. Descrição longa
        prompt_2 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um texto descritivo em até 500 caracteres sobre o tema comum desses processos:\n\n" + casos
        texto_2 = invoke(prompt_2, modelo, token)
        print("\n📘 Descrição longa:")
        print(texto_2)
        
        # 3. Questões em discussão
        prompt_3 = "A partir das informações abaixo, escreva até 5 principais questões comuns em discussão nos processos, o retorno não precisa ser em formato de pergunta:\n\n" + questoes
        texto_3 = invoke(prompt_3, modelo, token)
        print("\n❓ Questões em discussão:")
        print(texto_3)


        # 4. Soluções propostas
        prompt_4 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das soluções propostas comuns nos processos:\n\n" + solucoes
        texto_4 = invoke(prompt_4, modelo, token)
        print("\n💡 Soluções propostas:")
        print(texto_4)
        
        # 5. Teses jurídicas
        prompt_5 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das teses jurídicas comuns nesses processos:\n\n" + teses
        texto_5 = invoke(prompt_5, modelo, token)
        print("\n⚖️ Teses jurídicas:")
        print(texto_5)    
        
        # Atualiza apenas uma vez por topico LLM
        cur.execute("""
            UPDATE processos SET 
                descricao_topico_llm = %s,
                descricao_curta_cluster = %s,
                descricao_longa_cluster = %s,
                questoes_discussao_cluster = %s,
                solucoes_propostas_cluster = %s,
                teses_cluster = %s
            WHERE descricao_topico_llm = %s
        """, (
            texto_0, texto_1, texto_2, texto_3, texto_4, texto_5, topico
        ))
        conn.commit()

    cur.close()
    conn.close()


In [None]:
gerar_e_salvar_detalhes_cluster("pixtral-12b", get_token())

In [None]:
def traduzir_nome_cluster(modelo, token):
    conn = get_connection()
    cur = conn.cursor()
    modelo = 'pixtral-12b'

    df = pd.read_sql_query("""
        SELECT numero_topico_llm, descricao_topico_llm, descricao_curta_cluster
        FROM processos 
        WHERE proximo_do_centroid = 1
    """, conn)

    grupos = df.groupby("descricao_topico_llm")

    for topico, grupo in grupos:
        titulo = "\n\nNome do Tópico:".join(grupo['descricao_topico_llm'].dropna())
        descricao = "\n\nDescrição do Tópico:".join(grupo['descricao_curta_cluster'].dropna())
        clear_output(wait=True)
        print(f"\n\n===========================")
        print(f"🔎 Tópico {topico} - {grupo['descricao_topico_llm'].iloc[0]}")

        # 0. Título do cluster
        prompt_0 = """Traduza para Inglês o nome do tópico abaixo. Lembre que são termos jurídicos. Responda apenas o nome do tópico em inglês , sem asteriscos.
        """ + titulo + descricao
        texto_0 = invoke(prompt_0, modelo, token)
        print("\n📌 Título:")
        print(texto_0)
        # Atualiza apenas uma vez por topico LLM
        cur.execute("""
            UPDATE processos SET 
                descricao_topico_llm_ingles = %s
            WHERE descricao_topico_llm = %s
        """, (
            texto_0, topico
        ))
        conn.commit()

    cur.close()
    conn.close()


In [None]:
traduzir_nome_cluster("pixtral-12b", get_token())

In [4]:
def gerar_e_salvar_detalhes_cluster(modelo, token):
    conn = get_connection()
    cur = conn.cursor()
    modelo = 'pixtral-12b'

    # =========================
    # 0) Limpar campos antigos antes de atualizar
    # =========================
    print("🧹 Limpando campos anteriores dos clusters...")
    cur.execute("""
        UPDATE processos SET
            descricao_curta_cluster = NULL,
            descricao_longa_cluster = NULL,
            questoes_discussao_cluster = NULL,
            solucoes_propostas_cluster = NULL,
            teses_cluster = NULL
    """)
    conn.commit()
    print("✅ Campos limpos com sucesso.\n")

    df = pd.read_sql_query("""
        SELECT id, numero_processo_tribunal, descricao_caso, questoes_em_discussao, 
               solucoes_propostas, tese, numero_topico_llm, descricao_topico_llm, 
               proximo_do_centroid, descricao_topico_bertopic_padrao
        FROM processos 
        WHERE proximo_do_centroid = 1
    """, conn)

    grupos = df.groupby("descricao_topico_llm")

    for topico, grupo in grupos:
        casos = "\n\n".join(grupo['descricao_caso'].dropna())
        keywords = "\n\n Palavras chave:".join(grupo['descricao_caso'].dropna())
        questoes = "\n\n".join(grupo['questoes_em_discussao'].dropna())
        solucoes = "\n\n".join(grupo['solucoes_propostas'].dropna())
        teses = "\n\n".join(grupo['tese'].dropna())

        clear_output(wait=True)
        print(f"\n\n===========================")
        print(f"🔎 Tópico {topico} - {grupo['descricao_topico_llm'].iloc[0]}")
        print(f"IDs: {grupo['id'].tolist()}")

       

        # 1. Descrição curta
        prompt_1 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um resumo curto (1 parágrafo com até 150 caracteres) que represente o tema comum entre os processos:\n\n" + casos
        #print(prompt_1)
        texto_1 = invoke(prompt_1, modelo, token)
        
        print("\n📌 Descrição curta:")
        print(texto_1)

        # 2. Descrição longa
        prompt_2 = "Você é um assistente jurídico. Com base nas descrições dos casos abaixo, escreva um texto descritivo em até 500 caracteres sobre o tema comum desses processos:\n\n" + casos
        texto_2 = invoke(prompt_2, modelo, token)
        print("\n📘 Descrição longa:")
        print(texto_2)
        
        # 3. Questões em discussão
        prompt_3 = "A partir das informações abaixo, escreva até 5 principais questões comuns em discussão nos processos, o retorno não precisa ser em formato de pergunta:\n\n" + questoes
        texto_3 = invoke(prompt_3, modelo, token)
        print("\n❓ Questões em discussão:")
        print(texto_3)


        # 4. Soluções propostas
        prompt_4 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das soluções propostas comuns nos processos:\n\n" + solucoes
        texto_4 = invoke(prompt_4, modelo, token)
        print("\n💡 Soluções propostas:")
        print(texto_4)
        
        # 5. Teses jurídicas
        prompt_5 = "A partir das informações abaixo, escreva um resumo em até 500 caracteres das teses jurídicas comuns nesses processos:\n\n" + teses
        texto_5 = invoke(prompt_5, modelo, token)
        print("\n⚖️ Teses jurídicas:")
        print(texto_5)    
        
        # Atualiza apenas uma vez por topico LLM
        cur.execute("""
            UPDATE processos SET 
                descricao_curta_cluster = %s,
                descricao_longa_cluster = %s,
                questoes_discussao_cluster = %s,
                solucoes_propostas_cluster = %s,
                teses_cluster = %s
            WHERE descricao_topico_llm = %s
        """, ( texto_1, texto_2, texto_3, texto_4, texto_5, topico
        ))
        conn.commit()

    cur.close()
    conn.close()


In [5]:
gerar_e_salvar_detalhes_cluster("pixtral-12b", get_token())



🔎 Tópico Vínculo Empregatício - Vínculo Empregatício
IDs: [14323, 36290, 43748, 24618, 13719, 16660, 44081, 16360, 25271, 36312, 36045, 8247, 6454, 35651, 24780, 8525, 6630, 7259, 5973, 7100, 6178, 24775, 18253, 36691, 17141, 8396, 7386, 36541, 11209, 28501, 43903, 23467, 24434, 44427, 14912, 15737, 7385, 44500, 28578, 44934, 26498, 5967, 44397, 25583, 5985, 36452, 9139, 16946, 23714, 25338, 35235, 7976, 8274, 44825, 11256, 44780, 23838, 42309, 27824, 15328, 15885, 8384, 27188, 43025, 9463, 13210, 30897, 32061, 6406, 14344, 35858, 11443, 12327, 6415, 36388, 9191, 12463, 14611, 35459, 8301, 45020, 8373, 17374, 45160, 4808, 23204, 7179, 42775, 31896, 24832, 27675, 15219, 18598, 28239, 11210, 42956, 7895, 12902, 8257, 35077, 14089, 27363, 8679, 36301, 5698, 8433, 26250, 30349, 36413, 6132, 9333, 17971, 12491, 27246, 27364, 28298, 35582, 10750, 35076, 5750, 16386, 24737, 16731, 18046, 26108, 28085, 27593, 43659, 10501, 17686, 42955, 35803, 14970, 7826, 42926, 26113, 10769, 44499, 36773, 