# Document tagging

In [None]:
import spacy
import pprint
import time

import pandas as pd

from collections import defaultdict
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report

from tqdm import tqdm
from langchain_openai import  AzureChatOpenAI, ChatOpenAI
from dotenv import load_dotenv
from tools.dataset import get_decicontas_tags_df
from tools.prompt import generate_few_shot_doc_tagging_prompts, FEW_SHOT_DOC_PROMPT

from tools.fewshot import FEW_SHOTS_DOC_TAGS

from typing import List, Literal
from pydantic import BaseModel, Field
from langchain_openai import AzureChatOpenAI
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder


load_dotenv()

True

In [15]:
df_decicontas = get_decicontas_tags_df()

In [16]:
df_decicontas.columns

Index(['text', 'tags'], dtype='object')

In [17]:
EXAMPLE_TEXT = '''
DECIDEM os Conselheiros do Tribunal de Contas do Estado, √† unanimidade, em conson√¢ncia com a informa√ß√£o do Corpo T√©cnico e com o parecer do Minist√©rio P√∫blico que atua junto a esta Corte de Contas, acolhendo integralmente o voto do Conselheiro Relator, julgar: a) pela DENEGA√á√ÉO DE REGISTRO ao ato concessivo da aposentadoria e √† despesa dele decorrente; b) pela determina√ß√£o ao IPERN, √† vista da Lei Complementar Estadual n¬∫ 547/2015, para que, no prazo de 60 (sessenta) dias, ap√≥s o tr√¢nsito em julgado desta decis√£o, adote as corre√ß√µes necess√°rias para regulariza√ß√£o do ato concess√≥rio, do c√°lculo dos proventos e de sua respectiva implanta√ß√£o; c) no caso de descumprimento da presente decis√£o, a responsabiliza√ß√£o do titular da pasta respons√°vel por seu atendimento, sem preju√≠zo da multa cominat√≥ria desde j√° fixada no valor de R$ 50,00 (cinquenta reais) por dia que superar o interregno fixado no item `b`, com base no art. 110 da Lei Complementar Estadual n¬∫ 464/2012, valor este pass√≠vel de revis√£o e limitado ao teto previsto no art. 323, inciso II, al√≠nea `f`, do Regimento Interno, a ser apurado por ocasi√£o de eventual subsist√™ncia de mora.
'''
prompt_with_few_shot = generate_few_shot_doc_tagging_prompts(EXAMPLE_TEXT)
pprint.pprint(prompt_with_few_shot)

ChatPromptValue(messages=[SystemMessage(content='Voc√™ √© um especialista em categoriza√ß√£o de documentos jur√≠dicos. Sua tarefa √© analisar o texto fornecido e atribuir as tags apropriadas com base nas categorias definidas.As categorias permitidas s√£o: ["MULTA", "OBRIGACAO", "RESSARCIMENTO", "RECOMENDACAO"]Se tiver mais de uma categoria aplic√°vel, retorne todas em uma lista ex: [\'MULTA\', \'OBRIGACAO\'].Se for s√≥ uma categoria, retorne em uma lista ex: [\'MULTA\'].\n\n1. Leia atentamente o texto do documento.\n2. Atribua as tags que melhor descrevem o conte√∫do e o contexto do documento.\n3. Se o documento n√£o se encaixar em nenhuma categoria, retorne uma lista vazia.\n4. Mantenha-se estritamente dentro do escopo das categorias definidas.\n5. N√£o infira ou adicione tags que n√£o estejam explicitamente relacionadas ao conte√∫do do documento.\n\nLembre-se: sua precis√£o e ader√™ncia ao conte√∫do original s√£o cruciais para o sucesso desta tarefa.', additional_kwargs={}, response_

In [None]:
AllowedTag = Literal["MULTA", "OBRIGACAO", "RESSARCIMENTO", "RECOMENDACAO"]

class DocTags(BaseModel):
    """Tags jur√≠dicas presentes no documento (subconjunto do conjunto permitido)."""
    tags: List[AllowedTag] = Field(
        default_factory=list,
        description="Lista de tags √∫nicas entre MULTA, OBRIGACAO, RESSARCIMENTO, RECOMENDACAO."
    )
    rationale: str = Field(
        description="Brev√≠ssima justificativa por tag (uma ou duas frases), √∫til para auditoria.",
    )

ALLOWED = ["MULTA","OBRIGACAO","RESSARCIMENTO","RECOMENDACAO"]

gpt41_nano = AzureChatOpenAI(deployment_name="gpt-4-1-nano",  model_name="gpt-4-1-nano", temperature=0)
gpt41_mini = AzureChatOpenAI(deployment_name="gpt-4-1-mini",  model_name="gpt-4-1-mini", temperature=0)
gpt41      = AzureChatOpenAI(deployment_name="gpt-4-1",       model_name="gpt-4-1",      temperature=0)
gpt4o      = AzureChatOpenAI(deployment_name="gpt-4o",        model_name="gpt-4o",       temperature=0)
gpt35      = AzureChatOpenAI(deployment_name="gpt-35",        model_name="gpt-35-turbo", temperature=0)
gpt4turbo  = AzureChatOpenAI(deployment_name="gpt-4-turbo",   model_name="gpt-4",        temperature=0)


def build_chain(llm):
    """Cria uma chain com structured output (DocTags)"""
    return FEW_SHOT_DOC_PROMPT | llm.with_structured_output(DocTags, method="json_schema", include_raw=False)






In [48]:
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder

FEW_SHOT_DOC_PROMPT = ChatPromptTemplate.from_messages([
    ("system",
     "Classifique o documento com zero ou mais tags do conjunto {allowed}: "
     "MULTA, OBRIGACAO, RESSARCIMENTO, RECOMENDACAO. "
     "Se nada se aplica, retorne []. "
     "Responda apenas com JSON {{\"tags\": [...]}}."  # << ESCAPADO
    ),
    MessagesPlaceholder(variable_name="examples"),
    ("user", "TEXTO:\n{text}")
])


In [49]:
CHAINS = {
    #"gpt41_nano": build_chain(gpt41_nano),
    #"gpt41_mini": build_chain(gpt41_mini),
    #"gpt41":      build_chain(gpt41),
    "gpt4o":      build_chain(gpt4o),
    "gpt35":      build_chain(gpt35),
    "gpt4turbo":  build_chain(gpt4turbo),
}



In [50]:
import pprint
from typing import List
from tqdm import tqdm
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.metrics import f1_score, precision_score, recall_score, hamming_loss, accuracy_score

LABELS: List[str] = ["MULTA","OBRIGACAO","RESSARCIMENTO","RECOMENDACAO"]

def predict_tags_with_prompts(df_decicontas: pd.DataFrame,
                              model_name: str = "gpt4turbo",
                              fewshot_msgs=None,
                              preview_n_prompts: int = 3,
                              prompt_printer=pprint.pprint) -> pd.DataFrame:
    """
    Itera no DF, gera o prompt few-shot e invoca o modelo com sa√≠da estruturada DocTags.
    """
    if fewshot_msgs is None:
        raise ValueError("Passe fewshot_msgs gerados por build_fewshot_messages_for_doc_tagging().")

    if "text" not in df_decicontas.columns or "tags" not in df_decicontas.columns:
        raise ValueError("df_decicontas deve conter as colunas 'text' e 'tags'.")

    llm = CHAINS.get(model_name)
    if llm is None:
        raise ValueError(f"Modelo '{model_name}' n√£o encontrado em CHAINS.")

    preds = []
    for i, text in enumerate(tqdm(df_decicontas["text"].tolist(), desc=f"Inferindo com {model_name}")):
        # ‚úÖ monta o dicion√°rio com as vari√°veis esperadas pelo FEW_SHOT_DOC_PROMPT
        input_data = {
            "allowed": ALLOWED,
            "examples": fewshot_msgs,
            "text": text    
        }


        # (opcional) visualize alguns prompts renderizados
        if i < preview_n_prompts and prompt_printer is not None:
            prompt_value = FEW_SHOT_DOC_PROMPT.invoke(input_data)
            prompt_printer(f"\n--- Prompt #{i+1} ---")
            prompt_printer(prompt_value)

        # ‚úÖ invoca a chain completa (prompt ‚Üí modelo ‚Üí structured output)
        out: DocTags = llm.invoke(input_data)

        # limpeza final
        tags = sorted({t for t in out.tags if t in LABELS}, key=lambda x: LABELS.index(x))
        preds.append(tags)

    col_name = f"tags_pred_{model_name}"
    out_df = df_decicontas.copy()
    out_df[col_name] = preds
    return out_df



def evaluate_multilabel(df_true_pred: pd.DataFrame, pred_col: str) -> dict:
    """
    df_true_pred deve ter:
      - 'tags' (gold, lista de strings)
      - pred_col (predi√ß√µes, lista de strings)
    """
    mlb = MultiLabelBinarizer(classes=LABELS)
    Y_true = mlb.fit_transform(df_true_pred["tags"])
    Y_pred = mlb.transform(df_true_pred[pred_col])

    return {
        "micro/precision": precision_score(Y_true, Y_pred, average="micro", zero_division=0),
        "micro/recall":    recall_score(Y_true, Y_pred, average="micro", zero_division=0),
        "micro/f1":        f1_score(Y_true, Y_pred, average="micro", zero_division=0),
        "macro/f1":        f1_score(Y_true, Y_pred, average="macro", zero_division=0),
        "hamming_loss":    hamming_loss(Y_true, Y_pred),
        "subset_accuracy": accuracy_score(Y_true, Y_pred),
    }

import json
from typing import List, Dict, Tuple

def build_fewshot_messages_for_doc_tagging(
    fewshots: List[Dict[str, any]],
    json_assistant: bool = True
) -> List[Tuple[str, str]]:
    """
    Converte uma lista de exemplos de documentos (text + tags)
    em mensagens few-shot para o ChatPromptTemplate.

    Exemplo de entrada:
        [
          {"text": "Texto de decis√£o 1", "tags": ["OBRIGACAO"]},
          {"text": "Texto de decis√£o 2", "tags": ["MULTA","RESSARCIMENTO"]}
        ]

    Sa√≠da (lista de pares tipo [("user", msg1), ("assistant", msg2), ...]):

        [
          ("user", "TEXTO:\\nTexto de decis√£o 1"),
          ("assistant", "{\"tags\": [\"OBRIGACAO\"]}"),
          ("user", "TEXTO:\\nTexto de decis√£o 2"),
          ("assistant", "{\"tags\": [\"MULTA\",\"RESSARCIMENTO\"]}")
        ]
    """
    messages = []
    for ex in fewshots:
        # Mensagem do usu√°rio
        messages.append(("user", f"TEXTO:\n{ex['text']}"))
        # Mensagem do modelo (resposta esperada)
        if json_assistant:
            messages.append(("assistant", json.dumps({"tags": ex["tags"]}, ensure_ascii=False)))
        else:
            messages.append(("assistant", {"tags": ex["tags"]}))
    return messages




In [52]:
import os
import json
import pandas as pd
from datetime import datetime

# ==========================================================
# 1Ô∏è‚É£ Infer√™ncia ‚Äî gera e salva as predi√ß√µes de todos os modelos
# ==========================================================

os.makedirs("dataset/results", exist_ok=True)

# Gera mensagens few-shot (uma vez s√≥)
fewshot_msgs = build_fewshot_messages_for_doc_tagging(FEW_SHOTS_DOC_TAGS, json_assistant=True)

all_predictions = []  # lista de DataFrames parciais

for model_name in CHAINS.keys():
    print(f"\nüöÄ Rodando infer√™ncia com {model_name}...")

    # Rodar infer√™ncia e obter predi√ß√µes
    df_pred = predict_tags_with_prompts(
        df_decicontas,
        model_name=model_name,
        fewshot_msgs=fewshot_msgs,
        preview_n_prompts=0
    )

    # Mant√©m apenas as colunas relevantes
    col_pred = f"tags_pred_{model_name}"
    df_sub = df_pred[["text", "tags", col_pred]].copy()
    df_sub.rename(columns={"tags": "tags_reais"}, inplace=True)

    # Adiciona metadados
    df_sub["model"] = model_name
    all_predictions.append(df_sub)

    print(f"‚úÖ {model_name} conclu√≠do. {len(df_sub)} documentos processados.")

# Concatena todas as predi√ß√µes
df_all_preds = pd.concat(all_predictions, ignore_index=True)

# Salva todas as predi√ß√µes (etapa 1)
pred_path = "dataset/results/decicontas_doc_tags_predictions_2.pkl"
df_all_preds.to_pickle(pred_path)
print(f"\nüíæ Predi√ß√µes salvas em: {pred_path}")


üöÄ Rodando infer√™ncia com gpt4o...


Inferindo com gpt4o: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1425/1425 [31:30<00:00,  1.33s/it]


‚úÖ gpt4o conclu√≠do. 1425 documentos processados.

üöÄ Rodando infer√™ncia com gpt35...


Inferindo com gpt35: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1425/1425 [33:04<00:00,  1.39s/it]


‚úÖ gpt35 conclu√≠do. 1425 documentos processados.

üöÄ Rodando infer√™ncia com gpt4turbo...


Inferindo com gpt4turbo: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1425/1425 [32:08<00:00,  1.35s/it]

‚úÖ gpt4turbo conclu√≠do. 1425 documentos processados.

üíæ Predi√ß√µes salvas em: dataset/results/decicontas_doc_tags_predictions_2.pkl





In [None]:
df_all_preds_1 = pd.read_pickle("dataset/results/decicontas_doc_tags_predictions.pkl")
df_all_preds_2 = pd.read_pickle("dataset/results/decicontas_doc_tags_predictions_2.pkl")



In [59]:
df_all_preds = pd.concat([df_all_preds_1, df_all_preds_2], ignore_index=True)

In [60]:
df_all_preds['model'].unique()

array(['gpt41_nano', 'gpt41_mini', 'gpt41', 'gpt4o', 'gpt35', 'gpt4turbo'],
      dtype=object)

In [61]:
pred_path = "dataset/results/decicontas_doc_tags_predictions_all.pkl"
df_all_preds.to_pickle(pred_path)
print(f"\nüíæ Predi√ß√µes salvas em: {pred_path}")


üíæ Predi√ß√µes salvas em: dataset/results/decicontas_doc_tags_predictions_all.pkl


In [62]:

# ==========================================================
# 2Ô∏è‚É£ Avalia√ß√£o ‚Äî l√™ predi√ß√µes e calcula m√©tricas agregadas
# ==========================================================

from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.metrics import f1_score, precision_score, recall_score, hamming_loss, accuracy_score

LABELS = ["MULTA", "OBRIGACAO", "RESSARCIMENTO", "RECOMENDACAO"]

def evaluate_multilabel(df_true_pred: pd.DataFrame, col_true="tags_reais", col_pred="tags_pred") -> dict:
    mlb = MultiLabelBinarizer(classes=LABELS)
    Y_true = mlb.fit_transform(df_true_pred[col_true])
    Y_pred = mlb.transform(df_true_pred[col_pred])

    return {
        "micro/precision": precision_score(Y_true, Y_pred, average="micro", zero_division=0),
        "micro/recall":    recall_score(Y_true, Y_pred, average="micro", zero_division=0),
        "micro/f1":        f1_score(Y_true, Y_pred, average="micro", zero_division=0),
        "macro/f1":        f1_score(Y_true, Y_pred, average="macro", zero_division=0),
        "hamming_loss":    hamming_loss(Y_true, Y_pred),
        "subset_accuracy": accuracy_score(Y_true, Y_pred)
    }

# Carrega as predi√ß√µes (por seguran√ßa)
df_all_preds = pd.read_pickle(pred_path)

results = []

for model_name in df_all_preds["model"].unique():
    df_model = df_all_preds[df_all_preds["model"] == model_name]
    col_pred = f"tags_pred_{model_name}"

    metrics = evaluate_multilabel(df_model, col_true="tags_reais", col_pred=col_pred)
    metrics.update({
        "model": model_name,
        "timestamp": datetime.now().isoformat(),
        "n_docs": len(df_model)
    })
    results.append(metrics)
    print(f"üìä Avaliado {model_name}: micro-F1 = {metrics['micro/f1']:.4f}")

# Consolida m√©tricas
df_results = pd.DataFrame(results)

# Salva resultados agregados
output_path = "dataset/results/decicontas_doc_tags_results.json"
df_results.to_json(output_path, orient="records", indent=2, force_ascii=False)
print(f"\nüìÅ M√©tricas salvas em: {output_path}")

# Visualiza√ß√£o final
print("\nResumo das m√©tricas:\n", df_results)

üìä Avaliado gpt41_nano: micro-F1 = 0.8442
üìä Avaliado gpt41_mini: micro-F1 = 0.8391
üìä Avaliado gpt41: micro-F1 = 0.8424
üìä Avaliado gpt4o: micro-F1 = 0.8237
üìä Avaliado gpt35: micro-F1 = 0.8501
üìä Avaliado gpt4turbo: micro-F1 = 0.8519

üìÅ M√©tricas salvas em: dataset/results/decicontas_doc_tags_results.json

Resumo das m√©tricas:
    micro/precision  micro/recall  micro/f1  macro/f1  hamming_loss  \
0         0.755814      0.955882  0.844156  0.827697      0.021053   
1         0.745995      0.958824  0.839125  0.823573      0.021930   
2         0.751152      0.958824  0.842377  0.826353      0.021404   
3         0.720264      0.961765  0.823678  0.805092      0.024561   
4         0.763466      0.958824  0.850065  0.832711      0.020175   
5         0.768322      0.955882  0.851900  0.834707      0.019825   

   subset_accuracy       model                   timestamp  n_docs  
0         0.924211  gpt41_nano  2025-11-12T00:42:44.987326    1425  
1         0.921404  gpt