# Classificação zero-shot (PT-BR) de Projetos de Lei

Notebook gerado a partir do seu script, com cada etapa separada em células de código e títulos em células de texto.

## 0) Imports e configuração

In [None]:
# 0) Imports

import os
os.environ["TRANSFORMERS_NO_TORCHVISION"] = "1"

from transformers import pipeline

import torch
os.environ["TOKENIZERS_PARALLELISM"] = "false"
print("PyTorch:", torch.__version__, "| CUDA disponível?", torch.cuda.is_available())

import math
import pandas as pd
from tqdm.auto import tqdm

## 1) Carregar o corpus

In [None]:
# 1) Carrega o corpus
csv_path = "corpus.csv"
df = pd.read_csv(csv_path, engine="python", sep=None, on_bad_lines="skip")
assert {"id","text"}.issubset(df.columns), "O CSV precisa ter colunas 'id' e 'text'"

## 2) Definir rótulos (ajuste à sua realidade)

In [None]:
# 2) Defina os rótulos (ajuste à sua realidade)
candidate_labels = [
    "saúde", "educação", "segurança pública", "economia", "tributos",
    "meio ambiente", "direitos humanos", "administração pública",
    "trânsito e transporte", "trabalho e previdência",
    "agropecuária", "tecnologia e proteção de dados",
    "justiça e processo penal", "consumidor", "energia e mineração",
    "habitação e urbanismo", "cultura e esporte"
]

## 3) Criar pipeline zero-shot multilíngue

In [None]:
# 3) Cria o pipeline de zero-shot multilíngue
model_name = "MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7"
clf = pipeline(
    "zero-shot-classification",
    model=model_name,
    device_map="auto",          # usa GPU se houver, senão CPU
    truncation=True
)

## 4) Utilitários (chunking e classificação do documento)

In [None]:
# 4) Funções de utilidade
def chunk_text(txt, max_chars=1800):
    """Fatia textos longos em pedaços ~seguro para tokenização; evita truncamento."""
    txt = str(txt) if not isinstance(txt, str) else txt
    if len(txt) <= max_chars:
        return [txt]
    chunks = []
    start = 0
    while start < len(txt):
        end = min(start + max_chars, len(txt))
        # tenta quebrar em espaço/pontuação para evitar quebra dura
        if end < len(txt):
            cut = txt.rfind(" ", start, end)
            if cut == -1 or cut - start < 0.6 * max_chars:
                cut = txt.rfind(".", start, end)
            end = cut if cut != -1 else end
        chunks.append(txt[start:end].strip())
        start = end
    return [c for c in chunks if c]

def classify_doc(text, labels, multi_label=True, hypothesis_template="Este texto trata de {}."):
    """Classifica um doc potencialmente longo: roda por chunks e faz média dos scores."""
    chunks = chunk_text(text)
    # acumula somando scores (logits já estão calibrados pelo pipeline → somar e normalizar pela média)
    agg = {lab: 0.0 for lab in labels}
    for ch in chunks:
        out = clf(
            ch,
            candidate_labels=labels,
            multi_label=multi_label,
            hypothesis_template=hypothesis_template
        )
        # out['labels'] alinhado a out['scores']
        for lab, sc in zip(out["labels"], out["scores"]):
            agg[lab] += float(sc)
    # média por número de chunks
    n = len(chunks)
    for k in agg:
        agg[k] /= n
    # ordena rótulos por score
    ranked = sorted(agg.items(), key=lambda x: x[1], reverse=True)
    top_label, top_score = ranked[0]
    return agg, ranked, top_label, top_score

## 5) Processar corpus e salvar resultados

In [None]:
# 5) Processa todo o corpus
records = []
for _, row in tqdm(df.iterrows(), total=len(df)):
    doc_id = row["id"]
    text = row["text"]
    scores, ranked, top_label, top_score = classify_doc(text, candidate_labels, multi_label=True)
    rec = {"id": doc_id, "top_label": top_label, "top_score": round(top_score, 4)}
    # adiciona probabilidades por rótulo
    for lab in candidate_labels:
        rec[f"p_{lab}"] = round(scores[lab], 4)
    # também salva os 3 melhores para inspeção rápida
    rec["top3"] = ", ".join([f"{lab}:{round(sc,3)}" for lab, sc in ranked[:3]])
    records.append(rec)

out = pd.DataFrame(records)
out_path = "classificacao_zero_shot.csv"
out.to_csv(out_path, index=False)
print(f"OK! Resultados salvos em {out_path}")
print(out.head())