# Sumarização + Zero‑Shot (Hugging Face) para Corpus de Propostas Legislativas

**Objetivo:** primeiro, gerar **sumários** curtos das propostas em `corpus.csv`; em seguida, aplicar **classificação Zero‑Shot** **sobre os sumários** para rótulos temáticos.

Este notebook é voltado a **pesquisadoras(es) de ciências sociais** e traz **código fragmentado** com **comentários extensos**. Ao final, salvamos:

- `corpus_summaries.csv` — com a coluna `summary`.
- `corpus_sum_zero_shot.csv` — com `summary` + rótulo previsto e *scores* por rótulo.

## 1) Preparação do ambiente

Instale (uma vez) as bibliotecas. Em ambientes gerenciados, prefira instalar fora do notebook. Aqui ficam os comandos apenas como referência.

In [None]:
# !pip install -U transformers torch pandas
# Opcional: para modelos multilíngues menores, você pode testar mT5 (summarization via text2text)
# !pip install -U sentencepiece
# Observação: em máquinas sem GPU, o pipeline usará CPU automaticamente.

## 2) Imports e detecção de dispositivo (CPU/GPU)

In [None]:
import os
import math
import pandas as pd
from transformers import pipeline

try:
    import torch
    DEVICE = 0 if torch.cuda.is_available() else -1
except Exception:
    DEVICE = -1

DEVICE

## 3) Configurações: modelos, limites e rótulos candidatos

**Modelos sugeridos**:

- **Sumarização**: `facebook/bart-large-cnn` (inglês; funciona razoavelmente em PT para exemplos simples) — *pipeline* `summarization`.
  - Alternativas multilíngues: `csebuetnlp/mT5_multilingual_XLSum` (via `text2text-generation`) ou variantes mT5/mBART afinadas.
- **Zero‑Shot**: `facebook/bart-large-mnli` (NLI clássico). Para multilíngue, teste `joeddav/xlm-roberta-large-xnli`.

**Limites práticos**:
- Documentos longos podem exceder o limite do modelo. Abaixo usamos **truncagem simples** por tamanho de caracteres para fins didáticos.
- Em produção, prefira **map‑reduce** (sumarizar partes → resumir os resumos) e controle de *prompt/decoding*.

In [None]:
SUM_MODEL = "facebook/bart-large-cnn"
SUM_MAX_INPUT_CHARS = 3500
SUM_MAX_NEW_TOKENS = 120
SUM_MIN_NEW_TOKENS = 40

ZS_MODEL = "facebook/bart-large-mnli"
CANDIDATE_LABELS = ["judiciário", "cultura", "esporte", "economia", "direitos humanos"]
HYPOTHESIS_TEMPLATE = "Este texto é sobre {}."

SUM_BATCH = 4
ZS_BATCH  = 16

SUM_MODEL, ZS_MODEL, CANDIDATE_LABELS

## 4) Carregar o corpus (`corpus.csv`)

O arquivo deve conter a coluna **`text`**. Outras colunas (ex.: `id`, `n_paginas`, `n_caracteres`) serão preservadas. Se o separador for diferente (`,`/`;`/`\t`), usamos `sep=None` (detecção automática).

In [None]:
CSV_PATH = "corpus.csv"
df = pd.read_csv(CSV_PATH, engine="python", sep=None, on_bad_lines="skip")
assert "text" in df.columns, "O CSV precisa ter a coluna 'text'."
df.head(3)

### 4.1) Esquema e normalização mínima do texto

In [None]:
df.info()

In [None]:
df["text"] = df["text"].fillna("").astype(str)
df[["id","text"]].head(3) if "id" in df.columns else df[["text"]].head(3)

## 5) Instanciar o *pipeline* de sumarização

O `pipeline('summarization')` cuida de tokenização, modelo e pós‑processamento. Para inputs longos, aplicamos **truncagem por caracteres** (didático). Em produção, prefira **map‑reduce**.

In [None]:
summ = pipeline(
    task="summarization",
    model=SUM_MODEL,
    device=DEVICE
)
summ

## 6) Sumarização — teste rápido com **um único texto**

In [None]:
example_text = (
    "Dispõe sobre a inclusão de disposições no Código de Processo Penal para assegurar maior celeridade e "
    "eficácia nas investigações criminais e promover a responsabilidade compartilhada na segurança pública."
)
inp = example_text[:SUM_MAX_INPUT_CHARS]
summ(example_text, max_new_tokens=SUM_MAX_NEW_TOKENS, min_new_tokens=SUM_MIN_NEW_TOKENS, do_sample=False)

## 7) Sumarização do corpus (em lotes)

Função utilitária para **lotes** e geração da coluna `summary`.

In [None]:
def batched(iterable, batch_size):
    total = len(iterable)
    for i in range(0, total, batch_size):
        yield iterable[i:i+batch_size], i, min(i+batch_size, total), total

summaries = []
texts = df["text"].tolist()
print("Gerando sumários…")
for batch, i, j, total in batched(texts, SUM_BATCH):
    clipped = [t[:SUM_MAX_INPUT_CHARS] for t in batch]
    out = summ(
        clipped,
        max_new_tokens=SUM_MAX_NEW_TOKENS,
        min_new_tokens=SUM_MIN_NEW_TOKENS,
        do_sample=False
    )
    for o in out:
        summaries.append(o["summary_text"])  # chave padrão do pipeline
    print(f"  Lote {i+1}-{j} / {total}", end="\r")

print("\nConcluído.")
len(summaries)

### 7.1) Anexar `summary` ao DataFrame e salvar (`corpus_summaries.csv`)

In [None]:
df["summary"] = summaries
df.head(5)

In [None]:
SUM_OUT = "corpus_summaries.csv"
df.to_csv(SUM_OUT, index=False)
SUM_OUT

## 8) Classificação Zero‑Shot **sobre os sumários**

In [None]:
clf = pipeline(
    task="zero-shot-classification",
    model=ZS_MODEL,
    device=DEVICE
)
clf

### 8.1) Rodar e coletar resultados (em lotes)

In [None]:
pred_labels = []
pred_scores = []
per_label_scores = {lab: [] for lab in CANDIDATE_LABELS}

summ_texts = df["summary"].fillna("").astype(str).tolist()
print("Rodando zero-shot sobre sumários…")
for batch, i, j, total in batched(summ_texts, ZS_BATCH):
    outputs = clf(
        sequences=batch,
        candidate_labels=CANDIDATE_LABELS,
        hypothesis_template=HYPOTHESIS_TEMPLATE,
        multi_label=False
    )
    if isinstance(outputs, dict):
        outputs = [outputs]
    for out in outputs:
        best_label = out["labels"][0]
        best_score = float(out["scores"][0])
        pred_labels.append(best_label)
        pred_scores.append(best_score)

        score_map = {lab: None for lab in CANDIDATE_LABELS}
        for lab, sc in zip(out["labels"], out["scores"]):
            score_map[lab] = float(sc)
        for lab in CANDIDATE_LABELS:
            per_label_scores[lab].append(score_map.get(lab, None))

    print(f"  Lote {i+1}-{j} / {total}", end="\r")

print("\nConcluído.")

### 8.2) Anexar previsões ao DataFrame e salvar (`corpus_sum_zero_shot.csv`)

In [None]:
df["pred_label"] = pred_labels
df["pred_confidence"] = pred_scores
for lab in CANDIDATE_LABELS:
    df[f"score_{lab}"] = per_label_scores[lab]

df.head(10)

In [None]:
OUT_PATH = "corpus_sum_zero_shot.csv"
df.to_csv(OUT_PATH, index=False)
OUT_PATH

## 9) Boas práticas e variações

- **Map‑reduce** para textos longos; **controle** de `max_new_tokens` e *decoding*.
- **PT‑BR**: experimente mT5/mBART em PT; para Zero‑Shot multilíngue, use XLM‑R XNLI.
- **Multi‑rótulo** com thresholds por categoria.
- **Rastreabilidade**: salve versões dos modelos, parâmetros e datas.

## 10) Por que estes modelos?

**Sumarização (Funcionamento):** ler e condensar; **Modelo:** seq2seq (BART/T5/mT5) com controle de comprimento.

**Zero‑Shot (Funcionamento):** comparar sumário com rótulos em linguagem natural; **Modelo:** NLI (MNLI) que estima *entailment*.

**Escolhas:** `facebook/bart-large-cnn` como baseline comum; `facebook/bart-large-mnli` como clássico para Zero‑Shot. Para PT‑BR/multilíngue, teste mT5/mBART para sumarização e XLM‑R‑XNLI para zero‑shot.