# Sumarização em **Português** + Zero‑Shot em Sumários (Hugging Face)

**Objetivo:** gerar **sumários em português** para cada documento em `corpus.csv` (coluna `text`) usando um modelo mT5 multilíngue; em seguida, aplicar **classificação Zero‑Shot** **sobre os sumários**.

**Saídas:**
- `corpus_summaries_pt.csv` — adiciona `summary_pt` ao corpus.
- `corpus_sum_zero_shot_pt.csv` — inclui `summary_pt` + rótulo previsto e *scores* por rótulo.

> Este notebook é didático: código fragmentado, comentários extensos e uma versão **robusta** de sumarização com *map‑reduce por tokens* para evitar limites de sequência.

## 1) Preparação do ambiente

Instale (uma vez) as bibliotecas. Em ambientes gerenciados, prefira instalar fora do notebook. Os comandos abaixo são apenas referência.

In [None]:
# !pip install -U transformers torch pandas sentencepiece
# Observação: em máquinas sem GPU, o pipeline usará CPU automaticamente.

## 2) Imports e detecção de dispositivo (CPU/GPU)

In [None]:
import os
import pandas as pd
from transformers import pipeline

try:
    import torch
    DEVICE = 0 if torch.cuda.is_available() else -1
except Exception:
    DEVICE = -1

DEVICE

## 3) Configurações: modelos PT e rótulos

**Sumarização em PT**: `csebuetnlp/mT5_multilingual_XLSum` (multilíngue ajustado para sumarização, funciona bem em português).

**Zero‑Shot**: `joeddav/xlm-roberta-large-xnli` (XNLI multilíngue; lida bem com PT).

In [None]:
# ---- Sumarização (Português)
SUM_MODEL_PT = "csebuetnlp/mT5_multilingual_XLSum"
SUM_MAX_INPUT_CHARS = 4500  # corte de segurança por caracteres (antes da tokenização)
SUM_PART_MAX_NEW = 80       # tokens novos nos mini‑resumos
SUM_PART_MIN_NEW = 20
SUM_FINAL_MAX_NEW = 120     # tokens novos no meta‑resumo
SUM_FINAL_MIN_NEW = 40

# ---- Zero‑Shot (multilíngue/PT)
ZS_MODEL = "joeddav/xlm-roberta-large-xnli"
CANDIDATE_LABELS = [
    "judiciário", "cultura", "esporte", "economia", "direitos humanos"
]
HYPOTHESIS_TEMPLATE = "Este texto é sobre {}."

# ---- Batching
SUM_BATCH = 3  # mT5 é mais pesado; mantenha pequeno em CPU
ZS_BATCH  = 12

SUM_MODEL_PT, ZS_MODEL, CANDIDATE_LABELS

## 4) Carregar o corpus (`corpus.csv`)

In [None]:
CSV_PATH = "corpus.csv"
df = pd.read_csv(CSV_PATH, engine="python", sep=None, on_bad_lines="skip")
assert "text" in df.columns, "O CSV precisa ter a coluna 'text'."
df["text"] = df["text"].fillna("").astype(str)
df.head(3)

## 5) Instanciar o *pipeline* de sumarização em português (mT5)

O checkpoint mT5 é **text2text**; usamos `pipeline('text2text-generation')`. Vamos também criar utilitários para **map‑reduce por tokens**, evitando limites de sequência.

In [None]:
summ_pt = pipeline(
    task="text2text-generation",
    model=SUM_MODEL_PT,
    device=DEVICE
)
summ_pt

## 6) Utilitários: divisão por **tokens** e sumarização *map‑reduce* (PT)

In [None]:
from typing import List

def chunk_by_tokens(text: str, tokenizer, max_tokens: int = 480) -> List[str]:
    """Divide o texto em blocos que, tokenizados, não passem de max_tokens.
    Mantemos margem para *special tokens*."""
    toks = tokenizer(text, return_attention_mask=False, return_tensors=None, add_special_tokens=False)
    ids = toks["input_ids"]
    chunks = []
    for start in range(0, len(ids), max_tokens):
        end = min(start + max_tokens, len(ids))
        chunk_ids = ids[start:end]
        chunk_text = tokenizer.decode(chunk_ids, skip_special_tokens=True)
        chunks.append(chunk_text)
    return chunks

def summarize_long_pt(text: str, summarizer, tokenizer,
                      chunk_tokens=480,
                      part_max_new=80, part_min_new=20,
                      final_max_new=120, final_min_new=40) -> str:
    parts = chunk_by_tokens(text, tokenizer, max_tokens=chunk_tokens)
    if not parts:
        return ""
    # 1) Resumir partes (PT)
    part_out = summarizer(
        parts,
        truncation=True,
        max_new_tokens=part_max_new,
        min_new_tokens=part_min_new,
        do_sample=False
    )
    part_summaries = [o.get("generated_text", "") for o in part_out]
    # 2) Meta‑resumo (PT)
    joined = "\n".join(part_summaries)
    final_out = summarizer(
        joined,
        truncation=True,
        max_new_tokens=final_max_new,
        min_new_tokens=final_min_new,
        do_sample=False
    )
    return final_out[0].get("generated_text", "")


## 7) Sumarizar o corpus em **português** (map‑reduce por tokens)

In [None]:
def batched(iterable, batch_size):
    total = len(iterable)
    for i in range(0, total, batch_size):
        yield iterable[i:i+batch_size], i, min(i+batch_size, total), total

summaries_pt = []
texts = df["text"].tolist()
print("Gerando sumários em português…")
for batch, i, j, total in batched(texts, SUM_BATCH):
    for t in batch:
        t_clip = t[:SUM_MAX_INPUT_CHARS]  # corte de segurança por caracteres
        s = summarize_long_pt(
            text=t_clip,
            summarizer=summ_pt,
            tokenizer=summ_pt.tokenizer,
            chunk_tokens=480,
            part_max_new=SUM_PART_MAX_NEW,
            part_min_new=SUM_PART_MIN_NEW,
            final_max_new=SUM_FINAL_MAX_NEW,
            final_min_new=SUM_FINAL_MIN_NEW
        )
        summaries_pt.append(s)
    print(f"  Lote {i+1}-{j} / {total}", end="\r")

print("\nConcluído.")
len(summaries_pt)

### 7.1) Salvar sumários PT

In [None]:
df["summary_pt"] = summaries_pt
SUM_OUT = "corpus_summaries_pt.csv"
df.to_csv(SUM_OUT, index=False)
SUM_OUT

## 8) Zero‑Shot **sobre os sumários em PT**

In [None]:
clf = pipeline(
    task="zero-shot-classification",
    model=ZS_MODEL,
    device=DEVICE
)
clf

### 8.1) Rodar e coletar previsões (em lotes)

In [None]:
pred_labels = []
pred_scores = []
per_label_scores = {lab: [] for lab in CANDIDATE_LABELS}

summ_texts = df["summary_pt"].fillna("").astype(str).tolist()
print("Rodando zero-shot sobre sumários PT…")
for batch, i, j, total in batched(summ_texts, ZS_BATCH):
    outputs = clf(
        sequences=batch,
        candidate_labels=CANDIDATE_LABELS,
        hypothesis_template=HYPOTHESIS_TEMPLATE,
        multi_label=False
    )
    if isinstance(outputs, dict):
        outputs = [outputs]
    for out in outputs:
        best_label = out["labels"][0]
        best_score = float(out["scores"][0])
        pred_labels.append(best_label)
        pred_scores.append(best_score)

        score_map = {lab: None for lab in CANDIDATE_LABELS}
        for lab, sc in zip(out["labels"], out["scores"]):
            score_map[lab] = float(sc)
        for lab in CANDIDATE_LABELS:
            per_label_scores[lab].append(score_map.get(lab, None))

    print(f"  Lote {i+1}-{j} / {total}", end="\r")

print("\nConcluído.")

### 8.2) Salvar previsões

In [None]:
df["pred_label"] = pred_labels
df["pred_confidence"] = pred_scores
for lab in CANDIDATE_LABELS:
    df[f"score_{lab}"] = per_label_scores[lab]

OUT_PATH = "corpus_sum_zero_shot_pt.csv"
df.to_csv(OUT_PATH, index=False)
OUT_PATH

## 9) Observações e escolhas de modelo

**Sumarização PT (Funcionamento):** o mT5 lê o texto e produz um resumo conciso em português; **Modelo:** *seq2seq* com vocabulário subword multilíngue, afinado no dataset XLSum.

**Zero‑Shot (Funcionamento):** com rótulos em linguagem natural, o XLM‑R XNLI estima se o sumário *entails* cada rótulo; **Modelo:** encoder multilíngue ajustado em XNLI. Para tarefas puramente em PT, também é possível usar BART‑MNLI com bom desempenho prático.