# Sumarização em **Português** + Zero‑Shot em Sumários (Hugging Face)

**Objetivo:** gerar **sumários em português** para cada documento em `corpus.csv` (coluna `text`) usando um modelo mT5 multilíngue; em seguida, aplicar **classificação Zero‑Shot** **sobre os sumários**.

**Saídas:**
- `corpus_summaries_pt.csv` — adiciona `summary_pt` ao corpus.
- `corpus_sum_zero_shot_pt.csv` — inclui `summary_pt` + rótulo previsto e *scores* por rótulo.

> Inclui *map‑reduce por tokens* para contornar limites de sequência e *fallback* caso seu PyTorch seja < 2.6.

## 1) Ambiente e verificações rápidas

In [None]:
import os, sys
os.environ['TRANSFORMERS_NO_TORCHVISION'] = '1'
import transformers
print('transformers:', getattr(transformers, '__version__', None))
try:
    import torch
    print('torch:', torch.__version__)
    TORCH_GE_26 = tuple(int(x) for x in torch.__version__.split('.')[:2]) >= (2,6)
except Exception as e:
    print('torch não importou:', e)
    TORCH_GE_26 = False
from transformers import pipeline
print('Pipeline OK')


## 2) Configurações de modelos e rótulos

In [None]:
SUM_MODEL_PT_PRIMARY = 'csebuetnlp/mT5_multilingual_XLSum'
SUM_MODEL_PT_FALLBACK = 'google/mt5-small'
ZS_MODEL = 'joeddav/xlm-roberta-large-xnli'
CANDIDATE_LABELS = ['judiciário','cultura','esporte','economia','direitos humanos']
HYPOTHESIS_TEMPLATE = 'Este texto é sobre {}.'
SUM_MAX_INPUT_CHARS = 4500
SUM_BATCH = 3
ZS_BATCH = 12
SUM_PART_MAX_NEW = 80; SUM_PART_MIN_NEW = 20
SUM_FINAL_MAX_NEW = 120; SUM_FINAL_MIN_NEW = 40
ALLOW_SUM_FALLBACK = True
CANDIDATE_LABELS


## 3) Carregar o corpus (`corpus.csv`)

In [None]:
import pandas as pd
CSV_PATH = 'corpus.csv'
df = pd.read_csv(CSV_PATH, engine='python', sep=None, on_bad_lines='skip')
assert 'text' in df.columns, "O CSV precisa ter a coluna 'text'"
df['text'] = df['text'].fillna('').astype(str)
df.head(3)


## 4) *Pipeline* de sumarização (PT) com fallback

In [None]:
from transformers import pipeline
def init_summarizer(device=-1):
    try:
        summ = pipeline('text2text-generation', model=SUM_MODEL_PT_PRIMARY, device=device)
        return summ, summ.tokenizer, False
    except Exception as e:
        msg = str(e)
        if ('upgrade torch to at least v2.6' in msg.lower() or 'cve' in msg.lower()) and ALLOW_SUM_FALLBACK:
            print('[AVISO] torch < 2.6 bloqueou o checkpoint. Usando fallback (qualidade menor):', SUM_MODEL_PT_FALLBACK)
            summ = pipeline('text2text-generation', model=SUM_MODEL_PT_FALLBACK, device=device)
            return summ, summ.tokenizer, True
        raise
try:
    import torch
    DEVICE = 0 if torch.cuda.is_available() else -1
except Exception:
    DEVICE = -1
summ_pt, tok_pt, used_fallback = init_summarizer(DEVICE)
print('Summarizer pronto. Fallback?', used_fallback)


## 5) Utilitários: dividir por tokens e sumarização *map‑reduce*

In [None]:
from typing import List
def chunk_by_tokens(text: str, tokenizer, max_tokens: int = 480) -> List[str]:
    toks = tokenizer(text, return_attention_mask=False, return_tensors=None, add_special_tokens=False)
    ids = toks['input_ids']
    chunks = []
    for start in range(0, len(ids), max_tokens):
        end = min(start + max_tokens, len(ids))
        chunk_ids = ids[start:end]
        chunk_text = tokenizer.decode(chunk_ids, skip_special_tokens=True)
        chunks.append(chunk_text)
    return chunks
def summarize_long_pt(text: str, summarizer, tokenizer,
                      chunk_tokens=480,
                      part_max_new=80, part_min_new=20,
                      final_max_new=120, final_min_new=40,
                      fallback_prompt=False) -> str:
    def maybe_prompt(t):
        return (f'Resuma em português, de forma objetiva: {t}') if fallback_prompt else t
    parts = chunk_by_tokens(text, tokenizer, max_tokens=chunk_tokens)
    if not parts:
        return ''
    part_out = summarizer([maybe_prompt(p) for p in parts], truncation=True,
                          max_new_tokens=part_max_new, min_new_tokens=part_min_new, do_sample=False)
    part_summaries = [o.get('generated_text', o.get('summary_text','')) for o in part_out]
    joined = '\n'.join(part_summaries)
    final_out = summarizer(maybe_prompt(joined), truncation=True,
                           max_new_tokens=final_max_new, min_new_tokens=final_min_new, do_sample=False)
    return final_out[0].get('generated_text', final_out[0].get('summary_text',''))


## 6) Sumarizar o corpus (PT)

In [None]:
def batched(iterable, batch_size):
    total = len(iterable)
    for i in range(0, total, batch_size):
        yield iterable[i:i+batch_size], i, min(i+batch_size, total), total
summaries_pt = []
texts = df['text'].tolist()
print('Gerando sumários em português…')
for batch, i, j, total in batched(texts, SUM_BATCH):
    for t in batch:
        t_clip = t[:SUM_MAX_INPUT_CHARS]
        s = summarize_long_pt(t_clip, summ_pt, tok_pt, 480,
                              SUM_PART_MAX_NEW, SUM_PART_MIN_NEW,
                              SUM_FINAL_MAX_NEW, SUM_FINAL_MIN_NEW,
                              used_fallback)
        summaries_pt.append(s)
    print(f'  Lote {i+1}-{j} / {total}', end='\r')
print('\nConcluído.')
len(summaries_pt)


### 6.1) Salvar sumários

In [None]:
import pandas as pd
df['summary_pt'] = summaries_pt
SUM_OUT = 'corpus_summaries_pt.csv'
df.to_csv(SUM_OUT, index=False)
SUM_OUT


## 7) Zero‑Shot sobre os sumários em PT

In [None]:
from transformers import pipeline
clf = pipeline('zero-shot-classification', model=ZS_MODEL, device=DEVICE)
clf


### 7.1) Rodar e salvar previsões

In [None]:
pred_labels, pred_scores = [], []
per_label_scores = {lab: [] for lab in CANDIDATE_LABELS}
summ_texts = df['summary_pt'].fillna('').astype(str).tolist()
print('Rodando zero-shot…')
for batch, i, j, total in batched(summ_texts, ZS_BATCH):
    outputs = clf(sequences=batch, candidate_labels=CANDIDATE_LABELS,
                  hypothesis_template=HYPOTHESIS_TEMPLATE, multi_label=False)
    if isinstance(outputs, dict):
        outputs = [outputs]
    for out in outputs:
        pred_labels.append(out['labels'][0])
        pred_scores.append(float(out['scores'][0]))
        smap = {lab: None for lab in CANDIDATE_LABELS}
        for lab, sc in zip(out['labels'], out['scores']):
            smap[lab] = float(sc)
        for lab in CANDIDATE_LABELS:
            per_label_scores[lab].append(smap.get(lab))
    print(f'  Lote {i+1}-{j} / {total}', end='\r')
print('\nConcluído.')
df['pred_label'] = pred_labels
df['pred_confidence'] = pred_scores
for lab in CANDIDATE_LABELS:
    df[f'score_{lab}'] = per_label_scores[lab]
OUT_PATH = 'corpus_sum_zero_shot_pt.csv'
df.to_csv(OUT_PATH, index=False)
OUT_PATH


## 8) Observações
- Se você **não precisa** de visão, pode desinstalar `torchvision` e `torchaudio`.
- Para melhor compatibilidade com checkpoints do HF, mantenha **`torch >= 2.6`**.
