# Classificação Zero‑Shot (Hugging Face) para Corpus de Propostas Legislativas

**Objetivo:** Demonstrar, passo a passo, como aplicar **Zero‑Shot Classification** usando o modelo **BART-MNLI** da Hugging Face em um corpus de textos (ex.: propostas legislativas) armazenado em `corpus.csv`.

Este notebook foi escrito para **pessoas pesquisadoras** e **turmas iniciais**, com **código bem fragmentado** e **comentários extensos**. Ao final, salvamos os resultados em `corpus_zero_shot.csv`.

---
### O que é Zero‑Shot?
No Zero‑Shot, você fornece **rótulos candidatos** (ex.: `['esporte', 'negócios', 'viagem']`) e o modelo estima, para cada texto, quão provável é que **o texto seja sobre cada rótulo**, sem precisar de um conjunto de treino anotado.

## 1) Preparação do ambiente

Instale (uma vez) as bibliotecas necessárias. Em ambientes controlados (como servidores), procure instalar fora do notebook. Aqui ficam os comandos para referência.

In [None]:
# !pip install -U transformers torch pandas
# Observação: remova o comentário (!) acima e execute se precisar instalar.
# Em máquinas sem GPU, o pipeline usará CPU automaticamente.

## 2) Imports essenciais

In [1]:
import os
import math
import pandas as pd
from transformers import pipeline

# (Opcional) tentar usar GPU se disponível; caso contrário, usar CPU (-1)
try:
    import torch
    DEVICE = 0 if torch.cuda.is_available() else -1
except Exception:
    DEVICE = -1

DEVICE

-1

## 3) Defina os **rótulos candidatos** e o **template de hipótese**

Os rótulos são as categorias que queremos avaliar sem treino prévio. O *template* é a frase que "envolve" o rótulo para o modelo NLI (entailment). Em português, algo como: **"Este texto é sobre {}."**

In [2]:
CANDIDATE_LABELS = ["judiciário", "cultura", "esporte", "economia", "direitos humanos"]
HYPOTHESIS_TEMPLATE = "Este texto é sobre {}."
MODEL_NAME = "facebook/bart-large-mnli"  # modelo clássico para zero-shot via NLI
BATCH_SIZE = 16  # ajuste conforme sua máquina
CANDIDATE_LABELS, HYPOTHESIS_TEMPLATE, MODEL_NAME, BATCH_SIZE

(['judiciário', 'cultura', 'esporte', 'economia', 'direitos humanos'],
 'Este texto é sobre {}.',
 'facebook/bart-large-mnli',
 16)

## 4) Carregue o corpus (`corpus.csv`)

O arquivo `corpus.csv` deve conter **pelo menos** a coluna `text`. As demais colunas (ex.: `id`, `n_paginas`, `n_caracteres`) serão preservadas e voltam no arquivo de saída.

Se o separador for diferente (`,`/`;`/`\t`), usamos `sep=None` com detecção automática.

In [3]:
CSV_PATH = "corpus.csv"
df = pd.read_csv(CSV_PATH, engine="python", sep=None, on_bad_lines="skip", nrows=10)
assert "text" in df.columns, "O CSV precisa ter a coluna 'text'."
df.head(3)

Unnamed: 0,id,n_paginas,text,n_caracteres
0,2481874,21,...,68657
1,2481875,3,...,9901
2,2482075,3,...,7117


### 4.1) Inspecione o schema rapidamente

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            10 non-null     int64 
 1   n_paginas     10 non-null     int64 
 2   text          10 non-null     object
 3   n_caracteres  10 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 448.0+ bytes


### 4.2) Normalização simples do texto (opcional)

Esta etapa é **opcional**. Em zero‑shot, muitas vezes você pode enviar o texto bruto. Aqui, garantimos apenas que `text` seja string e tratamos `NaN` como string vazia.

In [5]:
df["text"] = df["text"].fillna("").astype(str)
df[["id", "text"]].head(3) if "id" in df.columns else df[["text"]].head(3)

Unnamed: 0,id,text
0,2481874,...
1,2481875,...
2,2482075,...


## 5) Instancie o pipeline de Zero‑Shot

O `pipeline` encapsula **tokenização**, **modelo** e **pós‑processamento**. Vamos usar `facebook/bart-large-mnli`, que é robusto para NLI (entailment/contradiction).

In [6]:
clf = pipeline(
    task="zero-shot-classification",
    model=MODEL_NAME,
    device=DEVICE  # 0 para GPU, -1 para CPU
)
clf

Device set to use cpu


<transformers.pipelines.zero_shot_classification.ZeroShotClassificationPipeline at 0x74e86013f640>

## 6) Teste rápido com **um único texto** (sanidade)

Antes de rodar no corpus inteiro, checamos com um exemplo curto para ver se a configuração de rótulos e template faz sentido.

In [7]:
text_example = (
    "Dispõe sobre a inclusão de disposições no Código de Processo Penal para assegurar maior celeridade e eficácia nas investigações criminais e promover a responsabilidade compartilhada na segurança pública."
)
res_example = clf(
    sequences=text_example,
    candidate_labels=["judiciário", "cultura", "esporte", "economia", "direitos humanos"],
    hypothesis_template="Este texto é sobre {}.",
    multi_label=False  # altere para True se quiser permitir múltiplos rótulos por texto
)
res_example

{'sequence': 'Dispõe sobre a inclusão de disposições no Código de Processo Penal para assegurar maior celeridade e eficácia nas investigações criminais e promover a responsabilidade compartilhada na segurança pública.',
 'labels': ['negócios', 'viagem', 'esporte'],
 'scores': [0.4049358367919922, 0.3348602056503296, 0.2602039873600006]}

**Funcionamento (intuitivo):** o modelo compara o texto com cada rótulo inserido no template (ex.: *"Este texto é sobre viagem."*) e retorna **probabilidades**. O rótulo de maior score é o **rótulo previsto**.

**Modelo (técnico):** é um classificador NLI (MNLI) que estima *entailment* entre o texto (premissa) e a frase com rótulo (hipótese). O `pipeline` converte as pontuações de entailment em *scores* por rótulo.

## 7) Processando o **corpus inteiro** em lotes

Para eficiência e controle de memória, processamos os textos em **batches**. A função utilitária abaixo gera fatias do vetor de textos.

In [None]:
def batched(iterable, batch_size):
    total = len(iterable)
    for i in range(0, total, batch_size):
        yield iterable[i:i+batch_size], i, min(i+batch_size, total), total

len(df)

### 7.1) Rodar e coletar resultados

**Saídas calculadas por texto:**

- `pred_label`: o rótulo vencedor (maior score)
- `pred_confidence`: a confiança associada a `pred_label`
- `score_<rótulo>`: score para cada rótulo candidato

Durante a execução, exibimos uma barra textual simples com o progresso por lote.

In [None]:
pred_labels = []        # rótulo vencedor por texto
pred_scores = []        # score do rótulo vencedor
per_label_scores = {lab: [] for lab in CANDIDATE_LABELS}  # scores por rótulo

texts = df["text"].tolist()
print("Rodando zero-shot no corpus…")
for batch, i, j, total in batched(texts, BATCH_SIZE):
    outputs = clf(
        sequences=batch,
        candidate_labels=CANDIDATE_LABELS,
        hypothesis_template=HYPOTHESIS_TEMPLATE,
        multi_label=False
    )

    # Normaliza para lista de dicts
    if isinstance(outputs, dict):
        outputs = [outputs]

    for out in outputs:
        # Melhor rótulo e score
        best_label = out["labels"][0]
        best_score = float(out["scores"][0])
        pred_labels.append(best_label)
        pred_scores.append(best_score)

        # Mapear scores por nome de rótulo (a saída vem ordenada por score)
        score_map = {lab: None for lab in CANDIDATE_LABELS}
        for lab, sc in zip(out["labels"], out["scores"]):
            score_map[lab] = float(sc)
        for lab in CANDIDATE_LABELS:
            per_label_scores[lab].append(score_map.get(lab, None))

    # Feedback de progresso
    print(f"  Lote {i+1}-{j} / {total}", end="\r")

print("\nConcluído.")

### 7.2) Anexar as colunas ao DataFrame

In [None]:
df["pred_label"] = pred_labels
df["pred_confidence"] = pred_scores
for lab in CANDIDATE_LABELS:
    df[f"score_{lab}"] = per_label_scores[lab]

df.head(10)

## 8) Salvar os resultados

Persistimos o DataFrame enriquecido em `corpus_zero_shot.csv`. Este arquivo contém todas as colunas originais + as previsões e scores.

In [None]:
OUT_PATH = "corpus_zero_shot.csv"
df.to_csv(OUT_PATH, index=False)
OUT_PATH

### 8.1) Prévia dos resultados

In [None]:
preview_cols = ["pred_label", "pred_confidence"] + [f"score_{lab}" for lab in CANDIDATE_LABELS]
cols = (["id"] if "id" in df.columns else []) + preview_cols
df[cols].head(10)

## 9) Notas, boas práticas e variações

- **Multi‑rótulo (`multi_label=True`)**: se um texto puder pertencer a **várias categorias** ao mesmo tempo,   ative `multi_label=True`. A saída trará scores independentes por rótulo (não somam 1).
- **Thresholds**: defina limiares mínimos (ex.: 0.5) para aceitar um rótulo; abaixo disso, marque como `indefinido`.
- **Português**: `facebook/bart-large-mnli` é treinado em inglês; para PT‑BR, experimente `joeddav/xlm-roberta-large-xnli`   (multilíngue) e compare resultados.
- **Desempenho**: para corpora grandes, processe em **lotes menores** e considere usar GPU.   Também é possível fazer *cache* de resultados por hash do texto.
- **Reprodutibilidade**: registre `MODEL_NAME`, `CANDIDATE_LABELS`, `HYPOTHESIS_TEMPLATE`, data e versão do pacote `transformers`.
- **Ética**: revise previsões em amostras; Zero‑Shot é ótimo para **prototipagem**. Em produção, prefira   **classificação supervisionada** com rótulos humanos quando possível.

## 10) Por que este modelo da Hugging Face?

**Funcionamento (intuitivo):** Escolhemos `facebook/bart-large-mnli` porque é um **padrão bem aceito** para Zero‑Shot baseado em inferência textual (NLI). Ele entende quando uma frase **confirma** outra, o que é ideal para rótulos em linguagem natural.

**Modelo (técnico):** `bart-large-mnli` é um **encoder‑decoder** ajustado em MNLI, usado no `pipeline` de `zero-shot-classification` para estimar *entailment* da hipótese "Texto é sobre {rótulo}". Para PT‑BR, muitos times preferem `xlm-roberta-large-xnli` por cobertura multilíngue; para ambientes restritos de CPU, versões menores (MiniLM/XLM‑R base) oferecem custo inferior com trade-off de acurácia.