# Introdução prática: Técnicas com LLM (Python)

Este notebook reúne **exemplos mínimos** de técnicas que usam modelos da Hugging Face. Cada seção traz:

- **Funcionamento:** 2 parágrafos, explicação intuitiva para quem não programa.
- **Modelo:** 2 parágrafos, explicação técnica para quem já conhece NLP/IR.
- **Código:** um exemplo pequeno que roda em CPU em poucas amostras.
- **Escolha do modelo:** por que escolhemos *aquele* checkpoint.

**Instalação sugerida (uma vez):**

```bash
pip install -U transformers sentence-transformers datasets accelerate torch bertopic
```
Se alguma célula ficar lenta, reduza o número de exemplos ou use modelos menores.

## 1) BERTopic (encoder/embeddings)

### Funcionamento
Pense em cada texto como um ponto em um mapa invisível: textos parecidos ficam perto, diferentes ficam longe. O BERTopic transforma os textos em vetores (pontos desse mapa), agrupa automaticamente os que se parecem e, depois, tenta **dar um nome** a cada grupo usando as palavras mais características.

Na prática, ele cria **tópicos** sem precisar que você defina categorias antes. É como organizar uma caixa de recortes por “assuntos” sem ler tudo: o algoritmo encontra padrões e propõe rótulos, que você pode revisar e renomear para ficar claro para o público-alvo.

### Modelo
BERTopic combina três blocos: (1) **embeddings** de sentença (ex.: MiniLM) para representar textos; (2) redução de dimensionalidade opcional (UMAP) para preservar vizinhanças; e (3) **clusterização** baseada em densidade (HDBSCAN), seguida de **c-TF-IDF** para rotular tópicos com termos distintivos.

Os embeddings trazem semântica contextual (encoder-only), enquanto a c-TF-IDF resgata interpretabilidade lexical. O resultado são clusters semanticamente coesos com rótulos legíveis.

In [1]:
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
docs = [
    "Fila longa na saúde pública.",
    "A escola municipal abriu novas turmas.",
    "Falta iluminação em ruas do bairro.",
    "Programa de formação profissional para jovens."
]
emb = SentenceTransformer("all-MiniLM-L6-v2")
topic_model = BERTopic(embedding_model=emb)
topics, _ = topic_model.fit_transform(docs)
topic_model.get_topic_info().head()

  eigenvalues, eigenvectors = scipy.sparse.linalg.eigsh(
  eigenvalues, eigenvectors = scipy.sparse.linalg.eigsh(


TypeError: Cannot use scipy.linalg.eigh for sparse A with k >= N. Use scipy.linalg.eigh(A.toarray()) or reduce k.

**Escolha do modelo.** Usamos `all-MiniLM-L6-v2` pelos embeddings rápidos e robustos em CPU, com boa qualidade para tópicos em português simples. Em domínios específicos, troque por um encoder multilíngue ou treinado no seu domínio.

## 2) Busca semântica (Embeddings)

#### Funcionamento

Uma possibilidade de classificar textos sem o uso de LLM ou modelos probabilísticos é fazer buscas determinísticas, ou seja, verificar se um ou mais termos (e suas variações) estão presentes num texto. Mas a busca por palavras exatas pode gerar classificações muito imprecisas, pois as palavras dependem, evidentemente, de contexto. Assim, vamos utilizar um modelo de busca semâtica para tentar classificar um *corpus*. Em vez de procurarmos por palavras exatas, fazemos uma busca por significado. Em primeiro transformamos cada documento do corpus em um vetor numérico (embedding). Depois transformamos também a consulta (ex: "meio ambiente") em um vetor no mesmo espaço vetorial. Calculamos a similaridade entre o vetor da consulta e o vetor de cada documento e ordenamos os documentos do mais parecido para o menos parecido. Assim conseguimos recuperar, para cada item do corpus, um score de proximidade semântica, mesmo que o texto não contenha literalmente a expressão “meio ambiente”, mas fale de clima, florestas, Amazônia, transição energética etc.

#### Escolha do modelo

Para gerar os embeddings utilizamos o modelo all-MiniLM-L6-v2 da biblioteca SentenceTransformers. É um modelo leve e eficiente, treinado para produzir vetores de sentenças úteis em tarefas de similaridade semântica e recuperação de informação. Ele é uma didática, porque é rápido o suficiente para rodar em CPU e funciona razoavelmente bem em vários idiomas (incluindo português, mesmo não sendo especializado). Já vem integrado à API SentenceTransformer, facilitando o uso em poucas linhas de código.

#### Modelo 

O all-MiniLM-L6-v2 é um bi-encoder de sentenças. Um mesmo encoder transforma tanto os documentos quanto a consulta em vetores de dimensão fixa. Esses vetores são normalizados e comparados via produto interno, que se comporta como similaridade de cosseno. Durante o treinamento, o modelo é otimizado para que textos semanticamente parecidos fiquem próximos no espaço vetorial e textos diferentes fiquem distantes.

In [15]:
import numpy as np
from sentence_transformers import SentenceTransformer
corpus = [
    "Chegamos ao quinto episódio da série MIL KM, nossa roadtrip eletrificada pela Costa Verde",
    "Projeto cria vagas em cursos técnicos.",
    "Município amplia postos de saúde.",
]
model = SentenceTransformer("all-MiniLM-L6-v2")
C = model.encode(corpus, normalize_embeddings=True)
query = "expansão de atendimento médico"
q = model.encode(query, normalize_embeddings=True)
scores = (C @ q)            # similaridade cosseno (normalizado)
topk = np.argsort(-scores)
[(corpus[i], float(scores[i])) for i in topk]

[('SENHORAS E SENHORES, O período que se encerra foi marcado por uma das maiores tragédias da história: a pandemia de Covid-19. Em nenhum outro país a quantidade de vítimas fatais foi tão alta proporcionalmente à população quanto no Brasil, um dos países mais preparados para enfrentar emergências sanitárias, graças à competência do nosso Sistema Único de Saúde. Este paradoxo só se explica pela atitude criminosa de um governo negacionista, obscurantista e insensível à vida. As responsabilidades por este genocídio hão de ser apuradas e não devem ficar impunes. O que nos cabe, no momento, é prestar solidariedade aos familiares, pais, órfãos, irmãos e irmãs de quase 700 mil vítimas da pandemia. O SUS é provavelmente a mais democrática das instituições criadas pela Constituição de 1988. Certamente por isso foi a mais perseguida desde então, e foi, também, a mais prejudicada por uma estupidez chamada Teto de Gastos, que haveremos de revogar. Vamos recompor os orçamentos da Saúde para garanti

**Escolha do modelo.** `all-MiniLM-L6-v2` equilibra tamanho/qualidade e é multilíngue suficiente para PT-BR simples. Para PT-BR mais robusto, avalie `paraphrase-multilingual-MiniLM-L12-v2`; para domínios técnicos, prefira encoders específicos.

## 3) Cross-encoder (re-ranking fino)

### Funcionamento
Depois de uma busca rápida, pegamos as top respostas e pedimos um **segundo parecer** mais criterioso. O cross-encoder lê **consulta e candidato juntos**, entendendo nuances que o bi-encoder não viu.

Ele custa mais caro (lê cada par), mas melhora muito a ordem final do top‑k. É como chamar uma/um especialista para revisar os finalistas.

### Modelo
O **cross-encoder** concatena query e passage, roda um encoder e produz um score de relevância. Como não gera embeddings indexáveis, é aplicado apenas no shortlist (re-ranking).

Modelos MiniLM treinados em MS MARCO são escolhas leves e eficazes para demonstrações em CPU.

In [3]:
from sentence_transformers import CrossEncoder
query = "expansão de atendimento médico"
cands = [
  "Relatório aponta superlotação carcerária.",
  "Município amplia postos de saúde.",
  "Projeto cria vagas em cursos técnicos.",
]
pairs = [(query, c) for c in cands]
reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
scores = reranker.predict(pairs)
sorted(zip(cands, scores), key=lambda x: -x[1])

[('Município amplia postos de saúde.', -11.258664),
 ('Projeto cria vagas em cursos técnicos.', -11.325809),
 ('Relatório aponta superlotação carcerária.', -11.371019)]

**Escolha do modelo.** `cross-encoder/ms-marco-MiniLM-L-6-v2` é compacto e treinado para ranking, ótimo para aulas. Em produção, avalie modelos maiores ou afinados no seu domínio.

## 4) Zero-shot por NLI

### Funcionamento
Aqui você passa rótulos candidatos em linguagem natural (ex.: “saúde”, “educação”) e o modelo estima se o texto **combina** com cada rótulo, sem precisar de exemplos anotados.

É excelente para protótipos e taxonomias em mudança, pois você testa rótulos rapidamente antes de investir em rotulação humana.

### Modelo
Baseia-se em **NLI** (entailment/contradiction). Montamos frases do tipo: “Este texto é sobre {rótulo}” e o modelo calcula a probabilidade de entailment.

Como depende do *verbalizer* (a forma da frase), é comum calibrar *templates* e thresholds por rótulo.

In [4]:
from transformers import pipeline
clf = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
text = "Chegamos ao quinto episódio da série MIL KM, nossa roadtrip eletrificada pela Costa Verde"
labels = ["esporte", "negócios", "viagem"]
clf(candidate_labels=labels, hypothesis_template="Este texto é sobre {}.")

Device set to use cpu


TypeError: ZeroShotClassificationPipeline.__call__() missing 1 required positional argument: 'sequences'

**Escolha do modelo.** `facebook/bart-large-mnli` é um clássico para zero‑shot NLI. Para PT-BR e multilíngue, teste `joeddav/xlm-roberta-large-xnli` ou variantes menores para CPU.

## 5) Classificação supervisionada (fine-tune rápido)

### Funcionamento
Quando você tem **exemplos rotulados**, treina um modelo para aprender o padrão desses rótulos. Depois, ele generaliza para novos textos.

É o caminho de maior acurácia e estabilidade quando sua taxonomia é clara e você dispõe de dados anotados de qualidade.

### Modelo
Usamos um encoder (ex.: DistilBERT) com uma cabeça de classificação. O treinamento ajusta os pesos para minimizar a perda de cross‑entropy sobre as classes.

Cuidados: balanceamento de classes, *early stopping*, validação por estratos e *regularization* para evitar overfit.

In [6]:
from datasets import Dataset
from transformers import (AutoTokenizer, AutoModelForSequenceClassification,
                          TrainingArguments, Trainer)

train = Dataset.from_dict({
  "text": ["Fila no hospital", "Vagas em escolas", "Mais policiais nas ruas", "Cursos profissionalizantes"],
  "label":[0,1,2,3]  # 0-saúde, 1-educação, 2-segurança, 3-trabalho
})
tok = AutoTokenizer.from_pretrained("distilbert-base-uncased")
def preprocess(ex): return tok(ex["text"], truncation=True, padding="max_length", max_length=128)
train_tok = train.map(preprocess, batched=True)

model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=4)
args = TrainingArguments("out", num_train_epochs=1, per_device_train_batch_size=8, logging_steps=5)
trainer = Trainer(model=model, args=args, train_dataset=train_tok)
trainer.train()

# Inferência
pred = trainer.predict(train_tok)
pred.predictions.argmax(axis=1)

Map:   0%|          | 0/4 [00:00<?, ? examples/s]

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Step,Training Loss


array([2, 2, 2, 3])

**Escolha do modelo.** `distilbert-base-uncased` é leve e bom para demonstração. Para PT-BR, considere `neuralmind/bert-base-portuguese-cased` (BERTimbau) ou `xlm-roberta-base`.

## 6) NER (token classification)

### Funcionamento
O modelo marca automaticamente **pedaços do texto** que correspondem a entidades (pessoas, organizações, lugares etc.). Depois você pode mascarar nomes ou extrair metadados.

É útil para anonimização, catálogos de atores e análise de redes (quem aparece com quem nos documentos).

### Modelo
Trata-se de *token classification*: cada token recebe um rótulo no esquema BIO/IOB. Encoders capturam contexto para decidir limites e tipo da entidade.

Modelos pré‑treinados gerais funcionam bem, mas domínios específicos (jurídico, médico) pedem *fine-tuning* próprio.

In [7]:
from transformers import pipeline
ner = pipeline("token-classification", model="dslim/bert-base-NER", aggregation_strategy="simple")
txt = "Chegamos ao quinto episódio da série MIL KM, nossa roadtrip eletrificada pela Costa Verde, e o destino da vez é a paradisíaca Angra dos Reis, no Rio de Janeiro. Já passamos por Ilhabela e Ubatuba, em São Paulo, além de Paraty e Trindade, em terras fluminenses. E depois de cerca de 600 quilômetros rodados em um carro híbrido, chegamos a um dos destinos mais cobiçados do litoral brasileiro. Por aqui, exploramos algumas das 365 ilhas que formam esse arquipélago, visitamos cachoeiras, mergulhamos em águas cristalinas e ainda aproveitamos para conhecer lugares cheios de história. Começamos o passeio no Cais Turístico de Santa Luzia, de onde saem as principais embarcações. De lá, em poucos minutos, estávamos na Praia do Dentista, uma das mais famosas e badaladas da região. Com o mar calmo e transparente, é o cenário perfeito pra quem gosta de nadar ou praticar snorkeling. A próxima parada foram as Ilhas Botinas, conhecidas como as 'gêmeas' de Angra. O lugar é cartão-postal da cidade e impressiona pela vida marinha — é possível ver cardumes inteiros nadando bem perto das pedras. Voltamos então pra Ilha da Gipóia, dessa vez pra almoçar na Praia das Flechas, que combina boa estrutura de restaurantes com aquele mar tranquilo que convida a ficar horas na areia. Também passamos pela Ilha de Caras, que ficou famosa nos anos 1990 e 2000 por receber celebridades em ensaios e gravações. Quando a maré baixa, dá até pra caminhar até a Igreja da Piedade, uma das construções mais fotogênicas da região. No dia seguinte, saímos cedo rumo a uma das nossas ilhas favoritas no Brasil: Cataguases. Com areia branca e mar em tons de verde, ela é deslumbrante. Seguimos até a Lagoa Azul, um dos lugares mais conhecidos de Angra, onde o mar ganha tons que lembram o Caribe. A água é tão clara que dá pra ver centenas de peixes nadando ao redor. E para fechar esse passeio, ainda passamos por Grumixama, uma prainha escondida cercada de Mata Atlântica e perfeita pra quem busca sossego. Mas Angra não é só mar. Fomos até a Cachoeira do Encanto, uma das mais bonitas da cidade. A trilha tem cerca de 3 km, com subidas que exigem fôlego, mas o visual compensa: uma queda d'água de 30 metros em meio à floresta. Outro destaque foi o mergulho de cilindro, feito a partir da Marina Piratas, no centro de Angra. E também exploramos o Corredor Turístico Sul, que fica a cerca de 40 minutos do centro e reúne praias quase secretas, como a Praia do Laboratório, onde a água é morna e cheia de tartarugas. A região ainda abriga o Observatório Nuclear, um espaço gratuito e interativo que explica o funcionamento das usinas Angra 1 e 2. Pra encerrar a passagem pela cidade, caminhamos pelo Centro Histórico, com igrejas do século XVIII, casarões coloniais e a charmosa Praça General Osório. É o contraste perfeito entre o passado e o paraíso natural que cerca Angra dos Reis. E é daqui que partimos para o nosso sexto e último destino da série: a Ilha Grande. Mas esse capítulo fica pro próximo episódio. Até lá, aproveite pra conferir os episódios anteriores — já vimos baleias em Ilhabela, dormimos em uma ilha em Ubatuba, exploramos as ruas de Paraty e mergulhamos nas águas de Trindade. Sobre o MIL KM Nesta série de Nossa, Andy Spinelli e Dea Lyra, à frente do perfil @destinosimperdíveis e produtores de conteúdo do Squad Nossa, testaram a autonomia de um veículo eletrificado, que promete rodar 1.000 km sem necessidade de recarga. Continua após a publicidade O roteiro de 15 dias pelo litoral norte de São Paulo e sul do Rio de Janeiro incluiu passeios de lancha para ilhas paradisíacas, mergulhos em piscinas naturais, caminhadas por centros históricos e visitas a cachoeiras."
ner(txt)

Some weights of the model checkpoint at dslim/bert-base-NER were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


[{'entity_group': 'ORG',
  'score': 0.4137497,
  'word': 'Costa Verde',
  'start': 78,
  'end': 89},
 {'entity_group': 'ORG',
  'score': 0.5284719,
  'word': 'Ang',
  'start': 126,
  'end': 129},
 {'entity_group': 'LOC',
  'score': 0.5742891,
  'word': '##ra dos Re',
  'start': 129,
  'end': 138},
 {'entity_group': 'LOC',
  'score': 0.99472785,
  'word': 'Rio de Janeiro',
  'start': 145,
  'end': 159},
 {'entity_group': 'ORG',
  'score': 0.71635157,
  'word': 'Ilhabela',
  'start': 177,
  'end': 185},
 {'entity_group': 'ORG',
  'score': 0.3990785,
  'word': 'U',
  'start': 188,
  'end': 189},
 {'entity_group': 'LOC',
  'score': 0.42124757,
  'word': '##bat',
  'start': 189,
  'end': 192},
 {'entity_group': 'ORG',
  'score': 0.7031247,
  'word': '##uba',
  'start': 192,
  'end': 195},
 {'entity_group': 'LOC',
  'score': 0.87229645,
  'word': 'São Paulo',
  'start': 200,
  'end': 209},
 {'entity_group': 'ORG',
  'score': 0.7723078,
  'word': 'al',
  'start': 211,
  'end': 213},
 {'entity

**Escolha do modelo.** `dslim/bert-base-NER` é um baseline forte para NER geral. Para PT-BR, procure modelos NER treinados em português (ex.: `pucpr/`) ou adapte via *fine-tune*.

## 7) QA extrativo (span)

### Funcionamento
Dada uma pergunta e um texto de apoio, o modelo **destaca** o trecho exato que contém a resposta. É útil quando a resposta está literalmente no documento.

Diferente de geração, aqui a saída é um **span** do próprio contexto, o que reduz risco de “inventar” algo.

### Modelo
Modelos de **MRC** (Machine Reading Comprehension) aprendem a prever posições de início/fim no texto. São avaliados por exatidão de *span*.

Para coleções grandes, combine com um recuperador (bi-encoder) para trazer o parágrafo certo antes de aplicar o QA.

In [8]:
from transformers import pipeline
qa = pipeline("question-answering", model="deepset/roberta-base-squad2")
context = "O hospital municipal ampliou o plantão pediátrico para 24 horas nos finais de semana."
qa(question="Que serviço foi ampliado?", context=context)

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Device set to use cpu


{'score': 0.0622982531785965, 'start': 55, 'end': 63, 'answer': '24 horas'}

**Escolha do modelo.** `deepset/roberta-base-squad2` é sólido em inglês. Para PT-BR, teste `pierreguillou/bert-large-cased-squad-v1.1-portuguese` ou similares.

## 8) RAG (retrieval + geração)

### Funcionamento
RAG junta o melhor dos dois mundos: **busca** para encontrar trechos relevantes e **geração** para escrever a resposta. Assim, o modelo se apoia em fatos do seu acervo.

Isso reduz alucinações e permite citar fontes. É ideal para responder perguntas sobre documentos longos ou muitos arquivos.

### Modelo
O pipeline típico usa **bi-encoder** para recuperar passagens, **(opcional) re-ranking** para precisão, e um LLM *instruct* (seq2seq/decoder) para sintetizar a resposta condicionada ao contexto.

O controle do *prompt* e do tamanho do contexto é crucial para qualidade e custo.

In [9]:
from sentence_transformers import SentenceTransformer
from transformers import pipeline

passages = [
    "Pela terceira vez compareço a este Congresso Nacional para agradecer ao povo brasileiro o voto de confiança que recebemos. Renovo o juramento de fidelidade à Constituição da República, junto com o vice-presidente Geraldo Alckmin e os ministros que conosco vão trabalhar pelo Brasil. Se estamos aqui, hoje, é graças à consciência política da sociedade brasileira e à frente democrática que formamos ao longo desta histórica campanha eleitoral. Foi a democracia a grande vitoriosa nesta eleição, superando a maior mobilização de recursos públicos e privados que já se viu; as mais violentas ameaças à liberdade do voto, a mais abjeta campanha de mentiras e de ódio tramada para manipular e constranger o eleitorado. Nunca os recursos do estado foram tão desvirtuados em proveito de um projeto autoritário de poder. Nunca a máquina pública foi tão desencaminhada dos controles republicanos. Nunca os eleitores foram tão constrangidos pelo poder econômico e por mentiras disseminadas em escala industrial. Apesar de tudo, a decisão das urnas prevaleceu, graças a um sistema eleitoral internacionalmente reconhecido por sua eficácia na captação e apuração dos votos. Foi fundamental a atitude corajosa do Poder Judiciário, especialmente do Tribunal Superior Eleitoral, para fazer prevalecer a verdade das urnas sobre a violência de seus detratores.",  "SENHORAS E SENHORES PARLAMENTARES, Ao retornar a este plenário da Câmara dos Deputados, onde participei da Assembleia Constituinte de 1988, recordo com emoção os embates que travamos aqui, democraticamente, para inscrever na Constituição o mais amplo conjunto de direitos sociais, individuais e coletivos, em benefício da população e da soberania nacional. Vinte anos atrás, quando fui eleito presidente pela primeira vez, ao lado do companheiro vice-presidente José Alencar, iniciei o discurso de posse com a palavra “mudança”. A mudança que pretendíamos era simplesmente concretizar os preceitos constitucionais. A começar pelo direito à vida digna, sem fome, com acesso ao emprego, saúde e educação. Disse, naquela ocasião, que a missão de minha vida estaria cumprida quando cada brasileiro e brasileira pudesse fazer três refeições por dia. Ter de repetir este compromisso no dia de hoje – diante do avanço da miséria e do regresso da fome, que havíamos superado – é o mais grave sintoma da devastação que se impôs ao país nos anos recentes. Hoje, nossa mensagem ao Brasil é de esperança e reconstrução. O grande edifício de direitos, de soberania e de desenvolvimento que esta Nação levantou, a partir de 1988, vinha sendo sistematicamente demolido nos anos recentes. É para reerguer este edifício de direitos e valores nacionais que vamos dirigir todos os nossos esforços.",
"SENHORAS E SENHORES, Em 2002, dizíamos que a esperança tinha vencido o medo, no sentido de superar os temores diante da inédita eleição de um representante da classe trabalhadora para presidir os destinos do país. Em oito anos de governo deixamos claro que os temores eram infundados. Do contrário, não estaríamos aqui novamente. Ficou demonstrado que um representante da classe trabalhadora podia, sim, dialogar com a sociedade para promover o crescimento econômico de forma sustentável e em benefício de todos, especialmente dos mais necessitados. Ficou demonstrado que era possível, sim, governar este país com a mais ampla participação social, incluindo os trabalhadores e os mais pobres no orçamento e nas decisões de governo. Ao longo desta campanha eleitoral vi a esperança brilhar nos olhos de um povo sofrido, em decorrência da destruição de políticas públicas que promoviam a cidadania, os direitos essenciais, a saúde e a educação. Vi o sonho de uma Pátria generosa, que ofereça oportunidades a seus filhos e filhas, em que a solidariedade ativa seja mais forte que o individualismo cego. O diagnóstico que recebemos do Gabinete de Transição de Governo é estarrecedor. Esvaziaram os recursos da Saúde. Desmontaram a Educação, a Cultura, Ciência e Tecnologia. Destruíram a proteção ao Meio Ambiente. Não deixaram recursos para a merenda escolar, a vacinação, a segurança pública, a proteção às florestas, a assistência social. Desorganizaram a governança da economia, dos financiamentos públicos, do apoio às empresas, aos empreendedores e ao comércio externo. Dilapidaram as estatais e os bancos públicos; entregaram o patrimônio nacional. Os recursos do país foram rapinados para saciar a cupidez dos rentistas e de acionistas privados das empresas públicas. É sobre estas terríveis ruínas que assumo o compromisso de, junto com o povo brasileiro, reconstruir o país e fazer novamente um Brasil de todos e para todos.",
"SENHORAS E SENHORES, Diante do desastre orçamentário que recebemos, apresentei ao Congresso Nacional propostas que nos permitam apoiar a imensa camada da população que necessita do estado para, simplesmente, sobreviver. Agradeço à Câmara e ao Senado pela sensibilidade frente às urgências do povo brasileiro. Registro a atitude extremamente responsável do Supremo Tribunal Federal e do Tribunal de Contas da União frente às situações que distorciam a harmonia dos poderes. Assim fiz porque não seria justo nem correto pedir paciência a quem tem fome. Nenhuma nação se ergueu nem poderá se erguer sobre a miséria de seu povo. Os direitos e interesses da população, o fortalecimento da democracia e a retomada da soberania nacional serão os pilares de nosso governo. Este compromisso começa pela garantia de um Programa Bolsa Família renovado, mais forte e mais justo, para atender a quem mais necessita. Nossas primeiras ações visam a resgatar da fome 33 milhões de pessoas e resgatar da pobreza mais de 100 milhões de brasileiras e brasileiros, que suportaram a mais dura carga do projeto de destruição nacional que hoje se encerra.",
"SENHORAS E SENHORES, Este processo eleitoral também foi caracterizado pelo contraste entre distintas visões de mundo. A nossa, centrada na solidariedade e na participação política e social para a definição democrática dos destinos do país. A outra, no individualismo, na negação da política, na destruição do estado em nome de supostas liberdades individuais. A liberdade que sempre defendemos é a de viver com dignidade, com pleno direito de expressão, manifestação e organização. A liberdade que eles pregam é a de oprimir o vulnerável, massacrar o oponente e impor a lei do mais forte acima das leis da civilização. O nome disso é barbárie. Compreendi, desde o início da jornada, que deveria ser candidato por uma frente mais ampla do que o campo político em que me formei, mantendo o firme compromisso com minhas origens. Esta frente se consolidou para impedir o retorno do autoritarismo ao país. A partir de hoje, a Lei de Acesso à Informação voltará a ser cumprida, o Portal da Transparência voltará a cumprir seu papel, os controles republicanos voltarão a ser exercidos para defender o interesse público. Não carregamos nenhum ânimo de revanche contra os que tentaram subjugar a Nação a seus desígnios pessoais e ideológicos, mas vamos garantir o primado da lei. Quem errou responderá por seus erros, com direito amplo de defesa, dentro do devido processo legal. O mandato que recebemos, frente a adversários inspirados no fascismo, será defendido com os poderes que a Constituição confere à democracia. Ao ódio, responderemos com amor. À mentira, com a verdade. Ao terror e à violência, responderemos com a Lei e suas mais duras consequências. Sob os ventos da redemocratização, dizíamos: ditadura nunca mais! Hoje, depois do terrível desafio que superamos, devemos dizer: democracia para sempre! Para confirmar estas palavras, teremos de reconstruir em bases sólidas a democracia em nosso país. A democracia será defendida pelo povo na medida em que garantir a todos e a todas os direitos inscritos na Constituição.",
"SENHORAS E SENHORES, Hoje mesmo estou assinando medidas para reorganizar as estruturas do Poder Executivo, de modo que voltem a permitir o funcionamento do governo de maneira racional, republicana e democrática. Para resgatar o papel das instituições do estado, bancos públicos e empresas estatais no desenvolvimento do país. Para planejar os investimentos públicos e privados na direção de um crescimento econômico sustentável, ambientalmente e socialmente. Em diálogo com os 27 governadores, vamos definir prioridades para retomar obras irresponsavelmente paralisadas, que são mais de 14 mil no país. Vamos retomar o Minha Casa, Minha Vida e estruturar um novo PAC para gerar empregos na velocidade que o Brasil requer. Buscaremos financiamento e cooperação – nacional e internacional – para o investimento, para dinamizar e expandir o mercado interno de consumo, desenvolver o comércio, exportações, serviços, agricultura e a indústria. Os bancos públicos, especialmente o BNDES, e as empresas indutoras do crescimento e inovação, como a Petrobras, terão papel fundamental neste novo ciclo. Ao mesmo tempo, vamos impulsionar as pequenas e médias empresas, potencialmente as maiores geradoras de emprego e renda, o empreendedorismo, o cooperativismo e a economia criativa. A roda da economia vai voltar a girar e o consumo popular terá papel central neste processo. Vamos retomar a política de valorização permanente do salário-mínimo. E estejam certos de que vamos acabar, mais uma vez, com a vergonhosa fila do INSS, outra injustiça restabelecida nestes tempos de destruição. Vamos dialogar, de forma tripartite – governo, centrais sindicais e empresariais – sobre uma nova legislação trabalhista. Garantir a liberdade de empreender, ao lado da proteção social, é um grande desafio nos tempos de hoje.",
"SENHORAS E SENHORES, O Brasil é grande demais para renunciar a seu potencial produtivo. Não faz sentido importar combustíveis, fertilizantes, plataformas de petróleo, microprocessadores, aeronaves e satélites. Temos capacitação técnica, capitais e mercado em grau suficiente para retomar a industrialização e a oferta de serviços em nível competitivo. O Brasil pode e deve figurar na primeira linha da economia global. Caberá ao estado articular a transição digital e trazer a indústria brasileira para o Século XXI, com uma política industrial que apoie a inovação, estimule a cooperação público-privada, fortaleça a ciência e a tecnologia e garanta acesso a financiamentos com custos adequados. O futuro pertencerá a quem investir na indústria do conhecimento, que será objeto de uma estratégia nacional, planejada em diálogo com o setor produtivo, centros de pesquisa e universidades, junto com o Ministério de Ciência, Tecnologia e Inovação, os bancos públicos, estatais e agências de fomento à pesquisa. Nenhum outro país tem as condições do Brasil para se tornar uma grande potência ambiental, a partir da criatividade da bioeconomia e dos empreendimentos da socio-biodiversidade. Vamos iniciar a transição energética e ecológica para uma agropecuária e uma mineração sustentáveis, uma agricultura familiar mais forte, uma indústria mais verde. Nossa meta é alcançar desmatamento zero na Amazônia e emissão zero de gases do efeito estufa na matriz elétrica, além de estimular o reaproveitamento de pastagens degradadas. O Brasil não precisa desmatar para manter e ampliar sua estratégica fronteira agrícola. Incentivaremos, sim, a prosperidade na terra. Liberdade e oportunidade de criar, plantar e colher continuará sendo nosso objetivo. O que não podemos admitir é que seja uma terra sem lei. Não vamos tolerar a violência contra os pequenos, o desmatamento e a degradação do ambiente, que tanto mal já fizeram ao país. Esta é uma das razões, não a única, da criação do Ministério dos Povos Indígenas. Ninguém conhece melhor nossas florestas nem é mais capaz de defendê-las do que os que estavam aqui desde tempos imemoriais. Cada terra demarcada é uma nova área de proteção ambiental. A estes brasileiros e brasileiras devemos respeito e com eles temos uma dívida histórica. Vamos revogar todas as injustiças cometidas contra os povos indígenas.",
"SENHORAS E SENHORES, Uma nação não se mede apenas por estatísticas, por mais impressionantes que sejam. Assim como um ser humano, uma nação se expressa verdadeiramente pela alma de seu povo. A alma do Brasil reside na diversidade inigualável da nossa gente e das nossas manifestações culturais. Estamos refundando o Ministério da Cultura, com a ambição de retomar mais intensamente as políticas de incentivo e de acesso aos bens culturais, interrompidas pelo obscurantismo nos últimos anos. Uma política cultural democrática não pode temer a crítica nem eleger favoritos. Que brotem todas as flores e sejam colhidos todos os frutos da nossa criatividade, Que todos possam dela usufruir, sem censura nem discriminações. Não é admissível que negros e pardos continuem sendo a maioria pobre e oprimida de um país construído com o suor e o sangue de seus ascendentes africanos. Criamos o Ministério da Promoção da Igualdade Racial para ampliar a política de cotas nas universidades e no serviço público, além de retomar as políticas voltadas para o povo negro e pardo na saúde, educação e cultura. É inadmissível que as mulheres recebam menos que os homens, realizando a mesma função. Que não sejam reconhecidas em um mundo político machista. Que sejam assediadas impunemente nas ruas e no trabalho. Que sejam vítimas da violência dentro e fora de casa. Estamos refundando também o Ministério das Mulheres para demolir este castelo secular de desigualdade e preconceito. Não existirá verdadeira justiça num país em que um só ser humano seja injustiçado. Caberá ao Ministério dos Direitos Humanos zelar e agir para que cada cidadão e cidadã tenha seus direitos respeitados, no acesso aos serviços públicos e particulares, na proteção frente ao preconceito ou diante da autoridade pública. Cidadania é o outro nome da democracia. O Ministério da Justiça e da Segurança Pública atuará para harmonizar os Poderes e entes federados no objetivo de promover a paz onde ela é mais urgente: nas comunidades pobres, no seio das famílias vulneráveis ao crime organizado, às milícias e à violência, venha ela de onde vier. Estamos revogando os criminosos decretos de ampliação do acesso a armas e munições, que tanta insegurança e tanto mal causaram às famílias brasileiras. O Brasil não quer mais armas; quer paz e segurança para seu povo. Sob a proteção de Deus, inauguro este mandato reafirmando que no Brasil a fé pode estar presente em todas as moradas, nos diversos templos, igrejas e cultos. Neste país todos poderão exercer livremente sua religiosidade.",
"SENHORAS E SENHORES, O período que se encerra foi marcado por uma das maiores tragédias da história: a pandemia de Covid-19. Em nenhum outro país a quantidade de vítimas fatais foi tão alta proporcionalmente à população quanto no Brasil, um dos países mais preparados para enfrentar emergências sanitárias, graças à competência do nosso Sistema Único de Saúde. Este paradoxo só se explica pela atitude criminosa de um governo negacionista, obscurantista e insensível à vida. As responsabilidades por este genocídio hão de ser apuradas e não devem ficar impunes. O que nos cabe, no momento, é prestar solidariedade aos familiares, pais, órfãos, irmãos e irmãs de quase 700 mil vítimas da pandemia. O SUS é provavelmente a mais democrática das instituições criadas pela Constituição de 1988. Certamente por isso foi a mais perseguida desde então, e foi, também, a mais prejudicada por uma estupidez chamada Teto de Gastos, que haveremos de revogar. Vamos recompor os orçamentos da Saúde para garantir a assistência básica, a Farmácia Popular, promover o acesso à medicina especializada. Vamos recompor os orçamentos da Educação, investir em mais universidades, no ensino técnico, na universalização do acesso à internet, na ampliação das creches e no ensino público em tempo integral. Este é o investimento que verdadeiramente levará ao desenvolvimento do país. O modelo que propomos, aprovado nas urnas, exige, sim, compromisso com a responsabilidade, a credibilidade e a previsibilidade; e disso não vamos abrir mão. Foi com realismo orçamentário, fiscal e monetário, buscando a estabilidade, controlando a inflação e respeitando contratos que governamos este país. Não podemos fazer diferente. Teremos de fazer melhor.",
"SENHORAS E SENHORES, Os olhos do mundo estiveram voltados para o Brasil nestas eleições. O mundo espera que o Brasil volte a ser um líder no enfrentamento à crise climática e um exemplo de país social e ambientalmente responsável, capaz de promover o crescimento econômico com distribuição de renda, combater a fome e a pobreza, dentro do processo democrático. Nosso protagonismo se concretizará pela retomada da integração sul-americana, a partir do Mercosul, da revitalização da Unasul e demais instâncias de articulação soberana da região. Sobre esta base poderemos reconstruir o diálogo altivo e ativo com os Estados Unidos, a Comunidade Europeia, a China, os países do Oriente e outros atores globais; fortalecendo os BRICS, a cooperação com os países da África e rompendo o isolamento a que o país foi relegado. O Brasil tem de ser dono de si mesmo, dono de seu destino. Tem de voltar a ser um país soberano. Somos responsáveis pela maior parte da Amazônia e por vastos biomas, grandes aquíferos, jazidas de minérios, petróleo e fontes de energia limpa. Com soberania e responsabilidade seremos respeitados para compartilhar essa grandeza com a humanidade – solidariamente, jamais com subordinação. A relevância da eleição no Brasil refere-se, por fim, às ameaças que o modelo democrático vem enfrentando. Ao redor do planeta, articula-se uma onda de extremismo autoritário que dissemina o ódio e a mentira por meios tecnológicos que não se submetem a controles transparentes. Defendemos a plena liberdade de expressão, cientes de que é urgente criarmos instâncias democráticas de acesso à informação confiável e de responsabilização dos meios pelos quais o veneno do ódio e da mentira são inoculados. Este é um desafio civilizatório, da mesma forma que a superação das guerras, da crise climática, da fome e da desigualdade no planeta. Reafirmo, para o Brasil e para o mundo, a convicção de que a Política, em seu mais elevado sentido – e apesar de todas as suas limitações – é o melhor caminho para o diálogo entre interesses divergentes, para a construção pacífica de consensos. Negar a política, desvalorizá-la e criminalizá-la é o caminho das tiranias. Minha mais importante missão, a partir de hoje, será honrar a confiança recebida e corresponder às esperanças de um povo sofrido, que jamais perdeu a fé no futuro nem em sua capacidade de superar os desafios. Com a força do povo e as bênçãos de Deus, haveremos der reconstruir este país. Viva a democracia! Viva o povo brasileiro! Muito obrigado"
]
retriever = SentenceTransformer("all-MiniLM-L6-v2")
P = retriever.encode(passages, normalize_embeddings=True)

def retrieve(q, k=2):
    qv = retriever.encode(q, normalize_embeddings=True)
    sims = P @ qv
    idx = sims.argsort()[-k:][::-1]
    return [passages[i] for i in idx]

generator = pipeline("text2text-generation", model="google/flan-t5-small")
question = "Quais são os objetivos do no presidente brasileiro?"
ctx = "\n".join(retrieve(question, k=2))
prompt = f"Use APENAS o contexto abaixo para responder em 1 frase.\n\nContexto:\n{ctx}\n\nPergunta: {question}\nResposta:"
generator(prompt, max_new_tokens=60)

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/308M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

Device set to use cpu


[{'generated_text': 'A escola do bairro abriu 200 vagas no noturno. O hospital municipal agora atende 24h nos fins de semana. Pergunta: Quais serviços de sade tiveram '}]

**Escolha do modelo.** Embeddings com `all-MiniLM-L6-v2` (rápido) e gerador `google/flan-t5-small` pela leveza e boa instrução. Em PT‑BR, teste `unicamp-dl/ptt5-base-portuguese-vocab`.

## 9) Sumarização (gerativo)

### Funcionamento
O modelo lê um texto maior e produz um **resumo enxuto**, preservando as ideias centrais. É útil para relatórios longos e ementas.

Você controla tamanho e estilo (mais conciso, mais detalhado), mas sempre vale revisar o resultado.

### Modelo
Modelos seq2seq (BART/T5) aprendem a mapear documentos para resumos curtos. Técnicas como *length control* e *no-repeat ngram* ajudam na qualidade.

Para textos longos demais, use estratégias *map-reduce* (resumir partes → resumir os resumos).

In [10]:
from transformers import pipeline
summ = pipeline("summarization", model="facebook/bart-large-cnn")
text = ("O relatório aponta aumento de consultas, reabertura de unidades e "
        "melhorias em prontuários eletrônicos, mas ressalta carência de especialistas.")
summ(text, max_length=40, min_length=15, do_sample=False)

Device set to use cpu


[{'summary_text': 'O relatório aponta aumento de consultas, reabertura de unidades e melhorias em prontuários eletrô'}]

**Escolha do modelo.** `facebook/bart-large-cnn` é um padrão forte para sumarização. Para PT‑BR, busque checkpoints mT5/mBART ou modelos finos em português.

## 10) Geração controlada (bullets/estilo)

### Funcionamento
Damos uma instrução clara e o modelo devolve um texto no **formato solicitado** (bullets, tom, idioma). É como ditar o esqueleto e deixar o modelo preencher.

Útil para rascunhos padronizados: resumos executivos, notas de reunião, comunicados.

### Modelo
LLMs instruídos (T5/FLAN, GPT‑like) foram ajustados com *instruction tuning*, aprendendo a seguir comandos. O *decoding* (greedy, beam, top‑p) define o equilíbrio entre precisão e diversidade.

Para controle fino, combine *prompts* estruturados e exemplos (*few-shot*).

In [None]:
from transformers import pipeline
gen = pipeline("text2text-generation", model="google/flan-t5-small")
prompt = ("Liste 3 tópicos em bullet points sobre prioridades de política pública em saúde, "
          "em português, curtos e objetivos.")
gen(prompt, max_new_tokens=80)

**Escolha do modelo.** `google/flan-t5-small` é leve e segue instruções razoavelmente bem. Para PT‑BR mais natural, procure variantes mT5 ou modelos ajustados em português.

## 11) Anonimização com NER (mascarar spans)

### Funcionamento
Antes de compartilhar documentos, podemos **mascarar nomes e locais** para proteger identidades. O NER identifica essas entidades e substituímos por marcadores como [REDACTED].

Isso preserva o conteúdo temático para pesquisa sem expor dados pessoais sensíveis.

### Modelo
O pipeline aplica NER (token classification) e depois pós‑processa os **spans** previstos, cuidando de sobreposições. A qualidade depende do NER e do domínio.

Em compliance, combine com regras (regex) para formatos rígidos (CPFs, telefones) e auditoria humana em amostras.

In [12]:
from transformers import pipeline
def mask_ner(text, label_set={"PER","ORG","LOC"}):
    ner = pipeline("token-classification", model="dslim/bert-base-NER", aggregation_strategy="simple")
    ents = ner(text)
    spans = [(e["start"], e["end"]) for e in ents if e["entity_group"] in label_set]
    s = text
    for a,b in sorted(spans, key=lambda x: -x[0]):
        s = s[:a] + "[OMITIDO]" + s[b:]
    return s

txt = "Maria Silva trabalha na Secretaria de Saúde de Recife."
mask_ner(txt)

Some weights of the model checkpoint at dslim/bert-base-NER were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


'[OMITIDO] t[OMITIDO]alha na [OMITIDO].'

**Escolha do modelo.** `dslim/bert-base-NER` é conveniente para demonstração. Para PT‑BR, busque NERs treinados em corpus locais ou ajuste com exemplos rotulados do seu projeto.