<a href="https://colab.research.google.com/github/jsansao/idl/blob/main/TEIC_Licao30_Similaridade_sentenca.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ü§ñ An√°lise de Similaridade de Senten√ßas com Transformers

Este notebook demonstra como usar a biblioteca `sentence-transformers` (constru√≠da sobre o Hugging Face Transformers) para calcular a **similaridade sem√¢ntica** entre senten√ßas em portugu√™s.

A similaridade sem√¢ntica vai al√©m da simples correspond√™ncia de palavras-chave. Ela tenta entender o *significado* por tr√°s das senten√ßas.

Usaremos um modelo pr√©-treinado que √© bom em v√°rias l√≠nguas, incluindo o portugu√™s, e que foi otimizado para tarefas de similaridade.

In [1]:
# Instala a biblioteca sentence-transformers
# O -q (quiet) √© para reduzir a quantidade de logs de instala√ß√£o
!pip install -q sentence-transformers

In [2]:
from sentence_transformers import SentenceTransformer, util
import torch

# Carrega um modelo pr√©-treinado.
# 'paraphrase-multilingual-MiniLM-L12-v2' √© um modelo leve, r√°pido e
# excelente para tarefas de similaridade sem√¢ntica em mais de 50 idiomas.
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

print("Modelo carregado com sucesso!")

Error while fetching `HF_TOKEN` secret value from your vault: 'Requesting secret HF_TOKEN timed out. Secrets can only be fetched when running from the Colab UI.'.
You are not authenticated with the Hugging Face Hub in this notebook.
If the error persists, please let us know by opening an issue on GitHub (https://github.com/huggingface/huggingface_hub/issues/new).


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Modelo carregado com sucesso!


## Passo 1: Gerar Embeddings (Representa√ß√µes Vetoriais)

Para que o modelo entenda as senten√ßas, ele as converte em vetores num√©ricos de tamanho fixo, chamados "embeddings". Senten√ßas com significados semelhantes ter√£o vetores "pr√≥ximos" no espa√ßo vetorial.

Vamos definir nossa lista de senten√ßas.

In [3]:
# Lista de senten√ßas que queremos comparar
sentences = [
    "O cachorro correu no parque.",             # Senten√ßa 0
    "Um c√£o estava correndo no gramado.",       # Senten√ßa 1 (Similar a 0)
    "O gato est√° dormindo no sof√°.",            # Senten√ßa 2 (Diferente)
    "Aquele menino joga futebol muito bem.",    # Senten√ßa 3 (Diferente)
    "Qual √© a capital da Fran√ßa?",              # Senten√ßa 4 (Diferente)
    "Paris √© a capital francesa."               # Senten√ßa 5 (Relacionada a 4)
]

# Gera os embeddings para todas as senten√ßas
# O modelo.encode() transforma o texto em vetores
embeddings = model.encode(sentences, convert_to_tensor=True)

# Vamos verificar a forma (shape) dos nossos embeddings
# Deve ser [n√∫mero_de_senten√ßas, dimens√£o_do_modelo]
# Para este modelo, a dimens√£o √© 384
print("Shape dos Embeddings:", embeddings.shape)

Shape dos Embeddings: torch.Size([6, 384])


## Passo 2: Calcular a Similaridade de Cosseno

Agora que temos os vetores, podemos calcular a "dist√¢ncia" entre eles. A m√©trica mais comum para isso √© a **Similaridade de Cosseno (Cosine Similarity)**.

* Um score de **1.0** significa que as senten√ßas s√£o id√™nticas (ou semanticamente muito parecidas).
* Um score de **0.0** significa que n√£o h√° rela√ß√£o.
* Um score de **-1.0** significa que t√™m significados opostos.

(Com este tipo de modelo, os scores geralmente ficam entre 0 e 1).

Vamos calcular uma matriz de similaridade, comparando cada senten√ßa com todas as outras.

In [6]:
# Calcula a similaridade de cosseno entre todos os pares de embeddings
# A fun√ß√£o util.cos_sim faz isso de forma eficiente
cosine_scores = util.cos_sim(embeddings, embeddings)

# Exibe a matriz de similaridade
# A linha 'i' e coluna 'j' mostra a similaridade entre a senten√ßa 'i' e a 'j'
print("Matriz de Similaridade:")
print(cosine_scores)

print("\n--- An√°lise Detalhada (Score > 0.6) ---")
# Vamos iterar pela matriz para ver os pares mais similares
for i in range(len(sentences)):
    for j in range(i + 1, len(sentences)): # (i+1) para evitar duplicatas e auto-compara√ß√µes
        score = cosine_scores[i][j]
        if score > 0.6: # Mostra apenas pares com alta similaridade
            print(f"Senten√ßa 1: {sentences[i]}")
            print(f"Senten√ßa 2: {sentences[j]}")
            print(f"Similaridade: {score:.4f}\n")

Matriz de Similaridade:
tensor([[ 1.0000,  0.8005, -0.0558, -0.0167,  0.1219,  0.1383],
        [ 0.8005,  1.0000, -0.0248,  0.0259,  0.0938,  0.0912],
        [-0.0558, -0.0248,  1.0000,  0.0464, -0.0430, -0.0327],
        [-0.0167,  0.0259,  0.0464,  1.0000,  0.0921,  0.0451],
        [ 0.1219,  0.0938, -0.0430,  0.0921,  1.0000,  0.8355],
        [ 0.1383,  0.0912, -0.0327,  0.0451,  0.8355,  1.0000]])

--- An√°lise Detalhada (Score > 0.6) ---
Senten√ßa 1: O cachorro correu no parque.
Senten√ßa 2: Um c√£o estava correndo no gramado.
Similaridade: 0.8005

Senten√ßa 1: Qual √© a capital da Fran√ßa?
Senten√ßa 2: Paris √© a capital francesa.
Similaridade: 0.8355



### An√°lise dos Resultados

Voc√™ deve ter notado scores altos nos seguintes pares:

1.  **"O cachorro correu no parque."** e **"Um c√£o estava correndo no gramado."**
    * *Score alto (provavelmente > 0.8)*. O modelo entende que "cachorro" e "c√£o" s√£o sin√¥nimos e que "parque" e "gramado" s√£o locais relacionados.

2.  **"Qual √© a capital da Fran√ßa?"** e **"Paris √© a capital francesa."**
    * *Score alto (provavelmente > 0.7)*. Embora uma seja pergunta e a outra resposta, elas tratam exatamente do mesmo t√≥pico sem√¢ntico (Capital da Fran√ßa).

3.  Os outros pares, como "O gato est√° dormindo..." e "O cachorro correu...", ter√£o scores baixos, pois tratam de assuntos diferentes.

## Passo 3: Exemplo Pr√°tico (Busca Sem√¢ntica)

Um uso muito comum disso √© encontrar a senten√ßa mais relevante em um "banco de dados" (corpus) para uma nova senten√ßa (query).

Imagine que as `sentences` da C√©lula 5 s√£o documentos em nosso banco de dados. Agora, temos uma nova pergunta (query) e queremos encontrar a resposta ou a senten√ßa mais parecida.

In [5]:
# Nosso "banco de dados" (corpus) √© a mesma lista de antes
corpus = [
    "O cachorro correu no parque.",
    "Um c√£o estava correndo no gramado.",
    "O gato est√° dormindo no sof√°.",
    "Aquele menino joga futebol muito bem.",
    "Qual √© a capital da Fran√ßa?",
    "Paris √© a capital francesa."
]

# A senten√ßa de "busca" (query)
query = "Onde fica a capital da Fran√ßa?"

# 1. Gera o embedding da query
query_embedding = model.encode(query, convert_to_tensor=True)

# 2. Gera os embeddings do corpus (j√° fizemos isso, mas vamos fazer de novo para
#    manter o exemplo contido. Em uma aplica√ß√£o real, voc√™ armazenaria os embeddings do corpus)
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# 3. Calcula a similaridade da query (1 vetor) contra o corpus (N vetores)
#    Isso nos dar√° N scores.
semantic_scores = util.cos_sim(query_embedding, corpus_embeddings)[0] # Pegamos [0] pois a query √© √∫nica

# 4. Combina os scores com as senten√ßas
scored_sentences = sorted(zip(semantic_scores, corpus), reverse=True) # Ordena do mais similar para o menos

# 5. Mostra os resultados
print(f"Query: {query}\n")
print("Resultados da busca sem√¢ntica (top 3):")

for score, sentence in scored_sentences[:3]:
    # A biblioteca 'torch' nos d√° tensores, usamos .item() para pegar o n√∫mero Python puro
    print(f"  Score: {score.item():.4f}  |  Senten√ßa: {sentence}")

Query: Onde fica a capital da Fran√ßa?

Resultados da busca sem√¢ntica (top 3):
  Score: 0.9900  |  Senten√ßa: Qual √© a capital da Fran√ßa?
  Score: 0.8307  |  Senten√ßa: Paris √© a capital francesa.
  Score: 0.1288  |  Senten√ßa: O cachorro correu no parque.


### An√°lise da Busca

Mesmo que a query "Onde fica a capital da Fran√ßa?" n√£o use as palavras "Paris" ou "francesa", o modelo entende o significado e corretamente identifica "Qual √© a capital da Fran√ßa?" e "Paris √© a capital francesa." como as senten√ßas mais relevantes semanticamente.

Isso demonstra o poder dos Transformers para entender o *significado* al√©m das palavras-chave.