In [3]:
from transformers import BertTokenizer, BertModel
import torch
from sklearn.metrics.pairwise import cosine_similarity

# Função para obter embeddings da BERT para uma frase
def get_word_embeddings(text):
    # Carregando o tokenizer e o modelo BERT pré-treinado
    tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
    model = BertModel.from_pretrained('bert-base-uncased')

    # Tokenizando o texto e convertendo para IDs
    inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=512)

    # Passando os inputs pelo modelo BERT para obter os embeddings
    with torch.no_grad():
        outputs = model(**inputs)

    # Obtendo os embeddings da última camada escondida
    embeddings = outputs.last_hidden_state.squeeze(0)  # Removendo a dimensão do batch

    # Convertendo para numpy para facilitar o cálculo
    embeddings = embeddings.numpy()

    return embeddings, inputs['input_ids'].squeeze(0).numpy(), tokenizer

# Texto de exemplo
text = "Machine learning is transforming the world."

# Obtendo os embeddings e os tokens correspondentes
embeddings, input_ids, tokenizer = get_word_embeddings(text)

# Mapear tokens para suas palavras correspondentes
tokens = [tokenizer.decode([token_id]) for token_id in input_ids]

# Função para calcular a similaridade entre duas palavras dadas suas posições
def calculate_similarity(embeddings, idx1, idx2):
    # Obtendo os embeddings das palavras
    emb1 = embeddings[idx1].reshape(1, -1)  # Reshape para cálculo de similaridade
    emb2 = embeddings[idx2].reshape(1, -1)

    # Calculando a similaridade do cosseno
    similarity = cosine_similarity(emb1, emb2)[0][0]
    return similarity

# Índices das palavras a serem comparadas (por exemplo, "learning" e "transforming")
index_word1 = tokens.index('learning')
index_word2 = tokens.index('transforming')

# Calculando a similaridade entre as palavras
similarity = calculate_similarity(embeddings, index_word1, index_word2)

print(f"Similaridade entre '{tokens[index_word1]}' e '{tokens[index_word2]}': {similarity:.4f}")



Similaridade entre 'learning' e 'transforming': 0.5340
