# **Processamento de Linguagem Natural [2025-Q3]**
Prof. Alexandre Donizeti Alves

### **BERT**

In [None]:
from transformers import BertTokenizer, BertModel
import torch
from sklearn.metrics.pairwise import cosine_similarity

# Carregar o modelo BERT e o tokenizer
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Função para obter embedding da frase
def get_embedding(phrase, model, tokenizer):
    inputs = tokenizer(phrase, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().detach().numpy()

In [None]:
# Definir as disciplinas e a palavra
word = "linguagens formais"
disciplinas = [
    "linguagens formais e autômatos",
    "métodos formais",
    "engenharia de software",
    "comunicação e redes",
    "natureza da informação"
]

# obter o embedding para "linguagens formais"
word_embedding = get_embedding(word, model, tokenizer)

# obter os embeddings para as disciplinas
disciplinas_embeddings = [(disciplina, get_embedding(disciplina, model, tokenizer)) for disciplina in disciplinas]

# calcular a similaridade de cosseno
similarities = []
for disciplina, embedding in disciplinas_embeddings:
    sim = cosine_similarity([word_embedding], [embedding])
    similarities.append((disciplina, sim[0][0]))

# ordenar pela similaridade
similarities.sort(key=lambda x: x[1], reverse=True)

# exibir a disciplina mais similar
print(f"A disciplina mais semelhante à palavra '{word}' é: {similarities[0][0]} com similaridade de {similarities[0][1]:.4f}")


In [None]:
similarities

### **OpenAI**

In [None]:
!pip install openai

In [None]:
#@title Definindo a chave da API

from getpass import getpass

OPENAI_API_KEY = getpass()

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

from openai import OpenAI

cliente = OpenAI( api_key= OPENAI_API_KEY )

# função para obter o embedding de uma frase
def get_embedding(text):
    resposta = cliente.embeddings.create(
        model = "text-embedding-3-small",  # modelo de embedding
        input=text
    )
    return np.array(resposta.data[0].embedding)

disciplinas = [
    "linguagens formais e autômatos",
    "métodos formais",
    "engenharia de software",
    "comunicação e redes",
    "natureza da informação"
]

# obter os embeddings para as disciplinas
disciplinas_embeddings = [(disciplina, get_embedding(disciplina)) for disciplina in disciplinas]

In [None]:
word = "engenharia"

# obter o embedding da palavra "engenharia"
word_embedding = get_embedding(word)

# Calcular a similaridade de cosseno entre "engenharia" e as disciplinas
similarities = []
for disciplina, embedding in disciplinas_embeddings:
    sim = cosine_similarity([word_embedding], [embedding])
    similarities.append((disciplina, sim[0][0]))

# Ordenar pela similaridade
similarities.sort(key=lambda x: x[1], reverse=True)

# Exibir a disciplina mais semelhante
print(f"A disciplina mais semelhante à palavra '{word}' é: {similarities[0][0]} com similaridade de {similarities[0][1]:.4f}")

In [None]:
similarities

### **Cohere**

In [None]:
!pip install cohere

In [None]:
from getpass import getpass

COHERE_API_KEY = getpass()

In [None]:
import cohere
from sklearn.metrics.pairwise import cosine_similarity

# crie uma instância do cliente Cohere
co = cohere.Client(COHERE_API_KEY)

# função para obter embeddings (vetores) usando Cohere
def get_embedding(text):
    response = co.embed(texts=[text])
    return response.embeddings[0]

disciplinas = [
    "linguagens formais e autômatos",
    "métodos formais",
    "engenharia de software",
    "comunicação e redes",
    "natureza da informação"
]

# obter os embeddings para a palavra e as disciplinas
disciplinas_embeddings = [(disciplina, get_embedding(disciplina)) for disciplina in disciplinas]

In [None]:
word = "engenharia"

word_embedding = get_embedding(word)

# calcular a similaridade de cosseno entre "engenharia" e as disciplinas
similarities = []
for disciplina, embedding in disciplinas_embeddings:
    sim = cosine_similarity([word_embedding], [embedding])
    similarities.append((disciplina, sim[0][0]))

# ordenar as disciplinas por similaridade
similarities.sort(key=lambda x: x[1], reverse=True)

# exibir a disciplina mais semelhante
print(f"A disciplina mais semelhante à palavra '{word}' é: {similarities[0][0]} com similaridade de {similarities[0][1]:.4f}")


In [None]:
similarities

### **Gemini**

In [None]:
!pip install google-genai

In [None]:
from getpass import getpass

GEMINI_API_KEY = getpass()

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

from google import genai

cliente = genai.Client( api_key= GEMINI_API_KEY)

# função para obter o embedding de uma frase
def get_embedding(text):
    resposta = cliente.models.embed_content(
        model = "gemini-embedding-001",  # modelo de embedding
        contents=[text]
    )
    # Extract the embedding values and convert to a numpy array
    return np.array(resposta.embeddings[0].values)

disciplinas = [
    "linguagens formais e autômatos",
    "métodos formais",
    "engenharia de software",
    "comunicação e redes",
    "natureza da informação"
]

# obter os embeddings para as disciplinas
disciplinas_embeddings = [(disciplina, get_embedding(disciplina)) for disciplina in disciplinas]

In [None]:
word = "engenharia"

word_embedding = get_embedding(word)

# calcular a similaridade de cosseno entre "engenharia" e as disciplinas
similarities = []
for disciplina, embedding in disciplinas_embeddings:
    sim = cosine_similarity([word_embedding], [embedding])
    similarities.append((disciplina, sim[0][0]))

# ordenar as disciplinas por similaridade
similarities.sort(key=lambda x: x[1], reverse=True)

# exibir a disciplina mais semelhante
print(f"A disciplina mais semelhante à palavra '{word}' é: {similarities[0][0]} com similaridade de {similarities[0][1]:.4f}")

In [None]:
similarities

### **Referências**

https://platform.openai.com/docs/guides/embeddings

https://ai.google.dev/gemini-api/docs/embeddings?hl=pt-br

https://docs.cohere.com/v2/docs/semantic-search-embed