In [39]:
from transformers import RobertaTokenizer, RobertaModel, BertModel, BertTokenizer
import torch
from sklearn.metrics.pairwise import cosine_similarity

# Cargar el modelo pre-entrenado de RoBERTa y el tokenizador
PRE_TRAINED_MODEL_NAME = '../Model/beto/'
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME)
model = BertModel.from_pretrained(PRE_TRAINED_MODEL_NAME)

# Definir la palabra de interés y el texto
palabra = "comida"
texto = """La comidas es un aspecto fundamental de la vida diaria. El desayuno se debe comer bien. Disfrutar de una buena 
comida con amigos y familiares es una experiencia unica. La preparación de la comida 
requiere tiempo y dedicacion. Los ingredientes frescos son esenciales para una buena 
comida. La comida saludable es importante para mantener una dieta equilibrada. Los restaurantes ofrecen 
una amplia variedad de comidas deliciosas. La comida rapida es conveniente pero 
no siempre es la opción mas saludable. La comida casera tiene un sabor especial 
y reconfortante. La comida gourmet es un lujo que muchos disfrutan en ocasiones 
especiales. La comida exótica nos permite explorar nuevos sabores y culturas"""

palabra = "planeta"
texto = """Los planetas, cuerpos celestes que orbitan alrededor de estrellas, han fascinado a la humanidad desde tiempos inmemoriales. Nuestro sistema solar alberga ocho planetas, cada uno con características únicas y fascinantes. Desde el gigante gaseoso Júpiter, con su gran mancha roja, hasta el misterioso y frío Plutón, cuya clasificación como planeta ha sido motivo de debate. Los planetas han sido objeto de estudio e inspiración para científicos, escritores y artistas. Su estudio ha revelado secretos sobre la formación del sistema solar y la posibilidad de vida en otros mundos. La exploración espacial continúa desvelando nuevos misterios sobre estos enigmáticos cuerpos celestes."""

# Tokenizar el texto y la palabra
input_ids = tokenizer.encode(texto, add_special_tokens=True, return_tensors='pt')
palabra_ids = tokenizer.encode(palabra, add_special_tokens=False, return_tensors='pt')

# Obtener la representación vectorial de la palabra y del texto
with torch.no_grad():
    outputs = model(input_ids)
    word_embeddings = outputs[0][0, 1:-1, :].mean(dim=0, keepdim=True)  # Promedio de los embeddings de las palabras en el texto
    palabra_embedding = model(palabra_ids)[0].mean(dim=1)  # Embedding de la palabra


# Obtener las palabras más similares
similar_words = []
for word in tokenizer.tokenize(texto):
    word_ids = tokenizer.encode(word, add_special_tokens=False, return_tensors='pt')
    with torch.no_grad():
        word_embedding = model(word_ids)[0].mean(dim=1)
        sim = cosine_similarity(word_embedding.detach().numpy(), palabra_embedding.detach().numpy())
        similar_words.append((word, sim))


# Ordenar las palabras por similitud y obtener las 5 más similares
similar_words.sort(key=lambda x: x[1], reverse=True)
top_similar_words = similar_words[:5]


# Imprimir las 5 palabras más similares con su valor de similitud
print("Las 5 palabras más similares a", palabra, "son:")
for word, sim in similar_words[:5]:
    print(word, "- Similitud:", sim)


Las 5 palabras más similares a planeta son:
planeta - Similitud: [[1.]]
mundos - Similitud: [[0.5902808]]
gigante - Similitud: [[0.5873803]]
planetas - Similitud: [[0.55566216]]
planetas - Similitud: [[0.55566216]]


In [4]:
import spacy

# Cargar el modelo de lenguaje en español
nlp = spacy.load("es_core_news_md")

# Definir la palabra de contexto
palabra = "comida"

# Definir el texto en el que deseas buscar palabras similares
texto = """La comidas es un aspecto fundamental de la vida diaria. El desayuno se debe comer bien.
Disfrutar de una buena comida con amigos y familiares es una experiencia unica. La preparación de 
la comida requiere tiempo y dedicacion. Los ingredientes frescos son esenciales para una buena 
comida. La comida saludable es importante para mantener una dieta equilibrada. Los restaurantes ofrecen 
una amplia variedad de comidas deliciosas. La comida rapida es conveniente pero 
no siempre es la opción mas saludable. La comida casera tiene un sabor especial 
y reconfortante. La comida gourmet es un lujo que muchos disfrutan en ocasiones 
especiales. La comida exótica nos permite explorar nuevos sabores y culturas"""

palabra = "planeta"
texto = """Los planetas, cuerpos celestes que orbitan alrededor de estrellas, han fascinado a la humanidad desde tiempos inmemoriales. Nuestro sistema solar alberga ocho planetas, cada uno con características únicas y fascinantes. Desde el gigante gaseoso Júpiter, con su gran mancha roja, hasta el misterioso y frío Plutón, cuya clasificación como planeta ha sido motivo de debate. Los planetas han sido objeto de estudio e inspiración para científicos, escritores y artistas. Su estudio ha revelado secretos sobre la formación del sistema solar y la posibilidad de vida en otros mundos. La exploración espacial continúa desvelando nuevos misterios sobre estos enigmáticos cuerpos celestes."""


# Procesar el texto con spaCy
doc = nlp(texto)

# Obtener las palabras con contexto semántico similar a la palabra de interés
palabras_similares = []
for token in doc:
    if token.has_vector:  # Verificar si la palabra tiene un vector de embedding
        similitud = nlp(palabra).similarity(token)
        if similitud > 0.7 and token.text != palabra:  # Ajusta este umbral según tus necesidades
            palabras_similares.append(token.text)
            palabras_similares.append(similitud)

# Imprimir las palabras con contexto semántico similar
print(f"Palabras con contexto semántico similar a '{palabra}'")
palabras_similares

Palabras con contexto semántico similar a 'planeta'


['planetas',
 0.7400456829378707,
 'orbitan',
 0.7400456829378707,
 'planetas',
 0.7400456829378707,
 'planetas',
 0.7400456829378707]

In [22]:
import spacy

# Cargar el modelo de lenguaje de spaCy (puede que necesites descargar el modelo adecuado antes)
nlp = spacy.load("es_core_news_md")

palabra = "comida"
texto = "La comidas es un aspecto fundamental de la vida diaria. El desayuno se debe comer bien.Disfrutar de una buena comida con amigos y familiares es una experiencia unica. La preparación de la comida requiere tiempo y dedicacion. Los ingredientes frescos son esenciales para una buena comida. La comida saludable es importante para mantener una dieta equilibrada. Los restaurantes ofrecen una amplia variedad de comidas deliciosas. La comida rapida es conveniente pero no siempre es la opción mas saludable. La comida casera tiene un sabor especial y reconfortante. La comida gourmet es un lujo que muchos disfrutan en ocasiones especiales. La comida exótica nos permite explorar nuevos sabores y culturas"

palabra = "planeta"
texto = "Los planetas, cuerpos celestes que orbitan alrededor de estrellas, han fascinado a la humanidad desde tiempos inmemoriales. Nuestro sistema solar alberga ocho planetas, cada uno con características únicas y fascinantes. Desde el gigante gaseoso Júpiter, con su gran mancha roja, hasta el misterioso y frío Plutón, cuya clasificación como planeta ha sido motivo de debate. Los planetas han sido objeto de estudio e inspiración para científicos, escritores y artistas. Su estudio ha revelado secretos sobre la formación del sistema solar y la posibilidad de vida en otros mundos. La exploración espacial continúa desvelando nuevos misterios sobre estos enigmáticos cuerpos celestes."


# Tokenizar el texto con spaCy para análisis lingüístico
doc = nlp(texto)

# Crear un conjunto de palabras relacionadas a la palabra de interés
palabras_relacionadas = set()

# Iterar sobre las palabras en el texto y encontrar las que son del mismo contexto que la palabra de interés
for token in doc:
    if token.is_alpha and token.text.lower() != palabra:  # Solo considerar palabras no vacías y distintas de la palabra de interés
        similarity_score = nlp(token.text).similarity(nlp(palabra))  # Calcular la similitud semántica con la palabra de interés
        if similarity_score > 0.5:  # Ajustar este umbral según la precisión que necesites
            palabras_relacionadas.add(token.text)
# Imprimir las palabras del mismo contexto
print("Palabras relacionadas a '{}':".format(palabra))
print(palabras_relacionadas)


Palabras relacionadas a 'planeta':
{'planetas', 'espacial', 'mundos', 'Júpiter', 'Plutón', 'humanidad', 'orbitan'}
