In [2]:
from sklearn.feature_extraction.text import CountVectorizer
from gensim.models import Word2Vec

# Corpus de ejemplo
corpus = [
    'Este es el primer documento.',
    'Este documento es el segundo documento.',
    'Y este es el tercer documento.',
    'Espero que te sirva esta respuesta.'
]

# Paso 1: Crear el vectorizador CountVectorizer
vectorizer = CountVectorizer()

# Ajustar y transformar el corpus
X = vectorizer.fit_transform(corpus)

# Obtener el vocabulario
vocab = vectorizer.get_feature_names_out()

# Paso 2: Obtener la lista de palabras
word_list = vectorizer.get_feature_names_out()


# Paso 3: Crear modelo Word2Vec
model = Word2Vec(sentences=[sentence.split() for sentence in corpus], vector_size=100, window=5, min_count=1, workers=4)

# Ver los vectores de palabras
word_vectors = model.wv

# Palabras para las que queremos ver los vectores
words_to_check = ['documento', 'Este']


# Mostrar los vectores de las palabras especificadas
for word in words_to_check:
    if word in word_vectors:
        print(f"Vector para '{word}': {word_vectors[word]}")
    else:
        print(f"No se encontró el vector para '{word}'.")


Vector para 'documento': [ 7.6966463e-03  9.1206422e-03  1.1355019e-03 -8.3250795e-03
  8.4250160e-03 -3.6962307e-03  5.7421732e-03  4.3915794e-03
  9.6899448e-03 -9.2934975e-03  9.2084054e-03 -9.2815282e-03
 -6.9077122e-03 -9.1021946e-03 -5.5471100e-03  7.3688962e-03
  9.1644777e-03 -3.3253515e-03  3.7230505e-03 -3.6252034e-03
  7.8814710e-03  5.8668759e-03  2.0861626e-07 -3.6286747e-03
 -7.2243060e-03  4.7686161e-03  1.4529788e-03 -2.6131857e-03
  7.8378068e-03 -4.0496145e-03 -9.1489861e-03 -2.2554707e-03
  1.2514711e-04 -6.6392552e-03 -5.4866159e-03 -8.4997769e-03
  9.2298733e-03  7.4240281e-03 -2.9524326e-04  7.3676636e-03
  7.9507884e-03 -7.8357337e-04  6.6120909e-03  3.7675237e-03
  5.0768424e-03  7.2529912e-03 -4.7393893e-03 -2.1855331e-03
  8.7312341e-04  4.2362059e-03  3.3043313e-03  5.0958274e-03
  4.5864857e-03 -8.4385090e-03 -3.1838394e-03 -7.2367596e-03
  9.6814223e-03  5.0065992e-03  1.7084122e-04  4.1129780e-03
 -7.6561309e-03 -6.2946510e-03  3.0763936e-03  6.5346383e-03

In [3]:
# Imprimir sentencias en el corpus
print("Sentencias en el corpus:")
for sentence in corpus:
    print(sentence.split())

# Imprimir lista de palabras
print("Lista de palabras:")
print(word_list)

Sentencias en el corpus:
['Este', 'es', 'el', 'primer', 'documento.']
['Este', 'documento', 'es', 'el', 'segundo', 'documento.']
['Y', 'este', 'es', 'el', 'tercer', 'documento.']
['Espero', 'que', 'te', 'sirva', 'esta', 'respuesta.']
Lista de palabras:
['documento' 'el' 'es' 'espero' 'esta' 'este' 'primer' 'que' 'respuesta'
 'segundo' 'sirva' 'te' 'tercer']


In [8]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import word_tokenize

# Corpus de ejemplo
corpus = [
    'Este es el primer documento.',
    'Este documento es el segundo documento.',
    'Y este es el tercer documento.',
    'Espero que te sirva esta respuesta.'
]

# Crear etiquetas para los documentos
tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags=[str(i)]) for i, _d in enumerate(corpus)]

print(tagged_data)

# Definir un modelo Doc2Vec
model = Doc2Vec(vector_size=100, window=5, min_count=1, workers=4, epochs=100)

# Construir el vocabulario
model.build_vocab(tagged_data)

# Acceder al vocabulario
vocab = model.wv.key_to_index

# Imprimir el vocabulario
print(vocab)

# Entrenar el modelo
model.train(tagged_data, total_examples=model.corpus_count, epochs=model.epochs)

# Obtener los vectores de los documentos
document_vectors = model.dv

# Mostrar los vectores de los documentos
print("Vectores de los documentos:")
for i in range(len(corpus)):
    print(f"Vector para documento {i+1}: {document_vectors[i]}")



[TaggedDocument(words=['este', 'es', 'el', 'primer', 'documento', '.'], tags=['0']), TaggedDocument(words=['este', 'documento', 'es', 'el', 'segundo', 'documento', '.'], tags=['1']), TaggedDocument(words=['y', 'este', 'es', 'el', 'tercer', 'documento', '.'], tags=['2']), TaggedDocument(words=['espero', 'que', 'te', 'sirva', 'esta', 'respuesta', '.'], tags=['3'])]
{'.': 0, 'documento': 1, 'el': 2, 'es': 3, 'este': 4, 'respuesta': 5, 'esta': 6, 'sirva': 7, 'te': 8, 'que': 9, 'espero': 10, 'tercer': 11, 'y': 12, 'segundo': 13, 'primer': 14}
Vectores de los documentos:
Vector para documento 1: [-0.00750868 -0.00617679 -0.01010021  0.01038671  0.00426433 -0.00102669
 -0.009585   -0.00389662 -0.00974835  0.00184762  0.00243056  0.0036832
 -0.00442298 -0.00301255 -0.00169233 -0.00994173  0.00277833  0.00995451
 -0.0099255  -0.00295051 -0.00493095  0.00326262 -0.00553351  0.00524164
  0.00537313 -0.00738456 -0.00996762 -0.01048874  0.00503789 -0.01104722
  0.00622715  0.00671467 -0.00603196 -0

In [9]:
from transformers import BertTokenizer, BertModel
import torch

# Cargar el tokenizador pre-entrenado de BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Cargar el modelo pre-entrenado de BERT
model = BertModel.from_pretrained('bert-base-uncased')

# Texto de ejemplo
text = "Replace this with your own sentence for BERT vectorization."

# Tokenizar el texto y convertirlo en tensores
inputs = tokenizer(text, return_tensors='pt')

# Obtener la representación oculta de la última capa
with torch.no_grad():
    outputs = model(**inputs)
    embeddings = outputs.last_hidden_state

# Mostrar los vectores de palabras
print(embeddings)


ModuleNotFoundError: No module named 'transformers'

In [10]:
from nltk.corpus import wordnet

# Obtener sinónimos de una palabra
def obtener_sinonimos(palabra):
    sinonimos = set()
    for syn in wordnet.synsets(palabra):
        for lemma in syn.lemmas():
            sinonimos.add(lemma.name())
    return list(sinonimos)

# Obtener antónimos de una palabra
def obtener_antonimos(palabra):
    antonimos = set()
    for syn in wordnet.synsets(palabra):
        for lemma in syn.lemmas():
            if lemma.antonyms():
                antonimos.add(lemma.antonyms()[0].name())
    return list(antonimos)

# Obtener definición de una palabra
def obtener_definicion(palabra):
    definiciones = set()
    for syn in wordnet.synsets(palabra):
        definiciones.add(syn.definition())
    return list(definiciones)

# Mostrar relaciones semánticas entre palabras
def mostrar_relaciones_semanticas(palabra):
    relaciones = []
    for syn in wordnet.synsets(palabra):
        relaciones.append({
            "Palabra": syn.name(),
            "Definición": syn.definition(),
            "Sinónimos": list(set(lemma.name() for lemma in syn.lemmas())),
            "Antónimos": list(set(lemma.antonyms()[0].name() for lemma in syn.lemmas() if lemma.antonyms())),
            "Hiperónimos": list(set(syn.hypernyms())),
            "Hipónimos": list(set(syn.hyponyms())),
            "Merónimos": list(set(syn.part_meronyms())),
            "Holónimos": list(set(syn.member_holonyms())),
        })
    return relaciones

# Ejemplo de uso
palabra = "car"
print("Sinónimos de '{}':".format(palabra), obtener_sinonimos(palabra))
print("Antónimos de '{}':".format(palabra), obtener_antonimos(palabra))
print("Definiciones de '{}':".format(palabra), obtener_definicion(palabra))
print("\nRelaciones semánticas de '{}':".format(palabra))
relaciones = mostrar_relaciones_semanticas(palabra)
for r in relaciones:
    print(r)



Sinónimos de 'car': {'cable_car', 'gondola', 'automobile', 'motorcar', 'car', 'auto', 'railway_car', 'elevator_car', 'railcar', 'machine', 'railroad_car'}
Antónimos de 'good': {'ill', 'evilness', 'badness', 'bad', 'evil'}
Definición de 'car': a motor vehicle with four wheels; usually propelled by an internal combustion engine
