In [25]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk 
nltk.download('punkt')
import re
import random

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Aleex\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [65]:
texto = """
El sol se escondía lentamente detrás de las montañas cuando el viajero llegó al pequeño pueblo.
Las casas, construidas con piedra y madera, reflejaban la luz dorada del atardecer.
En la plaza central, los niños jugaban mientras los ancianos conversaban bajo los árboles.
El viajero se detuvo frente a una fuente antigua y observó su reflejo en el agua tranquila.
Había recorrido muchos caminos, cruzado ríos y desiertos, pero aún no había encontrado lo que buscaba.
Llevaba un mapa gastado y una brújula que apenas funcionaba.
Una mujer se acercó con una sonrisa amable y le ofreció un poco de pan.
Él agradeció el gesto y le preguntó por el camino hacia el norte.
La mujer señaló la carretera que cruzaba el valle y desaparecía entre las colinas.
El viajero respiró profundamente y siguió su marcha.
A medida que avanzaba, la noche cubría el cielo con un manto de estrellas.
Cada paso lo acercaba a su destino, aunque todavía no sabía cuál era.
El viento soplaba suave, trayendo consigo el aroma del bosque y el murmullo de los insectos.
En ese silencio, comprendió que el viaje era más importante que la llegada.
"""

In [None]:
# Get rid capital letters, punctuation marks

texto_limpio = re.sub(r'[^\wáéíóúñ\s]', '', texto.lower()) # Punctuation marks

tokens = word_tokenize(texto_limpio)
print(tokens)

oraciones = [tokens[i:i+6] for i in range(0, len(tokens), 6)] # List comprehension
print(oraciones)

['el', 'sol', 'se', 'escondía', 'lentamente', 'detrás', 'de', 'las', 'montañas', 'cuando', 'el', 'viajero', 'llegó', 'al', 'pequeño', 'pueblo', 'las', 'casas', 'construidas', 'con', 'piedra', 'y', 'madera', 'reflejaban', 'la', 'luz', 'dorada', 'del', 'atardecer', 'en', 'la', 'plaza', 'central', 'los', 'niños', 'jugaban', 'mientras', 'los', 'ancianos', 'conversaban', 'bajo', 'los', 'árboles', 'el', 'viajero', 'se', 'detuvo', 'frente', 'a', 'una', 'fuente', 'antigua', 'y', 'observó', 'su', 'reflejo', 'en', 'el', 'agua', 'tranquila', 'había', 'recorrido', 'muchos', 'caminos', 'cruzado', 'ríos', 'y', 'desiertos', 'pero', 'aún', 'no', 'había', 'encontrado', 'lo', 'que', 'buscaba', 'llevaba', 'un', 'mapa', 'gastado', 'y', 'una', 'brújula', 'que', 'apenas', 'funcionaba', 'una', 'mujer', 'se', 'acercó', 'con', 'una', 'sonrisa', 'amable', 'y', 'le', 'ofreció', 'un', 'poco', 'de', 'pan', 'él', 'agradeció', 'el', 'gesto', 'y', 'le', 'preguntó', 'por', 'el', 'camino', 'hacia', 'el', 'norte', 'la',

## Word2Vec

Deep Learning technic to represent words as numeric vectors (word embeddings). Word2Vec does this so that: 

- Words with similar meaning have similar vectors (close in the vectorial space).

- Different words are far from each other.

#### Parameters

- sentences: A list of lists of words.

- vector_size: Vector size for each word (embedding dimension). 

- window: Context size. How many words to the left and right are considered to predict a word.

- sg: Indicates the training type. 1 means Skip-gram (predicts context from a word). 0 means CBOW (predicts a word out of the context).

- min_count: Words that appear less than this value are ignored.

- epochs: How many times the model goes through the corpus (repited training). More epochs mean better adjustment. 

In [None]:
modelo = Word2Vec( 
    sentences = oraciones,
    vector_size = 100,
    window = 3,
    sg = 1,
    min_count = 1,
    epochs = 300
)

In [72]:
def generar_texto_skipgram(modelo, palabra_actual, longitud=15):
    texto = [palabra_actual]
    print(palabra_actual)
    for _ in range(longitud):
        try:
            candidatos = modelo.wv.most_similar(palabra_actual, topn=5)
            print(candidatos)
            siguiente = random.choices([w for w, p in candidatos], # List of words
                                    weights = [p for w, p in candidatos], # List of probabilites
                                    k=1)[0] # Choose a word and gets it out of the list returned by random.choices
            texto.append(siguiente)
            print(siguiente)
            palabra_actual = siguiente
        except KeyError:
            break
    return " ".join(texto)

In [None]:
def predecir_contexto(palabra):
    try:
        return modelo.wv.most_similar(palabra, topn=5)
    except KeyError:
        print(f"La palabra '{palabra}' no está en el vocabulario del modelo.")
        return []

In [79]:
predecir_contexto("viajero")


[('detuvo', 0.9909470677375793),
 ('frente', 0.9899390935897827),
 ('árboles', 0.9890561103820801),
 ('respiró', 0.988638699054718),
 ('colinas', 0.9884709715843201)]

In [86]:
similitud = modelo.wv.similarity('viajero', 'colinas')
print(similitud)

0.988471
