# Entrená tus propios Embeddings Word2Vec en Python
En esta sección vamos a entrenar nuestros propios modelos de Word2Vec utilizando corpus en español. El objetivo es observar cómo varía la calidad de los embeddings en función de la cantidad y variedad del texto de entrenamiento.

Vamos a realizar tres experimentos progresivos:

🔹 Entrenamiento con un texto corto (por ejemplo, un artículo breve o un cuento).

📖 Entrenamiento con un libro completo (con muchas más páginas y vocabulario).

🧠 Entrenamiento con un corpus extenso y variado, que incluya múltiples fuentes: libros, artículos, tesis, etc.

En cada caso, vamos a entrenar el modelo desde cero y luego evaluarlo realizando consultas, analogías y análisis de vecinos semánticos. Así podremos ver cómo mejora el desempeño del modelo a medida que le damos más datos y contextos de uso.

# Word2Vec


Word2Vec es un modelo de aprendizaje no supervisado que transforma palabras en vectores numéricos,  se utiliza para aprender representaciones vectoriales de palabras. 
- Estos vectores capturan relaciones semánticas y contextuales entre palabras. Por ejemplo, si el modelo es bueno, debería poder entender que: “Rey es a Reina como Hombre es a Mujer”

- Y eso no lo logra con reglas explícitas, sino aprendiendo de los contextos en los que aparecen las palabras. Esto está directamente relacionado con la hipótesis distribucional de la semántica: “Palabras que aparecen en contextos similares tienden a tener significados similares.”
- Estas representaciones pueden capturar muchas propiedades lingüísticas de las palabras, como su significado semántico, gramatical y hasta contextual

## 1. Importar Librerias

Primero importamos las librerías necesarias:

- gensim.models.Word2Vec para entrenar el modelo

- string para limpiar el texto

- PyPDF2 en caso de usar archivos PDF en vez de texto plano

Esto es solo preparación. El núcleo está en el procesamiento del texto y el entrenamiento.

In [1]:
pip install pypdf2 -q

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import string
from gensim.models import Word2Vec
import PyPDF2

## 2. Carga del documento 

En este caso, estamos trabajando con un archivo llamado Minecraft.txt. Lo abrimos y leemos todo el contenido en una variable documento.

In [51]:
with open('Minecraft.txt', 'r', encoding='utf-8') as file:
    documento = file.read()

In [52]:
documento

'\ufeffMinecraft es un\xa0videojuego\xa0de construcción de tipo «mundo abierto» o en inglés\xa0sandbox\xa0creado originalmente por el sueco\xa0Markus Persson\xa0(conocido comúnmente como «Notch»), que creo posteriormente\xa0Mojang Studios\xa0(actualmente parte de\xa0Microsoft).19\u200b20\u200b Está programado en el\xa0lenguaje de programación Java21\u200b para la versión\xa0Java Edition\xa0y posteriormente desarrollado en\xa0C++\xa0para la versión de\xa0Bedrock Edition.22\u200b Fue lanzado el 17 de mayo de 2009, y después de numerosos cambios, su primera versión estable «1.0» fue publicada el 18 de noviembre de 2011.\nMarkus Persson, el creador de Minecraft.\nUn mes antes del lanzamiento de su versión completa se estrenó una versión para dispositivos móviles llamada\xa0Minecraft: Pocket Edition\xa0en\xa0Android,23\u200b y el 17 de noviembre del mismo año fue lanzada la misma versión para\xa0iOS, aunque posteriormente esta pasaría a ser\xa0Minecraft: Bedrock Edition.24\u200b25\u200b El 

In [63]:
len(documento)

36492

## 3. Preprocesamiento de datos

In [64]:
# Dividir el documento en frases usando el punto como separador
oraciones = documento.split(',')
len(oraciones)

301

In [65]:
oraciones[100]

' nuevos elementos'

Este paso es clave: Word2Vec no trabaja con texto crudo. Necesita listas de listas de palabras, o sea:

Para lograr eso:

Dividimos el texto en oraciones (en este caso, usando ,)

- Limpiamos puntuación

- Pasamos a minúsculas

- Filtramos tokens no alfabéticos

Así construimos un dataset adecuado para entrenar.

In [66]:
oraciones_limpias = []
for oracion in oraciones:
    # Eliminar puntuación y dividir por espacios
    tokens = oracion.translate(str.maketrans('', '', 
                                        string.punctuation)).split()
    # Convertir a minúsculas
    tokens = [word.lower() for word in tokens if word.isalpha()]
    if tokens:  # Añadir solo si hay tokens
        oraciones_limpias.append(tokens)

In [67]:
oraciones_limpias[200]

['que', 'puede', 'ser', 'tanto', 'hombre', 'o', 'mujer']

## 4. Entrenamiento del modelo Word2Vec 

Acá entrenamos el modelo Word2Vec con los siguientes parámetros:

- vector_size=500: el tamaño del vector por palabra

- window=5: contexto a la izquierda y derecha

- min_count=1: usamos todas las palabras

- workers=8: para aprovechar múltiples núcleos

Esto genera un modelo que aprende representaciones vectoriales de las palabras, en función de su uso en el texto.

In [68]:
# Entrenamos el modelo con un corpus reducido (texto sobre Minecraft).
# La baja cantidad de datos permite un entrenamiento rápido.
# Obtenemos la representación vectorial de la palabra "Minecraft",


In [69]:
# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=oraciones_limpias, 
                 vector_size=500, window=5, min_count=1, workers=8)

In [70]:
vector = model.wv['minecraft'] # generada por el modelo Word2Vec en un espacio de 500 dimensiones.

In [13]:
vector 

array([ 7.30881095e-03,  9.23433341e-03,  9.48162843e-03,  6.36620866e-03,
       -5.51670045e-03, -1.04626119e-02,  3.77304154e-03,  1.65606290e-02,
        2.29968131e-03,  2.03431421e-03, -4.67195146e-04,  3.33943404e-03,
        5.06747328e-03,  5.98352682e-03,  3.41624999e-03, -9.80802812e-03,
       -5.16575342e-03, -3.40690627e-03, -2.52300082e-03, -2.48398195e-04,
        5.61547838e-03, -7.52341293e-04,  4.40928200e-03, -1.83585647e-03,
        1.96048548e-03,  5.05802361e-03,  9.36629425e-04,  1.82337174e-03,
       -1.52811250e-02,  5.53991832e-03,  6.90515712e-03, -5.40253823e-04,
       -2.52549700e-03, -1.31194037e-03,  6.09771954e-03,  6.45834301e-03,
        4.92430106e-03, -8.00482929e-03, -3.37732770e-03, -1.02787418e-02,
       -5.08828415e-03, -2.76719942e-03, -1.18338009e-02,  6.37488207e-03,
       -8.22690129e-03, -7.72561459e-03, -6.62995689e-03,  1.23639125e-03,
       -3.33308242e-03,  9.94628179e-04, -3.07034096e-03, -3.93765932e-03,
       -5.90121234e-03, -

In [72]:
palabras_cercanas = model.wv.most_similar("java", topn=10)
palabras_cercanas

[('de', 0.8085704445838928),
 ('el', 0.8017207980155945),
 ('consultado', 0.7996417880058289),
 ('minecraft', 0.7986282706260681),
 ('en', 0.7983130812644958),
 ('la', 0.7963263392448425),
 ('archivado', 0.7954477071762085),
 ('para', 0.7932837605476379),
 ('y', 0.7929614782333374),
 ('desde', 0.7893229722976685)]

In [73]:
palabras_cercanas = model.wv.most_similar("hombre", topn=10)
palabras_cercanas

[('vez', 0.1625259667634964),
 ('puede', 0.1616562455892563),
 ('además', 0.14732800424098969),
 ('of', 0.13625134527683258),
 ('través', 0.13588228821754456),
 ('personas', 0.13253183662891388),
 ('comprando', 0.12992039322853088),
 ('update', 0.1243257224559784),
 ('one', 0.12336917221546173),
 ('también', 0.1224675253033638)]

In [77]:
palabras_cercanas = model.wv.most_similar("fecha", topn=10)
palabras_cercanas

[('archivado', 0.587461531162262),
 ('consultado', 0.5830485224723816),
 ('el', 0.5817371606826782),
 ('de', 0.5801222920417786),
 ('desde', 0.5762267708778381),
 ('octubre', 0.5728006958961487),
 ('los', 0.5726199150085449),
 ('en', 0.5719553232192993),
 ('minecraft', 0.5651163458824158),
 ('y', 0.5639030337333679)]

In [58]:
palabras_cercanas = model.wv.most_similar("la", topn=10)
palabras_cercanas

[('de', 0.9672471284866333),
 ('el', 0.9624756574630737),
 ('en', 0.9522860646247864),
 ('consultado', 0.9505682587623596),
 ('minecraft', 0.9491422176361084),
 ('archivado', 0.9483450055122375),
 ('para', 0.9457398653030396),
 ('desde', 0.9426613450050354),
 ('y', 0.9416682720184326),
 ('se', 0.9402287602424622)]

In [19]:
palabras_cercanas = model.wv.most_similar("mujer", topn=10)
palabras_cercanas

[('ps', 0.16318070888519287),
 ('pc', 0.1570395976305008),
 ('combate', 0.15494750440120697),
 ('reglas', 0.15244613587856293),
 ('noviembre', 0.14897482097148895),
 ('agosto', 0.148407980799675),
 ('and', 0.14801356196403503),
 ('games', 0.1454431712627411),
 ('cbs', 0.14482249319553375),
 ('colin', 0.14482080936431885)]

In [79]:
palabras_cercanas = model.wv.most_similar("año", topn=10)
palabras_cercanas

[('que', 0.29840943217277527),
 ('in', 0.298143595457077),
 ('juego', 0.29811882972717285),
 ('diciembre', 0.2925235629081726),
 ('junio', 0.29198986291885376),
 ('la', 0.2908470630645752),
 ('el', 0.2907687723636627),
 ('consultado', 0.2901724576950073),
 ('y', 0.2894989550113678),
 ('en', 0.2867892384529114)]

In [80]:
palabras_cercanas = model.wv.most_similar("java", topn=10)
palabras_cercanas

[('de', 0.8085704445838928),
 ('el', 0.8017207980155945),
 ('consultado', 0.7996417880058289),
 ('minecraft', 0.7986282706260681),
 ('en', 0.7983130812644958),
 ('la', 0.7963263392448425),
 ('archivado', 0.7954477071762085),
 ('para', 0.7932837605476379),
 ('y', 0.7929614782333374),
 ('desde', 0.7893229722976685)]

In [81]:
palabras_cercanas = model.wv.most_similar("videojuego", topn=10)
palabras_cercanas

[('de', 0.7431052923202515),
 ('el', 0.741194486618042),
 ('para', 0.7358154058456421),
 ('consultado', 0.7357285022735596),
 ('minecraft', 0.7345004081726074),
 ('en', 0.7312025427818298),
 ('desde', 0.7309340238571167),
 ('archivado', 0.7289144992828369),
 ('la', 0.7287349700927734),
 ('a', 0.7245970368385315)]

In [82]:
model.save("minecraft.model")
modelo_cargado = Word2Vec.load("minecraft.model")

In [83]:
palabras_cercanas = modelo_cargado.wv.most_similar("minecraft", topn=10)
palabras_cercanas

[('de', 0.9748616218566895),
 ('el', 0.9687601923942566),
 ('en', 0.9590970873832703),
 ('archivado', 0.9580968618392944),
 ('consultado', 0.9571753740310669),
 ('para', 0.9513212442398071),
 ('la', 0.9491422772407532),
 ('y', 0.9479953050613403),
 ('desde', 0.945522129535675),
 ('se', 0.9451279640197754)]

Cuando entrenás un modelo Word2Vec con gensim, este genera vectores de palabras (word embeddings). Estos vectores se pueden guardar para usarlos después, en otros proyectos, herramientas o lenguajes.

La función save_word2vec_format() guarda esos vectores en un archivo, usando un formato compatible con el original de Google Word2Vec.

In [84]:
model.wv.save_word2vec_format('mine_emb.txt', binary=False)
model.wv.save_word2vec_format('mine_emb.bin', binary=True)

In [86]:
from gensim.models import KeyedVectors

embeddings_cargados = KeyedVectors.load_word2vec_format('mine_emb.txt', binary=False)
# O si fue guardado en formato binario:
# embeddings_cargados = KeyedVectors.load_word2vec_format('embeddings.bin', binary=True)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x16b44942550>

In [87]:
def analogias(v1, v2, v3):
    similitud = embeddings_cargados.most_similar(positive=[v1, v3], negative=[v2])
    print(f"{v1} es a {v2} como {similitud[0][0]} es a {v3}") 

In [89]:
analogias('jugador', 'minecraft', 'mujer')

jugador es a minecraft como combate es a mujer


## Ejemplo 100 años de soledad

In [92]:
def extraer_texto_desde_pdf(ruta_archivo):
    with open(ruta_archivo, 'rb') as archivo:
        lector = PyPDF2.PdfReader(archivo)  
        texto = ""
        for pagina in range(len(lector.pages)):
            texto += lector.pages[pagina].extract_text()  
    return texto

documento = extraer_texto_desde_pdf('100as.pdf')

In [93]:
documento

"          \nGabriel García Márquez \nCien años de soledad \nPara Jomi García Ascot \ny María Luisa Elio Cien años de soledad \nGabriel  García Márquez \n 3  \nI \n \nMuchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía había de \nrecordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces \nuna aldea de veinte casas de barro y cañabrava construidas a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas carecían de nombre, y para \nmencionarlas había que señalarías con el dedo. Todos los años, por el mes de marzo, una familia \nde gitanos desarrapados plantaba su carpa cerca de la aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos. Primero llevaron el imán. Un gitano corpulento, de \nbarba montaraz y manos de gorrión, que se presentó con el nombre de Melquia

In [95]:
len(documento) #cantidad de caracteres que tiene la variable documento

823728

In [96]:
# Dividir el documento en frases usando la coma como separador
oraciones = documento.split(',')
len(oraciones) #cantidad de oraciones que tenés almacenadas en la lista oraciones

8854

In [98]:
oraciones[800]

' y aprendieron a tomar caldo de lagartijas y a comer huevos de arañas sin que Úrsula se diera cuenta'

In [99]:
oraciones[10]

' que se presentó con el nombre de Melquiades'

In [100]:
oraciones_limpias = []
for oracion in oraciones:
    # Eliminar puntuación y dividir por espacios
    tokens = oracion.translate(str.maketrans('', 
                                    '', string.punctuation)).split()
    # Convertir a minúsculas
    tokens = [word.lower() for word in tokens if word.isalpha()]
    if tokens:  # Añadir solo si hay tokens
        oraciones_limpias.append(tokens)

In [47]:
oraciones_limpias[100]

['pero',
 'sin',
 'decidirse',
 'a',
 'darle',
 'el',
 'zarpazo',
 'final',
 'era',
 'un',
 'fugitivo',
 'de',
 'cuantas',
 'plagas',
 'y',
 'catástrofes',
 'habían',
 'flagelado',
 'al',
 'género',
 'humano',
 'sobrevivió',
 'a',
 'la',
 'pelagra',
 'en',
 'persia']

In [101]:
# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=oraciones_limpias, 
                 vector_size=500, window=5, min_count=1, workers=8)

In [102]:
palabras_cercanas = model.wv.most_similar("buendia", topn=10)
palabras_cercanas

[('segundo', 0.9955244064331055),
 ('aureliano', 0.9950906038284302),
 ('conclusión', 0.9899276494979858),
 ('carpio', 0.9897914528846741),
 ('buendía', 0.988368809223175),
 ('tío', 0.9865779876708984),
 ('soy', 0.9854967594146729),
 ('centeno', 0.9852331280708313),
 ('josé', 0.9841567873954773),
 ('prevenir', 0.9825310111045837)]

In [103]:
palabras_cercanas = model.wv.most_similar("noche", topn=10)
palabras_cercanas

[('mano', 0.9999105930328369),
 ('y', 0.9998979568481445),
 ('tarde', 0.9998732805252075),
 ('cama', 0.9998727440834045),
 ('sobre', 0.9998472929000854),
 ('por', 0.999845027923584),
 ('primera', 0.9998446702957153),
 ('todas', 0.9998433589935303),
 ('aquel', 0.999830424785614),
 ('amor', 0.9998152256011963)]

In [104]:
palabras_cercanas = model.wv.most_similar("hombre", topn=10)
palabras_cercanas

[('tiempo', 0.9998953938484192),
 ('porque', 0.9998952150344849),
 ('tenía', 0.9998725652694702),
 ('quien', 0.9998595714569092),
 ('todo', 0.9998583197593689),
 ('mundo', 0.9998538494110107),
 ('qué', 0.9998530745506287),
 ('nada', 0.999851405620575),
 ('realidad', 0.9998509883880615),
 ('les', 0.9998503923416138)]

In [105]:
palabras_cercanas = model.wv.most_similar("mujer", topn=10)
palabras_cercanas

[('vio', 0.9997738599777222),
 ('único', 0.9997217059135437),
 ('él', 0.9997087717056274),
 ('sintió', 0.9997008442878723),
 ('comprendió', 0.9996622204780579),
 ('úrsula', 0.9996606707572937),
 ('ya', 0.999639630317688),
 ('amaranta', 0.9996374845504761),
 ('quedó', 0.9996260404586792),
 ('salvo', 0.9996212720870972)]

In [109]:
palabras_cercanas = model.wv.most_similar("rey", topn=10)
palabras_cercanas

[('capitán', 0.9946724772453308),
 ('primer', 0.994580864906311),
 ('tener', 0.9945648908615112),
 ('veía', 0.9945482015609741),
 ('allí', 0.9945430159568787),
 ('bajo', 0.994541347026825),
 ('empezó', 0.9945300817489624),
 ('decía', 0.9945236444473267),
 ('rebeca', 0.9945129752159119),
 ('llevaba', 0.994504451751709)]

In [66]:
palabras_cercanas = model.wv.most_similar("reina", topn=10)
palabras_cercanas

[('bien', 0.9993936419487),
 ('do', 0.9993897676467896),
 ('dios', 0.9993892312049866),
 ('varias', 0.9993390440940857),
 ('cuya', 0.9993269443511963),
 ('estado', 0.9993194341659546),
 ('ellos', 0.9993124604225159),
 ('veces', 0.9993066191673279),
 ('moscote', 0.9992887377738953),
 ('paso', 0.9992882013320923)]

In [67]:
palabras_cercanas = model.wv.most_similar("amor", topn=10)
palabras_cercanas

[('todo', 0.9999144673347473),
 ('ver', 0.9999066591262817),
 ('eran', 0.9999034404754639),
 ('tan', 0.9998940825462341),
 ('haber', 0.9998940229415894),
 ('mismo', 0.9998892545700073),
 ('menos', 0.9998872876167297),
 ('punto', 0.9998815655708313),
 ('después', 0.9998797178268433),
 ('tal', 0.9998791217803955)]

In [68]:
palabras_cercanas = model.wv.most_similar("soledad", topn=10)
palabras_cercanas

[('frente', 0.9998437762260437),
 ('eran', 0.9998409748077393),
 ('hacia', 0.9998372793197632),
 ('días', 0.9998350739479065),
 ('niños', 0.9998264908790588),
 ('aquel', 0.9998242855072021),
 ('menos', 0.9998213052749634),
 ('tan', 0.9998177289962769),
 ('siempre', 0.9998175501823425),
 ('luego', 0.9998162984848022)]

In [110]:
model.wv.save_word2vec_format('100as_emb.txt', binary=False)

In [111]:
from gensim.models import KeyedVectors

embeddings_cargados = KeyedVectors.load_word2vec_format('100as_emb.txt', binary=False)
# O si fue guardado en formato binario:
# embeddings_cargados = KeyedVectors.load_word2vec_format('embeddings.bin', binary=True)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x16b46866490>

In [112]:
def analogias(v1, v2, v3):
    similitud = embeddings_cargados.most_similar(positive=[v1, v3], negative=[v2])
    print(f"{v1} es a {v2} como {similitud[0][0]} es a {v3}") 

In [113]:
analogias('rey', 'hombre', 'mujer')

rey es a hombre como decir es a mujer


##### Más Archivos (500 pdf)

In [64]:
pip install tqdm -q

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [115]:
import os
import PyPDF2
from tqdm import tqdm

In [114]:
# Ruta de la carpeta que contiene los archivos PDF
path = 'textos'

# Lista de archivos en la carpeta
files = [f for f in os.listdir(path) if f.endswith('.pdf')]

# Renombrar los archivos
for i, filename in enumerate(sorted(files)):
    old_path = os.path.join(path, filename)
    new_path = os.path.join(path, f"archivo {i}.pdf")
    os.rename(old_path, new_path)

print("Archivos renombrados con éxito.")

NameError: name 'os' is not defined

In [116]:
def extraer_texto_desde_pdf(ruta_archivo):
    with open(ruta_archivo, 'rb') as archivo:
        lector = PyPDF2.PdfReader(archivo)
        texto = ""
        for pagina in range(len(lector.pages)):
            texto += lector.pages[pagina].extract_text()
    return texto

In [9]:
pip install pycryptodome


Note: you may need to restart the kernel to use updated packages.Collecting pycryptodome
  Downloading pycryptodome-3.22.0-cp37-abi3-win_amd64.whl.metadata (3.4 kB)
Downloading pycryptodome-3.22.0-cp37-abi3-win_amd64.whl (1.8 MB)
   ---------------------------------------- 0.0/1.8 MB ? eta -:--:--
   ---------------------------------------- 0.0/1.8 MB ? eta -:--:--
   ----- ---------------------------------- 0.3/1.8 MB ? eta -:--:--
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ---------------------------- 0.5/1.8 MB 1.4 MB/s eta 0:00:01
   ----------- ----------------


[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [70]:
ruta_carpeta = "textos"
todos_los_textos = []

for archivo in tqdm(os.listdir(ruta_carpeta)):
    if archivo.endswith('.pdf'):
        ruta_completa = os.path.join(ruta_carpeta, archivo)
        try:
            documento = extraer_texto_desde_pdf(ruta_completa)
            todos_los_textos.append(documento)
        except Exception as e:
            print(f"Error al procesar {archivo}: {e}")

  2%|██                                                                                            | 13/582 [00:05<04:32,  2.09it/s]Multiple definitions in dictionary at byte 0x41079 for key /PageMode
  4%|███▍                                                                                          | 21/582 [00:21<26:22,  2.82s/it]

Error al procesar archivo 107.pdf: 'NullObject' object has no attribute 'get'


  6%|█████▊                                                                                        | 36/582 [00:42<07:44,  1.17it/s]

Error al procesar archivo 12.pdf: 'NullObject' object has no attribute 'get'


  7%|██████                                                                                      | 38/582 [01:22<1:31:02, 10.04s/it]

Error al procesar archivo 122.pdf: 'NullObject' object has no attribute 'get'


  7%|██████▍                                                                                     | 41/582 [01:33<1:01:17,  6.80s/it]

Error al procesar archivo 125.pdf: 'NullObject' object has no attribute 'get'


  9%|████████▋                                                                                   | 55/582 [02:39<1:00:53,  6.93s/it]

Error al procesar archivo 138.pdf: 'NullObject' object has no attribute 'get'


 10%|█████████▎                                                                                    | 58/582 [02:47<42:46,  4.90s/it]

Error al procesar archivo 140.pdf: 'NullObject' object has no attribute 'get'


 13%|████████████                                                                                  | 75/582 [03:34<31:40,  3.75s/it]

Error al procesar archivo 156.pdf: 'NullObject' object has no attribute 'get'


 13%|████████████▍                                                                                 | 77/582 [03:43<34:28,  4.10s/it]startxref on same line as offset
 23%|█████████████████████▍                                                                       | 134/582 [05:54<12:49,  1.72s/it]

Error al procesar archivo 209.pdf: 'NullObject' object has no attribute 'get'


 24%|█████████████████████▉                                                                       | 137/582 [05:58<11:29,  1.55s/it]

Error al procesar archivo 211.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 212.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 213.pdf: 'NullObject' object has no attribute 'get'


 26%|███████████████████████▉                                                                     | 150/582 [06:14<08:51,  1.23s/it]

Error al procesar archivo 223.pdf: 'NullObject' object has no attribute 'get'


 26%|████████████████████████▎                                                                    | 152/582 [06:15<06:04,  1.18it/s]

Error al procesar archivo 225.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 226.pdf: 'NullObject' object has no attribute 'get'


 27%|████████████████████████▉                                                                    | 156/582 [06:17<05:38,  1.26it/s]

Error al procesar archivo 229.pdf: 'NullObject' object has no attribute 'get'


 28%|██████████████████████████                                                                   | 163/582 [06:31<17:44,  2.54s/it]

Error al procesar archivo 235.pdf: 'NullObject' object has no attribute 'get'


 34%|███████████████████████████████▍                                                             | 197/582 [08:56<21:47,  3.40s/it]

Error al procesar archivo 266.pdf: 'NullObject' object has no attribute 'get'


 35%|████████████████████████████████▌                                                            | 204/582 [09:25<44:19,  7.04s/it]

Error al procesar archivo 272.pdf: 'NullObject' object has no attribute 'get'


 37%|██████████████████████████████████▌                                                          | 216/582 [09:53<13:41,  2.24s/it]

Error al procesar archivo 283.pdf: 'NullObject' object has no attribute 'get'


 37%|██████████████████████████████████▊                                                          | 218/582 [09:57<13:11,  2.18s/it]

Error al procesar archivo 285.pdf: 'NullObject' object has no attribute 'get'


 43%|███████████████████████████████████████▉                                                     | 250/582 [12:11<37:04,  6.70s/it]

Error al procesar archivo 313.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 314.pdf: 'NullObject' object has no attribute 'get'


 45%|█████████████████████████████████████████▌                                                   | 260/582 [12:30<12:42,  2.37s/it]

Error al procesar archivo 322.pdf: 'NullObject' object has no attribute 'get'


 51%|███████████████████████████████████████████████▏                                             | 295/582 [13:58<49:48, 10.41s/it]

Error al procesar archivo 354.pdf: 'NullObject' object has no attribute 'get'


 52%|████████████████████████████████████████████████▍                                            | 303/582 [14:26<13:34,  2.92s/it]

Error al procesar archivo 361.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 362.pdf: 'NullObject' object has no attribute 'get'
Error al procesar archivo 363.pdf: 'NullObject' object has no attribute 'get'


 53%|█████████████████████████████████████████████████▌                                           | 310/582 [14:34<08:03,  1.78s/it]

Error al procesar archivo 368.pdf: 'NullObject' object has no attribute 'get'


 64%|███████████████████████████████████████████████████████████▎                                 | 371/582 [18:03<10:43,  3.05s/it]

Error al procesar archivo 422.pdf: 'NullObject' object has no attribute 'get'


 65%|████████████████████████████████████████████████████████████▉                                | 381/582 [18:42<12:21,  3.69s/it]

Error al procesar archivo 5.pdf: 'NullObject' object has no attribute 'get'


 71%|█████████████████████████████████████████████████████████████████▊                           | 412/582 [21:01<33:33, 11.84s/it]

Error al procesar archivo 78.pdf: 'NullObject' object has no attribute 'get'


 71%|██████████████████████████████████████████████████████████████████▎                          | 415/582 [21:06<16:13,  5.83s/it]

Error al procesar archivo 80.pdf: 'NullObject' object has no attribute 'get'


 72%|██████████████████████████████████████████████████████████████████▊                          | 418/582 [21:18<12:31,  4.58s/it]

Error al procesar archivo 83.pdf: 'NullObject' object has no attribute 'get'


100%|█████████████████████████████████████████████████████████████████████████████████████████████| 582/582 [22:20<00:00,  2.30s/it]


In [117]:
len(todos_los_textos)

NameError: name 'todos_los_textos' is not defined

In [72]:
oraciones_totales = []
tamaño = 0

for documento in todos_los_textos:
    tamaño = tamaño + len(documento)
    oraciones = documento.split('.')
    oraciones_totales.extend(oraciones) 

In [73]:
print(f"Número de carácteres: {tamaño}")

Número de carácteres: 184096420


In [74]:
print(len(oraciones_totales))

1990888


In [75]:
import string


In [76]:
oraciones_limpias = []
for oracion in oraciones_totales:
    # Eliminar puntuación y dividir por espacios
    tokens = oracion.translate(str.maketrans('', 
                                    '', string.punctuation)).split()
    # Convertir a minúsculas
    tokens = [word.lower() for word in tokens if word.isalpha()]
    if tokens:  # Añadir solo si hay tokens
        oraciones_limpias.append(tokens)

In [80]:
oraciones_limpias[221070]

['los',
 'sucesos',
 'de',
 'que',
 'guardan',
 'la',
 'memoria',
 'estos',
 'números',
 'son',
 'hasta',
 'cierto',
 'punto',
 'insignificantes']

In [24]:
from gensim.models import Word2Vec

In [81]:
# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=oraciones_limpias, 
                 vector_size=500, window=5, min_count=1, workers=12)

In [82]:
palabras_cercanas = model.wv.most_similar("noche", topn=10)
palabras_cercanas

[('mañana', 0.7244788408279419),
 ('madrugada', 0.6267826557159424),
 ('primavera', 0.6114696860313416),
 ('jornada', 0.6051694750785828),
 ('velada', 0.5960668325424194),
 ('siesta', 0.5874554514884949),
 ('temporada', 0.5670510530471802),
 ('semana', 0.5630006194114685),
 ('hora', 0.5592809319496155),
 ('tarde', 0.5465261936187744)]

In [83]:
palabras_cercanas = model.wv.most_similar("amor", topn=10)
palabras_cercanas

[('afecto', 0.637462854385376),
 ('odio', 0.6323950290679932),
 ('cariño', 0.6253894567489624),
 ('sufrimiento', 0.6072587370872498),
 ('placer', 0.5779737830162048),
 ('goce', 0.5778358578681946),
 ('arrepentimiento', 0.5757105946540833),
 ('sacrificio', 0.5725978016853333),
 ('egoísmo', 0.571635901927948),
 ('apetito', 0.5571451783180237)]

In [84]:
palabras_cercanas = model.wv.most_similar("hombre", topn=10)
palabras_cercanas

[('individuo', 0.7010688185691833),
 ('muchacho', 0.6576589345932007),
 ('chico', 0.6174429059028625),
 ('caballero', 0.605979859828949),
 ('varón', 0.6015124917030334),
 ('niño', 0.6002700328826904),
 ('monstruo', 0.5936696529388428),
 ('soldado', 0.5897513628005981),
 ('chiquillo', 0.5890894532203674),
 ('campesino', 0.5828532576560974)]

In [85]:
palabras_cercanas = model.wv.most_similar("mujer", topn=10)
palabras_cercanas

[('muchacha', 0.7714030146598816),
 ('chica', 0.7377562522888184),
 ('niña', 0.7205818295478821),
 ('criatura', 0.6905936598777771),
 ('dama', 0.685034453868866),
 ('doncella', 0.6737025380134583),
 ('chiquilla', 0.6702833771705627),
 ('persona', 0.6401351690292358),
 ('esposa', 0.6400366425514221),
 ('jovencita', 0.6369224786758423)]

In [86]:
palabras_cercanas = model.wv.most_similar("rey", topn=10)
palabras_cercanas

[('príncipe', 0.7828839421272278),
 ('emperador', 0.782162070274353),
 ('papa', 0.7532333731651306),
 ('sultán', 0.7426429390907288),
 ('califa', 0.7113563418388367),
 ('duque', 0.7087106108665466),
 ('sacerdote', 0.7012344598770142),
 ('obispo', 0.6853498220443726),
 ('cardenal', 0.683448314666748),
 ('monarca', 0.6783636808395386)]

In [88]:
palabras_cercanas = model.wv.most_similar("reina", topn=10)
palabras_cercanas

[('princesa', 0.7278826236724854),
 ('virgen', 0.6415890455245972),
 ('duquesa', 0.6407008171081543),
 ('viuda', 0.6294318437576294),
 ('condesa', 0.585142195224762),
 ('heredera', 0.5842767357826233),
 ('bruja', 0.5572580695152283),
 ('bendición', 0.5540584325790405),
 ('emperatriz', 0.5518231391906738),
 ('diosa', 0.5513032078742981)]

In [95]:
palabras_cercanas = model.wv.most_similar("dia", topn=10)
palabras_cercanas

[('nsaje', 0.6011423468589783),
 ('regañaría', 0.5803529024124146),
 ('sumergí', 0.5749375820159912),
 ('apeé', 0.5741925835609436),
 ('embolsados', 0.5704942941665649),
 ('fascinates', 0.570013165473938),
 ('leered', 0.5647484660148621),
 ('multaran', 0.5635676383972168),
 ('wrapping', 0.5575200915336609),
 ('mezclé', 0.5572168827056885)]

In [105]:
palabras_cercanas = model.wv.most_similar("amor", topn=10)
palabras_cercanas

[('afecto', 0.637462854385376),
 ('odio', 0.6323950290679932),
 ('cariño', 0.6253894567489624),
 ('sufrimiento', 0.6072587370872498),
 ('placer', 0.5779737830162048),
 ('goce', 0.5778358578681946),
 ('arrepentimiento', 0.5757105946540833),
 ('sacrificio', 0.5725978016853333),
 ('egoísmo', 0.571635901927948),
 ('apetito', 0.5571451783180237)]

In [90]:
model.wv.save_word2vec_format('mod_150textos.txt', binary=False)

In [91]:
model.wv.save_word2vec_format('emb_150textos.txt', binary=False)

In [92]:
from gensim.models import KeyedVectors

embeddings_cargados = KeyedVectors.load_word2vec_format('emb_150textos.txt', binary=False)
# O si fue guardado en formato binario:
# embeddings_cargados = KeyedVectors.load_word2vec_format('embeddings.bin', binary=True)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x1eaa95becd0>

In [93]:
def analogias(v1, v2, v3):
    similitud = embeddings_cargados.most_similar(positive=[v1, v3], negative=[v2])
    print(f"{v1} es a {v2} como {similitud[0][0]} es a {v3}") 

In [94]:
analogias('rey', 'hombre', 'mujer')

rey es a hombre como esposa es a mujer
