**Word2Vec** es un formato que muestra la palabra y a continuación las dimensiones que han sidoentrenadas en base a la similitud con el resto de palabras.

Es bueno usar modelos que ya estén entrenados y estos suelen compartise en formato txt o bin.

Utiliza dos arquitecturas de redes neuronales:
*  **1. Continous Bag of Words (CBOW)**: le ingresamos el contexto para predecir la proxima palabra.
*  **2. Skip-Gram**: toma una palabra objetivo y trata de producir las palabras del contexto, siendo lo contrario al CBOW.

**Embedding** representación de un documento como una serie de vectores o (embeddings).

## 1. Importar las librerías

In [1]:
# pip install pypdf2 -q
# !pip install gensim -q
# !pip install paramiko --upgrade

In [9]:
import string
import PyPDF2
from gensim.models import Word2Vec

# A. Modelo simple

## 2. Carga documento pequeño

In [3]:
with open('Minecraft.txt', 'r', encoding='utf-8') as file:
    documento = file.read()

In [11]:
documento

'Minecraft\n\nMinecraft es un videojuego de construcción de tipo «mundo abierto» o sandbox creado originalmente por el sueco Markus Persson (conocido comúnmente como «Notch»),19 y posteriormente desarrollado por Mojang Studios (actualmente parte de Microsoft).20 Fue lanzado el 17 de mayo de 2009, y después de numerosos cambios, su primera versión estable «1.0» fue publicada el 18 de noviembre de 2011.\nMarkus Persson, el creador de Minecraft.\nUn mes antes del lanzamiento de su versión completa se estrenó una versión para dispositivos móviles llamada Minecraft: Pocket Edition en Android,21 y el 17 de noviembre del mismo año fue lanzada la misma versión para iOS.22 El 9 de mayo de 2012 fue lanzada la versión del juego para Xbox 360 y PS3. Todas las versiones de Minecraft reciben actualizaciones constantes desde su lanzamiento. En octubre de 2014, Minecraft lanzó su edición para PlayStation Vita,23 desarrollada por Mojang y 4J Studios. Esta versión presenta las mismas actualizaciones y s

In [23]:
oraciones = documento.split('.')
len(oraciones)

127

## 3. Preprocesamiento de datos

In [44]:
oraciones[0]

'Minecraft\n\nMinecraft es un videojuego de construcción de tipo «mundo abierto» o sandbox creado originalmente por el sueco Markus Persson (conocido comúnmente como «Notch»),19 y posteriormente desarrollado por Mojang Studios (actualmente parte de Microsoft)'

In [42]:
oraciones_limpias = []
for oracion in oraciones:
    # Eliminar puntuación con maketrans y dividir por espacios
    tokens = oracion.translate(str.maketrans('', '',
                                             string.punctuation)).split()
    # Convertir palabras en minúsculas
    tokens = [word.lower() for word in tokens if word.isalpha()]
    if tokens: # Añadir solo si hay tokens
        oraciones_limpias.append(tokens)

In [46]:
oraciones_limpias[0]

['minecraft',
 'minecraft',
 'es',
 'un',
 'videojuego',
 'de',
 'construcción',
 'de',
 'tipo',
 'o',
 'sandbox',
 'creado',
 'originalmente',
 'por',
 'el',
 'sueco',
 'markus',
 'persson',
 'conocido',
 'comúnmente',
 'como',
 'y',
 'posteriormente',
 'desarrollado',
 'por',
 'mojang',
 'studios',
 'actualmente',
 'parte',
 'de',
 'microsoft']

## 4. Entrenamiento del modelo Word2Vec

In [64]:
# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=oraciones_limpias,
                 vector_size=500, window=5, min_count=1, workers=8)

# Es un modelo que recibe como input listas de oraciones,
# Consdiera 500 tokens en el embedding, analizando las palabras previas y posteriores a cada elemento,
# la palabra tiene que aparecer mínimo 1 vez para ser considerada en el modelo y cuantos núcleos del ordenador
# van a trabajar a la vez.

In [68]:
# Vector de la palabras Mincraft con 500 dimensiones a considerar
model.wv['minecraft']

array([ 5.00054855e-04,  1.93846750e-03,  2.06744461e-03,  2.60203891e-03,
       -2.02402007e-03, -1.77548360e-03,  2.27620848e-03,  2.23536813e-03,
        6.04523753e-04,  1.05972029e-03, -5.77983854e-04, -1.28226448e-03,
        4.41503304e-04, -1.67218049e-03, -3.24010703e-04, -3.48889641e-03,
       -1.68160710e-03, -2.36706831e-03,  7.49515020e-04, -1.12480693e-03,
        2.04395433e-03, -2.59933923e-03, -8.46223702e-05,  1.87634447e-04,
       -6.76451891e-04,  9.68601322e-04, -3.48711299e-04, -8.66748960e-05,
       -3.28912400e-03, -2.18876777e-03,  1.69340346e-03,  2.54444400e-04,
        1.31648302e-03, -1.71776034e-03,  1.74258254e-03, -1.01134705e-03,
        2.63451203e-03,  2.30210673e-04, -1.87144766e-03, -2.93803168e-04,
       -1.68839097e-03, -2.53500044e-03, -1.65786396e-03,  1.31461339e-03,
       -2.77619669e-03, -3.08953482e-03,  1.27523474e-03,  1.06380868e-03,
       -8.13581719e-05,  4.47694445e-04, -1.11048692e-03,  4.67279751e-05,
        4.49442654e-04,  

In [74]:
# Palabras más similares según el modelo para una palabra concreta
model.wv.most_similar('minecraft', topn=10)

[('de', 0.5546152591705322),
 ('en', 0.48238158226013184),
 ('y', 0.4800969660282135),
 ('la', 0.47456181049346924),
 ('como', 0.4523174464702606),
 ('que', 0.4438616931438446),
 ('un', 0.42607060074806213),
 ('el', 0.425818532705307),
 ('al', 0.4189743101596832),
 ('para', 0.4187222719192505)]

In [76]:
# Palabras más similares según el modelo para una palabra concreta
model.wv.most_similar('hombre', topn=10)

[('intentan', 0.158614844083786),
 ('etiquetas', 0.12485635280609131),
 ('desde', 0.11679808050394058),
 ('solos', 0.11359740793704987),
 ('studios', 0.11276081204414368),
 ('incluye', 0.10949662327766418),
 ('usuarios', 0.10917133837938309),
 ('store', 0.10660940408706665),
 ('neumáticos', 0.10570629686117172),
 ('x', 0.10535000264644623)]

Los resultados son malos porque los embeddings han sido entrenados con pocos inputs.

## 5. Guardar el modelo

In [81]:
model.save('minecraft_word2vec.model')
modelo_cargado = Word2Vec.load('minecraft_word2vec.model')

In [85]:
# Usar modelo cargado
modelo_cargado.wv.most_similar('minecraft', topn=10)

[('de', 0.5546152591705322),
 ('en', 0.48238158226013184),
 ('y', 0.4800969660282135),
 ('la', 0.47456181049346924),
 ('como', 0.4523174464702606),
 ('que', 0.4438616931438446),
 ('un', 0.42607060074806213),
 ('el', 0.425818532705307),
 ('al', 0.4189743101596832),
 ('para', 0.4187222719192505)]

In [87]:
# Guardar los embedding
model.wv.save_word2vec_format('mine_emb.txt', binary=False)
model.wv.save_word2vec_format('mine_emb.bin', binary=True)

In [94]:
# Cargar un embedding
from gensim.models import KeyedVectors

embeddings_cargados = KeyedVectors.load_word2vec_format('mine_emb.txt', binary=False)
# O si fue guardado en formato binario:
# embeddings_cargados = KeyedVectors.load_word2vec_format('mine_emb.bin', binary=True)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x155c6c600d0>

In [109]:
def analogias(v1,v2,v3):
    similitud = embeddings_cargados.most_similar(positive=[v1,v3], negative=[v2])
    print(f'{v1} es a {v2} como {similitud[0][0]} es a {v3}')

In [111]:
analogias('jugador', 'hombre', 'mujer')

jugador es a hombre como de es a mujer


Se puede ver que el resultado de entrenar con un texto tan pequeño es malo.

# B. Modelo grande con un libro

## 2. Cargar texto

In [122]:
def extraer_texto_desde_pdf(ruta_archivo):
    with open(ruta_archivo, 'rb') as archivo:
        lector = PyPDF2.PdfReader(archivo)
        texto = ""
        for pagina in range(len(lector.pages)):
            texto += lector.pages[pagina].extract_text()
    return texto

documento = extraer_texto_desde_pdf('100as.pdf')

In [142]:
documento[0:1300]

'Gabriel García Márquez  \nCien años de soledad  \n \nPara Jomi García Ascot  \ny María Luisa Elio  \nCien años de soledad Gabriel García Márquez  \nI  \nMuchos años después, frente al pe lotón de fusilamiento, el coronel \nAureliano Buendía había de recordar  aquella tarde remota en que su \npadre lo llevó a conocer el hielo. Macondo era entonces una aldea de \nveinte casas de barro y cañabrava co nstruidas a la orilla de un río de \naguas diáfanas que se precipitaban  por un lecho de piedras pulidas, \nblancas y enormes como huevos pr ehistóricos. El mundo era tan \nreciente, que muchas cosas carecían de nombre, y para mencionarlas \nhabía que señalarías con el dedo. Todos los años, por el mes de marzo, una familia de gitanos desarrapados pl antaba su carpa cerca de la aldea, \ny con un grande alboroto de pito s y timbales daban a conocer los \nnuevos inventos. Primero llevaron el imán. Un gitano corpulento, de \nbarba montaraz y manos de gorrión, qu e se presentó con el nombre de \n

In [126]:
len(documento)

824201

In [134]:
# Dividir el documento en frases usando la coma como separador
oraciones = documento.split(',')
len(oraciones)

8854

In [144]:
oraciones[5400]

'  para impartir una orden más'

##  3. Preprocesamiento de datos

In [146]:
oraciones_limpias = []
for oracion in oraciones:
    # Eliminar puntuación con maketrans y dividir por espacios
    tokens = oracion.translate(str.maketrans('', '',
                                             string.punctuation)).split()
    # Convertir palabras en minúsculas
    tokens = [word.lower() for word in tokens if word.isalpha()]
    if tokens: # Añadir solo si hay tokens
        oraciones_limpias.append(tokens)

## 4. Entrenamiento del modelo Word2Vec

In [152]:
# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=oraciones_limpias,
                 vector_size=500, window=5, min_count=1, workers=8)

In [154]:
model.wv.most_similar('buendía', topn=10)

[('coronel', 0.9950869679450989),
 ('segundo', 0.993059515953064),
 ('josé', 0.9907564520835876),
 ('opuso', 0.9856799244880676),
 ('endía', 0.9831088781356812),
 ('jasé', 0.9791728258132935),
 ('importa', 0.9789041876792908),
 ('arcadio', 0.978217363357544),
 ('confió', 0.9781445264816284),
 ('arca', 0.978023886680603)]

In [162]:
model.wv.most_similar('noche', topn=10)

[('otra', 0.999878466129303),
 ('misma', 0.9998680949211121),
 ('pasaba', 0.9998465180397034),
 ('patio', 0.9998343586921692),
 ('lugar', 0.9998325705528259),
 ('mañana', 0.999823272228241),
 ('con', 0.9998161196708679),
 ('hija', 0.99981290102005),
 ('tal', 0.9998108744621277),
 ('cama', 0.9998055696487427)]

Parece que el modelo mejora pero está muy sesgado hacía el contexto del libro. Por ello, como mejor funcionan estos modelos es cuando son entrenados con muchos inputs cuanto más grandes y de temas más dispares mejor.

## 5. Guardar el modelo

In [170]:
model.wv.save_word2vec_format('100as_emb.txt', binary=False)

Si se observa el peso del primer modelo y de este segundo pasó de 6.100kb a 114.000kb

In [172]:
embeddings_cargados = KeyedVectors.load_word2vec_format('100as_emb.txt', binary=False)
# O si fue guardado en formato binario:
# embeddings_cargados = KeyedVectors.load_word2vec_format('mine_emb.bin', binary=True)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x155c7deb710>

In [176]:
def analogias(v1,v2,v3):
    similitud = embeddings_cargados.most_similar(positive=[v1,v3], negative=[v2])
    print(f'{v1} es a {v2} como {similitud[0][0]} es a {v3}')
    
analogias('rey', 'hombre', 'mujer')

rey es a hombre como nada es a mujer


Requiere de más inputs para mejorar sus predicciones