1. En primer lugar se le da un valor numérico diferente a cada palabra o símbolo
2. Cuando se ha dado un valor numérico a cada palabra o símbolo (puede ser un array one-hot), se pasa a un embedding (múltiples formas). En este caso, vamos a ver CBOW y Skip-Gram
3. La red neuronal va a otorgar una serie de pesos a la palabra, que representa la codificación (vector) de la palabra. 
4. A partir de ese vector, se puede medir la "distancia" que existe entre cada palabra.
5. El entrenamiento trata de ajustar los pesos para representar mejor el vector de cada palabra.
6. https://projector.tensorflow.org/

![](to_number.png)

A vector o número incremental:

perro: 0

gato: 1

mi: 2

...

Trabaja con una ventana. N-GRAM

![](window_vector.png)



![](CBOW_Skip_gram.png)

In [1]:
# Python program to generate word vectors using Word2Vec 

# importing all necessary modules 
from nltk.tokenize import sent_tokenize, word_tokenize 
import warnings 
import nltk

nltk.download('punkt')

warnings.filterwarnings(action = 'ignore') 

import gensim 
from gensim.models import Word2Vec 
print()

# pip3 install nltk
# pip3 install gensim

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\leona\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.



In [2]:
# Reads 'la_ultima_pregunta.txt' file 
sample = open("la_ultima_pregunta.txt", "r", encoding="utf8") 
s = sample.read() 

# Replaces escape character with space 
f = s.replace("\n", " ") 
data = [] 
# Preprocessing
# iterate through each sentence in the file 
for i in sent_tokenize(f): 
    temp = [] 
    print("i:", i)
    # tokenize the sentence into words 
    for j in word_tokenize(i): 
        temp.append(j.lower()) 
        print("j:", j)
    data.append(temp) 

parte
j: -fue
j: la
j: respuesta-
j: está
j: en
j: el
j: hiperespacio
j: .
i: No puedo imaginarme en qué forma está allí.
j: No
j: puedo
j: imaginarme
j: en
j: qué
j: forma
j: está
j: allí
j: .
i: Nadie podía imaginarlo, porque hacía mucho que había pasado el día- y eso Zee Prime lo sabía- en que algún hombre tuvo parte en construir la Universal AC.
j: Nadie
j: podía
j: imaginarlo
j: ,
j: porque
j: hacía
j: mucho
j: que
j: había
j: pasado
j: el
j: día-
j: y
j: eso
j: Zee
j: Prime
j: lo
j: sabía-
j: en
j: que
j: algún
j: hombre
j: tuvo
j: parte
j: en
j: construir
j: la
j: Universal
j: AC
j: .
i: Cada Universal AC diseñaba y construía a su sucesora.
j: Cada
j: Universal
j: AC
j: diseñaba
j: y
j: construía
j: a
j: su
j: sucesora
j: .
i: Cada una, durante su existencia de un millón de años o más, acumulaba la información necesaria como para construir una sucesora mejor, más intrincada, más capaz en la cual dejar sumergido y almacenado su propio acopio de información e individualidad.
j: Ca

In [3]:
# Create CBOW model 
model1 = gensim.models.Word2Vec(data, min_count=1, 
							size=100, window = 5, sg=False) 

"""
size: The number of dimensions of the embeddings and the default is 100.

window: The maximum distance between a target word and words around the target word. The default window is 5.

min_count: The minimum count of words to consider when training the model; words with occurrence less than this count will be ignored. The default for min_count is 5.

workers: The number of partitions during training and the default workers is 3.

sg: The training algorithm, either CBOW(0) or skip gram(1). The default training algorithm is CBOW.
"""

def similarity(word1, word2):
	print("CBOW: Cosine similarity between '" + str(word1) + "' " + "and '" + str(word2) +
	"':", model1.similarity(str(word1), str(word2)))

similarity('última', 'pregunta')
similarity('a', 'con')
similarity(',', '.')

CBOW: Cosine similarity between 'última' and 'pregunta': 0.5318119
CBOW: Cosine similarity between 'a' and 'con': 0.87303895
CBOW: Cosine similarity between ',' and '.': 0.9293396


In [4]:
# Create Skip Gram model 
model2 = gensim.models.Word2Vec(data, min_count = 1, size = 100, 
											window = 2, sg = True)

def similarity_2(word1, word2):
	print("SKIP_GRAM: Cosine similarity between '" + str(word1) + "' " + "and '" + str(word2) +
	"':", model2.similarity(str(word1), str(word2))) 
	
print()
similarity_2('última', 'pregunta')
similarity_2('a', 'con')
similarity_2(',', '.')
similarity_2('el', 'sabes')


SKIP_GRAM: Cosine similarity between 'última' and 'pregunta': 0.9074284
SKIP_GRAM: Cosine similarity between 'a' and 'con': 0.9720732
SKIP_GRAM: Cosine similarity between ',' and '.': 0.9892434
SKIP_GRAM: Cosine similarity between 'el' and 'sabes': 0.24794927


In [5]:
model1["a"].shape

(100,)

In [6]:
a_cbow = model1["a"]
a_cbow

array([-0.00792902, -0.00117329,  0.00285315,  0.00348649, -0.01280566,
       -0.00206376,  0.00235115,  0.00905863, -0.00014235, -0.0016054 ,
        0.00023225, -0.00721527, -0.01080365, -0.00439626, -0.01373717,
       -0.00824902,  0.01178808,  0.000558  , -0.02171678,  0.00921763,
        0.00032103,  0.00130884, -0.0114091 , -0.01177251, -0.00238916,
       -0.01200814,  0.00859194, -0.00584978,  0.00542984,  0.00324701,
       -0.0090114 , -0.01474323,  0.00251976, -0.00300101, -0.0175713 ,
       -0.01262169,  0.01339077,  0.00257195, -0.01192932,  0.01278503,
        0.00043542, -0.01307066,  0.00111731, -0.0097276 ,  0.00730567,
        0.00380372, -0.00250667, -0.01268909,  0.00870364,  0.00261213,
       -0.00923163, -0.00046203, -0.00650349,  0.00418026, -0.00178706,
        0.00707672, -0.00443808, -0.00094961, -0.0029951 , -0.01887703,
       -0.01226547,  0.00689286,  0.00219657, -0.01138422, -0.01418329,
       -0.00398687, -0.00353768,  0.00944041, -0.015177  ,  0.00

In [7]:
a_skip_gram = model1["con"]
a_skip_gram

array([-0.00298923, -0.00355222,  0.00280203,  0.00339027, -0.01359777,
        0.00317422,  0.00189753,  0.0119714 , -0.00799928, -0.00495809,
        0.0040025 , -0.01338875, -0.00477689, -0.00700942, -0.01132798,
       -0.00010953,  0.01181931, -0.00200666, -0.01666708,  0.00063941,
       -0.00271818,  0.00242271, -0.00605611, -0.01041375, -0.00239709,
       -0.00397726,  0.01220364, -0.00584073,  0.00222201,  0.00218927,
       -0.00650334, -0.01481793, -0.00184743,  0.00474648, -0.01143221,
       -0.00337451,  0.01103676,  0.00031067, -0.00948499,  0.00519912,
       -0.00539991, -0.00327419,  0.0020496 , -0.00928868,  0.01032984,
       -0.00204145, -0.00531566, -0.00553309,  0.0072518 , -0.00060535,
       -0.00039134,  0.00107269, -0.00641782, -0.00016496,  0.00263521,
        0.00910599, -0.00159136, -0.00118577,  0.0002661 , -0.01071479,
       -0.00998483, -0.00194081, -0.00216325, -0.01000373, -0.0131726 ,
       -0.00675105, -0.00548137,  0.01040827, -0.01389802,  0.00