1. En primer lugar se le da un valor numérico diferente a cada palabra o símbolo
2. Cuando se ha dado un valor numérico a cada palabra o símbolo (puede ser un array one-hot), se pasa a un embedding (múltiples formas). En este caso, vamos a ver CBOW y Skip-Gram
3. La red neuronal va a otorgar una serie de pesos a la palabra, que representa la codificación (vector) de la palabra. 
4. A partir de ese vector, se puede medir la "distancia" que existe entre cada palabra.
5. El entrenamiento trata de ajustar los pesos para representar mejor el vector de cada palabra.
6. https://projector.tensorflow.org/

![](to_number.png)

A vector o número incremental:

perro: 0

gato: 1

mi: 2

...

Trabaja con una ventana. N-GRAM

![](window_vector.png)



![](CBOW_Skip_gram.png)

In [1]:
# Python program to generate word vectors using Word2Vec 

# importing all necessary modules 
from nltk.tokenize import sent_tokenize, word_tokenize 
import warnings 
import nltk

nltk.download('punkt')

warnings.filterwarnings(action = 'ignore') 

import gensim 
from gensim.models import Word2Vec 
print()

# pip3 install nltk
# pip3 install gensim

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LeoFr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



In [2]:
s = "Hol\na"
print(s.replace("\n", "oooo"))


Holooooa


In [2]:
# Reads 'la_ultima_pregunta.txt'º file 
sample = open("la_ultima_pregunta.txt", "r", encoding="utf8")
s = sample.read() 

# Replaces escape character with space 
f = s.replace("\n", " ") 
data = []

# Preprocessing
# iterate through each sentence in the file 
for i in sent_tokenize(f):
    temp = [] 
    print("i:", i)
    # tokenize the sentence into words 
    for j in word_tokenize(i): 
        temp.append(j.lower()) 
        print("j:", j)
    data.append(temp)

i: La última pregunta se formuló por primera vez, medio en broma, el 21 de mayo de 2061, en momentos en que la humanidad (también por primera vez) se bañó en luz.
j: La
j: última
j: pregunta
j: se
j: formuló
j: por
j: primera
j: vez
j: ,
j: medio
j: en
j: broma
j: ,
j: el
j: 21
j: de
j: mayo
j: de
j: 2061
j: ,
j: en
j: momentos
j: en
j: que
j: la
j: humanidad
j: (
j: también
j: por
j: primera
j: vez
j: )
j: se
j: bañó
j: en
j: luz
j: .
i: La pregunta llegó como resultado de una apuesta por cinco dólares hecha entre dos hombres que bebían cerveza, y sucedió de esta manera: Alexander Adell y Bertram Lupov eran dos de los fieles asistentes de Multivac.
j: La
j: pregunta
j: llegó
j: como
j: resultado
j: de
j: una
j: apuesta
j: por
j: cinco
j: dólares
j: hecha
j: entre
j: dos
j: hombres
j: que
j: bebían
j: cerveza
j: ,
j: y
j: sucedió
j: de
j: esta
j: manera
j: :
j: Alexander
j: Adell
j: y
j: Bertram
j: Lupov
j: eran
j: dos
j: de
j: los
j: fieles
j: asistentes
j: de
j: Multivac
j: .
i: Dent

In [4]:
# Create CBOW model 
model1 = gensim.models.Word2Vec(data, min_count=1, 
                                vector_size=100, 
                                window = 5, 
                                sg=0) 

"""
size: The number of dimensions of the embeddings and the default is 100.

window: The maximum distance between a target word and words around the target word. The default window is 5.

min_count: The minimum count of words to consider when training the model; words with occurrence less than this count will be ignored. The default for min_count is 5.

workers: The number of partitions during training and the default workers is 3.

sg: The training algorithm, either CBOW(0) or skip gram(1). The default training algorithm is CBOW.
"""

def similarity(word1, word2):
	print("CBOW: Cosine similarity between '" + str(word1) + "' " + "and '" + str(word2) +
	"':", model1.wv.similarity(str(word1), str(word2)))

similarity('última', 'pregunta')
similarity('a', 'con')
similarity(',', '.')
similarity('cuando', '?')
similarity('luminoso', 'luz')

CBOW: Cosine similarity between 'última' and 'pregunta': 0.4842565
CBOW: Cosine similarity between 'a' and 'con': 0.9012103
CBOW: Cosine similarity between ',' and '.': 0.94428027
CBOW: Cosine similarity between 'cuando' and '?': 0.64694625
CBOW: Cosine similarity between 'luminoso' and 'luz': 0.17095746


In [5]:
# Create Skip Gram model 
model2 = gensim.models.Word2Vec(data, min_count = 1, vector_size = 100, 
											window = 2, sg = 1)

def similarity_2(word1, word2):
	print("SKIP_GRAM: Cosine similarity between '" + str(word1) + "' " + "and '" + str(word2) +
	"':", model2.wv.similarity(str(word1), str(word2))) 
	
print()
similarity_2('última', 'pregunta')
similarity_2('a', 'con')
similarity_2(',', '.')
similarity_2('el', 'sabes')
similarity_2('cuando', '?')
similarity_2('luminoso', 'luz')


SKIP_GRAM: Cosine similarity between 'última' and 'pregunta': 0.8821419
SKIP_GRAM: Cosine similarity between 'a' and 'con': 0.9752324
SKIP_GRAM: Cosine similarity between ',' and '.': 0.9893299
SKIP_GRAM: Cosine similarity between 'el' and 'sabes': 0.34929007
SKIP_GRAM: Cosine similarity between 'cuando' and '?': 0.8892481
SKIP_GRAM: Cosine similarity between 'luminoso' and 'luz': 0.30299094


In [7]:
model1["a"].shape

(100,)

In [8]:
a_cbow = model1["a"]
a_cbow

array([ 0.02190593,  0.01925903, -0.001875  , -0.00234522,  0.01433094,
       -0.00915069,  0.00987992, -0.01795756, -0.00301233,  0.02747907,
        0.0088166 , -0.01374047, -0.00321632,  0.01184438,  0.00523952,
       -0.00641893, -0.00050455,  0.01143745, -0.00865282,  0.0027733 ,
        0.01226304,  0.00337806,  0.0045179 ,  0.01986445, -0.00833196,
        0.00254553,  0.02973164, -0.00199891, -0.00870442, -0.00276632,
       -0.00726021, -0.00875874, -0.00709109, -0.00204823, -0.00931955,
        0.00673598, -0.00494186,  0.00793167,  0.00027097,  0.00683532,
        0.01670943, -0.0069272 ,  0.0044862 , -0.00874762, -0.00326368,
        0.02777362, -0.00170622,  0.00095657, -0.00909761, -0.01073172,
        0.00133445, -0.00160519,  0.0048019 , -0.00174802, -0.01288999,
       -0.00247463,  0.00610211,  0.00707935,  0.00718519,  0.00693684,
        0.00423035, -0.0012267 , -0.0169231 ,  0.00705289,  0.0103257 ,
        0.01457972, -0.0140385 , -0.00829547,  0.01830102, -0.00

In [9]:
cuando_cbow = model1["cuando"]
cuando_cbow

array([ 0.00481788,  0.00453577,  0.00460588,  0.00338535,  0.00034702,
       -0.00644896,  0.00174092, -0.00392624,  0.0002319 ,  0.00484577,
       -0.00060567, -0.00318063,  0.00349277,  0.00512031,  0.0050165 ,
       -0.0020921 ,  0.00016024, -0.00062392, -0.00393995,  0.00311684,
        0.00278703,  0.00020568,  0.00159717,  0.00925831, -0.00012311,
        0.00200631,  0.00944758,  0.00181495,  0.00138184,  0.00377675,
       -0.00483768, -0.00705605, -0.00495305, -0.00049926, -0.00196468,
        0.0050768 ,  0.00282952, -0.00172905, -0.00226025,  0.00532068,
        0.00971019, -0.00166352,  0.0033332 , -0.00131839, -0.00092696,
        0.01156402,  0.0008075 , -0.00463987, -0.00528238, -0.00313133,
        0.00264099,  0.00522485,  0.0041494 ,  0.00109488, -0.00979126,
        0.00477147,  0.005057  ,  0.00633438,  0.00068203,  0.00054737,
        0.00352646,  0.0033446 ,  0.00047429,  0.00476338,  0.00082106,
        0.00942463, -0.0028982 , -0.00512662,  0.00438506,  0.00

In [10]:
a_skip_gram = model1["con"]
a_skip_gram

array([ 2.58283429e-02,  1.78616010e-02,  1.60965149e-03, -4.70757671e-03,
        7.56725855e-03, -5.92489401e-03,  4.50071087e-03, -1.20781166e-02,
       -3.97767918e-03,  1.45078301e-02, -5.14111773e-04, -9.72321816e-03,
       -6.16474135e-04,  1.05205299e-02,  6.62942650e-03,  1.24115881e-03,
        3.08687857e-04,  1.22429747e-02, -1.98204257e-03, -3.32131702e-03,
        2.11667572e-03,  1.16970099e-03,  7.12434715e-03,  2.05418691e-02,
       -6.09375024e-03,  1.25549140e-03,  2.51561031e-02,  8.74690013e-05,
       -1.02225142e-02,  5.98368421e-03, -7.95295555e-03, -7.34242471e-03,
       -1.60920981e-03,  1.90290937e-03, -6.27932977e-03,  6.17078179e-03,
        1.91950251e-03,  9.82398516e-04, -6.61962479e-03,  9.99939907e-03,
        1.52977630e-02, -9.22505977e-04,  2.45108781e-03, -5.86610287e-03,
       -1.07429118e-03,  2.38969121e-02, -5.47073036e-03, -2.59175757e-03,
       -9.17857885e-03, -6.54999679e-03,  3.72791057e-03, -3.43322195e-03,
        9.44936182e-03, -