1. En primer lugar se le da un valor numérico diferente a cada palabra o símbolo
2. Cuando se ha dado un valor numérico a cada palabra o símbolo (puede ser un array one-hot), se pasa a un embedding (múltiples formas). En este caso, vamos a ver CBOW y Skip-Gram
3. La red neuronal va a otorgar una serie de pesos a la palabra, que representa la codificación (vector) de la palabra. 
4. A partir de ese vector, se puede medir la "distancia" que existe entre cada palabra.
5. El entrenamiento trata de ajustar los pesos para representar mejor el vector de cada palabra.
6. https://projector.tensorflow.org/

![](to_number.png)

A vector o número incremental:

perro: 0

gato: 1

mi: 2

...

Trabaja con una ventana

![](window_vector.png)



![](CBOW_Skip_gram.png)

In [2]:
# Python program to generate word vectors using Word2Vec 

# importing all necessary modules 
from nltk.tokenize import sent_tokenize, word_tokenize 
import warnings 
import nltk

nltk.download('punkt')

warnings.filterwarnings(action = 'ignore') 

import gensim 
from gensim.models import Word2Vec 

# pip3 install nltk
# pip3 install gensim

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gvazquez\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
# Reads 'la_ultima_pregunta.txt' file 
sample = open("la_ultima_pregunta.txt", "r", encoding="utf8") 
s = sample.read() 

# Replaces escape character with space 
f = s.replace("\n", " ") 
data = [] 
# Preprocessing

# iterate through each sentence in the file 
for i in sent_tokenize(f): 
    temp = [] 
    print("i:", i)
    # tokenize the sentence into words 
    for j in word_tokenize(i): 
        temp.append(j.lower()) 
        print("j:", j)
    data.append(temp) 

i: La última pregunta se formuló por primera vez, medio en broma, el 21 de mayo de 2061, en momentos en que la humanidad (también por primera vez) se bañó en luz.
j: La
j: última
j: pregunta
j: se
j: formuló
j: por
j: primera
j: vez
j: ,
j: medio
j: en
j: broma
j: ,
j: el
j: 21
j: de
j: mayo
j: de
j: 2061
j: ,
j: en
j: momentos
j: en
j: que
j: la
j: humanidad
j: (
j: también
j: por
j: primera
j: vez
j: )
j: se
j: bañó
j: en
j: luz
j: .
i: La pregunta llegó como resultado de una apuesta por cinco dólares hecha entre dos hombres que bebían cerveza, y sucedió de esta manera: Alexander Adell y Bertram Lupov eran dos de los fieles asistentes de Multivac.
j: La
j: pregunta
j: llegó
j: como
j: resultado
j: de
j: una
j: apuesta
j: por
j: cinco
j: dólares
j: hecha
j: entre
j: dos
j: hombres
j: que
j: bebían
j: cerveza
j: ,
j: y
j: sucedió
j: de
j: esta
j: manera
j: :
j: Alexander
j: Adell
j: y
j: Bertram
j: Lupov
j: eran
j: dos
j: de
j: los
j: fieles
j: asistentes
j: de
j: Multivac
j: .
i: Dent

In [4]:
# Create CBOW model 
model1 = gensim.models.Word2Vec(data, min_count=1, 
							size=100, window = 5, sg=False) 

"""
size: The number of dimensions of the embeddings and the default is 100.

window: The maximum distance between a target word and words around the target word. The default window is 5.

min_count: The minimum count of words to consider when training the model; words with occurrence less than this count will be ignored. The default for min_count is 5.

workers: The number of partitions during training and the default workers is 3.

sg: The training algorithm, either CBOW(0) or skip gram(1). The default training algorithm is CBOW.
"""

# Print results 
print("Cosine similarity between 'última' " +
			"and 'pregunta': ", 
	model1.similarity('última', 'pregunta')) 

print("Cosine similarity between 'a' " +
			"and 'con' - Skip Gram : ", 
	model1.similarity('a', 'con')) 

# se fue a parla con su madre, W=2

#parla con Windows=2 tiene: 

# - fue
# - a
# - con
# - su

print("Cosine similarity between 'a' " +
			", '.' - Skip Gram : ", 
	model1.similarity(',', '.')) 

Cosine similarity between &#39;última&#39; and &#39;pregunta&#39;:  0.5213699
Cosine similarity between &#39;a&#39; and &#39;con&#39; - Skip Gram :  0.89105
Cosine similarity between &#39;a&#39; , &#39;.&#39; - Skip Gram :  0.9449731


In [5]:
# Create Skip Gram model 
model2 = gensim.models.Word2Vec(data, min_count = 1, size = 100, 
											window = 2, sg = True) 
print()

# Print results 
print("Cosine similarity between 'última' " +
		"and 'pregunta' - Skip Gram : ", 
	model2.similarity('última', 'pregunta')) 
	
print("Cosine similarity between 'a' and 'con' - Skip Gram : ", 
	model2.similarity('a', 'con')) 

print("Cosine similarity between ',' " +
			", '.' - Skip Gram : ", 
	model2.similarity(',', '.')) 

print("Cosine similarity between 'el' " +
			", 'sabes' - Skip Gram : ", 
	model2.similarity('el', 'sabes')) 


Cosine similarity between &#39;última&#39; and &#39;pregunta&#39; - Skip Gram :  0.9099757
Cosine similarity between &#39;a&#39; and &#39;con&#39; - Skip Gram :  0.9737282
Cosine similarity between &#39;,&#39; , &#39;.&#39; - Skip Gram :  0.9907115
Cosine similarity between &#39;el&#39; , &#39;sabes&#39; - Skip Gram :  0.44975764


In [6]:
model1["a"].shape

(100,)

In [7]:
a_cbow = model1["a"]
a_cbow

array([-0.01156786,  0.01855263,  0.01079609, -0.00626368,  0.00809531,
       -0.00624729, -0.01544825, -0.00248239,  0.00195   ,  0.00923617,
       -0.00166899,  0.01860289,  0.00532687, -0.0084466 , -0.00137933,
        0.01082423,  0.00903598,  0.00891561,  0.01086628, -0.00656921,
       -0.0137769 , -0.01520679,  0.00290717, -0.00600968,  0.0012506 ,
       -0.00366031,  0.01294392, -0.00999612, -0.0189226 ,  0.01217176,
       -0.00472455, -0.00245149, -0.01079574, -0.01243077, -0.01716385,
        0.01975906, -0.0013603 , -0.00239315,  0.02548251,  0.00289983,
       -0.00801181,  0.00390241,  0.00646544,  0.01943842,  0.00295296,
        0.00212451, -0.00142943, -0.01342232, -0.0036922 ,  0.00622298,
       -0.01210488,  0.01605439, -0.02163083, -0.01189295,  0.01318746,
        0.00498589, -0.00087954,  0.01981544, -0.01424491,  0.00981503,
        0.00231991, -0.00039012, -0.01515253, -0.02231973, -0.00832111,
        0.00493417,  0.00400392,  0.01003456, -0.00719395,  0.01

In [8]:
a_skip_gram = model1["con"]
a_skip_gram

array([-0.01079259,  0.01029936,  0.00571149, -0.00509192,  0.00393262,
       -0.00096944, -0.00828474, -0.00378647,  0.0023945 ,  0.00325093,
       -0.00851331,  0.00725531,  0.00814505, -0.01306664,  0.00276756,
        0.01219913, -0.00108359,  0.00202658,  0.01172477, -0.01232362,
       -0.01580103, -0.01750437,  0.00261864,  0.0023089 ,  0.00497387,
       -0.00061446,  0.01161233, -0.00649587, -0.01079162,  0.00721913,
       -0.00722777,  0.00183884, -0.01348574, -0.00746397, -0.01930797,
        0.01590571, -0.00322532, -0.00898069,  0.01156808,  0.0014992 ,
       -0.00399988,  0.00274295,  0.00148905,  0.01411995,  0.00383424,
        0.00479612, -0.00143048, -0.00779283, -0.00350641,  0.00830307,
       -0.00585208,  0.01832539, -0.01871698, -0.01087002,  0.0098867 ,
        0.00660261, -0.00026011,  0.01507577, -0.00629635,  0.00902724,
        0.0053551 , -0.00610751, -0.01241292, -0.01242599, -0.00967421,
        0.00742552, -0.00045224,  0.00464402, -0.00645739,  0.01

In [9]:
input = "a"
y = "preposicion"


NameError: name &#39;a&#39; is not defined

In [None]:
tweet = Eso es lo mejor!

tweet_y = "Positivo" 