In [44]:
import spacy

In [45]:
import en_core_web_lg

In [46]:
#Deben instalar el modelo "en_core_web_lg"
nlp = en_core_web_lg.load()

In [47]:
#nlp = natural language pipeline
# Todos los documentos/palabras se transforman a ese objeto

doc = nlp(u'the dog chases the cat')

#Analizando el vector del documento, que tiene 300-dim
print(doc.vector.shape)
#Se calcular promediando los vectores de cada una de las palabras en el documento

(300,)


In [48]:
#Análisis por cada token, que se contrasta con "cat"
doc = nlp(u'the dog chases the cat')
for token in doc:
    print(token, token.similarity(nlp(u'cat')))

#Se observa que "dog" es el término más cercano a "cat" (a mayor valor, mayor similitud)
#Esto significa que ambos términos (dog, cat) tienden a aparecer en contextos similares

the 0.23351583568976755
dog 0.8016854370235484
chases 0.2932192320096472
the 0.23351583568976755
cat 1.0


In [49]:
corpus = ["the cat sleeps", 
        "the dog plays", 
        "the dog chases the cat"]

#Ordenando los términos:
vocabulary = sorted(list(set(" ".join(corpus).split())))
print(vocabulary)
print(len(vocabulary))

['cat', 'chases', 'dog', 'plays', 'sleeps', 'the']
6


In [50]:
#One-hot vectors (vocabulario ordenado)
cat    = [1, 0, 0, 0, 0, 0]
chases = [0, 1, 0, 0, 0, 0]
dog    = [0, 0, 1, 0, 0, 0]
plays  = [0, 0, 0, 1, 0, 0]
sleeps = [0, 0, 0, 0, 1, 0]
the    = [0, 0, 0, 0, 0, 1]

#Esta representación también se puede generar automáticamente a partir del corpus (p.e. con "gensim")

In [51]:
import numpy as np

#Generamos las dos matrices para procesar los resultados
#Arquitectura con una capa oculta de 3 dimensiones

#W0 -> matriz de pesos entre el input y hidden layer
W0 = np.random.rand(3,6)
#W1 -> matriz de pesos entre el hidden y output layer
W1 = np.random.rand(6,3)

print(W0.shape)
print(W0)
print(W1.shape)
print(W1)

(3, 6)
[[0.578087   0.21055022 0.88069671 0.82253139 0.01330747 0.69976429]
 [0.78158133 0.94803501 0.387175   0.47130946 0.70111548 0.56435378]
 [0.50982234 0.15929935 0.49935534 0.46864689 0.88594132 0.01861806]]
(6, 3)
[[0.12916711 0.8402607  0.0686335 ]
 [0.49158885 0.78810514 0.16128096]
 [0.62747719 0.80128    0.06318016]
 [0.7623259  0.51650066 0.25898847]
 [0.80331432 0.76748241 0.84503197]
 [0.72317661 0.66501992 0.21586997]]


In [52]:
#Hacemos una prueba simple con el vector "dog"
X = np.array(dog)
print(X)

[0 0 1 0 0 0]


In [53]:
#Calculamos el producto del vector "dog" con la matriz de pesos de la capa oculta
Ht = (X).dot(W0.T)
print(Ht)
#"Ht" es la tercera "columna" de la matriz W0, y es debido a que "dog" tiene el índice 2

[0.88069671 0.387175   0.49935534]


In [54]:
#Calculamos el vector de la capa de salida (de tamaño del vocabulario)
HtW1 = Ht.dot(W1.T)
print(HtW1)

[0.47335749 0.8186118  0.89440203 1.00068133 1.4265975  1.00217417]


In [55]:
#Función softmax de la capa de salida (output)
import math
def softmax(H):
    sumatoria = sum([math.exp(w) for w in H])
    return [math.exp(w)/sumatoria for w in H]

In [56]:
#Calculamos el vector de palabra objetivo, pasandolo por la funcion "softmax"
y_pred = softmax(HtW1)
#El vector "y_pred" es del tamaño del vocabulario (6)
print(y_pred)
#"softmax" convierte el vector "y_pred" a valores entre 0 y 1, y que sumen 1
print(sum(y_pred))

[0.10079306934352682, 0.14235499618860578, 0.15356349623539362, 0.1707829478989697, 0.2614674006892399, 0.17103808964426417]
0.9999999999999999


In [57]:
#Si el objetivo era "plays"
y = np.array(plays)
print(y)

[0 0 0 1 0 0]


In [58]:
#Se calcula la pérdida (loss)
loss = y - softmax(y_pred)
print(loss)

[-0.15585559 -0.16246974 -0.16430103  0.8328453  -0.1830216  -0.16719735]


In [59]:
#Asumiendo que ya se ajustaron los pesos:
embedding_dog = (W0.T)[2]
print(embedding_dog)

[0.88069671 0.387175   0.49935534]


In [60]:
#Otra forma: promediando las matrices de peso
for i,token in enumerate(vocabulary):
    print(token, "\t", ((W0.T)[i] + W1[i])/2)

cat 	 [0.35362706 0.81092101 0.28922792]
chases 	 [0.35106954 0.86807007 0.16029015]
dog 	 [0.75408695 0.5942275  0.28126775]
plays 	 [0.79242865 0.49390506 0.36381768]
sleeps 	 [0.40831089 0.73429894 0.86548664]
the 	 [0.71147045 0.61468685 0.11724402]
