In [None]:
import spacy

In [None]:
#Deben instalar el modelo "en_core_web_lg"
nlp = spacy.load('en_core_web_lg')

In [None]:
#nlp = natural language pipeline
# Todos los documentos/palabras se transforman a ese objeto

doc = nlp(u'the dog chases the cat')

#Analizando el vector del documento, que tiene 300-dim
print(doc.vector.shape)
#Se calcular promediando los vectores de cada una de las palabras en el documento

In [None]:
#Análisis por cada token, que se contrasta con "cat"
doc = nlp(u'the dog chases the cat')
for token in doc:
    print(token, token.similarity(nlp(u'cat')))

#Se observa que "dog" es el término más cercano a "cat" (a mayor valor, mayor similitud)
#Esto significa que ambos términos (dog, cat) tienden a aparecer en contextos similares

In [None]:
corpus = ["the cat sleeps", 
        "the dog plays", 
        "the dog chases the cat"]

#Ordenando los términos:
vocabulary = sorted(list(set(" ".join(corpus).split())))
print(vocabulary)
print(len(vocabulary))

In [None]:
#One-hot vectors (vocabulario ordenado)
cat    = [1, 0, 0, 0, 0, 0]
chases = [0, 1, 0, 0, 0, 0]
dog    = [0, 0, 1, 0, 0, 0]
plays  = [0, 0, 0, 1, 0, 0]
sleeps = [0, 0, 0, 0, 1, 0]
the    = [0, 0, 0, 0, 0, 1]

#Esta representación también se puede generar automáticamente a partir del corpus (p.e. con "gensim")

In [None]:
import numpy as np

#Generamos las dos matrices para procesar los resultados
#Arquitectura con una capa oculta de 3 dimensiones

#W0 -> matriz de pesos entre el input y hidden layer
W0 = np.random.rand(3,6)
#W1 -> matriz de pesos entre el hidden y output layer
W1 = np.random.rand(6,3)

print(W0.shape)
print(W0)
print(W1.shape)
print(W1)

In [None]:
#Hacemos una prueba simple con el vector "dog"
X = np.array(dog)
print(X)

In [None]:
#Calculamos el producto del vector "dog" con la matriz de pesos de la capa oculta
Ht = (X).dot(W0.T)
print(Ht)
#"Ht" es la tercera "columna" de la matriz W0, y es debido a que "dog" tiene el índice 2

In [None]:
#Calculamos el vector de la capa de salida (de tamaño del vocabulario)
HtW1 = Ht.dot(W1.T)
print(HtW1)

In [None]:
#Función softmax de la capa de salida (output)
import math
def softmax(H):
    sumatoria = sum([math.exp(w) for w in H])
    return [math.exp(w)/sumatoria for w in H]

In [None]:
#Calculamos el vector de palabra objetivo, pasandolo por la funcion "softmax"
y_pred = softmax(HtW1)
#El vector "y_pred" es del tamaño del vocabulario (6)
print(y_pred)
#"softmax" convierte el vector "y_pred" a valores entre 0 y 1, y que sumen 1
print(sum(y_pred))

In [None]:
#Si el objetivo era "plays"
y = np.array(plays)
print(y)

In [None]:
#Se calcula la pérdida (loss)
loss = y - softmax(y_pred)
print(loss)

In [None]:
#Asumiendo que ya se ajustaron los pesos:
embedding_dog = (W0.T)[2]
print(embedding_dog)

In [None]:
#Otra forma: promediando las matrices de peso
for i,token in enumerate(vocabulary):
    print(token, "\t", ((W0.T)[i] + W1[i])/2)