# Word embeddings

En la parte teórica hemos visto que para crear *neural networks* para el lenguaje, primero tenemos que transformar el texto en una matriz de vectores. El tipo de vectores que capturan la semántica de las palabras se llaman **word embeddings** y son los que se utilizan en la mayoría de aplicaciones modernas de NLP. Vamos a ver cómo utilizamos embeddings en PyTorch.  

En PyTorch se pueden utilizan los *word embeddings* en inglés más típicos (word2vec, GloVe, FastText...) directamente. Nosotros vamos a trabajar con *embeddings* españoles. Recomiendo bajarse estos vectores https://www.kaggle.com/rtatman/pretrained-word-vectors-for-spanish creados por Cristian Cardellino (atención, es un fichero grande de aprox. 3GB)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# Loading

Loading word embeddings en inglés es muy fácil. PyTorch da acceso a los embeddings más típicos a través de la library **torchtext**. 

In [None]:
# load english vectors


Para acceder a los vectores españoles, tenemos que indicar dónde está el fichero.

In [None]:
# load spanish vectors


In [None]:
# ver dimensiones


# Examinar los embeddings

Podemos examinar los embeddings individualmente y ver qué vector está asociado con qué palabra del vocabulario. 

In [None]:
# encontrar el índice de una palabra


In [None]:
# examinar vector


In [None]:
# out-of-vocabulary words


In [None]:
# funcion que extrae el word embedding para una palabra

def get_vector(embeddings, word):
    assert word in embeddings.stoi, f'*{word}* no se encuentra en el vocabulario!'
    return embeddings.vectors[embeddings.stoi[word]]

In [None]:
# examinar vector


# Contextos similares

Para encontrar palabras similares a una palabra en concreto, primero tenemos que encontrar el vector de esta palabra y luego calcular la distancia entre este vector y los vectores del resto de las palabras. Luego los ordenamos de más cerca a más lejano. 

In [None]:
# Función para encontrar palabras más similares


In [None]:
# Buscar vectores más cercanos


# Analogía

Otra propiedad de los *word embeddings* es que podemos hacer operaciones como si fueran vectores normales, con resultados interesantes.

In [None]:
def analogy(embeddings, word1, word2, word3, n=5):
    
    #obtener vectores para cada palaba
    word1_vector = get_vector(embeddings, word1)
    word2_vector = get_vector(embeddings, word2)
    word3_vector = get_vector(embeddings, word3)
    
    ######
    
    #filtrar palabras que ya se encuentran en la analogía
    candidate_words = [(word, dist) for (word, dist) in candidate_words 
                       if word not in [word1, word2, word3]][:n]
    
    print(f'{word1} es a {word2} como {word3} es a...')
    
    return candidate_words

In [None]:
def print_tuples(tuples):
    for w, d in tuples:
        print(f'({d:02.04f}) {w}')

In [None]:
# buscar analogía
