# Vectores de Palabras

La idea de que dos palabras pueden ser más o menos similares es crucial para muchas tareas de NLP.

Esta idea de similitud es más fácil de manejar si representamos las palabras como un vectores en lugar de enteros. Podemos decidir qué rasgos/características tenemos en cuenta, y cuántas dimensiones tienen nuestros vectores. Podemos diseñarlos a mano. Podemos calcularlos automáticamente.

En lingüística, en Semántica Distribucional, está claro que si dos palabras pueden utilizarse de manera similar es porque tienen significados parecidos.

> *You shall know a word by the company it keeps.* John R. Firth

> *The meaning of a word is its use in the language (…) One cannot guess how a word functions. One has to look at its use, and learn from that.* L. Wittgenstein 

Dos palabras son similares si aparecen en contextos similares.


Los modelos de espacio vectorial ([*vector space models*](https://en.wikipedia.org/wiki/Vector_space_model)) permiten representar palabras o términos dentro de un espacio vectorial continuo, de manera que las palabras que son similares desde el punto semántico se situan en puntos cercanos dentro de ese espacio común.

![](https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2017/06/06062705/Word-Vectors.png)

In [None]:
import warnings
warnings.filterwarnings(action="ignore")

## Similitud semántica entre palabras, frases y documentos

spaCy permite [calcular la similitud semántica](https://spacy.io/usage/vectors-similarity) entre cualquier par de objetos de tipo `Doc`, `Span` o `Token`. 

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [None]:
import spacy

nlp_en = spacy.load("en_core_web_md")
nlp_es = spacy.load("es_core_news_md")

In [None]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(f"{token1} vs {token2}: {token1.similarity(token2)}")
print(f"{token3} vs {token4}: {token3.similarity(token4)}")
print(f"{token1} vs {token4}: {token1.similarity(token4)}")

In [None]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp_es("perros y gatos")
token3, _, token4 = nlp_es("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(f"{token1} vs {token2}: {token1.similarity(token2)}")
print(f"{token3} vs {token4}: {token3.similarity(token4)}")
print(f"{token1} vs {token4}: {token1.similarity(token4)}")

In [None]:
print(f"{token1} tiene {token1.vector.shape} dimensiones")
print(token1.vector)

# Ejemplo de `word2vec` con `gensim`

En la siguiente celda, importamos las librerías necesarias y configuramos los mensajes de los logs.

In [None]:
import gensim, logging, os
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

model = gensim.models.Word2Vec.load("/home/victor/w2v/eswiki-300.w2v")

print(f"Modelo cargado con un vocabulario de {model.corpus_count} términos diferentes.")

Cada término del vocabulario está representado como un vector con 300 dimensiones. Podemos acceder al vector de un término concreto, aunque probablemente no nos diga mucho, salvo que contienen números muy pequeños :-/

In [None]:
print(model["azul"])
print(model["verde"])
print(model["clorofila"])

Este mismo objeto `model` permite acceder a una serie de funcionalidades ya implementadas que nos van a permitir evaluar formal e informalmente el modelo. Por el momento, nos contentamos con los segundo: vamos a revisar visualmente los significados que nuestro modelo ha aprendido por su cuenta. 

Podemos calcular la similitud semántica entre dos términos usando el método `similarity`, que nos devuelve un número entre 0 y 1:

In [None]:
print("hombre - mujer", model.wv.similarity("hombre", "mujer"))

print("perro - gato", model.wv.similarity("perro", "gato"))

print("gato - periódico", model.wv.similarity("gato", "periódico"))

print("febrero - azul", model.wv.similarity("febrero", "azul"))

Podemos seleccionar el término que no encaja a partir de una determinada lista de términos usando el método `doesnt_match`:

In [None]:
lista1 = "madrid barcelona gonzález washington".split()
print("en la lista", " ".join(lista1), "sobra:", model.wv.doesnt_match(lista1))

lista2 = "psoe pp ciu ronaldo".split()
print("en la lista", " ".join(lista2), "sobra:", model.wv.doesnt_match(lista2))

lista3 = "publicaron declararon soy negaron".split()
print("en la lista", " ".join(lista3), "sobra:", model.wv.doesnt_match(lista3))

lista4 = "homero saturno cervantes shakespeare cela".split()
print("en la lista", " ".join(lista4), "sobra:", model.wv.doesnt_match(lista4))

lista5 = "madrid barcelona alpedrete marsella".split()
print("en la lista", " ".join(lista5), "sobra:", model.wv.doesnt_match(lista5))

Podemos buscar los términos más similares usando el método `most_similar` de nuestro modelo:

In [None]:
terminos = "azul madrid bmw bici 2018 rock google psoe jay-z xiaomi rajoy brexit saturno césar lazio".split()

for t in terminos:
    print(t, "==>", model.wv.most_similar(t), "\n")

Con el mismo método `most_similar` podemos combinar vectores de palabras tratando de jugar con los rasgos semánticos de cada una de ellas para descubrir nuevas relaciones.

In [None]:
print("mujer que ejerce la autoridad en una alcaldía ==> alcalde + mujer - hombre")
most_similar = model.wv.most_similar(positive=["alcalde", "mujer"], negative=["hombre"], topn=3)
for item in most_similar:
    print(item)
    
print("mujer especializada en alguna terapia de la medicina ==> doctor + mujer - hombre")
most_similar = model.wv.most_similar(positive=["doctor", "mujer"], negative=["hombre"], topn=3)
for item in most_similar:
    print(item)

print("monarca soberano ==> reina + hombre - mujer")    
most_similar = model.wv.most_similar(positive=["reina", "hombre"], negative=["mujer"], topn=3)
for item in most_similar:
    print(item)
    
print("capital de Alemania ==> moscú + alemania - rusia")
most_similar = model.wv.most_similar(positive=["moscú", "alemania"], negative=["rusia"], topn=3)
for item in most_similar:
    print(item)

print("presidente de Francia ==> obama + francia - eeuu")
most_similar = model.wv.most_similar(positive=["obama", "francia"], negative=["eeuu"], topn=3)
for item in most_similar:
    print(item)

# Modelos de Lenguaje de OpenAI

A mitad de febrero, [OpenAI publicó un modelo de lenguaje](https://blog.openai.com/better-language-models/) capaz de generar lenguaje natural de formar coherente. Este modelo es generalista y, a pesar de ello, es capaz de rivalizar con los mejores sistemas específicos en tareas como comprensión automática de lenguaje natural, traducción automática, búsqueda de respuestas y resumen automático.

Este modelo, llamado GPT-2, es el resultado de haber entrenado con 8 millones de páginas web (40 GB) con 1 500 millones de parámetros con un único objetivo: predecir cuál es la siguiente palabra.

Sin embargo, OpenAI no ha publicado [hasta justo esta semana](https://twitter.com/OpenAI/status/1191764001434173440) el modelo más grande y potente que tenían, para evitar que alguien con malas intenciones pueda hacer un uso dañino de esta tecnología. Sí que han publicado una versión simplificada y más pequeña, y el paper ["Language Models are Unsupervised Multitask Learners"](https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), en el que explican todo el proceso.

Con ganas y GPUs suficientes (+ tiempo y dinero), se puede replicar el proceso. Otras lecturas interesantes, sobre el tema: 

- [OpenAI's new Multitalented AI Writes, Translates, and Slanders](https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2)
- [Some thoughts on zero-day threats in AI, and OpenAI's GP2](https://www.fast.ai/2019/02/15/openai-gp2/)


Este código de ejemplo está inspirado en [un tweet de Thomas Wolf](https://twitter.com/Thom_Wolf/status/1097465312579072000), de [Hugging Face](https://huggingface.co/).

In [None]:
import torch 
from torch.nn import functional as F 
from pytorch_transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

A continuación, definimos una función para:

1. tokenizar el texto de entrada y codificarlo como un vector con los pesos obtenidos por el modelo GPT2
2. predecir la siguiente palabra más frecuente
3. decodificar el vector como una secuencia de tokens

In [None]:
def generate(text, length=50):
    """Generate automatic Natural Language from the input text"""
    vec_text = tokenizer.encode(text)
    my_input, past = torch.tensor([vec_text]), None
    
    for _ in range(length):
        logits, past = model(my_input, past=past)
        my_input = torch.multinomial(F.softmax(logits[:, -1]), 1)
        vec_text.append(my_input.item())
    
    return tokenizer.decode(vec_text)

In [None]:
# defino un texto de entrada
text = "The only think we can do to fight climate change is"

# y generamos automáticamente las secuencias más probables
print(generate(text, 25))