# Ejemplo de `word2vec` y `fastText` con `gensim`


En la siguiente celda, importamos las librerías necesarias y configuramos los mensajes de los logs.

In [None]:
import gensim, logging, os

logging.basicConfig(
    format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO
)

## word2vec 

He entrenado un modelo de word2vec con la Wikipedia en español, [tal y como explico aquí](https://github.com/vitojph/kschool-nlp-16/tree/master/misc).

In [None]:
MODEL = "data/eswiki-300.w2v"
model = gensim.models.Word2Vec.load(MODEL)

## Probando nuestro modelo

El objeto `model` contiene una enorme matriz de números: una tabla, donde cada fila es uno de los términos del vocabulario reconocido y cada columna es una de las características que permiten modelar el significado de dicho término.

En nuestro modelo, tal y como está entrenado, tenemos más de 41 millones de términos:

In [None]:
print(model.corpus_count)

Cada término del vocabulario está representado como un vector con 300 dimensiones. Podemos acceder al vector de un término concreto:

In [None]:
print(model.wv["azul"])
print(model.wv["verde"])
print(model.wv["clorofila"])

Estos vectores no nos dicen mucho, salvo que contienen números muy pequeños :-/

El mismo objeto `model` permite acceder a una serie de funcionalidades ya implementadas que nos van a permitir evaluar formal e informalmente el modelo. Por el momento, nos contentamos con los segundo: vamos a revisar visualmente los significados que nuestro modelo ha aprendido por su cuenta. 

Podemos calcular la similitud semántica entre dos términos usando el método `similarity`, que nos devuelve un número entre 0 y 1:

In [None]:
print("hombre - mujer", model.wv.similarity("hombre", "mujer"))

print("perro - gato", model.wv.similarity("perro", "gato"))

print("gato - periódico", model.wv.similarity("gato", "periódico"))

print("febrero - azul", model.wv.similarity("febrero", "azul"))

Podemos seleccionar el término que no encaja a partir de una determinada lista de términos usando el método `doesnt_match`:

In [None]:
lista1 = "madrid barcelona gonzález washington".split()
print(f"""en la lista '{" ".join(lista1)}' sobra '{model.wv.doesnt_match(lista1)}'""")

lista2 = "psoe pp ciu ronaldo".split()
print(f"""en la lista '{" ".join(lista2)}' sobra '{model.wv.doesnt_match(lista2)}'""")

lista3 = "publicaron declararon soy negaron".split()
print(f"""en la lista '{" ".join(lista3)}' sobra '{model.wv.doesnt_match(lista3)}'""")

lista4 = "homero saturno cervantes shakespeare cela".split()
print(f"""en la lista '{" ".join(lista4)}' sobra '{model.wv.doesnt_match(lista4)}'""")

lista5 = "madrid barcelona alpedrete marsella".split()
print(f"""en la lista '{" ".join(lista5)}' sobra '{model.wv.doesnt_match(lista5)}'""")

Podemos buscar los términos más similares usando el método `most_similar` de nuestro modelo:

In [None]:
terminos = "azul madrid bmw bici 2019 rock google psoe jay-z xiaomi rajoy brexit saturno césar lazio".split()

for t in terminos:
    print(f"{t} ==> {model.wv.most_similar(t)}\n")

Con el mismo método `most_similar` podemos combinar vectores de palabras tratando de jugar con los rasgos semánticos de cada una de ellas para descubrir nuevas relaciones.

In [None]:
print("mujer que ejerce la autoridad en una alcaldía ==> alcalde + mujer - hombre")
most_similar = model.wv.most_similar(
    positive=["alcalde", "mujer"], negative=["hombre"], topn=3
)
for item in most_similar:
    print(item)

print(
    "mujer especializada en alguna terapia de la medicina ==> doctor + mujer - hombre"
)
most_similar = model.wv.most_similar(
    positive=["doctor", "mujer"], negative=["hombre"], topn=3
)
for item in most_similar:
    print(item)

print("monarca soberano ==> reina + hombre - mujer")
most_similar = model.wv.most_similar(
    positive=["reina", "hombre"], negative=["mujer"], topn=3
)
for item in most_similar:
    print(item)

print("capital de Alemania ==> moscú + alemania - rusia")
most_similar = model.wv.most_similar(
    positive=["moscú", "alemania"], negative=["rusia"], topn=3
)
for item in most_similar:
    print(item)

print("presidente de Francia ==> obama + francia - eeuu")
most_similar = model.wv.most_similar(
    positive=["obama", "francia"], negative=["eeuu"], topn=3
)
for item in most_similar:
    print(item)

## fastText

In [None]:
from gensim.models.keyedvectors import Word2VecKeyedVectors

MODEL = "~/data/fasttext/cc.en.300.vec"
fasttext = Word2VecKeyedVectors.load_word2vec_format(MODEL)

In [None]:
print(len(fasttext.vocab))

In [None]:
print(fasttext["google"])
print(fasttext["Google"])

In [None]:
terms = "Sun chess boy president hdmi England French Google google keyboard mouse plant".split()

for t in terms:
    print(f"{t} ==> {fasttext.most_similar(t)}\n")