# Word2vec con Gensim

En este cuaderno de Jupyter vas a utilizar la biblioteca [Gensim](https://radimrehurek.com/gensim/index.html) para experimentar con word2vec. Este cuaderno está enfocado en la intuición de los conceptos y no en los detalles de implementación. Este cuaderno está inspirado en esta [guía](https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html).

Para ver qué se puede hacer con Word2Vec, descarguemos un modelo previamente entrenado y jugaremos con él. Obtendremos el modelo Word2Vec entrenado con un conjunto de datos de Google News, que abarca aproximadamente 3 millones de palabras y frases. Un modelo de este tipo puede tardar horas en entrenarse, pero como ya está disponible, descargarlo y cargarlo con Gensim lleva unos minutos.

**Importante**

El modelo tiene aproximadamente 2 GB, por lo que necesitarás una conexión de red decente para continuar.


## 1. Instalación y cargar el modelo

In [None]:
!pip install --upgrade gensim

In [None]:
import gensim.downloader as api

In [None]:
#bajar modelo
model = api.load('word2vec-google-news-300')

In [None]:
model["king"].shape

In [None]:
model["king"]

## 2. Similitud de palabras

En esta sección veremos cómo conseguir la similitud entre dos palabras utilizando un word embedding ya entrenado.

In [None]:
model.similarity("king", "queen")

In [None]:
model.similarity("king", "man")

In [None]:
model.similarity("king", "potato")

In [None]:
model.similarity("king", "king")

Ahora veremos cómo encontrar las palabras con mayor similitud al conjunto de palabras especificado.

In [None]:
model.most_similar(["king", "queen"], topn=5)

In [None]:
model.most_similar(["tomato", "carrot"], topn=5)

Pero incluso puedes hacer cosas interesantes como ver qué palabra no corresponde a una lista.

In [None]:
model.doesnt_match(["summer", "fall", "spring", "air"])

## Ejercicios

1. Usa el modelo word2vec para hacer un ranking de las siguientes 15 palabras según su similitud con las palabras "man" y "woman". Para cada par, imprime su similitud.

In [None]:
words = [
"wife",
"husband",
"child",
"queen",
"king",
"man",
"woman",
"birth",
"doctor",
"nurse",
"teacher",
"professor",
"engineer",
"scientist",
"president"]


**2. Completa las siguientes analogías por tu cuenta (sin usar el modelo)**

a. king is to throne as judge is to _

b. Usa is to burger as Mexico is _

c. French is to France as Spaniard is to _

d. bad is to good as sad is to _

e. nurse is to hospital as teacher is to _

f. universe is to planet as house is to _

**2. Ahora completa las analogías usando un modelo word2vec**

Aquí hay un ejemplo de cómo hacerlo. Puedes resolver analogías como "A es a B como C es a _" haciendo  C + B - A.

In [None]:
# man is to woman as king is to ___?
model.most_similar(positive=["king", "woman"], negative=["man"], topn=1)

In [None]:
# usa is to burger as Mexico is to ___?
model.most_similar(positive=["Mexico", "burger"], negative=["USA"], topn=1)

In [None]:
# nurse is to hospital as teacher is to ___?
model.most_similar(positive=["teacher", "hospital"], negative=["nurse"], topn=1)

In [None]:
# king is to throne as judge is to ___?
model.most_similar(positive=["judge", "throne"], negative=["king"], topn=1)