<a href="https://colab.research.google.com/github/joaquinabenza/nlp-de-cero-a-cien/blob/main/1_word_embeddings/word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word2vec con Gensim

En este cuaderno de Jupyter vas a utilizar la biblioteca [Gensim](https://radimrehurek.com/gensim/index.html) para experimentar con word2vec. Este cuaderno está enfocado en la intuición de los conceptos y no en los detalles de implementación. Este cuaderno está inspirado en esta [guía](https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html).

## 1. Instalación y cargar el modelo

In [None]:
!pip install --upgrade gensim

In [None]:
import gensim.downloader as api

In [None]:
model = api.load('word2vec-google-news-300')

## 2. Similitud de palabras

En esta sección veremos cómo conseguir la similitud entre dos palabras utilizando un word embedding ya entrenado.

In [13]:
model.similarity("king", "queen")

0.6510957

In [None]:
model.similarity("king", "man")

In [None]:
model.similarity("king", "potato")

In [None]:
model.similarity("king", "king")

Ahora veremos cómo encontrar las palabras con mayor similitud al conjunto de palabras especificado.

In [None]:
model.most_similar(["king", "queen"], topn=5)

In [None]:
model.most_similar(["tomato", "carrot"], topn=5)

Pero incluso puedes hacer cosas interesantes como ver qué palabra no corresponde a una lista.

In [None]:
model.doesnt_match(["summer", "fall", "spring", "air"])

## Ejercicios

1. Usa el modelo word2vec para hacer un ranking de las siguientes 15 palabras según su similitud con las palabras "man" y "woman". Para cada par, imprime su similitud.

In [14]:
words = [
"wife",
"husband",
"child",
"queen",
"king",
"man",
"woman",
"birth",
"doctor",
"nurse",
"teacher",
"professor",
"engineer",
"scientist",
"president"]
word1 = "man"
word2 = "woman"
similarities = []
for word in words:
    sim1 = model.similarity(word, word1)
    sim2 = model.similarity(word, word2)
    similarities.append((word, sim1, sim2))

similarities.sort(key=lambda x: x[1], reverse=True)
print(f"Ranking based on similarity to '{word1}':")
for word, sim_man, sim_woman in similarities:
    print(f"{word}: Similitud con '{word1}': {sim_man:.4f}, Similitud con '{word2}': {sim_woman:.4f}")

print("\n" + "="*30 + "\n")

similarities.sort(key=lambda x: x[2], reverse=True)
print(f"Ranking based on similarity to '{word2}':")
for word, sim_man, sim_woman in similarities:
    print(f"{word}: Similitud con '{word1}': {sim_man:.4f}, Similitud con '{word2}': {sim_woman:.4f}")

Ranking based on similarity to 'man':
man: Similitud con 'man': 1.0000, Similitud con 'woman': 0.7664
woman: Similitud con 'man': 0.7664, Similitud con 'woman': 1.0000
husband: Similitud con 'man': 0.3450, Similitud con 'woman': 0.4928
wife: Similitud con 'man': 0.3292, Similitud con 'woman': 0.4448
child: Similitud con 'man': 0.3163, Similitud con 'woman': 0.4750
doctor: Similitud con 'man': 0.3145, Similitud con 'woman': 0.3795
nurse: Similitud con 'man': 0.2547, Similitud con 'woman': 0.4414
teacher: Similitud con 'man': 0.2500, Similitud con 'woman': 0.3136
king: Similitud con 'man': 0.2294, Similitud con 'woman': 0.1285
queen: Similitud con 'man': 0.1666, Similitud con 'woman': 0.3162
scientist: Similitud con 'man': 0.1582, Similitud con 'woman': 0.1549
engineer: Similitud con 'man': 0.1513, Similitud con 'woman': 0.0944
birth: Similitud con 'man': 0.1108, Similitud con 'woman': 0.2147
professor: Similitud con 'man': 0.0942, Similitud con 'woman': 0.1308
president: Similitud con '

**2. Completa las siguientes analogías por tu cuenta (sin usar el modelo)**

a. king is to throne as judge is to _

b. giant is to dwarf as genius is to _

c. French is to France as Spaniard is to _

d. bad is to good as sad is to _

e. nurse is to hospital as teacher is to _

f. universe is to planet as house is to _

**3. Ahora completa las analogías usando un modelo word2vec**

Aquí hay un ejemplo de cómo hacerlo. Puedes resolver analogías como "A es a B como C es a _" haciendo A + C - B.

In [19]:
# man is to woman as king is to ___?
model.most_similar(positive=["king", "woman"], negative=["man"], topn=1)

[('queen', 0.7118193507194519)]

In [18]:
# us is to burger as italy is to ___?
model.most_similar(positive=["Mexico", "burger"], negative=["USA"], topn=1)

[('taco', 0.6266060471534729)]

In [26]:
model.most_similar(positive=["king", "judge"], negative=["throne"], topn=1)


[('appeals_court', 0.5385673642158508)]

In [25]:
model.most_similar(positive=["giant", "genius"], negative=["dwarf"], topn=1)


[('wizardry', 0.5062874555587769)]

In [27]:
model.most_similar(positive=["French", "Spaniard"], negative=["France"], topn=1)


[('Frenchman', 0.6701309084892273)]

In [28]:
model.most_similar(positive=["bad", "sad"], negative=["good"], topn=1)


[('saddening', 0.6041171550750732)]

In [29]:
model.most_similar(positive=["nurse", "teacher"], negative=["hospital"], topn=1)


[('guidance_counselor', 0.6577334403991699)]

In [30]:
model.most_similar(positive=["universe", "house"], negative=["planet"], topn=1)

[('houses', 0.5309091210365295)]

In [15]:
word1 = "man"
word2 = "woman"
similarities = []
for word in words:
    sim1 = model.similarity(word, word1)
    sim2 = model.similarity(word, word2)
    similarities.append((word, sim1, sim2))

similarities.sort(key=lambda x: x[1], reverse=True)
print(f"Ranking based on similarity to '{word1}':")
for word, sim_man, sim_woman in similarities:
    print(f"{word}: Similitud con '{word1}': {sim_man:.4f}, Similitud con '{word2}': {sim_woman:.4f}")

print("\n" + "="*30 + "\n")

similarities.sort(key=lambda x: x[2], reverse=True)
print(f"Ranking based on similarity to '{word2}':")
for word, sim_man, sim_woman in similarities:
    print(f"{word}: Similitud con '{word1}': {sim_man:.4f}, Similitud con '{word2}': {sim_woman:.4f}")

Ranking based on similarity to 'man':
man: Similitud con 'man': 1.0000, Similitud con 'woman': 0.7664
woman: Similitud con 'man': 0.7664, Similitud con 'woman': 1.0000
husband: Similitud con 'man': 0.3450, Similitud con 'woman': 0.4928
wife: Similitud con 'man': 0.3292, Similitud con 'woman': 0.4448
child: Similitud con 'man': 0.3163, Similitud con 'woman': 0.4750
doctor: Similitud con 'man': 0.3145, Similitud con 'woman': 0.3795
nurse: Similitud con 'man': 0.2547, Similitud con 'woman': 0.4414
teacher: Similitud con 'man': 0.2500, Similitud con 'woman': 0.3136
king: Similitud con 'man': 0.2294, Similitud con 'woman': 0.1285
queen: Similitud con 'man': 0.1666, Similitud con 'woman': 0.3162
scientist: Similitud con 'man': 0.1582, Similitud con 'woman': 0.1549
engineer: Similitud con 'man': 0.1513, Similitud con 'woman': 0.0944
birth: Similitud con 'man': 0.1108, Similitud con 'woman': 0.2147
professor: Similitud con 'man': 0.0942, Similitud con 'woman': 0.1308
president: Similitud con '