<a href="https://colab.research.google.com/github/jgermanob/COCID-PLN/blob/master/notebooks/Vectores_de_palabras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 5) Vectores de palabras

In [None]:
from gensim.models import KeyedVectors
import gensim.downloader as api
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

In [None]:
model = api.load('glove-wiki-gigaword-300')

#### 5.1) Exploración del vocabulario

Se puede acceder al vocabulario del modelo pre-entrenado con el atributo `index_to_key` que devuelve una lista con todas las palabras contenidas en el modelo.

In [None]:
vocab = model.index_to_key
vocab[50:60]

In [None]:
len(vocab)

Es posible verificar si una palabra está contenida en el modelo pre-entrenado

In [None]:
word = 'king'
word in model

In [None]:
vector = model[word]
vector

In [None]:
vector.shape

#### 5.2) Aritmética de vectores 

Se puede calcular la similitud entre vectores de palabras empleando la similtiud coseno, la cual se define como:

$$
similitud\ coseno(A,B) = \frac{A \cdot B}{||A||\ ||B||} =\frac{\sum_{i=1}^{n}{A_iB_i}}{\sqrt{\sum_{i=1}^{n}{A_i^2}}\sqrt{\sum_{i=1}^{n}{B_i^2}}} 
$$

Donde:

* $A_i$, $B_i$ son los $i$-ésimos elementos de los vectores $A$ y $B$, respectivamente.

La similitud resultante varía desde -1, que significa exactamente lo contrario, hasta 1, que significa exactamente lo mismo.

Para calcular la similitud coseno de dos palabras se utiliza el método `similarity()`.

In [None]:
model.similarity('car', 'vehicle')

In [None]:
model.similarity('car', 'dog')

Es posible obtener una lista con las $n$ palabras mas similares de otra palabra con el método `most_similar()`.

In [None]:
model.most_similar(positive=['football'], topn=5)

##### 5.2.1) Análogias
Una propiedad sorprendente de los vectores de palabras es que las analogías de palabras a menudo se pueden resolver con la aritmética de vectores. El ejemplo mas famoso es el siguiente:

$$
\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen}
$$

In [None]:
def cosine_similarity(a,b):
  return (np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b)))

In [None]:
vector = model['king'] - model['man'] + model['woman']

In [None]:
queen = model['queen']

In [None]:
cosine_similarity(vector,queen)

In [None]:
model.most_similar(positive=['king', 'woman'], negative=['man'])

#### 5.3) Visualización

In [None]:
def display_words(model, words=None, sample=0):
        
    # first get the word vectors
    word_vectors = np.array([model[w] for w in words])

    # transform the data using PCA
    wv_PCA = PCA().fit_transform(word_vectors)[:,:2]
    
    plt.figure(figsize=(10,10))

    plt.scatter(wv_PCA[:,0], wv_PCA[:,1], 
                edgecolors='k', c='r')
    
    plt.grid()
    
    for word, (x,y) in zip(words, wv_PCA):
        plt.text(x+0.05, y+0.05, word)

In [None]:
words = ['dog', 'cat', 'horse', 'shark', 'elephant',
         'university', 'lesson', 'student', 'teacher', 'exam',
         'netherlands', 'amsterdam', 'france', 'paris', 'spain', 'madrid',
         'coffee', 'tea', 'pizza', 'sushi', 'sandwich',
         'car', 'train', 'bike', 'airplane', 'helicopter']

In [None]:
display_words(model, words)

#### 5.4) Sesgos 

In [None]:
biased_words = ['he', 'she', 'sister', 
                'brother', 'man', 'woman',
                'nurse', 'doctor', 
                'grandfather', 'grandmother',
                'math', 'arts',
                'daughter', 'son']

In [None]:
display_words(model, biased_words)

#### Ejercicio

Define una función `compute_avg_similarity()` que reciba como parámetros una lista de atributos y una palabra objetivo para calcular la similitud promedio entre estos.

In [None]:
male_attributes = ['male', 'man', 'boy', 'brother', 'he', 'him', 'his', 'son']
female_attributes = ['female', 'woman', 'girl', 'sister', 'she', 'her', 'hers', 'daughter']

In [None]:
target_word_1 = 'math'
target_word_2 = 'poetry'