<a href="https://colab.research.google.com/github/fvillena/dcc-ia-nlp/blob/master/4-embeddings-sol.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word Embeddings

# Actividad 1: Word2vec en tensorflow

Observe el preprocesamiento que se realiza al corpus, la estructura construida con Tensorflow y el procedimiento para entrenar el modelo.


1.   Construya los word embeddings desde los pesos y sesgos del modelo entrenado
2.   Visualice los embeddings bidimensionales en un gráfico de dispersión e interprete los resultados


In [None]:
import tensorflow as tf
import numpy as np

In [None]:
corpus = ['king is a strong man', 
          'queen is a wise woman', 
          'boy is a young man',
          'girl is a young woman',
          'prince is a young king',
          'princess is a young queen',
          'man is strong', 
          'woman is pretty',
          'prince is a boy will be king',
          'princess is a girl will be queen']

In [None]:
def preprocess(text):
  tokens = text.split(" ")
  return [token for token in tokens if len(token) > 2]

In [None]:
def get_vocabulary(corpus):
  vocabulary = []
  for text in corpus:
    vocabulary += text
  return sorted(list(set(vocabulary)))

In [None]:
sentences = list(map(preprocess, corpus))

In [None]:
vocabulary = get_vocabulary(sentences)

In [None]:
WINDOW_SIZE = 2

data = []
for sentence in sentences:
    for idx, word in enumerate(sentence):
        # Acá se toma una ventana de -WINDOWS_SIZE, WINDOWS_SIZE para generar el skip gram. Dado que las 
        # frases son cortas, se utiliza min y max para tener cuidado con los límites de la frase. 
        # Además, el +1 en el límite superior es para considerar el índice de la propia palabra en cuestión 
        # (probar qué ocurre cuando se elimina dicho +1)
        for neighbor in sentence[max(idx - WINDOW_SIZE, 0) : min(idx + WINDOW_SIZE, len(sentence)) + 1]: 
            if neighbor != word:
                data.append((word, neighbor))

In [None]:
features = np.zeros((len(data),len(vocabulary)),dtype=np.float32)
labels = np.zeros((len(data),len(vocabulary)),dtype=np.float32)
for i,(feature,label) in enumerate(data):
  features[i,vocabulary.index(feature)] = 1
  labels[i,vocabulary.index(label)] = 1

In [None]:
class Word2Vec:
  def __init__(self, vocab_size=0, embedding_dim=2, epochs=10000):
    self.vocab_size=vocab_size
    self.embedding_dim=embedding_dim
    self.epochs=epochs
    self.optimizer = tf.optimizers.SGD(learning_rate=0.1)
  def train(self, x_train=None, y_train=None):
    self.W1 = tf.Variable(tf.random.normal([self.vocab_size, self.embedding_dim]))
    self.b1 = tf.Variable(tf.random.normal([self.embedding_dim])) #bias
 
    self.W2 = tf.Variable(tf.random.normal([self.embedding_dim, self.vocab_size]))
    self.b2 = tf.Variable(tf.random.normal([self.vocab_size]))
 
    for _ in range(self.epochs):
      with tf.GradientTape() as t:
        hidden_layer = tf.add(tf.matmul(x_train,self.W1),self.b1) 
        output_layer = tf.nn.softmax(tf.add( tf.matmul(hidden_layer, self.W2), self.b2))
        cross_entropy_loss = tf.reduce_mean(-tf.math.reduce_sum(y_train * tf.math.log(output_layer), axis=[1]))
 
      grads = t.gradient(cross_entropy_loss, [self.W1, self.b1, self.W2, self.b2])
      self.optimizer.apply_gradients(zip(grads,[self.W1, self.b1, self.W2, self.b2]))
      if(_ % 1000 == 0):
        print(cross_entropy_loss)

In [None]:
w2v = Word2Vec(vocab_size=len(vocabulary), epochs=10000)
w2v.train(features, labels)

tf.Tensor(3.5579734, shape=(), dtype=float32)
tf.Tensor(1.9996668, shape=(), dtype=float32)
tf.Tensor(1.9211873, shape=(), dtype=float32)
tf.Tensor(1.8915883, shape=(), dtype=float32)
tf.Tensor(1.8771824, shape=(), dtype=float32)
tf.Tensor(1.8668216, shape=(), dtype=float32)
tf.Tensor(1.8576354, shape=(), dtype=float32)
tf.Tensor(1.8493826, shape=(), dtype=float32)
tf.Tensor(1.8402344, shape=(), dtype=float32)
tf.Tensor(1.8302771, shape=(), dtype=float32)


In [None]:
vectors = w2v.W1 + w2v.b1

In [None]:
import plotly.express as px
px.scatter(x=vectors[:,0],y=vectors[:,1],text=vocabulary)

## Embeddings con gensim

In [None]:
import nltk
import re
import gensim
import gensim.downloader
import logging

Descargamos el corpus Brown

In [None]:
nltk.download('brown')

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.


True

In [None]:
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [None]:
corpus = nltk.corpus.brown.sents()

Entrenamos un modelo model sobre el corpus Brown, el cual contiene alrededor de 1.000.000 de palabras.

In [None]:
model = gensim.models.word2vec.Word2Vec(sentences = corpus)

2020-11-10 21:56:25,468 : INFO : collecting all words and their counts
2020-11-10 21:56:25,472 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2020-11-10 21:56:25,945 : INFO : PROGRESS: at sentence #10000, processed 219770 words, keeping 23488 word types
2020-11-10 21:56:26,402 : INFO : PROGRESS: at sentence #20000, processed 430477 words, keeping 34367 word types
2020-11-10 21:56:26,871 : INFO : PROGRESS: at sentence #30000, processed 669056 words, keeping 42365 word types
2020-11-10 21:56:27,303 : INFO : PROGRESS: at sentence #40000, processed 888291 words, keeping 49136 word types
2020-11-10 21:56:27,639 : INFO : PROGRESS: at sentence #50000, processed 1039920 words, keeping 53024 word types
2020-11-10 21:56:27,907 : INFO : collected 56057 word types from a corpus of 1161192 raw words and 57340 sentences
2020-11-10 21:56:27,907 : INFO : Loading a fresh vocabulary
2020-11-10 21:56:27,957 : INFO : effective_min_count=5 retains 15173 unique words (27% of orig

Importamos un modelo de word2vec entrenado sobre google news, este modelo fue entrenado sobre un corpus de 3.000.000.000 de palabras

In [None]:
news = gensim.downloader.load('word2vec-google-news-300')

2020-11-10 21:56:50,622 : INFO : Creating /root/gensim-data




2020-11-10 22:00:43,253 : INFO : word2vec-google-news-300 downloaded
2020-11-10 22:00:43,256 : INFO : loading projection weights from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz
2020-11-10 22:02:52,727 : INFO : loaded (3000000, 300) matrix from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz


## Actividad 2: Exploración de los embeddings

Después de calcular los embeddings, podemos asociar un vector de números reales, de dimensiones conocidas a una palabra de nuestro vocabulario.


1.   ¿Cuántas dimensiones tiene cada vector asociado a las palabras en cada uno de los modelos?
2.   ¿Cuántos vectores hay en cada uno de los modelos?
3.   ¿Existen diferencian en el tamaño del vocabulario del modelo `model` y el modelo news?



In [None]:
# HINT
# news.wv.vectors # esta es una matriz
news.vectors.shape

(3000000, 300)

In [None]:
model.wv.vectors.shape

(15173, 100)

## Actividad 3: Similaridad y analogía

Existen un par de cualidades semánticas de las palabras, las cuales pueden ser fácilmente demostradas a través de operaciones vectoriales sobre el espacio generado por el proceso de cálculo de embeddings.

La similaridad es la métrica de cercanía que tienen 2 palabras, esta característica es fácil de representar a través de la similaridad coseno entre 2 vectores.

La analogía es la relación semántica que tienen 2 palabras, por ejemplo, la palabra "rey" y "reina" están relacionadas por el concepto de "género". Estas analogías se pueden operacionalizar en el espacio vectorial de los word embeddings como la resta de los vectores asociados a las palabras.



1.   Verifique cuáles son las palabras más cercanas a palabras que usted seleccione e interprete la correctitud de las palabras retornadas por los modelos `model` y `news`
2.   Verifique cuál de los modelos resuelve mejor la prueba de analogía: "man" es a "woman" como "king" es a "queen". Invente otra analogía y pruebe si el modelo la puede resolver.
3.   Según sus pruebas, ¿el tamaño del corpus de entrenamiento afecta el rendimiento del modelo?



In [None]:
# así obtenemos las palabras más cercanas a las palabra "woman"
model.wv.most_similar("woman")

2020-11-10 22:02:52,757 : INFO : precomputing L2-norms of word weight vectors

Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.



[('girl', 0.9572885036468506),
 ('boy', 0.8980333805084229),
 ('man', 0.8774807453155518),
 ('child', 0.8735851049423218),
 ('young', 0.8711107969284058),
 ('distaste', 0.86578369140625),
 ('remark', 0.8602189421653748),
 ('artist', 0.8546708822250366),
 ('fellow', 0.8540172576904297),
 ('martyr', 0.8498712182044983)]

In [None]:
news.most_similar("woman")

2020-11-10 22:02:52,798 : INFO : precomputing L2-norms of word weight vectors

Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.



[('man', 0.7664012908935547),
 ('girl', 0.7494640946388245),
 ('teenage_girl', 0.7336829900741577),
 ('teenager', 0.631708562374115),
 ('lady', 0.6288785934448242),
 ('teenaged_girl', 0.6141783595085144),
 ('mother', 0.607630729675293),
 ('policewoman', 0.6069462299346924),
 ('boy', 0.5975908041000366),
 ('Woman', 0.5770983695983887)]

In [None]:
#HINT:
# news.wv.vectors[news.vocab["woman"].index] # así obtenemos el vector asociado a la palabra woman
# news.wv.similar_by_vector(vector) # así obtenemos las palabras más cercanas a un vector

In [None]:
result = news.vectors[news.vocab["woman"].index] - news.vectors[news.vocab["man"].index] + news.vectors[news.vocab["king"].index]
news.similar_by_vector(result)


Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.



[('king', 0.8449392318725586),
 ('queen', 0.7300517559051514),
 ('monarch', 0.6454660892486572),
 ('princess', 0.6156251430511475),
 ('crown_prince', 0.5818676948547363),
 ('prince', 0.5777117609977722),
 ('kings', 0.5613663792610168),
 ('sultan', 0.5376776456832886),
 ('Queen_Consort', 0.5344247817993164),
 ('queens', 0.5289887189865112)]

In [None]:
result = model.wv.vectors[model.wv.vocab["woman"].index] - model.wv.vectors[model.wv.vocab["man"].index] + model.wv.vectors[model.wv.vocab["king"].index]
model.wv.similar_by_vector(result)


Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.



[('per', 0.6255831718444824),
 ('6,000', 0.5924739837646484),
 ('cent', 0.5852186679840088),
 ('centum', 0.5601134896278381),
 ('capita', 0.5454519987106323),
 ('atmospheres', 0.5397146940231323),
 ('Phase', 0.5384734869003296),
 ('Profile', 0.5352369546890259),
 ('periodicals', 0.5215284824371338),
 ('Rhode', 0.5203348398208618)]

## Actividad 4: Reducción de dimensionalidad y visualización

Nuestros vectores tienen más de 2 dimensiones, por lo que no es muy fácil interptretar su ubicación espacial. Utiliza un método de reducción de dimensionalidad que conozcas para reducir hacia 2 dimensiones nuestros vectores y visualiza el resultado.


*   ¿Existen agrupaciones aparentes de palabras dentro del espacio? y si es así, ¿las palabras agrupadas, son similares?



In [None]:
import sklearn.decomposition
news_matrix_2d = sklearn.decomposition.PCA(2).fit_transform(news.vectors[:100,:])
import plotly.express as px
px.scatter(x=news_matrix_2d[:,0],y=news_matrix_2d[:,1],text=list(news.vocab)[:100])