<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema4_2_gensim.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

# 4.2. Cómo usar modelos de word embeddings con la librería Gensim.

**Gensim** (https://radimrehurek.com/gensim/) es una de las librerías de Python más populares para entrenar modelos de word embeddings y también para utilizar dichos modelos para la representación de textos y estimar la similitud entre ellos.

En este ejercicio, aprenderemos a cargar un modelo de word embeddings utilizando dicha la librería y también estudiaremos las principales funcionalidades que ofrecen los modelos de word embeddings.

El primer paso será instalar la librería:

In [1]:
!pip install -q gensim

Aunque es posible cargar un modelo de word embeddings desde una url o desde nuestra unidad de google drive, Gensim ya proporciona una lista de modelos de word embeddings que pueden ser descargados con la librería. Para consultar la lista de modelos disponibles ejecuta la siguiente celda:

In [2]:
import gensim.downloader
print(list(gensim.downloader.info()['models'].keys()))


['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']


## Cómo cargar un modelo del repositorio de Gensim

Vamos a cargar el modelo **glove-wiki-gigaword-50**, un modelo Glove que fue entrenado con textos de Wikipedia y con GigaWord. La dimensión de los vectores es 50.
El tamaño del modelo es de unos 66 MB. El tamaño de su vocabulario es 400.000 (palabras distintas)

En este link, https://github.com/RaRe-Technologies/gensim-data, puedes consultar información sobre estos modelos.


La operación puede tardar unos minutos:



In [3]:
import gensim.downloader as api
model = api.load("glove-wiki-gigaword-50")

Vamos a consultar el vector (embedding) asociado a una palabra concreta, por ejemplo, 'mother'. Además, comprobamos que la dimensión es 50.


In [4]:
vector = model['mother']
print(vector.shape)
print(vector)

(50,)
[ 0.4336     1.0727    -0.6196    -0.80679    1.2519     1.3767
 -0.93533    0.76088   -0.0056654 -0.063649   0.30297    0.52401
  0.2843    -0.38162    0.98797    0.093184  -1.1464     0.070523
  0.58012    0.50644   -0.24026    1.7344     0.020735   0.43704
  1.2148    -2.2483    -0.41168   -0.24922    0.31225   -0.49464
  2.0441    -0.012111  -0.19556    0.085665   0.27682    0.015702
  0.0067683  0.12759    0.87008   -0.40641   -0.21057    0.41651
 -0.021812  -0.53649    0.54095   -0.43442   -0.52489   -2.0277
  0.13136    0.11704  ]


## Métodos más útiles en un modelo de word embeddings

### similarity
El modelo dispone de un método **similarity** para calcular la similitud entre dos palabras. Si el resultado es cercano a 1, significa que ambas palabras son sinónimos o tienen un significado similar. Si el valor es próximo a 0, significa que las palabras no guardan ninguna relación.

En la siguiente celda, calculamos la similitud entre la palabra *mother* y las palabras *father*, *mothers*, *woman*, *teeth*, *pen*.
Fijate en sus resultados, ¿son coherentes con los significados de las palabras?

In [5]:
word1='mother'

for word2 in ['father', 'mothers', 'woman', 'teeth', 'pen']:
    similarity = model.similarity(word1, word2)
    print("similarity({}, {}) = {}".format(word1,word2,similarity))


similarity(mother, father) = 0.8909038305282593
similarity(mother, mothers) = 0.6945824027061462
similarity(mother, woman) = 0.876370370388031
similarity(mother, teeth) = 0.29342857003211975
similarity(mother, pen) = 0.27105677127838135


In [6]:
word1='man'
for word2 in ['woman', 'guy', 'boy']:
    similarity = model.similarity(word1, word2)
    print("similarity of {} and {} = {}".format(word1,word2,similarity))


similarity of man and woman = 0.8860337734222412
similarity of man and guy = 0.7553611397743225
similarity of man and boy = 0.8564432263374329


### most_similar

Otro método interesantes es **most_similar**, que recibe una palabra y nos devuelve una lista con las palabras más similares (más próximas en el modelo) ordenadas de mayor a menor similitud. Prueba con varias palabras distintas, por ejemplo, 'truck', 'car', 'aspirin', 'movile', 'computer', etc. ¿Qué opinas de los resultados?


In [7]:
model.most_similar('mother')


[('daughter', 0.9456227421760559),
 ('wife', 0.9426491856575012),
 ('grandmother', 0.9338483810424805),
 ('husband', 0.9062185287475586),
 ('father', 0.8909037709236145),
 ('sister', 0.8907995820045471),
 ('her', 0.879142165184021),
 ('woman', 0.876370370388031),
 ('aunt', 0.8758132457733154),
 ('friend', 0.8599086999893188)]

El método **most_similar** acepta como entrada una palabra pero puede recibir también una lista de vectores:

In [8]:
vector1=model['bad']
vector2=model['good']

model.most_similar([vector1, vector2])



[('good', 0.9492380023002625),
 ('bad', 0.946256697177887),
 ('really', 0.9346767663955688),
 ('little', 0.9166814684867859),
 ('too', 0.9116061329841614),
 ('something', 0.906011700630188),
 ('thing', 0.9056459665298462),
 ("'re", 0.9015171527862549),
 ('things', 0.9001196622848511),
 ('sure', 0.8996474742889404)]

In [9]:
vector1=model['law']
vector2=model['judge']

model.most_similar([vector1, vector2])

[('law', 0.917686939239502),
 ('judge', 0.9152601361274719),
 ('court', 0.8893500566482544),
 ('justice', 0.8721724152565002),
 ('attorney', 0.8343154191970825),
 ('supreme', 0.8212406635284424),
 ('appeals', 0.8181477189064026),
 ('argued', 0.8140687942504883),
 ('lawyer', 0.809566080570221),
 ('case', 0.8033391237258911)]

### similar_by_word

El método **similar_by_word** es muy similar al método anterior, *most_similar*.

La única diferencia es que **similar_by_word** únicamente tiene un argumento y debe ser siempre una palabra

In [10]:
result = model.similar_by_word("truck")
for r in result:
    print(r)


('car', 0.9208584427833557)
('vehicle', 0.8651285767555237)
('trucks', 0.8634739518165588)
('tractor', 0.8452333807945251)
('parked', 0.8431485891342163)
('cars', 0.8306795358657837)
('bus', 0.8230665326118469)
('vehicles', 0.8144659399986267)
('jeep', 0.814045786857605)
('pickup', 0.805120050907135)


### distance

El método **distance** devuelve la distancia del coseno entre dos palabras.

En realidad, **similarity** es 1 menos la distancia del coseno: $similarity = 1 - distance = 1 - cosine$

In [11]:
w1="woman"
d = f"{model.distance(w1,w1):.1f}"
s = f"{model.similarity(w1,w1):.1f}"
print("model.distance({}, {}) = {}".format(w1,w1,d))
print("model.similarity({}, {}) = {}".format(w1,w1,s))


model.distance(woman, woman) = 0.0
model.similarity(woman, woman) = 1.0


In [12]:
w1="woman"
w2="ship"
d = f"{model.distance(w1,w2):.1f}"
s = f"{model.similarity(w1,w2):.1f}"

print("model.distance({}, {}) = {}".format(w1,w2,d))
print("model.similarity({}, {}) = {}".format(w1,w2,s))

model.distance(woman, ship) = 0.6
model.similarity(woman, ship) = 0.4


In [13]:
w1= 'woman'
for w2 in ['math', 'car', 'girl', 'wife']:
    d = model.distance(w1,w2)
    s = model.similarity(w1,w2)
    print(w1, w2, '-> distancia:', f"{d:.1f}", 'similitud:', f"{s:.1f}")


woman math -> distancia: 0.8 similitud: 0.2
woman car -> distancia: 0.5 similitud: 0.5
woman girl -> distancia: 0.1 similitud: 0.9
woman wife -> distancia: 0.2 similitud: 0.8


###doesnt_match

El método **doesnt_match** es capaz de identificar en un conjunto de palabras la palabra que no encaja con el resto de palabras:


In [14]:
print(model.doesnt_match(['computer', 'car', 'laptop', 'mobile']))

car


In [15]:
print(model.doesnt_match("orange ship apple sugar".split()))

ship


###n_similarity

El método **n_similarity** calcula la similitud entre dos conjuntos de palabras:

In [16]:
similarity = model.n_similarity(['math', 'car'], ['mexican', 'restaurant'])
print(f"{similarity:.4f}")

0.3749


In [17]:
similarity = model.n_similarity(['sushi', 'bar', 'fish'], ['mexican', 'restaurant'])
print(f"{similarity:.4f}")

0.7059


In [18]:
similarity = model.n_similarity(['sushi', 'red'], ['blue', 'restaurant'])
print(f"{similarity:.4f}")

0.8416


### most_similar_cosmul
El  método **most_similar_cosmul** recibe una lista de palabras y devuelve una lista de palabras similares, pero con significado opuesto a otro conjunto de palabras:


In [19]:
result = model.most_similar_cosmul(positive=['woman', 'king'], negative=['man'])

most_similar_key, similarity = result[0]
print(f"{most_similar_key}: {similarity:.4f}")


queen: 0.9289


In [20]:
result = model.most_similar_cosmul(positive=['madrid', 'france'], negative=['spain'])
most_similar_key, similarity = result[0]
print(f"{most_similar_key}: {similarity:.4f}")


paris: 0.9397


In [21]:
result = model.most_similar_cosmul(positive=['baghdad', 'england'], negative=['london'])
most_similar_key, similarity = result[0]
print(f"{most_similar_key}: {similarity:.4f}")

bihac: 0.9868


In [22]:
result = model.most_similar_cosmul(positive=['spain', 'barcelona'], negative=['madrid'])
most_similar_key, similarity = result[0]
print(f"{most_similar_key}: {similarity:.4f}")

portugal: 0.9569


In [23]:
result = model.most_similar(positive=['woman', 'nephew'], negative=['man'])
most_similar_key, similarity = result[0]
print(f"{most_similar_key}: {similarity:.4f}")


niece: 0.9162


## Word Mover's Distance (WMD): utilidad para obtener la similitud entre textos.

Es una herramienta que nos permite obtener la similitud entre dos textos.


https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

In [24]:
sentence_obama = 'Obama speaks to the media in Illinois'.lower().split()
sentence_president = 'The president greets the press in Chicago'.lower().split()
sentence_president3 = 'The president greets the media in Illinois'.lower().split()

distance = model.wmdistance(sentence_obama, sentence_president)
print(f"{distance:.4f}")

distance = model.wmdistance(sentence_obama, sentence_president3)
print(f"{distance:.4f}")

distance = model.wmdistance(sentence_president, sentence_president3)
print(f"{distance:.4f}")


0.5629
0.3508
0.2121


In [25]:
text1 = 'The hotel was very expensive and not good'.lower().split()
text2 = 'The hotel was very good and not expensive'.lower().split()
text3 = 'The hotel was very bad and not cheap'.lower().split()
text4 = 'The best result was achieved by BERT'.lower().split()

distance = model.wmdistance(text1, text2)
print(f"{distance:.4f}")

distance = model.wmdistance(text1, text3)
print(f"{distance:.4f}")

distance = model.wmdistance(text1, text4)
print(f"{distance:.4f}")

0.0000
0.1448
0.6308


## Cargar un modelos desde local

En este ejercicio, hemos trabajado con un modelos pre-entrenado proporcionado por Gensim. También sería posible cargar otro modelo almacenado en una url o en nuestra unidad de google drive.



También es posible cargar un modelo desde local. Por ejemplo, vamos a salvar el modelo anterior en un fichero llamado *mymodel.bin*:

In [26]:
model.save('mymodel.bin')

Puedes comprobar en Archivos asociados a este notebook, que en efecto, se ha almacenado dicho modelo.

Ahora podríamos cargarlo directamente usando la clase **KeyedVectors** y su método **load**, que recibe como argumento la ruta donde está almacenado el modelo

In [27]:
from gensim.models import KeyedVectors
new_model = KeyedVectors.load('mymodel.bin')


Vamos a consultar su tamaño:

In [28]:
print(len(new_model))

400000


Vamos a descargar un modelo de word embeddings y lo vamos a guardar en nuestra unidad de google drive. Por ejemplo, puedes descargar uno de los modelos más populares de word embeddings: GoogleNews-vectors-negative300.bin.

Añadelo a tu disco de Google Drive, en la carpeta 'Colab Notebooks'.
Monta tu unidad de google drive, y modifica tu directorio de trabajo actual a '/content/drive/My Drive/Colab Notebooks/'.



In [29]:
from google.colab import drive
drive.mount('/content/drive')
import os
os.chdir('/content/drive/My Drive/Colab Notebooks/')
!ls


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
data				       mymodel.bin
docencia			       mymodel.bin.vectors.npy
GoogleNews-vectors-negative300.bin     proyectos
GoogleNews-vectors-negative300.bin.gz


Carga ahora el modelo (tardará unos minutos):

In [30]:
from gensim import models
word_vectors = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)


Vamos a mostrar el tamaño del vocabulario

In [31]:
print(len(word_vectors))

3000000


Usamos el modelo para mostrar las palabras más similares al adjetivo 'bad'. Podemos ver que sorprendentmente, devuelve 'good' como la primera palabra más próxima, con mayor similitud. Sin embargo, 'good' y 'bad' son antónimos!!!.

¿Por qué crees que ocurre esto?. Esto ocurre porque 'bad' y 'good' son adjetivos que van a ocurrir en contextos muy similares ("This movie is very good" "This movie is very bad"). Los modelos de word embeddings utilizan la información de contexto para inferir los vectores de las palabras. Por ese motivo, 'good' y 'bad' tendrán un vector similar, aunque sus significados sean completamente distintos.


In [32]:
word_vectors.similar_by_word("bad")

[('good', 0.7190051674842834),
 ('terrible', 0.6828612089157104),
 ('horrible', 0.6702597737312317),
 ('Bad', 0.669891893863678),
 ('lousy', 0.6647640466690063),
 ('crummy', 0.567781925201416),
 ('horrid', 0.5651682615280151),
 ('awful', 0.5527253150939941),
 ('dreadful', 0.5526429414749146),
 ('horrendous', 0.5445998311042786)]