# Sesión 5 - Word embeddings (Wor2vec, Glove, Fasttext) y Doc2Vec con GENSIM
En esta sesión se verá cómo utilizar la librería Gensim para el uso de word embeddings.

Los word embeddings son vectores de dimensión n que tratan de capturar el significado de la palabra y de su contexto en ese vector.
Hay distintos modelos de word embeddings preentrenados con grandes corpus que se pueden descargar y utilizar para distintos idiomas.

Primero instalaremos la librería gensim.

In [None]:
# Instalamos gensim
!pip3 install -U gensim

## Apartado 1.1 Descargamos un modelo de word embeddings preentrenado (Resuelto)
En la web https://github.com/dccuchile/spanish-word-embeddings existen distintos modelos de Word-embeddings preentrenados para el idioma español para poder utilizarse con la librería GENSIM.

Se pueden descargar modelos preentrenados para otros idiomas y también se pueden generar modelos basados en Word2vec si se dispone de un corpus de entrenamiento.

Descargamos distintos modelos y los descomprimimos.

In [None]:
# Descargamos Glove para español con formato vec para utilizarse con Gensim
#!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/glove-sbwc.i25.vec.gz
#!gzip -d glove-sbwc.i25.vec.gz

# Descargamos Fasttext con formato vec para utilizarse con Gensim
#!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/embeddings-m-model.vec.gz
#!gzip -d embeddings-m-model.vec.gz
# Descargamos Fasttext con formato binario para utilizarse con la librería Fasttext más adelante en este notebook
#!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/embeddings-m-model.vec.gz
#!gzip -d embeddings-m-model.bin.gz

# Esta es una versión muy reducida de fasttext
# Descargamos esta versión muy reducida de fasttext desde un ordenador de la Facultad para ir más rápido.
# Los enlaces originales son los siguientes
# https://zenodo.org/record/3234051/files/embeddings-s-model.vec
# https://zenodo.org/record/3234051/files/embeddings-s-model.bin

!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/embeddings-s-model.vec.gz
!gzip -d embeddings-s-model.vec.gz
!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/embeddings-s-model.bin.gz
!gzip -d embeddings-s-model.bin.gz

# Descargamos el dataset en español que hemos usado en otras prácticas
!wget --no-check-certificate https://valencia.inf.um.es/valencia-tgine/datasetEspañol.csv

In [25]:
 from gensim.models.keyedvectors import KeyedVectors
 import gensim
# Cargamos el modelo de Glove en Gensim
 #glove_gensim_model = KeyedVectors.load_word2vec_format("glove-sbwc.i25.vec")

 # Podemos cargar también los embeddings de Fasttext
 #glove_gensim_model = KeyedVectors.load_word2vec_format("embeddings-m-model.vec")
 glove_gensim_model = KeyedVectors.load_word2vec_format("embeddings-s-model.vec")


# Apartado 1.2 Trabajando con los vectores de palabras

Imprimimos los vectores de la palabra "murcia" con el conjunto preentrenado de embeddings cargado en la celda anterior.

In [None]:
word = 'murcia'
if (glove_gensim_model.has_index_for(word)):
  word_embedding = glove_gensim_model.get_vector(word)
print(word_embedding)

Con los word embeddings podemos calcular la similitud de distintos términos usando la similidud del coseno. Para eso Gensim proporciona una función para determinar su similitud.

In [None]:
# Calculamos la similitud entre las palabras alumno y estudiante
palabra1="alumno"
palabra2="estudiante"
sim = glove_gensim_model.similarity(palabra1, palabra2)
print('La similitud entre '+palabra1+' y '+palabra2+' es:',sim)

# Calculamos la similitud entre 'españa' y 'francia'

# Calculamos la similitud entre 'españa' y 'madrid'

# Calculamos la similitud entre 'españa' y 'alumno'

# Calculamos la similitud entre 'rojo' y 'azul'


# Apartado 1.3 Obtenemos términos similares

Con los word embeddings podemos obtener los términos más similares con respecto a uno dado.

In [None]:
# Imprimimos las palabras más similares a 'madrid'
palabra = 'madrid'
print(glove_gensim_model.most_similar(palabra))

# Imprimimos las palabras más similares a 'españa'

# Imprimimos las palabras más similares a 'tenis'

# Imprimimos las palabras más similares a 'amarillo'


# Apartado 1.4 Haciendo analogías

Con las similitudes de word embeddings se pueden hacer analogías haciendo operaciones con los vectores.

Por ejemplo, podríamos hacer la siguiente analogía:

*francés* es a *Francia* lo que *Italiano* es a ...

In [None]:
  # Francés es a Francia lo que Italiano es a ...
  print(glove_gensim_model.most_similar(positive=["italiano", "francia"], negative=["francés"], topn=1))

  # Francia es a París lo que España es a ...

  # Hombre es a rey lo que mujer es a ...

  # Cantar es a cantaba lo que temer es a ...

  # Enfermera es a hospital lo que juez es a ...


También se pueden mostrar más de 1 opción y no solamente la primera opción de la analogía.

In [None]:
  # Francés es a Francia lo que Italiano es a ...
  print(glove_gensim_model.most_similar(positive=["italiano", "francia"], negative=["francés"], topn=10))

  # Francia es a París lo que España es a ,,,

  # Hombre es a rey lo que mujer es a ...

  # Cantar es a cantaba lo que temer es a ...

  # Enfermera es a hospital lo que juez es a ...

  # Enfermera es a hospital lo que profesor es a ...


## Apartado 1.5 Detectando el término no relacionados

También hay una función que permite determinar el término que no está relacionado con los demás términos

In [None]:
print(glove_gensim_model.doesnt_match(['blanco','azul','rojo','amarillo','verde','calamar']))

# Ver qué palabra no encaja en la siguiente lista 'tenis', 'fútbol', 'baloncesto', 'informática', 'gimnasia'
print(glove_gensim_model.doesnt_match(['tenis', 'fútbol', 'baloncesto', 'informática', 'gimnasia']))

# Apartado 1.6 Visualización de *vectores de palabras*

En el siguiente ejemplo, se puede ver la visualización gráfica en 2D de la distancia entre distintas familias de palabras.

In [None]:
# Función para pintar las palabras en una gráfica
!pip3 install pandas
!pip3 install sklearn
!pip3 install nltk
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from matplotlib import pyplot as plt
def display_wordlist(model, wordlist):
    vectors = [model[word] for word in wordlist if model.has_index_for(word)]
    word_labels = [word for word in wordlist if model.has_index_for(word)]
    word_vec_zip = zip(word_labels, vectors)

    # Convert to a dict and then to a DataFrame
    word_vec_dict = dict(word_vec_zip)
    df = pd.DataFrame.from_dict(word_vec_dict, orient='index')

    # Reduces the dimensionality from 300 to 50 dimensions with PCA
    reduc = PCA(n_components=len(wordlist)).fit_transform(df)

    # Use tsne to reduce to 2 dimensions
    tsne = TSNE(perplexity=5,n_components=2, random_state=0)
    np.set_printoptions(suppress=True)
    Y = tsne.fit_transform(reduc)

    x_coords = Y[:, 0]
    y_coords = Y[:, 1]
    # display plot
    plt.figure(figsize=(16, 8))
    plt.plot(x_coords, y_coords, 'ro')

    for label, x, y in zip(df.index, x_coords, y_coords):
        plt.annotate(label, xy=(x, y), xytext=(5, 2), textcoords='offset points')
    plt.xlim(Y[:, 0].min()-10, Y[:, 0].max()+10)
    plt.ylim(Y[:, 1].min()-10, Y[:, 1].max()+10)
    plt.show()



In [None]:
# Visualizamos algunas palabras
display_wordlist(glove_gensim_model, ['judo', 'karate','baloncesto','tenis','futbol','padel',
                                      'hija','esposa','hijos','madre','hermana','hijas','matrimonio','viuda', 'casada',
                                      'españa','madrid','francia','parís','italia','roma','alemania','berlín',
                                      'azul','verde','rosa','amarillo','rojo','marrón','negro'])


# Apartado 1.7 Sentence embeddings

Se pueden representar fragmentos de texto como frases o párrafos a partir de un vector de dimensión 300 simplemente haciendo una media aritmética de los vectores de los Tokens o palabras que aparecen en ese fragmento de texto.

In [None]:
# Esta función calcula en un único vector de dimensión 300 la media aritmética de todos los vectores de tokens
# de un array de textos dado.
import nltk
nltk.download('stopwords')
nltk.download('punkt')

def gensim_sentence_embeddings(textos, model, idiomaStopWords):
    import nltk
    from nltk.corpus import stopwords
    from gensim.test.utils import datapath
    import unicodedata
    from tqdm import tqdm
    import gensim
    import multiprocessing
    import random
    import numpy as np
#esta función devuelve los sentence embeddings de todos los textos enviados como parámetros
    stopwords_list=stopwords.words(idiomaStopWords)
    sentence_embeddings = []
    for linea in textos:
        line_vec = []
        tokenized_sentence = nltk.tokenize.word_tokenize(linea)
        count = 0
        for token in tokenized_sentence:
           if (token not in stopwords_list):
            # Solamente calculamos los vectores de lo que no son stopwords
            if model.has_index_for(token):
              a = model.get_vector(token)
              if len(line_vec) == 0 :
                line_vec = a
              else:
                line_vec = line_vec + a
              count = count + 1
        if(count>0):
          sentence_embeddings.append(line_vec/count)
        else:
          sentence_embeddings.append(np.zeros(300))
    return sentence_embeddings

In [None]:
# Podemos calcular e imprimir los sentence embedings de varias frases.
# Hay que tener en cuenta que si no existe ningún token conocido en el vocabulario obtendríamos un vector de 0s
# Esto no ocurre con los modelos de Fasttext porque usan fragmentos de caracteres, pero sí con los de Glove
print(gensim_sentence_embeddings(['me gusta el día','30 203 44 500'], glove_gensim_model, 'spanish'))

Podemos probar ahora mediante sentence embeddings cómo pueden parecerse distintos fragmentos de texto o documentos mediante el uso de la similitud del coseno.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
# Definimos un conjunto de textos
textos=['El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. \
Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje.\
Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano. \
NLP toma elementos prestados de muchas disciplinas, incluyendo la ciencia de la computación y la lingüística computacional, en su afán por cerrar la brecha entre la comunicación humana y el entendimiento de las computadoras."""], """El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje. Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'La lingüística computacional es un campo interdisciplinario que se ocupa del desarrollo de formalismos del funcionamiento del lenguaje natural, tales que puedan ser transformados en programas ejecutables para un ordenador. \
Dicho desarrollo se sitúa entre el modelado basado en reglas y el modelado estadístico del lenguaje natural desde una perspectiva computacional, y en él participan lingüistas e informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros.'
, 'El aprendizaje automático es un tipo de inteligencia artificial (AI) que proporciona a las computadoras la capacidad de aprender, sin ser programadas explícitamente. El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.'
, 'El  aprendizaje profundo es un tema que cada vez adquiere mayor relevancia en el campo de la inteligencia artificial (IA). Siendo una subcategoría del aprendizaje automático, el aprendizaje profundo trata del uso de redes neuronales para mejorar cosas tales como el reconocimiento de voz, la visión por ordenador y el procesamiento del lenguaje natural. \
Rápidamente se está convirtiendo en uno de los campos más solicitados en informática. \
En los últimos años, el aprendizaje profundo ha ayudado a lograr avances en áreas tan diversas como la percepción de objetos, el procesamiento del lenguaje natural y el reconocimiento de voz (todas ellas áreas especialmente complejas para los investigadores en IA).',
'El coste de la energía va a subir mucho los próximos meses y la población va a tener que pagar cantidades excesivas a las eléctricas']

# Calculamos la similitud usando sentence embeddings
sentence_embeddings = gensim_sentence_embeddings(textos, glove_gensim_model,'spanish')
import numpy as np
import scipy.sparse as sp
if not sp.issparse(sentence_embeddings):
            sentence_embeddings = sp.csr_matrix(sentence_embeddings, dtype=np.float64)

# Calculamos la similitud de los documentos con el coseno para sentence embeddings
results = cosine_similarity(sentence_embeddings[1::],sentence_embeddings[0]).reshape(-1,) # Op -- (n_docs,1) -- Cosine Sim with each doc
print(results)

Probamos ahora a entrenar el dataset de la sesión anterior *Sesión 4* para probar su accuracy utilizando word embeddings preentrenados.

In [None]:
import pandas
df = pandas.read_csv("datasetEspañol.csv",encoding="UTF-8")

p_train = 0.80 # Porcentaje de train.
p_test = 0.20 # Porcentaje de train.

from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, test_size = p_test)

# Ponemos en lower_case los dos conjuntos de tweets
df_train.tweet = df_train.tweet.apply(lambda x: x.lower())
df_test.tweet = df_test.tweet.apply(lambda x: x.lower())

print("Ejemplos usados para entrenar: ", len(df_train))
print("Ejemplos usados para test: ", len(df_test))

In [None]:
from sklearn.svm import LinearSVC
sentence_train = gensim_sentence_embeddings(df_train.tweet, glove_gensim_model,'spanish')
sentence_test = gensim_sentence_embeddings(df_test.tweet, glove_gensim_model,'spanish')

clf_sentence_embeddings = LinearSVC(random_state=0, tol=1e-5).fit(sentence_train, df_train.label)
predicted = clf_sentence_embeddings.predict(sentence_test)
accuracy = np.mean(predicted == df_test.label)

print("Resultados ----- Accuracy:", accuracy)
from sklearn import metrics
print(metrics.classification_report(df_test.label, predicted))

## Apartado 1.8 Sentence embeddings de Fasttext

Nosotros hemos implementado una función para obtener los sentence embeddings directamente desde la librería Fasttext. Fasttext es otro tipo de word embeddings donde se tienen en cuenta los char n gramas.

In [None]:
# Instalamos la librería Fasttext y descargamos el modelo preentrenado para el español en binario
!pip3 install fasttext
import fasttext
# Los word embeddings preentrenados ya se han descargado anteriormente

In [40]:
# Cargamos el modelo usando la librería fasttext.
# Esta librería es distinta de Gensim
#ft_model = fasttext.load_model ("embeddings-l-model.bin")
ft_model = fasttext.load_model ("embeddings-s-model.bin")

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
# Definimos un conjunto de textos
textos=['El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. \
Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje.\
Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano. \
NLP toma elementos prestados de muchas disciplinas, incluyendo la ciencia de la computación y la lingüística computacional, en su afán por cerrar la brecha entre la comunicación humana y el entendimiento de las computadoras."""], """El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje. Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'La lingüística computacional es un campo interdisciplinario que se ocupa del desarrollo de formalismos del funcionamiento del lenguaje natural, tales que puedan ser transformados en programas ejecutables para un ordenador. \
Dicho desarrollo se sitúa entre el modelado basado en reglas y el modelado estadístico del lenguaje natural desde una perspectiva computacional, y en él participan lingüistas e informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros.'
, 'El aprendizaje automático es un tipo de inteligencia artificial (AI) que proporciona a las computadoras la capacidad de aprender, sin ser programadas explícitamente. El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.'
, 'El  aprendizaje profundo es un tema que cada vez adquiere mayor relevancia en el campo de la inteligencia artificial (IA). Siendo una subcategoría del aprendizaje automático, el aprendizaje profundo trata del uso de redes neuronales para mejorar cosas tales como el reconocimiento de voz, la visión por ordenador y el procesamiento del lenguaje natural. \
Rápidamente se está convirtiendo en uno de los campos más solicitados en informática. \
En los últimos años, el aprendizaje profundo ha ayudado a lograr avances en áreas tan diversas como la percepción de objetos, el procesamiento del lenguaje natural y el reconocimiento de voz (todas ellas áreas especialmente complejas para los investigadores en IA).',
'El coste de la energía va a subir mucho los próximos meses y la población va a tener que pagar cantidades excesivas a las eléctricas']


import pandas as pd
df_textos = pd.DataFrame(textos)

# Calculamos la similitud usando sentence embeddings
fasttext_sentence_embeddings = df_textos[0].apply(lambda x: ft_model.get_sentence_vector(x))
fasttext_sentence_embeddings = fasttext_sentence_embeddings.to_list()
import numpy as np

import scipy.sparse as sp
if not sp.issparse(fasttext_sentence_embeddings):
            fasttext_sentence_embeddings = sp.csr_matrix(fasttext_sentence_embeddings, dtype=np.float64)

# Calculamos la similitud de los documentos con el coseno para sentence embeddings
results = cosine_similarity(fasttext_sentence_embeddings[1::],fasttext_sentence_embeddings[0]).reshape(-1,) # Op -- (n_docs,1) -- Cosine Sim with each doc
print(results)

Entrenamos ahora con los sentence embeddings de fasttext y obtenemos el accuracy

In [None]:
from sklearn.svm import LinearSVC
fasttext_sentence_train = df_train.tweet.apply(lambda x: ft_model.get_sentence_vector(x))
fasttext_sentence_test = df_test.tweet.apply(lambda x: ft_model.get_sentence_vector(x))

clf_sentence_embeddings = LinearSVC(random_state=0, tol=1e-5).fit(fasttext_sentence_train.to_list(), df_train.label)
predicted = clf_sentence_embeddings.predict(fasttext_sentence_test.to_list())
accuracy = np.mean(predicted == df_test.label)

print("Resultados sentence embeddings Fasttext ----- Accuracy:", accuracy)
from sklearn import metrics
print(metrics.classification_report(df_test.label, predicted))

In [None]:
#Si probamos con unos vectores de Fasttext de más dimensiones (100) en principio la clasificación debería ser mejor.
!wget https://valencia.inf.um.es/valencia-tgine/embeddings-m-model.bin.gz
!gzip -d embeddings-m-model.bin.gz

In [None]:
#Cargamos el modelo más grande
ft_model = fasttext.load_model ("embeddings-m-model.bin")

#Calculamos los embeddings y creamos el clasificador
fasttext_sentence_train = df_train.tweet.apply(lambda x: ft_model.get_sentence_vector(x))
fasttext_sentence_test = df_test.tweet.apply(lambda x: ft_model.get_sentence_vector(x))

clf_sentence_embeddings = LinearSVC(random_state=0, tol=1e-5).fit(fasttext_sentence_train.to_list(), df_train.label)
predicted = clf_sentence_embeddings.predict(fasttext_sentence_test.to_list())
accuracy = np.mean(predicted == df_test.label)

print("Resultados Fasttext modelo más grande ----- Accuracy:", accuracy)
from sklearn import metrics
print(metrics.classification_report(df_test.label, predicted))