## Representaciones distribuidas

Las representaciones distribuidas en procesamiento del lenguaje natural (NLP) y aprendizaje automático son una forma de representar palabras como vectores numéricos en un espacio de alta dimensión, lo que permite reflejar similitudes semánticas y sintácticas entre palabras. A diferencia de métodos como one-hot encoding, donde cada palabra es un vector único, las representaciones distribuidas agrupan palabras con significados similares en vectores cercanos.

Estos métodos han revolucionado el NLP, permitiendo avances en tareas como la traducción automática o el análisis de sentimientos. Se basan en la hipótesis distributiva, que dice que las palabras que aparecen en contextos similares tienen significados similares. Esta representación se obtiene de la coocurrencia de palabras en contextos, usando vectores de alta dimensión que pueden ser ineficientes, pero son compactados en representaciones más manejables llamadas embeddings.

La semántica vectorial agrupa todas las técnicas que aprenden representaciones de palabras usando sus propiedades distributivas.



### Características principales

Veamos algunos características de estos métodos:

- A diferencia de las representaciones locales, las distribuidas pueden capturar relaciones complejas entre palabras, como sinónimos, antónimos o términos que suelen aparecer en contextos similares.

- Al representar palabras como vectores de tamaño fijo en un espacio continuo, se reduce la dimensionalidad del problema comparado con métodos de representación más simples pero de alta dimensionalidad, como el one-hot encoding.

- Estos modelos pueden generalizar para entender palabras nuevas o raras a partir de sus componentes (por ejemplo, entender palabras compuestas a partir de los significados de sus partes).

**Ejemplos y modelos**

- Word2Vec: Probablemente el ejemplo más conocido de representaciones distribuidas. Word2Vec utiliza redes neuronales para aprender representaciones vectoriales de palabras a partir de grandes conjuntos de datos de texto. Ofrece dos arquitecturas principales: CBOW (Continuous Bag of Words) y Skip-gram, cada una diseñada para aprender representaciones que predigan palabras en función de sus contextos o viceversa.

- GloVe (Global Vectors for Word Representation): Un modelo que aprende representaciones de palabras a partir de las estadísticas co-ocurrenciales de palabras en un corpus. La idea es que las relaciones semánticas entre palabras pueden ser capturadas observando qué tan frecuentemente aparecen juntas en un gran corpus.

- Embeddings contextuales: Modelos más recientes como ELMo, BERT y GPT ofrecen una evolución de las representaciones distribuidas, generando vectores de palabras que varían según el contexto en el que aparecen, lo que permite capturar usos y significados múltiples de una misma palabra dependiendo de la oración en la que se encuentre.

### Embeddings de palabras

Los embeddings de palabras son representaciones vectoriales densas y de baja dimensión de palabras, diseñadas para capturar el significado semántico, sintáctico y relaciones entre ellas. A diferencia de las representaciones de texto más antiguas, como el one-hot encoding, que son dispersas (la mayoría de los valores son cero) y de alta dimensión, los embeddings de palabras se representan en un espacio vectorial continuo donde palabras con significados similares están ubicadas cercanamente en el espacio vectorial.

**Características de los embeddings de palabras**

- Cada palabra se representa como un vector denso, lo que significa que cada dimensión tiene un valor real, a diferencia de los vectores dispersos de otras técnicas de representación.

- Los embeddings generalmente tienen un tamaño de dimensión fijo y relativamente pequeño (por ejemplo, 100, 200, 300 dimensiones) independientemente del tamaño del vocabulario.

- Estos vectores intentan capturar el contexto y el significado de una palabra, no solo su presencia o ausencia. Palabras que se usan en contextos similares tendrán embeddings similares.

- Pueden ayudar a los modelos de aprendizaje automático a generalizar mejor a palabras no vistas durante el entrenamiento, dado que las palabras con significados similares se mapean a puntos cercanos en el espacio vectorial.


En 2013, un trabajo fundamental de Mikolov [Efficient Estimationof Word Representations in Vector Space](https://arxiv.org/abs/1301.3781) demostraron que su modelo de representación de palabras basado en una red neuronal conocido como `Word2vec`, basado en la `similitud distributiva`, puede capturar relaciones de analogía de palabras como: 

$$King - Man + Woman \approx Queen$$

Conceptualmente, Word2vec toma un gran corpus de texto como entrada y "aprende" a representar las palabras en un espacio vectorial común en función de los contextos en los que aparecen en el corpus.


#### Embeddings de palabras pre-entrenadas

El siguente es un ejemplo de cómo cargar embeddings de Word2vec previamente entrenadas y buscar las palabras más similares (clasificadas por similitud de coseno) a una palabra determinada. 

Tomemos un ejemplo de un modelo word2vec previamente entrenado y cómo podemos usarlo para buscar la mayoría de las palabras similares. Usaremos los embeddings de vectores de Google News. https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM

Se pueden encontrar algunos otros modelos de embeddings de palabras previamente entrenados y detalles sobre los medios para acceder a ellos a través de gensim en: https://github.com/RaRe-Technologies/gensim-data

El código que sigue cubre los pasos clave. Aquí encontramos las palabras que semánticamente son más similares a la palabra “beautiful”; la última línea devuelve el vector de embeddings de la palabra " beautiful ":

In [None]:
pip install gdown

In [None]:
import gdown
import gzip
import shutil

# URL de Google Drive
url = 'https://drive.google.com/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM'

# Ruta donde se guardará el archivo comprimido descargado
ruta_descarga = "GoogleNews-vectors-negative300.bin.gz"

# Ruta del archivo descomprimido
ruta_extraccion = "GoogleNews-vectors-negative300.bin"

# Descargar el archivo usando gdown
gdown.download(url, ruta_descarga, quiet=False)

# Descomprimir el archivo   
with gzip.open(ruta_descarga, 'rb') as f_in:
    with open(ruta_extraccion, 'wb') as f_out:
        shutil.copyfileobj(f_in, f_out)

print(f"Archivo descomprimido en {ruta_extraccion}")

In [None]:
import warnings
import os
warnings.filterwarnings("ignore") 

import psutil 
procesos = psutil.Process(os.getpid())
from psutil import virtual_memory
memoria = virtual_memory()

import time 

Realizamos algunos cálculos del uso de los datos descargados:

In [None]:
from gensim.models import Word2Vec, KeyedVectors
pretrainedpath = ruta_extraccion

#Se carga el modelo W2V. 
pre = procesos.memory_info().rss
print("Memoria usada en GB antes de cargar el modelo: %0.2f"%float(pre/(10**9))) 
print('-'*10)

tiempo_inicio = time.time() 
ttl = memoria.total 

w2v_modelo = KeyedVectors.load_word2vec_format(pretrainedpath, binary=True) 
print("%0.2f segundos para tomar"%float(time.time() - tiempo_inicio)) 
print('-'*10)

print('Finalizacion de cargar  Word2Vec')
print('-'*10)

post = procesos.memory_info().rss
print("Memoria usada en GB despues de cargar el modelo: {:.2f}".format(float(post/(10**9))))
print('-'*10)
print("Aumento porcentual en el uso de memoria: {:.2f}% ".format(float((post/pre)*100))) 
print('-'*10)

print("Numero de palabras en el vocabulario: ",len(w2v_modelo.index_to_key))

Examinemos el modelo sabiendo cuáles son las palabras más similares para una palabra determinada.


In [None]:
w2v_modelo.most_similar("beautiful")

In [None]:
w2v_modelo['beautiful']

In [None]:
w2v_modelo.most_similar("Toronto")

In [None]:
#w2v_modelo['practicaNLP']

¿Qué pasa si busco una palabra que no está en este vocabulario?:
`w2v_modelo['practicalnlp']`

In [None]:
# Tu respuesta

Dos cosas a tener en cuenta al utilizar modelos previamente entrenados:

* Los tokens/palabras siempre están en minúsculas. Si una palabra no está en el vocabulario, el modelo genera una excepción.
* Por lo tanto, siempre es una buena idea encapsular esas declaraciones en bloques `try/except`.

### Entrenando nuestros embeddings 

Ahora nos centraremos en entrenar nuestras propias embeddings de palabras. Para ello, veremos dos variantes arquitectónicas propuestas en el enfoque original de Word2vec. Las dos variantes son: 

* Bolsa continua de palabras (CBOW) 

* Skip-Gram 

Para utilizar los algoritmos CBOW y SkipGram en la práctica, hay varias implementaciones disponibles que nos abstraen los detalles matemáticos. Una de las implementaciones más utilizadas es [gensim](https://github.com/piskvorky/gensim). 

#### CBOW

El modelo Continuous Bag of Words (CBOW) es uno de los dos enfoques arquitectónicos propuestos por Mikolov  para aprender representaciones vectoriales de palabras, también conocidos como embeddings de palabras.

Este modelo predice una palabra objetivo (la palabra central) a partir de un conjunto dado de palabras de contexto que la rodean en una frase o un párrafo. El "contexto" se refiere generalmente a las `n` palabras antes y después de la palabra objetivo en una ventana específica de tamaño `2n+1`, excluyendo la palabra objetivo.

Por ejemplo, en la oración `el gato come pescado`, si queremos predecir la palabra `come` utilizando un contexto de tamaño 1, las palabras de contexto serían `["gato", "pescado"]`.

In [None]:
from gensim.models import Word2Vec
import warnings
warnings.filterwarnings('ignore')

Al definir datos de entrenamiento, Genism word2vec requiere que se proporcione un formato de "lista de listas" para el entrenamiento donde cada documento esté contenido en una lista. Cada lista contiene listas de tokens de ese documento.

In [None]:
corpus = [['dog','bites','man'], ["man", "bites" ,"dog"],["dog","eats","meat"],["man", "eats","food"]]

#entrenando el modelo
modelo_cbow = Word2Vec(corpus, min_count=1,sg=0) #usando la arquitectura CBOW para entrenamiento
modelo_skipgram = Word2Vec(corpus, min_count=1,sg=1)#usando la arquitectura skipGram para entrenamiento 

In [None]:
print(modelo_cbow)

En CBOW, la tarea principal es construir un modelo de lenguaje que prediga correctamente la palabra central dadas las palabras de contexto en las que aparece esa palabra.

In [None]:
# Acceder al vocabulario
palabras = list(modelo_cbow.wv.index_to_key)

# Acceder al vector para una palabra específica correctamente
vector_dog=modelo_cbow.wv.get_vector('dog')
# Otra manera válida pero menos explícita es modelo_cbow.wv['dog']
# Completa
print(vector_dog)

In [None]:
#Calculamos la similaridad
print("La similaridad entre eats y bites es:", modelo_cbow.wv.similarity('eats', 'bites'))
print("La similaridas entre eats y man es:", modelo_cbow.wv.similarity('eats', 'man'))

In [None]:
modelo_cbow.wv.most_similar('meat')

In [None]:
# Guardando el modelo
modelo_cbow.save('modelo_cbow.bin')

# cargando el modelo
nuevo_modelo_cbow = Word2Vec.load('modelo_cbow.bin')
print(nuevo_modelo_cbow)

### SkipGram

Continuous Bag of Words (CBOW) y Skip-gram  son dos arquitecturas del modelo Word2Vec desarrolladas por Mikolov  para generar representaciones vectoriales densas de palabras, conocidas como embeddings. Estos embeddings capturan relaciones semánticas y sintácticas entre palabras basadas en su co-ocurrencia en grandes corpus de texto. 

Ambas arquitecturas utilizan una red neuronal poco profunda para aprender estas representaciones, pero difieren en la forma en que están estructuradas y en cómo aprenden de los datos.

La arquitectura Skip-gram predice las palabras de contexto (palabras circundantes) dada una palabra objetivo. Por ejemplo, si consideramos la frase `El rápido zorro marrón`, y nuestra palabra objetivo es `rápido`, con un tamaño de ventana de contexto de 2, Skip-gram intentaría predecir `El`, `zorro`, `marrón` a partir de `rápido`. Esto significa que para cada palabra objetivo en el corpus, se generan muestras de entrenamiento al emparejarla con las palabras de contexto dentro de una ventana específica alrededor de ella.

Recuerda la arquitectura CBOW, por otro lado, hace lo opuesto: predice la palabra objetivo a partir de las palabras de contexto. Utilizando el mismo ejemplo anterior, CBOW tomaría `El`, `zorro`, `marrón` como entrada para predecir `rápido`. 

En esencia, CBOW promedia las palabras de contexto (o las suma, dependiendo de la implementación) para predecir la palabra en el centro de la ventana de contexto.

A pesar de la disponibilidad de varias implementaciones listas para usar, todavía tenemos que tomar decisiones sobre varios hiperparámetros (es decir, las variables que deben configurarse antes de comenzar el proceso de entrenamiento). Veamos dos ejemplos. 


- Dimensionalidad de los vectores de palabras: como su nombre lo indica, esto decide el espacio de las embeddings aprendidas. Si bien no existe un número ideal, es común construir vectores de palabras con dimensiones en el rango de 50 a 500 y evaluarlos en la tarea para la que los estamos usando para elegir la mejor opción. 

- Ventana contextual: Qué tan largo o corto es el contexto que buscamos para aprender la representación vectorial. 

También hay otras opciones que hacemos, como usar CBOW o SkipGram para aprender las embeddings. Estas elecciones son más un arte que una ciencia en este momento, y hay mucha investigación en curso sobre métodos para elegir los hiperparámetros correctos. 

Usando paquetes como gensim, es bastante sencillo desde el punto de vista del código implementar Word2vec. 

El siguiente código muestra cómo entrenar nuestro propio modelo Word2vec usando un corpus llamado `common_texts` que está disponible en gensim. Suponiendo que tiene el corpus para su dominio, siguiendo este fragmento de código obtendrá rápidamente sus propias embeddings: 


In [None]:
print(modelo_skipgram)
palabras = list(modelo_skipgram.wv.index_to_key)
print(palabras)

vector_dog = modelo_skipgram.wv['dog']

# Opción 2: Usar el método `.get_vector()`
vector_dog = modelo_skipgram.wv.get_vector('dog')

print(vector_dog)

In [None]:
#Calculamos la similaridad
print("Similaridad entre eats y  bites:",modelo_skipgram.wv.similarity('eats', 'bites'))
print("Similaridad entre eats y  man:",modelo_skipgram.wv.similarity('eats', 'man'))

In [None]:
from gensim.test.utils import common_texts
modelo_w =Word2Vec(common_texts, vector_size=10, window=5, min_count=1, workers=4)
modelo_w.save("modelo_ws.w2v")

print(modelo_w.wv.most_similar("computer", topn=4))
print(modelo_w.wv.get_vector('computer'))

**Ejercicios**

1.Experimenta con otras palabras y guarda el modelo.

In [None]:
## Tu respuesta

2.Entrena un modelo Word2Vec en modo CBOW con un corpus de texto de tu elección.

In [None]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# Ejemplo de corpus: lista de frases
corpus = [
    "Gensim es una biblioteca de modelado de temas de Python.",
    "Gensim incluye implementaciones de Word2Vec, Doc2Vec, y otros modelos.",
    "Los embeddings de palabras son útiles para tareas de procesamiento de lenguaje natural."
]

# Preprocesamiento simple y tokenización
corpus_tokenizado = [simple_preprocess(doc) for doc in corpus]

# Entrenar un modelo Word2Vec en modo CBOW (sg=0)
modelo_cbow = Word2Vec(sentences=corpus_tokenizado, vector_size=100, window=5, min_count=1, workers=4, sg=0)

# Guardar el modelo
modelo_cbow.save("modelo_cbow.word2vec")

# Imprimir las palabras más similares a 'gensim'
print(modelo_cbow.wv.most_similar('gensim'))


3 . Entrena un modelo Word2Vec en modo Skip-gram con el mismo corpus.

In [None]:
# Usando el mismo corpus_tokenizado del ejercicio anterior

# Entrenar un modelo Word2Vec en modo Skip-gram (sg=1)
modelo_skipgram = Word2Vec(sentences=corpus_tokenizado, vector_size=100, window=5, min_count=1, workers=4, sg=1)

# Guardar el modelo
modelo_skipgram.save("modelo_skipgram.word2vec")

# Imprimir las palabras más similares a 'word2vec'
print(modelo_skipgram.wv.most_similar('word2vec'))


4 . Carga un modelo de embeddings preentrenado y utiliza para encontrar palabras similares. Debes descargar un conjunto de embeddings preentrenados como Google News vectors o cualquier otro de tu elección y proporcionar la ruta correcta al cargarlo.

In [None]:
from gensim.models import KeyedVectors

# Cargar embeddings preentrenados (reemplazar 'path_to_embeddings' con la ruta real)
# Asegúrate de tener el archivo .bin o el formato correcto del modelo que estás cargando
modelo_preentrenado = KeyedVectors.load_word2vec_format('path_to_embeddings.bin', binary=True)

# Imprimir las palabras más similares a 'king'
print(modelo_preentrenado.most_similar('king'))


In [None]:
## Tus respuestas

¿Existe alguna forma de utilizar embeddings de palabras para obtener representaciones de características para unidades de texto más grandes? 

In [None]:
!python -m spacy download en_core_web_md

El siguiente código muestra cómo obtener la representación vectorial de texto promediando vectores de palabras usando la biblioteca spaCy:

In [None]:
import spacy

%time 
nlp = spacy.load('en_core_web_md')

doc1 = nlp("Canada is a large country")
#print(doc[0].vector) #vector para 'Canada', la primera palabra en el texto
print(doc1.vector)# Vector promedio para toda la oracion

¿Qué sucede cuando doy una oración con palabras extrañas e intento obtener su vector de palabras en Spacy?


In [None]:
#temp = nlp('practicalnlp is a newword')
#temp[0].vector

### Vectores de documentos

Doc2vec nos permite aprender directamente las representaciones de textos de longitud arbitraria (frases, oraciones, párrafos y documentos), teniendo en cuenta el contexto de las palabras del texto.

Esto es similar a Word2vec en términos de su arquitectura general, excepto que, además de los vectores de palabras, también aprende un "vector de párrafo" que aprende una representación del texto completo (es decir, con palabras en contexto). Cuando se aprende con un corpus grande de muchos textos, los vectores de párrafo son únicos para un texto determinado (donde "texto" puede significar cualquier fragmento de texto de longitud arbitraria), mientras que los vectores de palabras se compartirán en todos los textos.  


Hay dos arquitecturas del modelo Doc2Vec, que es una extensión de Word2Vec diseñada para generar representaciones vectoriales no solo para palabras sino también para piezas de texto más grandes como oraciones, párrafos y documentos. Estas representaciones vectoriales son útiles para muchas tareas de procesamiento del lenguaje natural, como la clasificación de textos y la búsqueda semántica. Aquí están las dos arquitecturas: 

**Memoria distribuida (DM)**: 

En el modelo DM de Doc2Vec, cada palabra y el párrafo (o documento) entero tienen su propio vector de aprendizaje único en una "Paragraph Matrix" y en una "Word Matrix", respectivamente. 

Durante el entrenamiento, el modelo intenta predecir la siguiente palabra en un contexto dada una ventana de palabras y el vector único del párrafo/documento. 

Los vectores de las palabras y del párrafo se pueden promediar o concatenar antes de enviarlos a una capa de clasificador, que intenta predecir la palabra siguiente. 

El objetivo es que al final del entrenamiento, el vector del párrafo capture la esencia del texto, lo que hace posible usar este vector para tareas de clasificación o comparación de similitud. 

**Bolsa de palabras distribuidas (DBOW)**: 

El modelo DBOW funciona de manera inversa al DM. Ignora el contexto de las palabras y, en su lugar, fuerza al modelo a predecir las palabras en un párrafo/documento dada solo la identificación del párrafo (es decir, su vector único). 

No hay una capa de promedio o concatenación; el modelo directamente predice las palabras a partir del vector del párrafo. 

Al igual que en el modelo DM, el vector del párrafo se entrena para representar el contenido completo del párrafo/documento. 

DBOW es eficaz para grandes conjuntos de datos donde la semántica puede ser capturada incluso sin el orden exacto de las palabras. 

Ambos métodos son útiles para aprender representaciones vectoriales que reflejan el significado de los párrafos o documentos, aunque capturan diferentes aspectos de los datos: DM toma en cuenta el orden de las palabras, mientras que DBOW se centra en la ocurrencia de las palabras. Estos vectores resultantes pueden ser utilizados en diversas tareas, tales como agrupación de documentos, clasificación y búsqueda por similitud semántica. 

In [None]:
!python -m spacy download en_core_web_sm

In [None]:
import spacy
nlp = spacy.load("en_core_web_sm") 

Supongamos que cada frase de los documentos corresponde a un documento independiente y iteramos sobre cada documento e iniciar una instancia de NLP.

In [None]:
documentos = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
docs_procesados = [doc.lower().replace(".","") for doc in documentos]
docs_procesados

print("Documento despues del preprocesamiento:",docs_procesados)

for doc in docs_procesados:
    doc_nlp = nlp(doc)
    
    print("-"*30)
    print("Vector promedio de '{}'\n".format(doc),doc_nlp.vector)
    for token in doc_nlp:
        print()
        print(token.text,token.vector)# esto da el texto de cada palabra en el doc y sus valores respectivos.



###  Ejercicios

Entrena modelos Doc2Vec utilizando ambas arquitecturas, DM y DBOW, y compara su desempeño en una tarea de similitud de documentos.

In [None]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# Preparación de datos: Tagging de cada documento en el corpus
documentos = [TaggedDocument(doc, [i]) for i, doc in enumerate(corpus)]

# DM
modelo_dm = Doc2Vec(documents=documentos, vector_size=100, window=5, min_count=1, dm=1)
modelo_dm.save("modelo_dm.doc2vec")

# DBOW
modelo_dbow = Doc2Vec(documents=documentos, vector_size=100, window=5, min_count=1, dm=0)
modelo_dbow.save("modelo_dbow.doc2vec")

# Escoge un documento y compara los documentos más similares desde ambos modelos
doc_id = 0  # Asumiendo que quieres comprobar el primer documento del corpus
print("DM Similar:", modelo_dm.dv.most_similar([modelo_dm[doc_id]]))
print("DBOW Similar:", modelo_dbow.dv.most_similar([modelo_dbow[doc_id]]))


In [None]:
# Tu respuesta

### Doc2vec usando gensim

In [None]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import word_tokenize
from pprint import pprint
import nltk
nltk.download("punkt")

In [None]:
documentos = ["Dog bites man.", 
              "Man bites dog.", 
              "Dog eats meat.", 
              "Man eats food."]
documentos_etiquetados = [TaggedDocument(words=word_tokenize(word.lower()), tags=[str(i)]) for i, word in enumerate(documentos)]

In [None]:
documentos_etiquetados

Aplicando el modelo dbow

In [None]:
modelo_dbow = Doc2Vec(documentos_etiquetados, vector_size=20, min_count=1, epochs=2, dm=0 )

In [None]:
print(modelo_dbow.infer_vector(['man', 'food', 'eats']))

In [None]:
modelo_dbow.wv.most_similar("food", topn=6)

In [None]:
modelo_dbow.wv.n_similarity(["man"],["dog"])

Trabajando con el modelo DM.

In [None]:
modelo_dm = Doc2Vec(documentos_etiquetados, min_count=1, vector_size=20, epochs=2, dm=1)
modelo_dm.infer_vector(["man", "eats", "food"])
modelo_dm.wv.most_similar("dog", topn=5)
modelo_dm.wv.n_similarity(["man"],["dog"])

¿Qué pasa cuando comparamos palabras que no estan el vocabulario?

In [None]:
modelo_dm.wv.n_similarity(["covid"],["man"])