## Representaciones distribuidas

Las representaciones distribuidas en el contexto del procesamiento del lenguaje natural (NLP) y el aprendizaje automático se refieren a una forma de representar palabras o entidades como vectores de características continuas en un espacio vectorial de alta dimensión. Esta metodología contrasta con las representaciones discretas o locales, como los métodos de bolsa de palabras o one-hot encoding, donde cada palabra se representa como un vector único en un espacio de dimensiones muy grandes, con un solo elemento igual a 1 (representando la presencia de la palabra) y el resto igual a 0.

La idea clave detrás de las representaciones distribuidas es que las palabras se representan mediante patrones de características numéricas, de tal manera que las similitudes semánticas y sintácticas entre las palabras se reflejan en la cercanía de sus vectores correspondientes en el espacio vectorial. En otras palabras, palabras con significados o usos similares tendrán representaciones vectoriales similares.

Las representaciones distribuidas han revolucionado la manera en que las máquinas entienden el lenguaje humano, permitiendo avances significativos en tareas de NLP como traducción automática, análisis de sentimientos, clasificación de texto, y muchas otras, gracias a su capacidad para capturar y utilizar la rica información semántica y sintáctica del lenguaje.
Utilizan arquitecturas de redes neuronales para crear representaciones densas y de baja dimensión de palabras y textos. Pero antes de analizar estos métodos, debemos comprender algunos términos clave: 

  
- Similitud distributiva: Ésta es la idea de que el significado de una palabra puede entenderse a partir del contexto en el que aparece. Esto también se conoce como connotación: el significado se define por el contexto. Esto se opone a la denotación: el significado literal de cualquier palabra. Por ejemplo: " NLP rocks ". El significado literal de la palabra "rocks" es "piedras", pero por el contexto, se usa para referirse a algo bueno y de moda. 

- Hipótesis distributiva: En lingüística, esto plantea la hipótesis de que las palabras que ocurren en contextos similares tienen significados similares. Por ejemplo, las palabras inglesas "dog" y "cat" aparecen en contextos similares. Por tanto, según la hipótesis distributiva, debe haber una gran similitud entre los significados de estas dos palabras. Ahora, siguiendo con VSM, el significado de una palabra está representado por el vector. Por lo tanto, si dos palabras aparecen a menudo en un contexto similar, entonces sus vectores de representación correspondientes también deben estar cerca uno del otro. 

- Representación distributiva: Se refiere a esquemas de representación que se obtienen en base a la distribución de palabras del contexto en el que aparecen. Estos esquemas se basan en hipótesis distributivas. La propiedad distributiva se induce a partir del contexto (vecindad textual). Matemáticamente, los esquemas de representación distributiva utilizan vectores de alta dimensión para representar palabras. Estos vectores se obtienen a partir de una matriz de coocurrencia que captura la coocurrencia de palabra y contexto. La dimensión de esta matriz es igual al tamaño del vocabulario del corpus. Los cuatro esquemas que hemos visto hasta ahora (one-hot, bolsa de palabras, bolsa de n-gramas y TF-IDF) caen bajo el paraguas de la representación distributiva. 

- Representación distribuida: Este es un concepto relacionado. También se basa en la hipótesis distributiva. Como se analizó en el párrafo anterior, los vectores en representación distributiva son dispersos y de muy altas dimensiones. Esto los hace computacionalmente ineficientes y dificulta el aprendizaje. Para aliviar esto, los esquemas de representación distribuida comprimen significativamente la dimensionalidad. Esto da como resultado vectores que son compactos (es decir, de baja dimensión) y densos (es decir, casi sin ceros). El espacio vectorial resultante se conoce como representación distribuida. Todos los esquemas posteriores que analizaremos en esta clase son ejemplos de representación distribuida. 

- Embeddings: Para el conjunto de palabras en un corpus, el embedding es un mapeo entre el espacio vectorial proveniente de la representación distributiva y el espacio vectorial proveniente de la representación distribuida. 

- Semántica vectorial: Esto se refiere al conjunto de métodos de NLP que tienen como objetivo aprender las representaciones de palabras basadas en las propiedades distributivas de las palabras en un corpus grande. 




### Características Principales

Veamos algunos características de estos métodos:

- A diferencia de las representaciones locales, las distribuidas pueden capturar relaciones complejas entre palabras, como sinónimos, antónimos o términos que suelen aparecer en contextos similares.

- Al representar palabras como vectores de tamaño fijo en un espacio continuo, se reduce la dimensionalidad del problema comparado con métodos de representación más simples pero de alta dimensionalidad, como el one-hot encoding.

- Estos modelos pueden generalizar para entender palabras nuevas o raras a partir de sus componentes (por ejemplo, entender palabras compuestas a partir de los significados de sus partes).

**Ejemplos y modelos**

- Word2Vec: Probablemente el ejemplo más conocido de representaciones distribuidas. Word2Vec utiliza redes neuronales para aprender representaciones vectoriales de palabras a partir de grandes conjuntos de datos de texto. Ofrece dos arquitecturas principales: CBOW (Continuous Bag of Words) y Skip-gram, cada una diseñada para aprender representaciones que predigan palabras en función de sus contextos o viceversa.

- GloVe (Global Vectors for Word Representation): Un modelo que aprende representaciones de palabras a partir de las estadísticas co-ocurrenciales de palabras en un corpus. La idea es que las relaciones semánticas entre palabras pueden ser capturadas observando qué tan frecuentemente aparecen juntas en un gran corpus.

- Embeddings Contextuales: Modelos más recientes como ELMo, BERT y GPT ofrecen una evolución de las representaciones distribuidas, generando vectores de palabras que varían según el contexto en el que aparecen, lo que permite capturar usos y significados múltiples de una misma palabra dependiendo de la oración en la que se encuentre.

### Embeddings de palabras

Los embeddings de palabras son representaciones vectoriales densas y de baja dimensión de palabras, diseñadas para capturar el significado semántico, sintáctico y relaciones entre ellas. A diferencia de las representaciones de texto más antiguas, como el one-hot encoding, que son dispersas (la mayoría de los valores son cero) y de alta dimensión, los embeddings de palabras se representan en un espacio vectorial continuo donde palabras con significados similares están ubicadas cercanamente en el espacio vectorial.

**Características de los embeddings de palabras**

- Cada palabra se representa como un vector denso, lo que significa que cada dimensión tiene un valor real, a diferencia de los vectores dispersos de otras técnicas de representación.

- Los embeddings generalmente tienen un tamaño de dimensión fijo y relativamente pequeño (por ejemplo, 100, 200, 300 dimensiones) independientemente del tamaño del vocabulario.

- Estos vectores intentan capturar el contexto y el significado de una palabra, no solo su presencia o ausencia. Palabras que se usan en contextos similares tendrán embeddings similares.

- Pueden ayudar a los modelos de aprendizaje automático a generalizar mejor a palabras no vistas durante el entrenamiento, dado que las palabras con significados similares se mapean a puntos cercanos en el espacio vectorial.


En 2013, un trabajo fundamental de Mikolov [Efficient Estimationof Word Representations in Vector Space](https://arxiv.org/abs/1301.3781) demostraron que su modelo de representación de palabras basado en una red neuronal conocido como `Word2vec`, basado en la `similitud distributiva`, puede capturar relaciones de analogía de palabras como: 

$$King - Man + Woman \approx Queen$$

Conceptualmente, Word2vec toma un gran corpus de texto como entrada y "aprende" a representar las palabras en un espacio vectorial común en función de los contextos en los que aparecen en el corpus.


#### Embeddings de palabras pre-entrenadas

El siguente es un ejemplo de cómo cargar embeddings de Word2vec previamente entrenadas y buscar las palabras más similares (clasificadas por similitud de coseno) a una palabra determinada. 

Tomemos un ejemplo de un modelo word2vec previamente entrenado y cómo podemos usarlo para buscar la mayoría de las palabras similares. Usaremos los embeddings de vectores de Google News. https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM

Se pueden encontrar algunos otros modelos de embeddings de palabras previamente entrenados y detalles sobre los medios para acceder a ellos a través de gensim en: https://github.com/RaRe-Technologies/gensim-data

El código que sigue cubre los pasos clave. Aquí encontramos las palabras que semánticamente son más similares a la palabra “beautiful”; la última línea devuelve el vector de embeddings de la palabra " beautiful ":

In [1]:
pip install gdown

[33mDEPRECATION: swifter 1.0.7 has a non-standard dependency specifier ipywidgets>=7.0.0cloudpickle>=0.2.2. pip 24.1 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of swifter or contact the author to suggest that they release a version with a conforming dependency specifiers. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [2]:
import gdown
import gzip
import shutil

# URL de Google Drive
url = 'https://drive.google.com/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM'

# Ruta donde se guardará el archivo comprimido descargado
ruta_descarga = "GoogleNews-vectors-negative300.bin.gz"

# Ruta del archivo descomprimido
ruta_extraccion = "GoogleNews-vectors-negative300.bin"

# Descargar el archivo usando gdown
gdown.download(url, ruta_descarga, quiet=False)

# Descomprimir el archivo   
with gzip.open(ruta_descarga, 'rb') as f_in:
    with open(ruta_extraccion, 'wb') as f_out:
        shutil.copyfileobj(f_in, f_out)

print(f"Archivo descomprimido en {ruta_extraccion}")

Downloading...
From (original): https://drive.google.com/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM
From (redirected): https://drive.google.com/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM&confirm=t&uuid=21699b2d-86ae-4413-8ac3-4e90599adf85
To: /home/clara/Desktop/GoogleNews-vectors-negative300.bin.gz
100%|██████████| 1.65G/1.65G [01:11<00:00, 23.0MB/s]


Archivo descomprimido en GoogleNews-vectors-negative300.bin


In [3]:
import warnings
import os
warnings.filterwarnings("ignore") 

import psutil 
procesos = psutil.Process(os.getpid())
from psutil import virtual_memory
memoria = virtual_memory()

import time 

Realizamos algunos cálculos del uso de los datos descargados:

In [4]:
from gensim.models import Word2Vec, KeyedVectors
pretrainedpath = ruta_extraccion

#Se carga el modelo W2V. 
pre = procesos.memory_info().rss
print("Memoria usada en GB antes de cargar el modelo: %0.2f"%float(pre/(10**9))) 
print('-'*10)

tiempo_inicio = time.time() 
ttl = memoria.total 

w2v_modelo = KeyedVectors.load_word2vec_format(pretrainedpath, binary=True) 
print("%0.2f segundos para tomar"%float(time.time() - tiempo_inicio)) 
print('-'*10)

print('Finalizacion de cargar  Word2Vec')
print('-'*10)

post = procesos.memory_info().rss
print("Memoria usada en GB despues de cargar el modelo: {:.2f}".format(float(post/(10**9))))
print('-'*10)
print("Aumento porcentual en el uso de memoria: {:.2f}% ".format(float((post/pre)*100))) 
print('-'*10)

print("Numero de palabras en el vocabulario: ",len(w2v_modelo.index_to_key))

Memoria usada en GB antes de cargar el modelo: 0.16
----------
46.18 segundos para tomar
----------
Finalizacion de cargar  Word2Vec
----------
Memoria usada en GB despues de cargar el modelo: 4.29
----------
Aumento porcentual en el uso de memoria: 2669.03% 
----------
Numero de palabras en el vocabulario:  3000000


Examinemos el modelo sabiendo cuáles son las palabras más similares para una palabra determinada.


In [5]:
w2v_modelo.most_similar("beautiful")

[('gorgeous', 0.8353003263473511),
 ('lovely', 0.8106936812400818),
 ('stunningly_beautiful', 0.7329413294792175),
 ('breathtakingly_beautiful', 0.7231340408325195),
 ('wonderful', 0.6854085922241211),
 ('fabulous', 0.6700063943862915),
 ('loveliest', 0.6612576842308044),
 ('prettiest', 0.6595001816749573),
 ('beatiful', 0.6593326330184937),
 ('magnificent', 0.6591402888298035)]

In [6]:
w2v_modelo['beautiful']

array([-0.01831055,  0.05566406, -0.01153564,  0.07275391,  0.15136719,
       -0.06176758,  0.20605469, -0.15332031, -0.05908203,  0.22851562,
       -0.06445312, -0.22851562, -0.09472656, -0.03344727,  0.24707031,
        0.05541992, -0.00921631,  0.1328125 , -0.15429688,  0.08105469,
       -0.07373047,  0.24316406,  0.12353516, -0.09277344,  0.08203125,
        0.06494141,  0.15722656,  0.11279297, -0.0612793 , -0.296875  ,
       -0.13378906,  0.234375  ,  0.09765625,  0.17773438,  0.06689453,
       -0.27539062,  0.06445312, -0.13867188, -0.08886719,  0.171875  ,
        0.07861328, -0.10058594,  0.23925781,  0.03808594,  0.18652344,
       -0.11279297,  0.22558594,  0.10986328, -0.11865234,  0.02026367,
        0.11376953,  0.09570312,  0.29492188,  0.08251953, -0.05444336,
       -0.0090332 , -0.0625    , -0.17578125, -0.08154297,  0.01062012,
       -0.04736328, -0.08544922, -0.19042969, -0.30273438,  0.07617188,
        0.125     , -0.05932617,  0.03833008, -0.03564453,  0.24

In [7]:
w2v_modelo.most_similar("Toronto")

[('Montreal', 0.784034013748169),
 ('Calgary', 0.7214041352272034),
 ('Ottawa', 0.7206088304519653),
 ('Edmonton', 0.7140310406684875),
 ('Winnipeg', 0.7064762711524963),
 ('Vancouver', 0.6859602928161621),
 ('Mississauga', 0.6640441417694092),
 ('Guelph', 0.6620159149169922),
 ('Saskatoon', 0.6398695707321167),
 ('Etobicoke', 0.6206150054931641)]

In [8]:
w2v_modelo['practicaNLP']

KeyError: "Key 'practicaNLP' not present"

¿Qué pasa si busco una palabra que no está en este vocabulario?:
`w2v_modelo['practicalnlp']`

In [None]:
# Tu respuesta

Dos cosas a tener en cuenta al utilizar modelos previamente entrenados:

* Los tokens/palabras siempre están en minúsculas. Si una palabra no está en el vocabulario, el modelo genera una excepción.
* Por lo tanto, siempre es una buena idea encapsular esas declaraciones en bloques `try/except`.

### Entrenando nuestros embeddings 

Ahora nos centraremos en entrenar nuestras propias embeddings de palabras. Para ello, veremos dos variantes arquitectónicas propuestas en el enfoque original de Word2vec. Las dos variantes son: 

* Bolsa continua de palabras (CBOW) 

* Skip-Gram 

Para utilizar los algoritmos CBOW y SkipGram en la práctica, hay varias implementaciones disponibles que nos abstraen los detalles matemáticos. Una de las implementaciones más utilizadas es [gensim](https://github.com/piskvorky/gensim). 

#### CBOW

El modelo Continuous Bag of Words (CBOW) es uno de los dos enfoques arquitectónicos propuestos por Mikolov  para aprender representaciones vectoriales de palabras, también conocidos como embeddings de palabras.

Este modelo predice una palabra objetivo (la palabra central) a partir de un conjunto dado de palabras de contexto que la rodean en una frase o un párrafo. El "contexto" se refiere generalmente a las `n` palabras antes y después de la palabra objetivo en una ventana específica de tamaño `2n+1`, excluyendo la palabra objetivo.

Por ejemplo, en la oración `el gato come pescado`, si queremos predecir la palabra `come` utilizando un contexto de tamaño 1, las palabras de contexto serían `["gato", "pescado"]`.

In [10]:
from gensim.models import Word2Vec
import warnings
warnings.filterwarnings('ignore')

Al definir datos de entrenamiento, Genism word2vec requiere que se proporcione un formato de "lista de listas" para el entrenamiento donde cada documento esté contenido en una lista. Cada lista contiene listas de tokens de ese documento.

In [11]:
corpus = [['dog','bites','man'], ["man", "bites" ,"dog"],["dog","eats","meat"],["man", "eats","food"]]

#entrenando el modelo
modelo_cbow = Word2Vec(corpus, min_count=1,sg=0) #usando la arquitectura CBOW para entrenamiento
modelo_skipgram = Word2Vec(corpus, min_count=1,sg=1)#usando la arquitectura skipGram para entrenamiento 

In [12]:
print(modelo_cbow)

Word2Vec<vocab=6, vector_size=100, alpha=0.025>


En CBOW, la tarea principal es construir un modelo de lenguaje que prediga correctamente la palabra central dadas las palabras de contexto en las que aparece esa palabra.

In [13]:
# Acceder al vocabulario
palabras = list(modelo_cbow.wv.index_to_key)

# Acceder al vector para una palabra específica correctamente
vector_dog=modelo_cbow.wv.get_vector('dog')
# Otra manera válida pero menos explícita es modelo_cbow.wv['dog']
# Completa
print(vector_dog)

[-8.6196875e-03  3.6657380e-03  5.1898835e-03  5.7419371e-03
  7.4669169e-03 -6.1676763e-03  1.1056137e-03  6.0472824e-03
 -2.8400517e-03 -6.1735227e-03 -4.1022300e-04 -8.3689503e-03
 -5.6000138e-03  7.1045374e-03  3.3525396e-03  7.2256685e-03
  6.8002464e-03  7.5307419e-03 -3.7891555e-03 -5.6180713e-04
  2.3483753e-03 -4.5190332e-03  8.3887316e-03 -9.8581649e-03
  6.7646410e-03  2.9144168e-03 -4.9328329e-03  4.3981862e-03
 -1.7395759e-03  6.7113829e-03  9.9648498e-03 -4.3624449e-03
 -5.9933902e-04 -5.6956387e-03  3.8508223e-03  2.7866268e-03
  6.8910765e-03  6.1010956e-03  9.5384959e-03  9.2734173e-03
  7.8980681e-03 -6.9895051e-03 -9.1558648e-03 -3.5575390e-04
 -3.0998420e-03  7.8943158e-03  5.9385728e-03 -1.5456629e-03
  1.5109634e-03  1.7900396e-03  7.8175711e-03 -9.5101884e-03
 -2.0553112e-04  3.4691954e-03 -9.3897345e-04  8.3817719e-03
  9.0107825e-03  6.5365052e-03 -7.1162224e-04  7.7104042e-03
 -8.5343365e-03  3.2071066e-03 -4.6379971e-03 -5.0889566e-03
  3.5896183e-03  5.37033

In [16]:
#Calculamos la similaridad
print("La similaridad entre eats y bites es:", modelo_cbow.wv.similarity('eats', 'bites'))
print("La similaridas entre eats y man es:", modelo_cbow.wv.similarity('eats', 'man'))

La similaridad entre eats y bites es: -0.013497107
La similaridas entre eats y man es: -0.052354384


In [17]:
modelo_cbow.wv.most_similar('meat')

[('food', 0.13887983560562134),
 ('bites', 0.13149003684520721),
 ('eats', 0.06422409415245056),
 ('dog', 0.009391188621520996),
 ('man', -0.05987628176808357)]

In [18]:
# Guardando el modelo
modelo_cbow.save('modelo_cbow.bin')

# cargando el modelo
nuevo_modelo_cbow = Word2Vec.load('modelo_cbow.bin')
print(nuevo_modelo_cbow)

Word2Vec<vocab=6, vector_size=100, alpha=0.025>


### SkipGram

Continuous Bag of Words (CBOW) y Skip-gram  son dos arquitecturas del modelo Word2Vec desarrolladas por Mikolov  para generar representaciones vectoriales densas de palabras, conocidas como embeddings. Estos embeddings capturan relaciones semánticas y sintácticas entre palabras basadas en su co-ocurrencia en grandes corpus de texto. 

Ambas arquitecturas utilizan una red neuronal poco profunda para aprender estas representaciones, pero difieren en la forma en que están estructuradas y en cómo aprenden de los datos.

La arquitectura Skip-gram predice las palabras de contexto (palabras circundantes) dada una palabra objetivo. Por ejemplo, si consideramos la frase `El rápido zorro marrón`, y nuestra palabra objetivo es `rápido`, con un tamaño de ventana de contexto de 2, Skip-gram intentaría predecir `El`, `zorro`, `marrón` a partir de `rápido`. Esto significa que para cada palabra objetivo en el corpus, se generan muestras de entrenamiento al emparejarla con las palabras de contexto dentro de una ventana específica alrededor de ella.

Recuerda la arquitectura CBOW, por otro lado, hace lo opuesto: predice la palabra objetivo a partir de las palabras de contexto. Utilizando el mismo ejemplo anterior, CBOW tomaría `El`, `zorro`, `marrón` como entrada para predecir `rápido`. 

En esencia, CBOW promedia las palabras de contexto (o las suma, dependiendo de la implementación) para predecir la palabra en el centro de la ventana de contexto.

A pesar de la disponibilidad de varias implementaciones listas para usar, todavía tenemos que tomar decisiones sobre varios hiperparámetros (es decir, las variables que deben configurarse antes de comenzar el proceso de entrenamiento). Veamos dos ejemplos. 


- Dimensionalidad de los vectores de palabras: como su nombre lo indica, esto decide el espacio de las embeddings aprendidas. Si bien no existe un número ideal, es común construir vectores de palabras con dimensiones en el rango de 50 a 500 y evaluarlos en la tarea para la que los estamos usando para elegir la mejor opción. 

- Ventana contextual: Qué tan largo o corto es el contexto que buscamos para aprender la representación vectorial. 

También hay otras opciones que hacemos, como usar CBOW o SkipGram para aprender las embeddings. Estas elecciones son más un arte que una ciencia en este momento, y hay mucha investigación en curso sobre métodos para elegir los hiperparámetros correctos. 

Usando paquetes como gensim, es bastante sencillo desde el punto de vista del código implementar Word2vec. 

El siguiente código muestra cómo entrenar nuestro propio modelo Word2vec usando un corpus llamado `common_texts` que está disponible en gensim. Suponiendo que tiene el corpus para su dominio, siguiendo este fragmento de código obtendrá rápidamente sus propias embeddings: 


In [19]:
print(modelo_skipgram)
palabras = list(modelo_skipgram.wv.index_to_key)
print(palabras)

vector_dog = modelo_skipgram.wv['dog']

# Opción 2: Usar el método `.get_vector()`
vector_dog = modelo_skipgram.wv.get_vector('dog')

print(vector_dog)

Word2Vec<vocab=6, vector_size=100, alpha=0.025>
['man', 'dog', 'eats', 'bites', 'food', 'meat']
[-8.6196875e-03  3.6657380e-03  5.1898835e-03  5.7419371e-03
  7.4669169e-03 -6.1676763e-03  1.1056137e-03  6.0472824e-03
 -2.8400517e-03 -6.1735227e-03 -4.1022300e-04 -8.3689503e-03
 -5.6000138e-03  7.1045374e-03  3.3525396e-03  7.2256685e-03
  6.8002464e-03  7.5307419e-03 -3.7891555e-03 -5.6180713e-04
  2.3483753e-03 -4.5190332e-03  8.3887316e-03 -9.8581649e-03
  6.7646410e-03  2.9144168e-03 -4.9328329e-03  4.3981862e-03
 -1.7395759e-03  6.7113829e-03  9.9648498e-03 -4.3624449e-03
 -5.9933902e-04 -5.6956387e-03  3.8508223e-03  2.7866268e-03
  6.8910765e-03  6.1010956e-03  9.5384959e-03  9.2734173e-03
  7.8980681e-03 -6.9895051e-03 -9.1558648e-03 -3.5575390e-04
 -3.0998420e-03  7.8943158e-03  5.9385728e-03 -1.5456629e-03
  1.5109634e-03  1.7900396e-03  7.8175711e-03 -9.5101884e-03
 -2.0553112e-04  3.4691954e-03 -9.3897345e-04  8.3817719e-03
  9.0107825e-03  6.5365052e-03 -7.1162224e-04  7.7

In [20]:
#Calculamos la similaridad
print("Similaridad entre eats y  bites:",modelo_skipgram.wv.similarity('eats', 'bites'))
print("Similaridad entre eats y  man:",modelo_skipgram.wv.similarity('eats', 'man'))

Similaridad entre eats y  bites: -0.013518808
Similaridad entre eats y  man: -0.05234511


In [26]:
from gensim.test.utils import common_texts
modelo_w =Word2Vec(common_texts, vector_size=10, window=5, min_count=1, workers=4)
modelo_w.save("modelo_ws.w2v")

print(modelo_w.wv.most_similar("computer", topn=4))
print(modelo_w.wv.get_vector('computer'))

[('eps', 0.2914133071899414), ('trees', 0.055417995899915695), ('minors', 0.04264770820736885), ('survey', -0.02176349051296711)]
[ 0.01631949  0.00189972  0.03474648  0.0021784   0.09621626  0.05062076
 -0.08919987 -0.07043611  0.00901718  0.06394394]


**Ejercicios**

1.Experimenta con otras palabras y guarda el modelo.

In [None]:
## Tu respuesta

2.Entrena un modelo Word2Vec en modo CBOW con un corpus de texto de tu elección.

In [None]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# Ejemplo de corpus: lista de frases
corpus = [
    "Gensim es una biblioteca de modelado de temas de Python.",
    "Gensim incluye implementaciones de Word2Vec, Doc2Vec, y otros modelos.",
    "Los embeddings de palabras son útiles para tareas de procesamiento de lenguaje natural."
]

# Preprocesamiento simple y tokenización
corpus_tokenizado = [simple_preprocess(doc) for doc in corpus]

# Entrenar un modelo Word2Vec en modo CBOW (sg=0)
modelo_cbow = Word2Vec(sentences=corpus_tokenizado, vector_size=100, window=5, min_count=1, workers=4, sg=0)

# Guardar el modelo
modelo_cbow.save("modelo_cbow.word2vec")

# Imprimir las palabras más similares a 'gensim'
print(modelo_cbow.wv.most_similar('gensim'))


3 . Entrena un modelo Word2Vec en modo Skip-gram con el mismo corpus.

In [None]:
# Usando el mismo corpus_tokenizado del ejercicio anterior

# Entrenar un modelo Word2Vec en modo Skip-gram (sg=1)
modelo_skipgram = Word2Vec(sentences=corpus_tokenizado, vector_size=100, window=5, min_count=1, workers=4, sg=1)

# Guardar el modelo
modelo_skipgram.save("modelo_skipgram.word2vec")

# Imprimir las palabras más similares a 'word2vec'
print(modelo_skipgram.wv.most_similar('word2vec'))


4 . Carga un modelo de embeddings preentrenado y utiliza para encontrar palabras similares. Debes descargar un conjunto de embeddings preentrenados como Google News vectors o cualquier otro de tu elección y proporcionar la ruta correcta al cargarlo.

In [None]:
from gensim.models import KeyedVectors

# Cargar embeddings preentrenados (reemplazar 'path_to_embeddings' con la ruta real)
# Asegúrate de tener el archivo .bin o el formato correcto del modelo que estás cargando
modelo_preentrenado = KeyedVectors.load_word2vec_format('path_to_embeddings.bin', binary=True)

# Imprimir las palabras más similares a 'king'
print(modelo_preentrenado.most_similar('king'))


In [None]:
## Tus respuestas

¿Existe alguna forma de utilizar embeddings de palabras para obtener representaciones de características para unidades de texto más grandes? 

In [None]:
!python -m spacy download en_core_web_md

El siguiente código muestra cómo obtener la representación vectorial de texto promediando vectores de palabras usando la biblioteca spaCy:

In [None]:
import spacy

%time 
nlp = spacy.load('en_core_web_md')

doc1 = nlp("Canada is a large country")
#print(doc[0].vector) #vector para 'Canada', la primera palabra en el texto
print(doc1.vector)# Vector promedio para toda la oracion

¿Qué sucede cuando doy una oración con palabras extrañas e intento obtener su vector de palabras en Spacy?


In [None]:
#temp = nlp('practicalnlp is a newword')
#temp[0].vector

### Vectores de documentos

Doc2vec nos permite aprender directamente las representaciones de textos de longitud arbitraria (frases, oraciones, párrafos y documentos), teniendo en cuenta el contexto de las palabras del texto.

Esto es similar a Word2vec en términos de su arquitectura general, excepto que, además de los vectores de palabras, también aprende un "vector de párrafo" que aprende una representación del texto completo (es decir, con palabras en contexto). Cuando se aprende con un corpus grande de muchos textos, los vectores de párrafo son únicos para un texto determinado (donde "texto" puede significar cualquier fragmento de texto de longitud arbitraria), mientras que los vectores de palabras se compartirán en todos los textos.  


Hay dos arquitecturas del modelo Doc2Vec, que es una extensión de Word2Vec diseñada para generar representaciones vectoriales no solo para palabras sino también para piezas de texto más grandes como oraciones, párrafos y documentos. Estas representaciones vectoriales son útiles para muchas tareas de procesamiento del lenguaje natural, como la clasificación de textos y la búsqueda semántica. Aquí están las dos arquitecturas: 

**Memoria distribuida (DM)**: 

En el modelo DM de Doc2Vec, cada palabra y el párrafo (o documento) entero tienen su propio vector de aprendizaje único en una "Paragraph Matrix" y en una "Word Matrix", respectivamente. 

Durante el entrenamiento, el modelo intenta predecir la siguiente palabra en un contexto dada una ventana de palabras y el vector único del párrafo/documento. 

Los vectores de las palabras y del párrafo se pueden promediar o concatenar antes de enviarlos a una capa de clasificador, que intenta predecir la palabra siguiente. 

El objetivo es que al final del entrenamiento, el vector del párrafo capture la esencia del texto, lo que hace posible usar este vector para tareas de clasificación o comparación de similitud. 

**Bolsa de palabras distribuidas (DBOW)**: 

El modelo DBOW funciona de manera inversa al DM. Ignora el contexto de las palabras y, en su lugar, fuerza al modelo a predecir las palabras en un párrafo/documento dada solo la identificación del párrafo (es decir, su vector único). 

No hay una capa de promedio o concatenación; el modelo directamente predice las palabras a partir del vector del párrafo. 

Al igual que en el modelo DM, el vector del párrafo se entrena para representar el contenido completo del párrafo/documento. 

DBOW es eficaz para grandes conjuntos de datos donde la semántica puede ser capturada incluso sin el orden exacto de las palabras. 

Ambos métodos son útiles para aprender representaciones vectoriales que reflejan el significado de los párrafos o documentos, aunque capturan diferentes aspectos de los datos: DM toma en cuenta el orden de las palabras, mientras que DBOW se centra en la ocurrencia de las palabras. Estos vectores resultantes pueden ser utilizados en diversas tareas, tales como agrupación de documentos, clasificación y búsqueda por similitud semántica. 

In [27]:
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m15.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[33mDEPRECATION: swifter 1.0.7 has a non-standard dependency specifier ipywidgets>=7.0.0cloudpickle>=0.2.2. pip 24.1 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of swifter or contact the author to suggest that they release a version with a conforming dependency specifiers. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0m[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [28]:
import spacy
nlp = spacy.load("en_core_web_sm") 

Supongamos que cada frase de los documentos corresponde a un documento independiente y iteramos sobre cada documento e iniciar una instancia de NLP.

In [29]:
documentos = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
docs_procesados = [doc.lower().replace(".","") for doc in documentos]
docs_procesados

print("Documento despues del preprocesamiento:",docs_procesados)

for doc in docs_procesados:
    doc_nlp = nlp(doc)
    
    print("-"*30)
    print("Vector promedio de '{}'\n".format(doc),doc_nlp.vector)
    for token in doc_nlp:
        print()
        print(token.text,token.vector)# esto da el texto de cada palabra en el doc y sus valores respectivos.



Documento despues del preprocesamiento: ['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']
------------------------------
Vector promedio de 'dog bites man'
 [-0.4645846  -0.8704827  -0.8797126   0.5601492   0.21902908 -0.13645978
  0.44058624  1.827665    0.16126743 -0.18749698  0.7041428  -0.3796244
 -0.37697935 -0.81970304 -0.6127835   0.70265275 -0.6612517  -0.19193421
  0.472255    0.08093234 -0.27145305 -0.01265816 -0.5408774  -0.34591904
  0.48944393  0.2113028   0.01028296  0.63884515  0.22854471 -0.12605749
 -0.03728535 -0.0155863   0.0091201   0.36559033 -0.84108526 -0.43349206
  0.26574     0.47921833  0.09730821 -0.16394196 -0.07839262 -0.03694795
 -0.4529426  -0.08880541 -0.38659295 -0.15151542  0.35047397  0.8556697
 -0.18897362 -0.16618592  0.10892     0.00644581  0.43828678 -0.4840901
 -0.01481809  0.0661923   1.2289283  -0.6374825   0.44061872 -0.01362112
 -0.40318158 -0.42995203 -0.1989394  -0.5829177  -0.31625822 -0.1792578
  0.17091231  0.3254232  

###  Ejercicio 

Entrena modelos Doc2Vec utilizando ambas arquitecturas, DM y DBOW, y compara su desempeño en una tarea de similitud de documentos.

In [None]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# Preparación de datos: Tagging de cada documento en el corpus
documentos = [TaggedDocument(doc, [i]) for i, doc in enumerate(corpus)]

# DM
modelo_dm = Doc2Vec(documents=documentos, vector_size=100, window=5, min_count=1, dm=1)
modelo_dm.save("modelo_dm.doc2vec")

# DBOW
modelo_dbow = Doc2Vec(documents=documentos, vector_size=100, window=5, min_count=1, dm=0)
modelo_dbow.save("modelo_dbow.doc2vec")

# Escoge un documento y compara los documentos más similares desde ambos modelos
doc_id = 0  # Asumiendo que quieres comprobar el primer documento del corpus
print("DM Similar:", modelo_dm.dv.most_similar([modelo_dm[doc_id]]))
print("DBOW Similar:", modelo_dbow.dv.most_similar([modelo_dbow[doc_id]]))


In [None]:
# Tu respuesta

### Doc2vec usando gensim

In [30]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import word_tokenize
from pprint import pprint
import nltk
nltk.download("punkt")

[nltk_data] Downloading package punkt to /home/clara/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [31]:
documentos = ["Dog bites man.", 
              "Man bites dog.", 
              "Dog eats meat.", 
              "Man eats food."]
documentos_etiquetados = [TaggedDocument(words=word_tokenize(word.lower()), tags=[str(i)]) for i, word in enumerate(documentos)]

In [32]:
documentos_etiquetados

[TaggedDocument(words=['dog', 'bites', 'man', '.'], tags=['0']),
 TaggedDocument(words=['man', 'bites', 'dog', '.'], tags=['1']),
 TaggedDocument(words=['dog', 'eats', 'meat', '.'], tags=['2']),
 TaggedDocument(words=['man', 'eats', 'food', '.'], tags=['3'])]

Aplicando el modelo dbow

In [33]:
modelo_dbow = Doc2Vec(documentos_etiquetados, vector_size=20, min_count=1, epochs=2, dm=0 )

In [34]:
print(modelo_dbow.infer_vector(['man', 'food', 'eats']))

[ 0.02416298 -0.0083937   0.02430472  0.00869157  0.00923718  0.00445012
 -0.01764159  0.0198998  -0.0186847   0.01969382 -0.01684111  0.01198323
 -0.0099582   0.01369533 -0.01277319  0.01277904 -0.01906677  0.01643007
 -0.00434805 -0.01253452]


In [35]:
modelo_dbow.wv.most_similar("food", topn=6)

[('.', 0.39641645550727844),
 ('meat', 0.06596561521291733),
 ('man', 0.06166548281908035),
 ('dog', -0.014377479441463947),
 ('bites', -0.15920130908489227),
 ('eats', -0.18240399658679962)]

In [38]:
modelo_dbow.wv.n_similarity(["man"],["dog"])

-0.11861518

Trabajando con el modelo DM.

In [39]:
modelo_dm = Doc2Vec(documentos_etiquetados, min_count=1, vector_size=20, epochs=2, dm=1)
modelo_dm.infer_vector(["man", "eats", "food"])
modelo_dm.wv.most_similar("dog", topn=5)
modelo_dm.wv.n_similarity(["man"],["dog"])

-0.11861518

¿Qué pasa cuando comparamos palabras que no estan el vocabulario?

In [43]:
modelo_dm.wv.n_similarity(["covid"],["man"])

0.0