| **Inicio** | **atrás 47** | **Siguiente 49** |
|----------- |-------------- |---------------|
| [🏠](../README.md) | [⏪](./47_TF-IDF.ipynb)| [⏩](./49_Poisson_Distribution.ipynb)|

# **48. Word2Vec**

**Word2Vec: Explicación Detallada**

**Introducción:**

Word2Vec es una técnica popular en procesamiento de lenguaje natural (PLN) que se utiliza para representar palabras como vectores densos en un espacio n-dimensional. Fue desarrollada por Tomas Mikolov y su equipo en Google. La idea principal es asignar representaciones vectoriales a las palabras de manera que las palabras con significados similares estén cercanas entre sí en el espacio vectorial.

**Terminología:**

- **Word Embeddings:** Representaciones vectoriales de palabras en un espacio n-dimensional.
  
- **Skip-gram y CBOW (Continuous Bag of Words):** Dos arquitecturas de modelos Word2Vec. Skip-gram predice contextos (palabras circundantes) a partir de una palabra dada, mientras que CBOW predice una palabra dada su contexto.

- **Contexto:** Palabras que rodean a una palabra objetivo en un cierto contexto.

**Formula Matemática (Skip-gram):**

Dado un par (contexto, palabra objetivo) representado como (c, o), la probabilidad de que la palabra objetivo sea o dada la palabra contexto c se puede expresar como:

$P(o|c) = \frac{e^{v_o \cdot v_c}}{\sum_{w \in V} e^{v_w \cdot v_c}}$

Donde:

- $( v_o )$ es el vector de la palabra objetivo.
- $( v_c )$ es el vector de la palabra contexto.
- $( \sum_{w \in V} )$ es la suma sobre todas las palabras en el vocabulario $( V )$.

El objetivo es ajustar los vectores $( v_o )$ y $( v_c )$ de manera que maximicen esta probabilidad.

**Ejemplo con Gensim en Python:**

In [1]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# Ejemplo de datos
sentences = [
    "Word embeddings represent words as vectors",
    "Word2Vec is a popular word embedding technique",
    "It captures semantic relationships between words",
]

# Tokenizar las oraciones
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]

# Entrenar el modelo Word2Vec
model = Word2Vec(sentences=tokenized_sentences, vector_size=3, window=2, min_count=1, workers=4)

# Obtener el vector de una palabra
vector_word_embeddings = model.wv['word']

# Imprimir el vector de la palabra 'word'
print("Vector de la palabra 'word':", vector_word_embeddings)

Vector de la palabra 'word': [-0.01787424  0.00788105  0.17011166]


Este ejemplo utiliza la biblioteca Gensim para entrenar un modelo Word2Vec en un pequeño conjunto de oraciones. El vector resultante para la palabra 'word' se obtiene mediante la consulta del modelo. El tamaño del vector se establece en 3 para este ejemplo. En aplicaciones prácticas, los vectores suelen tener dimensiones más altas (por ejemplo, 100, 300).

| **Inicio** | **atrás 47** | **Siguiente 49** |
|----------- |-------------- |---------------|
| [🏠](../README.md) | [⏪](./47_TF-IDF.ipynb)| [⏩](./49_Poisson_Distribution.ipynb)|