# Notebook del Curso completo de NLP Parte 5

Link al video de youtube:  
https://youtu.be/9x1QtYNLJRY?si=Kfyw__RcNZFu941R&t=6000


# Neural Network Embeddings

En el proceso de trabajar con textos en machine learning se debe transformar de texto a números, representados en vectores, que en el conjunto formarán matrices multidimensionales. Hasta ahora se abordó la vectorización de palabras, TF-IDF, pero nos queda por saber mucho más, en este nootebook algunas herramientas para reducir esa dimensionalidad y que sea eficiente con grandes volúmenes de texto.

## ¿Qué es embedding?
Embedding o incrustación es un medio para representar objetos como texto, imágenes y audio como puntos en un espacio vectorial continuo donde las ubicaciones de esos puntos en el espacio son semánticamente significativas para los algoritmos de machine learning (ML).

A diferencia de otras técnicas de machine learning (ML), las incrustaciones se aprenden de datos que utilizan diversos algoritmos, como redes neuronales, en lugar de requerir explícitamente experiencia humana para definir. Permiten que el modelo aprenda patrones y relaciones complejas en los datos, que de otro modo serían imposibles de identificar para los humanos.

##  Cómo funcionan las incrustaciones
La mayoría de los algoritmos de aprendizaje automático solo pueden tomar datos numéricos de baja dimensión como entradas. Por lo tanto, es necesario convertir los datos en un formato numérico. Esto puede implicar cosas como crear una representación de "bolsa de palabras" para datos de texto, convertir imágenes en valores de píxeles o transformar datos gráficos en una matriz numérica.

Los objetos que entran en un modelo incrustado se generan como incrustaciones, representados como vectores. Un vector es una matriz de números (p. ej. 1489, 22... 3, 777), donde cada número indica dónde se encuentra un objeto a lo largo de una dimensión especificada. El número de dimensiones puede llegar a mil o más dependiendo de la complejidad de los datos de entrada. Cuanto más cerca esté una incrustación de otras incrustaciones en este espacio n-dimensional, más similares serán. La similitud de distribución se determina por la longitud de los puntos vectoriales de un objeto al otro (medido según distancia euclidiana, coseno u otro).

## Implementación:

Se implementan típicamente como una capa de búsqueda (lookup table) dentro de una red neuronal. Esta capa es una matriz donde cada fila corresponde al vector (embedding) de un token o ID único.

Los valores de estos vectores se aprenden a través del proceso de entrenamiento de la red neuronal, ajustándose para minimizar una función de pérdida específica de la tarea.

## Ventajas:

Mejor generalización al transferir el conocimiento de palabras o conceptos similares.

Mayor eficiencia en el entrenamiento.



## Word2Vec

Word2Vec es un modelo predictivo desarrollado por Google que genera Word Embeddings (vectores de palabras) a partir de grandes corpus de texto. Se basa en la hipótesis distribucional: las palabras que aparecen en contextos similares tienen significados similares.

### ¿Cómo funciona?

Entrena una red neuronal simple de dos capas para realizar una tarea de predicción de contexto. La "magia" son los pesos de la capa oculta, que se convierten en los vectores de palabras.

### Tiene dos arquitecturas principales:

Skip-Gram: Predice las palabras de contexto a partir de una palabra de entrada. (Mejor para corpus pequeños y palabras poco frecuentes).

CBOW (Continuous Bag of Words): Predice la palabra objetivo a partir de las palabras de contexto que la rodean. (Más rápido de entrenar).

Propiedades clave:

Los vectores resultantes tienen propiedades algebraicas interesantes, permitiendo realizar analogías como:
- vector(’Rey’)−vector(’Hombre’)+vector(’Mujer’)≈vector(’Reina’).


## GloVe (Global Vectors for Word Representation)

GloVe es otro algoritmo para obtener Word Embeddings, desarrollado por la Universidad de Stanford. A diferencia de Word2Vec, que es un modelo puramente predictivo local, GloVe es un modelo basado en la factorización de matrices que combina información local y global.

### ¿Cómo funciona?

Se basa en el análisis de la Matriz de Co-ocurrencia de Palabras (X): Una matriz donde la entrada Xij​ cuenta cuántas veces la palabra j aparece en el contexto de la palabra i.

El modelo GloVe entrena los vectores para que satisfagan una relación: el producto punto de dos vectores de palabras (wiT​wj​) debe ser igual al logaritmo de su frecuencia de co-ocurrencia (log(Xij​)).

Minimiza una función de pérdida que depende de las frecuencias de co-ocurrencia, aprovechando así la información estadística global del corpus.

### Ventajas:

Combina las ventajas de los métodos basados en la predicción (como Word2Vec) y los métodos basados en la frecuencia/conteo (como la LSA, Latent Semantic Analysis), a menudo produciendo vectores con mejor rendimiento en tareas de analogía y similitud.

### Ejemplo en Python (Carga de Vectores Pre-entrenados)

GloVe se utiliza comúnmente cargando modelos pre-entrenados debido a los grandes recursos necesarios para entrenarlos desde cero. La librería Gensim se puede usar para cargarlos.


## Embeddings Contextuales

A pesar de su gran avance, modelos como Word2Vec y GloVe tienen una limitación fundamental: generan embeddings estáticos (o context-independent).

### La Limitación de los Embeddings Estáticos
En los modelos estáticos, a cada palabra se le asigna un único vector para todo el vocabulario del corpus, sin importar la frase o el contexto en el que aparezca.


Esta limitación se vuelve evidente en el manejo de la polisemia (palabras con múltiples significados) o la homografía (palabras que se escriben igual pero tienen diferente significado o función gramatical).

Ejemplo: La palabra "banco" tendrá el mismo vector en las siguientes dos oraciones:

"El banco central subió las tasas de interés." (Institución financiera).

"Vimos un banco de peces nadando juntos." (Grupo/cardumen).

Dado que el vector es fijo, el modelo estático no puede distinguir el significado específico de la palabra en la frase.

### La Evolución hacia los Embeddings Contextuales
Los Embeddings Contextuales (o context-dependent) representan la siguiente generación en la representación del lenguaje. Estos modelos abordan la limitación estática generando un vector para cada palabra que es dinámico y se ajusta según el contexto de la oración completa en la que aparece.

Esto permite que la palabra "banco" en la primera frase tenga un vector que la sitúe semánticamente cerca de "dinero" y "tasas", mientras que en la segunda frase tendrá un vector cercano a "peces" y "nadando".

### Modelos Clave:
El desarrollo de arquitecturas complejas, especialmente basadas en la arquitectura Transformer, ha permitido la creación de estos embeddings dinámicos:

ELMo (Embeddings from Language Models): Fue uno de los primeros en usar modelos de lenguaje bidireccionales profundos para crear embeddings que variaban según el contexto de la oración.

BERT (Bidirectional Encoder Representations from Transformers): Un modelo altamente influyente que utiliza la arquitectura Transformer para pre-entrenar representaciones profundas y bidireccionales, generando embeddings que capturan el contexto de manera excepcional.

## Demos


In [1]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m16.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0


In [2]:
from gensim.models import Word2Vec
from nltk.tokenize import sent_tokenize, word_tokenize
import nltk

nltk.download('stopwords')
nltk.download('punkt_tab')



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

1. Definir el Corpus de Texto
2. Preprocesamiento (Tokenización). Dividimos el texto en oraciones y luego en palabras.

In [3]:
# 1
corpus_raw = """
Word2Vec es una técnica en el procesamiento del lenguaje natural.
Aprende representaciones vectoriales de palabras a partir de grandes corpus.
Estas representaciones se llaman embeddings.
El modelo Word2Vec es una red neuronal muy simple.
Puede usarse para medir la similitud semántica entre palabras.
"""
# --- 2. Preprocesamiento (Tokenización) ---
sentences_raw = sent_tokenize(corpus_raw.lower())

# 2.2 Dividir cada oración en palabras (tokens)
tokenized_sentences = [word_tokenize(sentence) for sentence in sentences_raw]

print("--- Primeras 2 oraciones tokenizadas ---")
print(tokenized_sentences[:2])
print("----------------------------------------\n")

--- Primeras 2 oraciones tokenizadas ---
[['word2vec', 'es', 'una', 'técnica', 'en', 'el', 'procesamiento', 'del', 'lenguaje', 'natural', '.'], ['aprende', 'representaciones', 'vectoriales', 'de', 'palabras', 'a', 'partir', 'de', 'grandes', 'corpus', '.']]
----------------------------------------



3. Entrenamiento del Modelo Word2Vec
    - El entrenamiento de esta "red neuronal" produce los embeddings.
    - El resultado final son los pesos de la capa oculta.

In [4]:
# 3

# Parámetros clave:
# - vector_size: La dimensión del vector de embedding (la capa oculta).
# - window: El tamaño de la ventana de contexto (palabras alrededor de la palabra objetivo).
# - min_count: Ignora todas las palabras con una frecuencia total menor a este valor.
# - workers: Usa este número de hilos de trabajo para el entrenamiento.
# - sg (Skip-gram): 1 para Skip-Gram, 0 para CBOW (default). Skip-Gram funciona mejor para corpus pequeños.

model = Word2Vec(
    sentences=tokenized_sentences,
    vector_size=10,  # Dimensión de los embeddings (elegimos un número pequeño para el ejemplo)
    window=2,        # Ventana de 2 palabras a cada lado
    min_count=1,     # Incluir todas las palabras
    sg=1             # Usar Skip-Gram
)

print("--- Modelo Word2Vec entrenado ---")

# --- 4. Obtener y Utilizar los Embeddings ---

# a) Obtener el vector (embedding) de una palabra
word_vector_lenguaje = model.wv['lenguaje']
print(f"\nVector para 'lenguaje' (embedding):\n{word_vector_lenguaje}")
print(f"Dimensión del vector: {model.vector_size}")


# b) Encontrar palabras semánticamente similares
# El modelo busca los vectores más cercanos en el espacio de embeddings.
similar_words = model.wv.most_similar('lenguaje', topn=3)
print("\nPalabras más similares a 'lenguaje':")
for word, similarity in similar_words:
    print(f"- {word}: {similarity:.4f}")


# c) Analogías vectoriales (ejemplo famoso)
# La operación se realiza sobre los vectores: Rey - Hombre + Mujer ≈ Reina
# Aunque en nuestro corpus pequeño puede no funcionar bien:
try:
    analogy = model.wv.most_similar(positive=['procesamiento', 'vectorial'], negative=['natural'], topn=1)
    print(f"\nAnalogía (procesamiento - natural + vectorial) ≈ {analogy[0][0]}")
except KeyError:
    print("\nNo se pueden calcular analogías por la limitación del vocabulario del ejemplo.")

--- Modelo Word2Vec entrenado ---

Vector para 'lenguaje' (embedding):
[ 0.01671193 -0.02198509  0.09513601  0.09493855 -0.09774047  0.02505228
  0.06156693  0.03872456  0.02022787  0.00430502]
Dimensión del vector: 10

Palabras más similares a 'lenguaje':
- .: 0.7149
- grandes: 0.6866
- entre: 0.6470

No se pueden calcular analogías por la limitación del vocabulario del ejemplo.


### Glove

In [5]:
import gensim.downloader as api
import numpy as np

# Cargar un modelo GloVe pre-entrenado (por ejemplo, con 50 dimensiones en un corpus pequeño)
# Nota: La primera vez, esto descargará el archivo.
try:
    glove_model = api.load("glove-wiki-gigaword-50")
    print("Modelo GloVe cargado exitosamente.")
except Exception as e:
    print(f"Error al cargar el modelo (asegúrate de tener conexión a internet): {e}")
    # En un entorno de estudio, podrías mockear el objeto si fallara la descarga:
    # glove_model = None

if 'glove_model' in locals() and glove_model:
    # 1. Obtener el vector para una palabra
    palabra = 'computer'
    vector_computadora = glove_model.get_vector(palabra)
    print(f"\nVector para '{palabra}' (primeros 5 elementos):")
    print(vector_computadora[:5])

    # 2. Encontrar palabras más similares
    print("\nPalabras más similares a 'technology':")
    similares = glove_model.most_similar('technology', topn=5)
    for palabra, similitud in similares:
        print(f"- {palabra}: {similitud:.4f}")

    # 3. Realizar una analogía (King - Man + Woman = ?)
    print("\nAnalogía: 'Rey' - 'Hombre' + 'Mujer' = ?")
    resultado = glove_model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
    print(f"Resultado: {resultado[0][0]}: {resultado[0][1]:.4f}")

Modelo GloVe cargado exitosamente.

Vector para 'computer' (primeros 5 elementos):
[ 0.079084 -0.81504   1.7901    0.91653   0.10797 ]

Palabras más similares a 'technology':
- technologies: 0.8928
- computer: 0.8526
- systems: 0.8289
- software: 0.8090
- computing: 0.7991

Analogía: 'Rey' - 'Hombre' + 'Mujer' = ?
Resultado: queen: 0.8524
