# 10 - Extracción de características y similitud de oraciones (Embeddings)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/embeddings.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-extracción-de-características-(Embeddings)" data-toc-modified-id="1---Modelos-de-extracción-de-características-(Embeddings)-1">1 - Modelos de extracción de características (Embeddings)</a></span></li><li><span><a href="#2---Pipeline-de-Transformers-para-Embeddings" data-toc-modified-id="2---Pipeline-de-Transformers-para-Embeddings-2">2 - Pipeline de Transformers para Embeddings</a></span></li><li><span><a href="#3---Tokenizador" data-toc-modified-id="3---Tokenizador-3">3 - Tokenizador</a></span></li><li><span><a href="#4---Transformadores-de-frases" data-toc-modified-id="4---Transformadores-de-frases-4">4 - Transformadores de frases</a></span></li><li><span><a href="#5---Similitud-de-oraciones" data-toc-modified-id="5---Similitud-de-oraciones-5">5 - Similitud de oraciones</a></span></li><li><span><a href="#6---Ejemplo-de-predicción" data-toc-modified-id="6---Ejemplo-de-predicción-6">6 - Ejemplo de predicción</a></span><ul class="toc-item"><li><span><a href="#6.1---Importamos-las-librerías" data-toc-modified-id="6.1---Importamos-las-librerías-6.1">6.1 - Importamos las librerías</a></span></li><li><span><a href="#6.2---Cargamos-los-datos" data-toc-modified-id="6.2---Cargamos-los-datos-6.2">6.2 - Cargamos los datos</a></span></li><li><span><a href="#6.3---Exploración-y-filtrado-de-datos" data-toc-modified-id="6.3---Exploración-y-filtrado-de-datos-6.3">6.3 - Exploración y filtrado de datos</a></span></li><li><span><a href="#6.4---Transformación-de-datos" data-toc-modified-id="6.4---Transformación-de-datos-6.4">6.4 - Transformación de datos</a></span></li><li><span><a href="#6.5---Separación-de-datos" data-toc-modified-id="6.5---Separación-de-datos-6.5">6.5 - Separación de datos</a></span></li><li><span><a href="#6.6---Modelo-y-evaluación" data-toc-modified-id="6.6---Modelo-y-evaluación-6.6">6.6 - Modelo y evaluación</a></span></li></ul></li></ul></div>

## 1 - Modelos de extracción de características (Embeddings)

Los modelos de extracción de características, modelos de embedding o modelos de incrustación son técnicas fundamentales en el campo del NLP, que permiten representar datos como vectores en un espacio de características continuo. Estos modelos capturan la semántica de los datos y facilitan el manejo de relaciones complejas dentro de grandes conjuntos de datos. Algunos de los modelos de embedding más conocidos son:


1. **Word2Vec**: Desarrollado por Google, es uno de los modelos de embedding de palabras más populares. Utiliza redes neuronales para aprender representaciones vectoriales de palabras a partir de grandes corpora de texto. Tiene dos arquitecturas principales: CBOW (Continuous Bag of Words) y Skip-gram.

2. **GloVe** (Global Vectors for Word Representation): Propuesto por investigadores de Stanford, GloVe es un método que genera embeddings de palabras al factorizar matrices que describen las co-ocurrencias estadísticas de palabras en un corpus. Se diferencia de Word2Vec en que no solo se basa en contextos locales de palabras sino en estadísticas globales del corpus.

3. **FastText**: Desarrollado por Facebook Research, este modelo extiende Word2Vec para considerar no solo palabras completas sino también sub-palabras o n-gramas de caracteres. Esto permite que el modelo maneje mejor palabras desconocidas o raras.

4. **BERT** (Bidirectional Encoder Representations from Transformers): Introducido por Google AI, BERT usa la arquitectura de Transformer para pre-entrenar embeddings de palabras en contextos bidireccionales. Esto permite capturar un contexto más rico y mejorar el rendimiento en tareas de NLP downstream.

5. **ELMo** (Embeddings from Language Models): ELMo utiliza modelos de lenguaje basados en redes neuronales LSTM para aprender embeddings de palabras basados en el contexto de uso. Los embeddings resultantes son dinámicos, ajustándose según el contexto en el que aparecen las palabras.



Estos modelos de embedding son la base de los modelos que hemos venido utilizando anteriormente. Los tokenizadores son fundamentalmente extractores de características, pues convierten los textos en vectores, que posteriormente son introducidos en los modelos de transformers. Recordemos que el tokenizador primero convierte el texto en tokens, las piezas mínimas de texto, y más tarde convierte esos tokens a vectores. La dimensión de esos vectores viene determinado por el propio modelo de embedding. 

Existen modelos que devuelven vectores de 384, 768, 1024, 1536 o incluso 4096 elementos. Generalmente, un embedding de mayor dimensión puede capturar más información y matices sobre los datos. Esto puede resultar en una mejor capacidad para distinguir entre conceptos más sutiles o complejos. Sin embargo, usar embeddings de mayor dimensión incrementa la carga computacional. Esto significa más uso de memoria, tiempos de entrenamiento más largos, y puede requerir hardware más potente. Además, los embeddings de mayor dimensión pueden ser más propensos al overfitting, especialmente si el tamaño del dataset de entrenamiento es pequeño.

## 2 - Pipeline de Transformers para Embeddings

Veamos algunos de los modelos de embeddings que proporciona Hugging Face. En primer lugar, [gte-small](https://huggingface.co/Supabase/gte-small), un modelo que nos devuelve un vector de 384 elementos para cada token y que tiene un peso de 70Mb. GTE significa General Text Embeddings, y son modelos entrenados por la [Academia DAMO de Alibaba](https://www.alibabagroup.com/en-US/about-alibaba-businesses-1496657217451982848). Se basan principalmente en el marco de trabajo de BERT y actualmente ofrecen tres tamaños diferentes de modelos, incluyendo GTE-large (1024), GTE-base (768) y GTE-small (384). Los modelos GTE están entrenados en un corpus de gran escala de pares de texto relevantes, cubriendo una amplia gama de dominios y escenarios. Esto permite que los modelos GTE se apliquen a diversas tareas de procesamiento de texto, incluyendo la recuperación de información, la similitud textual semántica y la reordenación de textos. Vamos a cargarlo con el pipeline y ver su respuesta:

Como vemos, las dimensiones del tensor han cambiado. El `1` se refiere a la secuencia, el `384` es la dimensión del vector por token. El `8` o el `27` se refiere al número de tokens. Este modelo tiene un máximo de 512 tokens, por lo que la dimensión máxima del tensor es `[1, 512, 384]`.

Como dijimos, existen modelos de embedding que nos devuelven vectores con más dimensiones. Facebook tiene un modelo basado en BART, llamado [bart-base](https://huggingface.co/facebook/bart-base). Este modelo devuelve un vector de 768 elementos y pesa aproximadamente 560Mb.

Vemos que el número de tokens de este modelo también es distinta, de 8 se pasó a 9 y de 27 se pasó a 34, además de tener los 768 elementos por token frente a los 384 del modelo anterior. 

## 3 - Tokenizador

Hemos visto en los capítulos anteriores, que este proceso de embedding es el que realizan los tokenizadores. Dado un texto, el tokenizador extrae los tokens y luego vectoriza. Veamos este último modelo, bart-base, usado a través del AutoTokenizer de transformers.

Ya hemos visto este tokenizador, BartTokenizerFast. Es una implementación específica de un tokenizador para el modelo BART, optimizada que aprovecha la biblioteca Rust tokenizers para ofrecer un rendimiento más rápido en comparación con su versión en Python. Ofrece un mejor rendimiento sin sacrificar la calidad o la precisión de la tokenización, lo cual es crucial para la eficacia de los modelos de lenguaje en tareas de NLP.


Las salidas del tokenizador tiene dimensiones distintas de las que devuelve el pipeline, solo el 1 de la secuencia y el número de tokens. Así pues el tokenizador saca un vector distinto, pero que básicamente significa los mismo. Veamos cuales son los tokens:

La dimensión del vector que sale del tokenizador coincide con el número de tokens que genera, es decir, tenemos un número para cada token generado.

## 4 - Transformadores de frases

Ahora vamos a transformar frases completas a un vector. Usaremos el modelo [all-roberta-large-v1](https://huggingface.co/sentence-transformers/all-roberta-large-v1) un modelo de sentence-transformers que mapea oraciones y párrafos a un espacio vectorial de 1024 dimensiones y puede ser utilizado para tareas como el agrupamiento o la búsqueda semántica. Tiene un peso aproximado de 1.5Gb.

Usamos el objeto `SentenceTransformer`, que se utiliza para convertir oraciones y párrafos en vectores densos de alta dimensión, lo que permite comparar y medir la similitud semántica entre ellos. Vector denso se refiere a que el vector de salida no tiene ningún elemento 0. 

**Componentes del SentenceTransformer**

1. **Transformer**: Este es el primer módulo en la cadena del SentenceTransformer y utiliza un modelo preentrenado de Transformer, específicamente RobertaModel. Aquí es donde se realiza la primera etapa de procesamiento del texto.

    + max_seq_length: Define la longitud máxima de la secuencia de entrada que el modelo puede manejar. En este caso, está configurado para 256 tokens.
    + do_lower_case: Indica si el texto de entrada debe convertirse a minúsculas antes de procesarlo. Aquí está configurado como False, lo que significa que el texto se procesará tal como se recibe.


2. **Pooling**: Este módulo maneja la forma en que se combinan o resumen las representaciones de tokens individuales obtenidas del modelo RobertaModel para formar un único vector de embedding para toda la oración.

    + word_embedding_dimension: La dimensión de los embeddings de cada palabra, en este caso, 1024.
    + pooling_mode_cls_token: Si se usa, toma el token CLS, usado a menudo como un resumen de toda la entrada en modelos como BERT y RoBERTa, como el embedding de la oración. Aquí está desactivado.
    + pooling_mode_mean_tokens: Calcula la media de todos los embeddings de tokens para obtener el embedding de la oración. Está activado, lo que significa que esta es la técnica de pooling utilizada.
    + pooling_mode_max_tokens, pooling_mode_mean_sqrt_len_tokens, pooling_mode_weightedmean_tokens, pooling_mode_lasttoken: Otras técnicas de pooling que están disponibles pero no se utilizan en esta configuración.
    + include_prompt: Específico para si se incluye o no algún prompt o guía en el cálculo del embedding.


3. **Normalize**: Este último paso en la cadena del SentenceTransformer normaliza el vector de embedding resultante. La normalización suele implicar escalar el vector de modo que su norma sea 1. Esto es útil para muchas tareas de comparación de vectores, como la similitud coseno, ya que simplifica los cálculos y a menudo mejora el rendimiento del modelo en tareas de similitud o clasificación.


Se puede observar que todas las frases, sea cual sea su número de tokens, el modelo lo convierte a un vector de 1024 elementos. En realidad realiza la media por token, según su configuración por defecto. Veamos que ocurre cuando le damos una lista de frases:

El transformador nos devuelve un vector para cada frase con 1024 elementos. Veamos algunos casos de uso, fuera de los modelos que ya hemos visto, de esta transformación del texto.

## 5 - Similitud de oraciones

Uno de los usos habituales de los embeddings es comparar dos frases, cómo de parecidas son. La métrica que se suele usar para ello es la similitud del coseno. La similitud del coseno es una medida que se utiliza para calcular el grado de similitud entre dos vectores en un espacio multidimensional, ignorando su magnitud. Se calcula de la siguiente manera:

$$coseno (\vec{a}, \vec{b}) = \frac{\vec{a} · \vec{b}}{|\vec{a}| · |\vec{b}|}$$


siendo:

+ $\vec{a}, \vec{b}$: vectores 
+ $\vec{a} · \vec{b}$: producto escalar de $\vec{a}$ y $\vec{b}$
+ $|\vec{a}|$,  $|\vec{b}|$: normas de los vectores (magnitudes)


<br>

**Características de la similitud del coseno**:

1. Rango de Valores: La similitud del coseno puede tomar valores entre -1 y 1.

    + 1 indica que los dos vectores son idénticos en orientación.
    + 0 indica que los vectores son ortogonales (independientes).
    + -1 indica que los vectores son diametralmente opuestos.


2. Insensible a la Magnitud: Solo importa el ángulo entre los vectores, no su longitud. Esto es útil cuando las magnitudes no llevan información relevante o cuando solo la dirección de los vectores es importante.



Por supuesto, existen otra maneras de calcular la similitud entre dos vectores, usando otras [métricas de distancias](https://docs.scipy.org/doc/scipy/reference/spatial.distance.html), aunque si no existe un criterio específico, siempre se usa la similitud del coseno.

Calcularemos la similitud del coseno con scikit-learn. Es posible que necesitemos ejecutar el siguiente comando por terminal para instalar la librería:

```bash
pip install scikit-learn
```

Desde aquí, ya tenemos un métrica de como de parecidas son dos frases, tanto más parecidas cuanto más cercano a 1 sea la similitud del coseno, y tanto más discordantes cuanto más cercano a -1 sea dicha similitud. Si la similitud está en torno a 0, esas frases no se parecen en nada.