<img src="https://github.com/isardmart/01MIAR_ABR_24/blob/main/img/viu_logo.png?raw=1" width="200">

# 01MIAR - Actividad Whitepapers

**Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks**

Link del [PDF](https://arxiv.org/pdf/2005.11401v3)

**Introducción**

El artículo "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" presenta un enfoque innovador para mejorar las tareas de procesamiento de lenguaje natural (NLP) mediante la combinación de modelos generativos preentrenados con técnicas de recuperación de información. Este método permite generar respuestas más precisas y contextualmente relevantes en tareas como preguntas abiertas y verificación de hechos.


**Resumen del Artículo**

El enfoque de Generación Aumentada por Recuperación (RAG) combina modelos generativos preentrenados, como BART y T5, con técnicas avanzadas de recuperación de documentos para mejorar la precisión y relevancia de las respuestas en tareas de NLP.

RAG utiliza representaciones vectoriales densas para recuperar documentos relevantes de una base de datos y condiciona las respuestas generadas en esta información recuperada.

Este método ha demostrado ser eficaz en tareas como la respuesta a preguntas abiertas y la verificación de hechos, siendo especialmente útil en ámbitos como la investigación médica y el soporte al cliente. RAG representa un avance significativo en NLP al combinar los puntos fuertes de los modelos generativos y los sistemas de recuperación de información.



**Ejemplo usando un modelo t5**

**Transformers (Hugging Face)**

**Uso:** Implementación de modelos preentrenados como BART y T5 para tareas de generación de texto.



In [1]:
!pip install transformers
!pip install faiss-cpu
!pip install datasets

Collecting faiss-cpu
  Downloading faiss_cpu-1.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.0/27.0 MB[0m [31m25.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faiss-cpu
Successfully installed faiss-cpu-1.8.0
Collecting datasets
  Downloading datasets-2.20.0-py3-none-any.whl (547 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m547.8/547.8 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-16.1.0-cp310-cp310-manylinux_2_28_x86_64.whl (40.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.8/40.8 MB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
Collecting requests>

Para conseguir un token en hugging face debes registrarte y pedir un token de api gratuito

In [2]:

from huggingface_hub import login
login("HUGGING_FACE_TOKEN")


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [12]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

# Carregar el model i el tokenitzador
model_name = 't5-base'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

# Text d'entrada llarg per resumir
input_text = """
Retrieval-Augmented Generation (RAG) is a technique in natural language processing that combines generative models, such as T5 or BART, with retrieval mechanisms to produce more accurate and contextually relevant responses. The key idea is to enhance the generative model's ability to produce answers by first retrieving relevant documents or passages from a large corpus of text, and then conditioning the generation process on this retrieved information. This approach leverages both parametric knowledge, encoded in the model's parameters, and non-parametric knowledge, found in the external text corpus.

The process typically involves two main steps. First, a retrieval system, often based on dense vector representations and similarity search algorithms like FAISS, identifies the most relevant pieces of text from a pre-indexed database. This step ensures that the information used to generate the response is up-to-date and contextually appropriate. Second, the generative model uses the retrieved text as additional context to generate a more precise and informative response. By incorporating retrieval into the generation process, RAG models can significantly improve performance on tasks such as question answering, fact-checking, and summarization.

RAG models have shown remarkable success in various knowledge-intensive NLP tasks. They excel in situations where the model needs to access a large amount of information that it cannot feasibly store in its parameters alone. For example, in open-domain question answering, a RAG model can retrieve the most relevant articles or snippets from a vast collection of documents and then generate a coherent and accurate answer based on this retrieved content. This capability makes RAG models particularly useful in domains like healthcare, legal research, and customer support, where accessing the latest and most relevant information is crucial.

Overall, Retrieval-Augmented Generation represents a significant advancement in the field of NLP, providing a robust framework for creating more reliable and context-aware language models. By effectively combining retrieval and generation, RAG models are able to bridge the gap between purely generative models and traditional information retrieval systems, offering a powerful tool for a wide range of applications.
"""

# Preprocesamiento del texto para T5
input_ids = tokenizer("summarize: " + input_text, return_tensors='pt').input_ids

# Generación de texto amb paràmetres ajustats
outputs = model.generate(input_ids, max_length=100, num_beams=10, early_stopping=True)
output = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(output)


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


retrieval-augmented generation (RAG) is a technique in natural language processing. it combines generative models with retrieval mechanisms to produce more accurate answers. the technique leverages both parametric knowledge and non-parametric knowledge.


Este código utiliza el modelo T5 para resumir un texto largo. Una vez instaladas las librerias, carga el modelo t5-base y su tokenizador desde la librería transformers. El modelo t5-base es una versión del modelo T5 preentrenado, adecuado para tareas de generación de texto.

Definimos un texto largo que explica el concepto de Generación Aumentada por Recuperación (RAG).

El texto de entrada se preprocesa añadiendo la instrucción "summarize: " antes del texto y luego se tokeniza usando el tokenizador T5. El resultado es un tensor que puede ser utilizado por el modelo T5.

El modelo genera un resumen del texto de entrada utilizando los parámetros especificados:

max_length=100: La longitud máxima del resumen generado.

num_beams=10: Número de haces en la búsqueda por haz, que ayuda a encontrar mejores resultados.

early_stopping=True: Detiene la generación cuando se alcanza una condición de parada temprana.



**Ejemplo del uso de FAISS**

**Uso:** Indexación y recuperación rápida de documentos relevantes durante el proceso de generación.



In [13]:
import faiss
import numpy as np

# Crear un índice FAISS
dimension = 128  # Dimensión del vector de característiques
index = faiss.IndexFlatL2(dimension)

# Crear vectores de muestra
vectors = np.random.random((1000, dimension)).astype('float32')

# Añadir los vectors a l'índex
index.add(vectors)

# Vector de consulta
query_vector = np.random.random((1, dimension)).astype('float32')

# Buscar los 5 vectores más propers
k = 5
distances, indices = index.search(query_vector, k)

print("Índices de vecinos cercanos:", indices)
print("Distancias a índices cercanos:", distances)


Indices of the nearest neighbors: [[340  55 378 505 510]]
Distances to the nearest neighbors: [[14.242166 14.665246 15.033352 15.197968 15.282605]]


Este código utiliza la librería FAISS para indexar y buscar vectores de características en un espacio de dimensiones específicas. Primero, importa las librerías necesarias: faiss para la indexación y búsqueda de vectores, y numpy para la creación de datos numéricos.

Se define la dimensión de los vectores de características como 128. A continuación, se crea un índice FAISS utilizando la distancia Euclidiana (L2) para medir la similitud entre los vectores.

Luego, se generan 1000 vectores de muestra con 128 dimensiones, con valores aleatorios entre 0 y 1, utilizando numpy. Estos vectores se convierten al tipo float32 y se añaden al índice FAISS.

Para realizar una búsqueda, se genera un vector de consulta también de 128 dimensiones con valores aleatorios entre 0 y 1. Este vector se utiliza para buscar los 5 vectores más cercanos en el índice FAISS.

Finalmente, se realiza la búsqueda de los 5 vectores más cercanos al vector de consulta. El resultado de la búsqueda incluye los índices de los vectores más cercanos y las distancias Euclidianas entre el vector de consulta y estos vectores. Estos resultados se imprimen para mostrar los índices y las distancias de los vectores más cercanos encontrados.



**Conclusión**

El enfoque de Generación Aumentada por Recuperación (RAG) es un gran avance en el campo del procesamiento de lenguaje natural (NLP). Combina modelos generativos avanzados, como BART y T5, con técnicas de recuperación de documentos. Utilizando librerías potentes como Transformers y FAISS, RAG mejora significativamente la precisión y relevancia de las respuestas en tareas complejas de NLP.

Sin embargo, RAG tiene sus desafíos. Depender de grandes volúmenes de datos externos para la recuperación puede causar problemas de escalabilidad y eficiencia, especialmente en aplicaciones en tiempo real. Además, la combinación del conocimiento almacenado en los modelos y del extraído de documentos puede llevar a inconsistencias en las respuestas, especialmente si los documentos recuperados varían en calidad.

Otro punto crítico es la interpretabilidad de los modelos RAG. La complejidad de mezclar múltiples fuentes de información hace difícil entender cómo y por qué se generan ciertas respuestas, lo cual es crucial en áreas sensibles como la medicina o el derecho. Además, depender de modelos preentrenados puede introducir sesgos y problemas de equidad en las respuestas generadas.

**Referencias**

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Disponible en [arXiv](https://arxiv.org/abs/2005.11401v3).

Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., Davison, J. (2020). Transformers: State-of-the-Art Natural Language Processing. [Github/huggingface/transformers](https://github.com/huggingface/transformers)

Johnson, J., Douze, M., & Jégou, H. (2017). Billion-scale similarity search with GPUs. Disponible en arXiv. [arXiv](https://arxiv.org/pdf/1702.08734)