# RAG System

El tema abordado es la dificultad para obtener contextos precisos y relevantes a partir de grandes volúmenes de información. En muchas aplicaciones, como servicios de atención al cliente, educación o investigación, es crucial disponer de respuestas contextuales que integren información precisa y específica. Sin embargo, los sistemas actuales a menudo enfrentan problemas de relevancia y precisión cuando se les consulta sobre temas complejos o amplios. Implementar un sistema RAG que utilice prompts optimizados para generar contexto relevante es relevante porque mejora la precisión y utilidad de las respuestas generadas, ofreciendo resultados más completos y ajustados a la consulta.

Este notebook implementa un sistema de Recuperación y Generación (RAG) basado en embeddings y FAISS para mejorar la busqueda de contexto basado en similitud de embeddings. El sistema recibirá consultas de parte del area comercial de una empresa relacionadas a las ventas y pagos, la idea es poder darle un contexto especifico al LLM basado en acciones las cuales pueden ser (getsales, getpaymentsapprove, getordersapprove, actionapprovepayments).

En el caso de recibir una consulta general no relacionada con las ventas y los pagos de la empresa, la misma irá directo a ser procesada por el modelo de LLM sin recibir un contexto relacionado para dar respuesta.

### Desarrollo de la propuesta de solución

La solución propuesta es desarrollar un sistema RAG que emplee la generación de prompts en dos etapas: recuperación y generación. En la etapa de recuperación, un modelo de búsqueda seleccionará los documentos más relevantes de una base vectorial o indice vectorial, los cuales contendran los embeddings generados del archivo json que contiene la informacion para generar contextos, en la etapa de generación, un modelo de texto-texto creará respuestas contextuales basadas en la información recuperada.

##### Prompt de ejemplo:

• Texto-texto (para generación de contexto): “Usa la información de los documentos recuperados para responder a la pregunta: ¿Cuáles son las ventas aprobadas del mes de Enero?”

Este prompt se optimizará para que el sistema pueda generar contextos detallados que incluyan las ideas principales y ejemplos relevantes de los documentos recuperados.


### Viabilidad del proyecto 

El proyecto es técnicamente viable, ya que se basa en el uso de tecnologías accesibles como modelos de recuperación de información (por ejemplo, OpenSearch o FAISS) y modelos generativos de texto (GPT, Llama) . La generación y optimización de prompts permitirá un ajuste eficiente del sistema para mejorar la precisión del contexto generado. El proyecto puede 
desarrollarse en etapas, comenzando con la creación de prompts básicos y pruebas con conjuntos de datos limitados, seguido de la integración y pruebas de escalabilidad. Los recursos disponibles en plataformas de código abierto y servicios de nube facilitarán la implementación y prueba de la solución.

### Incluye las siguientes funcionalidades:

- Generacion de chunks y embeddings para llenar nuestro indice de busqueda.   
- Creación de índices con FAISS.
- Recuperación de contexto relevante.
- Algoritmos de prediccion para busquedas de similitud de embeddings en el index.faiss
- Generación de prompts contextuales a partir de consultas.
- Conexion con API de OpenIA


### EJEMPLOS DE CONSULTAS y SUS ACCIONES:

- Quiero aprobar un pago = "actionapprovepayments"
- Quiero las ventas de este mes = "getsales"
- Quiero las ventas aprobadas = "getordersapprove"
- Quiero los pagos aprobados de hoy = "getpaymentsapprove"



In [1]:
!pip install faiss-cpu==1.7.3
!pip install sentence-transformers
!pip install openai==0.27.8


Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


In [2]:
import json
import os
import re
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
import openai

import warnings
warnings.filterwarnings("ignore")


In [3]:
#api_key de referencia

openai.api_key = "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"


In [4]:
# Generador de embeddings

class EmbeddingModel:
    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def get_embedding(self, text: str):
        return self.model.encode([text])

    def get_document_embeddings(self, documents: list):
        return self.model.encode(documents)

embedding_model = EmbeddingModel()


In [5]:
#Procesamiento del JSON

def clean_json_content(json_path):
    with open(json_path, 'r', encoding='utf-8') as file:
        content = file.read()
    return json.loads(content)

def read_actions_from_json(cleaned_data):
    prompts = []
    actions = []
    tags = []
    for action in cleaned_data.get('actionsParsed', []):
        prompts.append(action['prompt'])
        actions.append(action.get('name', 'unknown'))
        tags.append(action.get('tag', '').split(', ') if action.get('tag') else [])
    return prompts, actions, tags



In [6]:
# Chunks e Índice FAISS

def split_into_chunks(text, action, chunk_size=1024, overlap=50):
    tokens = text.split()
    chunks = []
    for i in range(0, len(tokens), chunk_size - overlap):
        chunk_text = " ".join(tokens[i:i + chunk_size])
        chunks.append((chunk_text, action))
    return chunks

json_path = 'actions.json'
cleaned_data = clean_json_content(json_path)
documents, actions, tags = read_actions_from_json(cleaned_data)

chunks = []
for doc, action in zip(documents, actions):
    doc_chunks = split_into_chunks(doc, action)
    chunks.extend(doc_chunks)

chunk_texts = [chunk[0] for chunk in chunks]
chunk_embeddings = embedding_model.get_document_embeddings(chunk_texts)

tag_texts = [tag for sublist in tags for tag in sublist]
tag_embeddings = embedding_model.get_document_embeddings(tag_texts)

all_embeddings = np.concatenate([chunk_embeddings, tag_embeddings])
all_texts = chunk_texts + tag_texts
all_actions = [chunk[1] for chunk in chunks] + [actions[i] for i, tag_list in enumerate(tags) for _ in tag_list]

d = all_embeddings.shape[1]
index = faiss.IndexFlatL2(d)
id_map = faiss.IndexIDMap(index)
ids = np.arange(len(all_embeddings))
id_map.add_with_ids(np.array(all_embeddings).astype('float32'), ids)
faiss.write_index(id_map, "index.faiss")

id_to_action = {i: all_actions[i] for i in range(len(all_actions))}


In [7]:
# Retriever

class Retriever:
    def __init__(self, index_path: str, id_to_action: dict, documents: list, tags: dict):
        self.index = faiss.read_index(index_path)
        self.id_to_action = id_to_action
        self.documents = documents
        self.tags = tags

    def predict(self, query_embedding, top_k=3, threshold=0.7):
        
        if query_embedding.ndim == 1:
            query_embedding = query_embedding.reshape(1, -1)
        D, I = self.index.search(query_embedding, k=top_k)

        results = []
        for distance, idx in zip(D[0], I[0]):
            if distance > threshold:
                continue 
            action = self.id_to_action.get(idx, "unknown")
            document = self.documents[idx] if idx < len(self.documents) else "Tag relacionado"
            results.append((action, document))

        return results


    def generate_context(self, query_embedding, query):
        best_documents = self.predict(query_embedding, top_k=3, threshold=0.7)

        if not best_documents:
            print("\n[DEBUG] No se encontró contexto relevante.")
            return None

        relevant_texts = []
        for action, _ in best_documents:
            associated_chunks = [
                doc for doc, act in zip(self.documents, self.id_to_action.values()) if act == action
            ]
            prompt = associated_chunks[0] if associated_chunks else "Prompt no encontrado."
            tag = self.tags.get(action, "Sin tag relacionado")
            context = f"Action: {action}\nTag: {tag}\nPrompt: {prompt}"
            relevant_texts.append(context)

        return relevant_texts[0] if relevant_texts else None






In [8]:
#Pipeline RAG

class RAGPipeline:
    def __init__(self, index_path: str, id_to_action: dict, documents: list, tags: dict, embedding_model_name: str = 'all-MiniLM-L6-v2'):
        self.embedding = EmbeddingModel(model_name=embedding_model_name)
        self.retriever = Retriever(index_path=index_path, id_to_action=id_to_action, documents=documents, tags=tags)

    def generate_rag_prompt(self, query: str):
        query_embedding = self.embedding.get_embedding(query).reshape(1, -1).astype('float32')
        relevant_context = self.retriever.generate_context(query_embedding, query)

        if relevant_context == "No se encontró contexto relevante para la consulta.":
            return None
        return f"Consulta: {query}\n\nContexto:\n{relevant_context}"

    def get_llm_response(self, query: str):
        rag_prompt = self.generate_rag_prompt(query)

        if not rag_prompt:
            try:
                response = openai.ChatCompletion.create(
                    model="gpt-4",
                    messages=[
                        {"role": "system", "content": "Eres un asistente general. Responde claramente a las consultas del usuario."},
                        {"role": "user", "content": query}
                    ],
                    max_tokens=200,
                    temperature=0.7
                )
                llm_response = response["choices"][0]["message"]["content"].strip()
                return None, llm_response
            except openai.OpenAIError as e:
                print(f"Error al llamar a la API de OpenAI: {e}")
                return None, "Hubo un problema al obtener la respuesta del modelo."

        try:
            response = openai.ChatCompletion.create(
                model="gpt-4",
                messages=[
                    {"role": "system", "content": "Eres un asistente que utiliza contexto proporcionado para responder consultas."},
                    {"role": "user", "content": f"Consulta: {query}\n\nContexto:\n{rag_prompt}"}
                ],
                max_tokens=200,
                temperature=0.7
            )
            llm_response = response["choices"][0]["message"]["content"].strip()
            return rag_prompt, llm_response
        except openai.OpenAIError as e:
            print(f"Error al llamar a la API de OpenAI: {e}")
            return rag_prompt, "Hubo un problema al obtener la respuesta del modelo."





In [11]:
rag_pipeline = RAGPipeline(
    index_path="index.faiss",
    id_to_action=id_to_action,
    documents=all_texts,
    tags={action: ", ".join(tags[i]) for i, action in enumerate(actions)}
)

query = input("Ingresa tu consulta: ")
context, response = rag_pipeline.get_llm_response(query)

print("\nContexto generado:\n", context)

print("\nRespuesta del LLM:\n", response)


Ingresa tu consulta: quiero los pagos aprobados

Contexto generado:
 Consulta: quiero los pagos aprobados

Contexto:
Action: getPaymentsApprove
Tag: cuantos pagos se aprobaron hoy, quiero los pagos, quiero los pagos aprobados, quiero los pagos aprobados del ultimos mes
Prompt: | getPaymentsApprove |: Esta accion se llama |getPaymentsApprove| permite visualizar los pagos que estan pendientes de aprobar. Importante -> Esta accion no requiere que solicites la fecha de inicio y fin. Los valores obtenidos en los parametros deben agregarse dentro de la key "utterance" . Solo repreguntar los valores de los parametros en caso de que alguno de ellos no se encuentre definido la key -> 'params' del json de la respuesta o que el valor de la key no se encuentre. En caso de tener que repreguntar al usuario, colocar la key -> "followUp": true , pero si todos los params se encuentran definidos establecer la key -> "followUp": false dentro de la respuesta del json. Si ya no es necesario repreguntar por