# **Procesamiento de Lenguaje Natural**

## Maestría en Inteligencia Artificial Aplicada
#### Tecnológico de Monterrey
#### Prof Luis Eduardo Falcón Morales

### **Adtividad en Equipos: sistema LLM + RAG**

### **Equipo 18**
> ### 👨‍💻 **Juan Carlos Pérez Nava**
> `A01795941`
>
> ### 👨‍💻 **Javier Augusto Rebull Saucedo**
> `A01795838`
>
> ### 👩‍💻 **Sihiní Trinidad Sánchez**
> `A00889358`
>
> ### 👩‍💻 **Iris Monserrat Urbina Casas**
> `A01795999`



* ##### **El formato de este cuaderno de Jupyter es libre, pero debe incuir al menos las siguientes secciones:**

  * ##### **Introducción de la problemática a resolver.**
  * ##### **Sistema RAG + LLM**
  * ##### **El chatbot, incluyendo ejemplos de prueba.**
  * ##### **Conclusiones**

* ##### **Pueden importar los paquetes o librerías que requieran.**

* ##### **Pueden incluir las celdas y líneas de código que deseen.**

# Introducción de la problemática a resolver

En las áreas operativas del Instituto Mexicano del Seguro Social existen diversas oportunidades de mejora en la atención al público, la resolución de problemas y el entendimiento del negocio y sus procedimientos. Por ello, se ha diseñado la integración de normas, reglas y procedimientos específicos para la atención en cada una de las ventanillas de la Dirección de Incorporación y Recaudación, encargada de recibir las solicitudes de registro de los patrones y sus trabajadores, así como de gestionar la recaudación de las aportaciones patronales. Sin embargo, identificamos como problemática la dificultad que enfrentan muchas personas para entender los requisitos, documentos, horarios, modalidades, etc. Aunque la información oficial está disponible en línea, suele estar dispersa, fragmentada y en un lenguaje técnico y difícil de interpretar.


Con el objetivo de mejorar el acceso a esta información y optimizar la experiencia del usuario, desarrollamos un chatbot basado en un modelo de lenguaje de gran tamaño (LLM), complementado con un sistema de Recuperación Aumentada Generativa (RAG). Esta arquitectura permite generar respuestas precisas y contextualizadas a partir de documentos reales del IMSS, mejorando así la fidelidad factual del modelo (Lewis et al., 2020).


El corpus utilizado fue construido a partir de documentos recuperados de la sección oficial de “Trámites y servicios” del IMSS (2025), los cuales explican procesos clave como el alta patronal y la gestión de incidencias en el sistema. Estos documentos contienen instrucciones detalladas que garantizan que cada situación pueda ser atendida de forma eficiente y conforme a la normatividad vigente.


Este chatbot busca ser una herramienta de apoyo para ciudadanos, empresarios y trabajadores, facilitando la comprensión de los procedimientos institucionales y apoyando la resolución autónoma de dudas durante la gestión de sus trámites.


**Referencias:**

* Lewis, M., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv preprint arXiv:2005.11401 Recuperado el 20 de junio de 2025. https://arxiv.org/abs/2005.11401

* IMSS. (2025). Trámites y servicios. Recuperado el 22 de junio de 2025. https://www.imss.gob.mx/tramites


# Sistema RAG + LLM

En el contexto del desarrollo de nuestro chatbot para trámites del IMSS, implementamos arquitectura de Generación Aumentada por Recuperación (RAG), un enfoque que combina la capacidad generativa de los modelos de lenguaje (LLM) con mecanismos de recuperación de documentos relevantes. Como lo aprendimos durante el curso y la actividad de IBM de Generative AI in Action, esta arquitectura ha demostrado mejorar la precisión, actualidad y fiabilidad de las respuestas generadas (AWS, 2025; IBM, 2025; Lewis et al., 2020).


**¿Cómo funciona RAG?**

AWS (2025) RAG explica que RAG incorpora un mecanismo de recuperación de información antes de generar una respuesta, lo que permite que el modelo se base en datos actualizados y verificables. El LLM recibe una pregunta del usuario y antes de responder, consulta un repositorio de información actualizado, que puede ser una fuente abierta como la web o una base de datos específica. Después, genera la respuesta basada en los datos recuperados, proporcionando evidencia o fuentes verificables para respaldar su contenido.


En nuestro chatbot, el sistema RAG opera en tres fases principales:
1. Recepción de la consulta del usuario.
2. Recuperación semántica de fragmentos de documentos relevantes usando un índice vectorial construido previamente a partir de fuentes oficiales del IMSS.
3. Generación de una respuesta contextualizada, donde el modelo de lenguaje integra la información recuperada para formular una respuesta coherente y fundamentada.


Este enfoque permite que el chatbot no dependa exclusivamente de conocimiento preentrenado (potencialmente desactualizado), sino que acceda en tiempo real a documentación actualizada y específica del dominio institucional.


**Beneficios (IBM, 2025; Lewis, 2020)**


* Mayor precisión y actualidad: Evita respuestas
erróneas o desactualizadas al basarse en información reciente.
* Reducción de "alucinaciones": Minimiza la generación de datos inventados por el modelo.
* Mayor confiabilidad: Permite que el modelo reconozca cuando no tiene una respuesta confiable, evitando la generación de información incorrecta


**Advertencias**

Para que RAG funcione de manera óptima, el sistema de recuperación debe ser eficiente y proporcionar datos relevantes y de alta calidad. Si la información recuperada es insuficiente o poco precisa, el modelo podría no responder correctamente, incluso si la respuesta existe en alguna fuente confiable. (Como todo en IA, "garbage in, garbage out!"  Por ello, seleccionamos documentos directamente de fuentes oficiales del IMSS como corpus para garantizar su relevancia y validez.


**Especificaciones del RAG implementado**

Para nuestra solución, elegimos los siguientes componentes técnicos:

* Modelo de lenguaje grande (LLM): "mistralai/Mistral-7B-Instruct-v0.2."
* Embeddings: HuggingFaceEmbeddings con modelo multilingüe (sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2), ideal para recuperar contenido en español.
* División del corpus: Mediante RecursiveCharacterTextSplitter, con chunk_size=1500 y chunk_overlap=500, para conservar el contexto entre fragmentos.
* Almacenamiento vectorial: FAISS como índice de recuperación, por su eficiencia en búsqueda semántica.
* Pipeline de recuperación: LangChain, configurado para buscar los topk=50fragmentos más relevantes por consulta.


**Referencias**

* AWS. (2025). What is retrieval augmented generation? Recuperado el 15 de junio de 2025 de https://aws.amazon.com/es/what-is/retrieval-augmented-generation/

* IBM. (2025). Generative AI in Action. IBM SkillsLab. Recuperado el 15 de junio de 2025 de https://www.ibm.com/academic/topic/artificial-intelligence?ach_id=9217fca4-c36f-4e1d-ab87-da43469344a5

* ewis, M., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv preprint arXiv:2005.11401. https://arxiv.org/abs/2005.11401

# Instalación de librerías

In [None]:
## Instalamos las librerías necesarias para construir un chatbot RAG con LLM, recuperación semántica, procesamiento de PDFs e interfaz con Gradio.
!pip install torch transformers sentence-transformers faiss-cpu langchain pypdf accelerate bitsandbytes langchain-community gradio PyMuPDF



🔹 Librerías para Retrieval-Augmented Generation (RAG)

Estas bibliotecas permiten cargar documentos, dividirlos en fragmentos y representarlos como vectores para una búsqueda eficiente.
- `TextLoader`: Carga documentos de texto.
- `CharacterTextSplitter` y `RecursiveCharacterTextSplitter`: Dividen los documentos en fragmentos más pequeños para su procesamiento.
- `HuggingFaceEmbeddings`: Convierte texto en representaciones vectoriales mediante modelos de embeddings.
- `FAISS`: Motor de búsqueda basado en índices de vectores, diseñado para recuperar información de manera rápida y eficiente.

🔹 Librerías para el Modelo de Lenguaje Grande (LLM)

Estas herramientas permiten generar respuestas utilizando modelos de lenguaje basados en Transformers.
- `AutoModelForCausalLM` y `AutoTokenizer`: Cargan y configuran el modelo de generación de texto.
- `BitsAndBytesConfig`: Optimiza la ejecución del modelo para reducir el consumo de memoria.
- `pipeline`: Establece un flujo de procesamiento que facilita la generación de texto.
- `torch`: Biblioteca de aprendizaje profundo utilizada para el manejo y ejecución de modelos de lenguaje.



In [None]:
# Importaciones para el sistema RAG (Retrieval-Augmented Generation)
from langchain.document_loaders import TextLoader  # Carga documentos de texto
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter  # Divide el texto en fragmentos para facilitar el procesamiento
from langchain_huggingface import HuggingFaceEmbeddings  # Para generar vectores de texto con modelos de Hugging Face
from langchain_community.vectorstores import FAISS  # FAISS para almacenamiento y búsqueda eficiente de vectores

# Importaciones para el modelo LLM (Generación de respuestas)
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline  # Para cargar y utilizar modelos de lenguaje
import torch  # Biblioteca para operaciones con tensores y aceleración en GPU

# Autenticación con Hugging Face Hub para acceder a modelos
from huggingface_hub import login
login(token="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")

# Elementos para construir la cadena RAG con Langchain
from langchain.prompts import PromptTemplate  # Plantilla de prompt para el modelo de lenguaje
from langchain.schema.runnable import RunnablePassthrough  # Permite que una función pase datos sin modificarlos
from langchain_community.llms import HuggingFacePipeline  # Integra modelos de Hugging Face como LLM en Langchain
from langchain.schema import StrOutputParser  # Analiza salidas del modelo como texto plano

# Librería Gradio para construir interfaces web interactivas
import gradio as gr

# Módulos auxiliares para rutas, expresiones regulares, descarga de archivos y lectura de PDFs
import os  # Manejo de rutas de archivos y directorios
import re  # Manejo de expresiones regulares
import gdown  # Descarga de archivos desde Google Drive
import fitz  # Lectura y manipulación de documentos PDF (PyMuPDF)

# Definición del modelo de embeddings
EMBEDDING_MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"

# Definición del modelo de lenguaje grande (LLM)
LLM_MODEL_NAME = "mistralai/Mistral-7B-Instruct-v0.2"

# Rutas y configuraciones para los documentos
directorio_documentos = 'datos_RAG_LLM'  # Carpeta donde se almacenarán los documentos para el sistema RAG
id_repositorio = '18z_pJe7EcZO6oqCSebqS_Qe-E1kL4RUH'  # ID de Google Drive para descargar los documentos

# Mensajes de confirmación para mostrar que las librerías y rutas han sido configuradas correctamente
print("\033[32mLibrerías importadas:\033[0m")
print(f"Modelo de Embeddings: \033[36m{EMBEDDING_MODEL_NAME}\033[0m")
print(f"Modelo LLM: \033[36m{LLM_MODEL_NAME}\033[0m")

print("\033[32mRutas configuradas:\033[0m")
print(f"Carpeta de documentos: \033[36m{directorio_documentos}\033[0m")

[32mLibrerías importadas:[0m
Modelo de Embeddings: [36msentence-transformers/all-MiniLM-L6-v2[0m
Modelo LLM: [36mmistralai/Mistral-7B-Instruct-v0.2[0m
[32mRutas configuradas:[0m
Carpeta de documentos: [36mdatos_RAG_LLM[0m


## Preparación del Corpus Documental

**Recolección de documentos**

Para garantizar que el chatbot generara respuestas precisas y contextualizadas, construimos un corpus documental específico a partir de fuentes oficiales del Instituto Mexicano del Seguro Social (IMSS), particularmente de su sección de “Trámites y servicios” (IMSS, 2025). Este corpus contiene información detallada sobre procesos como registro patronal, afiliación voluntaria, incapacidades y corrección de datos, entre otros.

Los documentos fueron seleccionados manualmente desde el sitio oficial del IMSS, asegurando su relevancia y actualidad. Se priorizaron guías, instructivos y fichas de trámites que explican paso a paso cada procedimiento.

**Extracción y limpieza**

Los documentos se encontraban en formato PDF, por lo que utilizamos la librería PyMuPDF (fitz) para extraer su contenido textual. Este método permite preservar la estructura del texto con mayor fidelidad que otras alternativas como pypdf. Durante esta fase se eliminaron encabezados, pies de página y páginas en blanco y se normalizó la codificación (UTF-8) y se corrigieron errores de segmentación y caracteres extraños.

**División del contenido en fragmentos**

Una parte esencial del sistema RAG es la división del texto en fragmentos o chunks antes de generar sus vectores. Esta segmentación permite construir un índice de recuperación semántica más efectivo y relevante. En nuestro caso, usamos RecursiveCharacterTextSplitter de LangChain con los parámetros: chunk_size = 1500 caracteres; chunk_overlap = 500 caracteres

Esta configuración permite que los fragmentos tengan suficiente contexto para ser útiles durante la recuperación, mientras el solapamiento (overlap) evita la pérdida de información crítica al final de cada fragmento.

La literatura técnica en modelos RAG enfatiza que una división adecuada del texto mejora la precisión del sistema de recuperación, ya que los modelos de embeddings generan mejores vectores semánticos cuando operan sobre unidades coherentes de contenido (Izacard & Grave, 2020). LangChain sugiere que este enfoque también reduce los errores comunes del modelo, como respuestas alucinadas o sin fundamento, al asegurar que la información relevante esté presente durante la fase de generación (LangChain, 2025).

**Referencias**
* Izacard, G., & Grave, E. (2020). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. arXiv. https://arxiv.org/abs/2007.01282

LangChain. (2025). Text Splitters. Recuperado el 22 de junio de 2025 de https://python.langchain.com/docs/concepts/text_splitters/

Hugging Face. (2024). Dealing with Chunked Input Text and Summaries for Fine Tuning Summarization model. Recuperado el 22 de junio de 2025 de https://discuss.huggingface.co/t/dealing-with-chunked-input-text-and-summaries-for-fine-tuning-summarization-model/77186



In [None]:
# ✅ Descargar los documentos para el modelo
print(f"📂 Ruta de los documentos → \033[36m'{directorio_documentos}\033[0m'\n")

# Crear el directorio si no existe
if not os.path.exists(directorio_documentos):
    os.makedirs(directorio_documentos)

gdown.download_folder(id=id_repositorio, output=directorio_documentos, quiet=False, use_cookies=False)

archivos_cargados = os.listdir(directorio_documentos)
for archivo in archivos_cargados:
    print(f"📂 Documento cargado: \033[36m{archivo}\033[0m")

print(f"Total de documentos descargados: \033[32m{len(archivos_cargados)}\033[0m")


📂 Ruta de los documentos → [36m'datos_RAG_LLM[0m'



Retrieving folder contents


Processing file 1q1I1zt_ygtTYjYjKewFq4zf4g0NkxsVA 9000-002-002.pdf
Processing file 1a-f4o7ZyuYHeEZBsQ2GVfsY5p4D1Lhwm 9000-002-003.pdf
Processing file 1in4iGXlLxQQXeu-3SGeSf7q6Jg80en8t 9210-003-101.pdf
Processing file 1KvTvJqYUNMALFxghrxu_ubnxYBoQxeig 9210-003-105.pdf
Processing file 1Dx79o2digN-QuVgplrlUrcN_4AUkSMPA 9210-003-112.pdf
Processing file 17skF_0icdMo6t2c2rkmfpetvBh482JCy 9210-003-114.pdf
Processing file 1fsAN6bJ_giDsiawRj4aTErkke940AhBD 9210-003-115.pdf
Processing file 10rXmodDefLNjsAQAom7M-nJQgM9_3mzF 9210-003-124.pdf
Processing file 1eF-y19UXMTZ6eO-JauGVG9JxngkAl03j 9210-003-125.pdf
Processing file 1_QRQ5wEc2ehj5AvVca3E_j4UWXD7H68r 9210-003-126.pdf
Processing file 1QynDJpMW3o04Rq7MjzHUerkzoWHfF-GI 9210-003-200.pdf
Processing file 1QAmniZXbTS7xUueXpR_90fEe4wJMJK3_ 9210-003-201.pdf
Processing file 12Tf_lk8cztw_qzTAAwElinNTKkfr-QTx 9210-003-202.pdf
Processing file 19E3EQ0QkW18nlxS0XHqiPKfjqBoOXgno 9210-003-209.pdf
Processing file 1xE1hqX5HPfnXgtz-BszJt64bu7ghgo-Y 9210-003-210

Retrieving folder contents completed
Building directory structure
Building directory structure completed


FileURLRetrievalError: Failed to retrieve file url:

	Cannot retrieve the public link of the file. You may need to change
	the permission to 'Anyone with the link', or have had many accesses.
	Check FAQ in https://github.com/wkentaro/gdown?tab=readme-ov-file#faq.

You may still be able to access the file from the browser:

	https://drive.google.com/uc?id=1q1I1zt_ygtTYjYjKewFq4zf4g0NkxsVA

but Gdown can't. Please check connections and permissions.

Convertir los archivos PDF descargados en un documento de texto

In [None]:
# Obtener archivos PDF en el directorio
archivos_pdf = [f for f in os.listdir(directorio_documentos) if f.lower().endswith(".pdf")]

for archivo in archivos_pdf:
    ruta_archivo = os.path.join(directorio_documentos, archivo)
    texto_extraido = ""
    try:
        with fitz.open(ruta_archivo) as documento:
            for pagina in documento:
                texto_extraido += pagina.get_text()

                texto_extraido = texto_extraido.replace('\xad', '')
                texto_dividido = texto_extraido.splitlines()
                texto_limpio = [re.sub(r'\s+', ' ', re.sub(r'\\[a-zA-Z0-9]{1,6}', '', linea)).strip() for linea in texto_dividido]
                lineas_utiles = [linea for linea in texto_limpio if linea.strip() and len(linea.strip().split()) > 1 and not linea.strip().isdigit()]

                nombre_documento = os.path.splitext(archivo)[0] + ".txt"
                ruta_archivo_txt = os.path.join(directorio_documentos, nombre_documento)

                with open(ruta_archivo_txt, "w", encoding="utf-8") as archivo_txt:
                  archivo_txt.write("\n".join(lineas_utiles))

            print(f"📄 Documento .txt creado: \033[36m{ruta_archivo_txt}\033[0m")

    except Exception as e:
        print(f"No se pudo procesar {archivo}: {e}")

print(f"Total de documentos generados: \033[32m{len(archivos_pdf)}\033[0m")

📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-202.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-126.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-018-200.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-005-205.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-008-204.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-124.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-201.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-125.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-003-115.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-005-102.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/Reg_LSS_MACERF.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-008-203.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9000-002-002.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-005-209.txt[0m
📄 Documento .txt creado: [36mdatos_RAG_LLM/9210-005-213.txt[0m
📄 Documento .txt creado

# Creación de la base de datos FAISS

Para implementar el componente de recuperación del sistema RAG, utilizamos FAISS (Facebook AI Similarity Search), una biblioteca diseñada por Meta para la búsqueda de similitudes entre vectores densos. Este sistema es utilizado en aplicaciones que requieren búsquedas rápidas y precisas en grandes volúmenes de datos, como recomendadores, motores de búsqueda semántica, y sistemas de respuesta a preguntas (Meta AI, 2017; Douze et al., 2024).

En nuestro chatbot FAISS almacena los embeddings generados a partir de fragmentos del corpus documental, permitiendo recuperar los pasajes más relevantes en tiempo real. A continuación, describimos el flujo técnico utilizado:

1️⃣ Carga del Documento
- `TextLoader` abre el archivo de texto en la ubicación DATA_PATH.
- `loader.load()` lee el contenido y lo almacena en documents.
- Se imprime la cantidad de documentos cargados para verificación.

2️⃣ División del Texto en Fragmentos (chunks)
- `CharacterTextSplitter` divide los documentos en partes 1500 caracteres con un solapamiento de 500 caracteres.
- Esto ayuda a mejorar las búsquedas sin perder el contexto entre fragmentos (LangChain, 2025)

3️⃣ Generación de Embeddings Semánticos
- `HuggingFaceEmbeddings` carga el modelo de embeddings, que convierte texto en vectores numéricos.
- Estos vectores representan el significado de las palabras y permiten búsquedas semánticas.

4️⃣ Construcción del índice vectorial con FAISS
- `FAISS.from_documents(docs, embeddings)` crea una base de datos donde cada fragmento de texto se convierte en un vector mediante los embeddings.
- `FAISS` permite hacer búsquedas rápidas y eficientes dentro de este conjunto de datos vectoriales.


**Referencias**

* Meta AI. (2017, marzo 29). Faiss: A library for efficient similarity search. Engineering at Meta. Recuperado el 23 de junio de 2025 de https://engineering.fb.com/2017/03/29/data-infrastructure/faiss-a-library-for-efficient-similarity-search/
* Douze, M., Guzhva, A., Deng, C., Johnson, J., Szilvasy, G., Mazaré, P.-E., et al. (2024). The Faiss library. arXiv. Recuperado el 23 de junio de https://arxiv.org/pdf/2401.08281
* LangChain. (2025). Text Splitters. Recuperado el 22 de junio de 2025 de https://python.langchain.com/docs/concepts/text_splitters/

In [None]:
# Función para Crear la Base de Datos Vectorial (FAISS)
def crea_vectores(documentos, embedding_model_name):

  CHUNK_SIZE = 1500
  CHUNK_OVERLAP = 500
  documentos = []

  if os.path.exists(directorio_documentos):

    # Obtenemos la lista de los documentos
    archivos = sorted([f for f in os.listdir(directorio_documentos) if f.endswith('.txt')])

    if archivos:
        for i, nombre_archivo in enumerate(archivos):
            ruta_documentos = os.path.join(directorio_documentos, nombre_archivo)

            print(f"Cargando documento de: \033[36m{ruta_documentos}\033[0m")
            loader = TextLoader(ruta_documentos, encoding="utf-8")
            documento_cargado = loader.load()

            documentos.extend(documento_cargado)

            # Dividir el texto en chunks
            # chunk_size y chunk_overlap son importantes para el rendimiento y la calidad

            text_splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
            docs = text_splitter.split_documents(documentos)

    else:
        print("⚠️ No se encontraron los documentos en el directorio.")
  else:
    raise FileNotFoundError(f"❌ El directorio '{directorio_documentos}' no fue encontrado.")

  print(f"Número de documentos cargados: \033[36m{len(documentos)}\033[0m")
  print(f"Número de chunks creados: \033[36m{len(docs)}\033[0m")

  # Inicializar el modelo de embeddings
  print(f"Cargando modelo de embeddings: \033[36m{embedding_model_name}\033[0m")
  # Langchain tiene un wrapper para HuggingFaceEmbeddings
  embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name)

  # Crear la base de datos vectorial FAISS
  print("Creando y poblando la base de datos vectorial FAISS")
  vector_store = FAISS.from_documents(docs, embeddings)
  print("Base de datos vectorial \033[32mcreada con éxito\033[0m.")

  return vector_store, embeddings

# Creación del modelo LLM

Definimos un modelo Large Language Model (LLM) optimizado para eficiencia y compatibilidad con entornos limitados de GPU. La estrategia se basa en la cuantización de 4 bits, que reduce el consumo de memoria sin afectar en gran medida la calidad de las respuestas (Dettmers et al., 2023). Para ello implementamos los siguientes pasos:

1️⃣Carga el modelo desde la biblioteca Hugging Face, permitiendo el uso de modelos preentrenados. Esto nos deja  aprovechar las capacidades lingüísticas ya desarrolladas sin necesidad de entrenar desde cero.

2️⃣Optimiza el uso de memoria en GPU Mediante la integración de BitsAndBytesConfig y la biblioteca bitsandbytes, configuramos load_in_4bit=True y bnb_4bit_quant_type="nf4" para representar los pesos del modelo en solo 4 bits. Esta reducción de precisión disminuye el uso de VRAM hasta en un 75 %, manteniendo un rendimiento casi idéntico (Hu et al., 2023; Hugging Face, 2024).

3️⃣Detecta la disponibilidad de una GPU y carga el modelo en GPU si está disponible; de lo contrario, lo carga en CPU. Este paso garantiza escalabilidad y portabilidad en distintos entornos.

4️⃣Configura el tokenizador para la generación de texto, asegurando un procesamiento adecuado de las entradas en asegurando el encoding/decoding adecuado de texto en español, incluyendo manejo de acentos y tokens especiales.

**Referencias**

* Dettmers, T., et al. (2023). Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA. Hugging Face Blog. Recuperado el 23 de junio de 2025 de https://huggingface.co/blog/4bit-transformers-bitsandbytes

* Hugging Face. (2024). Quantization [Documentación Transformers]. Recuperado el 23 de junio de 2025 de https://huggingface.co/docs/transformers/main_classes/quantization/

In [None]:
def carga_llm(model_name):

    # Configuración de cuantización (para ahorrar VRAM en GPU)
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=False,
    )

    if torch.cuda.is_available():
        print(f"GPU detectada. Cargando \033[36m{model_name}\033[0m")

        # Cargar tokenizador
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        tokenizer.pad_token = tokenizer.eos_token # Importante para generación

        # Cargar modelo con cuantización
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            quantization_config=quantization_config,
            device_map="auto" # Para distribuir el modelo automáticamente en las GPUs disponibles
        )
        print(f"Modelo \033[36m{model_name}\033[0m cargado en \033[35mGPU\033[0m.")
        return tokenizer, model
    else:
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        tokenizer.pad_token = tokenizer.eos_token
        model = AutoModelForCausalLM.from_pretrained(model_name)
        print(f"Modelo \033[36m{model_name}\033[0m cargado en CPU.")
        return tokenizer, model

# Creación de la base de datos vectorial y carga de LLM

En esta sección, primero construimos la base de recuperación semántica indexando los documentos mediante embeddings y FAISS, lo que permite búsquedas rápidas y relevantes en grandes volúmenes documentales (Douze et al., 2024).

Luego, cargamos un LLM preentrenado desde Hugging Face, cuantizado en 4 bits para optimizar el uso de memoria sin perder calidad del significado (Dettmers et al., 2023).

**Referencias**
* Douze, M., Guzhva, A., Deng, C., Johnson, J., Szilvasy, G., Mazaré, P.-E., et al. (2024). The Faiss library. arXiv. Recuperado el 23 de junio de 2025 de https://doi.org/10.48550/arXiv.2401.08281
* Dettmers, T., et al. (2023). Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA. Hugging Face Blog. Recuperado el 23 de junio de 2025 de https://huggingface.co/blog/4bit-transformers-bitsandbytes



In [None]:
# Crear la base de datos vectorial
vector_store, embeddings_model = crea_vectores(directorio_documentos, EMBEDDING_MODEL_NAME)
# Cargar el LLM
tokenizer, llm_model = carga_llm(LLM_MODEL_NAME)

Cargando documento de: [36mdatos_RAG_LLM/9000-002-002.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9000-002-003.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-101.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-105.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-112.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-114.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-115.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-124.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-125.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-126.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-200.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-201.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-202.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-209.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-210.txt[0m
Cargando documento de: [36mdatos_RAG_LLM/9210-003-211.

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Modelo [36mmistralai/Mistral-7B-Instruct-v0.2[0m cargado en [35mGPU[0m.


# Creación del pipeline

Configuramos el pipeline de generación de texto basado modelo LLM preentrenado (LLM) utilizando la clase pipeline de Hugging Face Transformers. Este pipeline se encarga de recibir las consultas del usuario, procesarlas mediante el tokenizador y generar una respuesta coherente, fundamentada en la información recuperada por el sistema RAG. (HuggingFace, 2024)

Esta etapa es esencial en el funcionamiento del chatbot, ya que define cómo el modelo genera las respuestas, incluyendo parámetros que afectan su longitud, creatividad y precisión semántica. A continuación definimos estos parámetros:

⚙️ Parámetros principales
- `model=llm_model`: especifica el modelo de lenguaje preentrenado que se utilizará.
- `tokenizer=tokenizer`: define el tokenizador asociado al modelo, responsable de convertir texto en tokens y viceversa.
- `max_new_tokens=800`: establece la longitud máxima de texto generado, en número de tokens.
- `do_sample=True`: habilita el muestreo aleatorio en la generación de texto, en lugar de elegir siempre la opción más probable.
- `temperature=0.8`: ajusta el nivel de creatividad; valores más altos generan respuestas más variadas.
- `top_k=50`: limita la selección a los 50 tokens más probables antes de elegir aleatoriamente.
- `top_p=0.95`: aplica “nucleus sampling”, seleccionando entre los tokens con una probabilidad acumulada del 95 %.
- `eos_token_id=tokenizer.eos_token_id`: define el token de fin de secuencia para detener la generación cuando se alcanza.
- `return_full_text=False`: indica que se debe devolver solo el texto generado, excluyendo el texto de entrada.

**Referencias**
* Hugging Face. (2024). Text Generation Pipelines. Recuperado el 23 de junio de 2025 de https://huggingface.co/docs/transformers/main/en/main_classes/pipelines#transformers.TextGenerationPipeline

In [None]:
# Crear el pipeline de HuggingFace para el LLM
# Se especifica temperature para controlar la creatividad y max_new_tokens para limitar la longitud de la respuesta
llm_pipeline = pipeline(
    "text-generation",
    model=llm_model,
    tokenizer=tokenizer,
    max_new_tokens=1500, # Longitud máxima de la respuesta generada
    do_sample=True,
    temperature=0.8, # Creatividad del modelo (0.0 a 1.0, más alto es más creativo)
    top_k=50,
    top_p=0.95,
    eos_token_id=tokenizer.eos_token_id, # Asegura que el modelo se detenga al generar el token EOS
    return_full_text = False
)

Device set to use cuda:0


# RAG Langchain para responder preguntas de forma contextualizada

Este framework permite ejecutar fácilmente el flujo entre los componentes del sistema: recuperación, procesamiento y generación de texto (Zhou et al., 2023). En este pipeline, la consulta del usuario activa los siguientes pasos:

1️⃣ **Integración del modelo de lenguaje (LLM)**

El modelo de lenguaje preentrenado, cargado desde Hugging Face y previamente cuantizado para eficiencia, se conecta mediante HuggingFacePipeline. Esto permite usar el mismo modelo con parámetros de control definidos en la etapa anterior (como temperatura, top_k, etc.).

2️⃣ **Recuperador semántico (Retriever)**

Se crea un retriever a partir del índice vectorial FAISS, que permite recuperar los fragmentos de texto más relevantes para una consulta dada. Este componente se encarga de realizar la búsqueda semántica dentro del corpus documental del IMSS, usando comparaciones vectoriales.

3️⃣ **Prompt personalizado**

Se define un prompt instructivo que guía al modelo para:
* Ser claro y amigable.
* Evitar generar respuestas sin fundamento (“alucinaciones”).
* Basarse únicamente en los documentos proporcionados.
* El prompt representa una capa crítica de control, alineando el comportamiento del LLM con la ética y objetivos del chatbot (Zhou et al., 2023).

4️⃣ **Construcción de la cadena RAG**
Se construye una cadena de tipo RetrievalQA en LangChain, que:

* Toma como entrada la pregunta del usuario.
* Recupera fragmentos relevantes del corpus mediante FAISS.
* Genera una respuesta a partir de los documentos recuperados.
* Devuelve una salida textual clara, fundamentada y útil.

Este flujo cierra el ciclo RAG: recuperación de contexto + generación controlada, optimizando la calidad de las respuestas sin necesidad de entrenamiento adicional del modelo.

**Referencias**
* Zhou, M., et al. (2023). DocPrompting: Generating documents with retrieval-augmented language models. Proceedings of the 2023 Conference of the Association for Computational Linguistics. https://arxiv.org/abs/2305.06983



El siguiente código, implementa un flujo completo basado en RAG (Retrieval-Augmented Generation) utilizando LangChain para responder preguntas de forma contextualizada.
- Configura un modelo de lenguaje (LLM) a través de Hugging Face mediante `HuggingFacePipeline`.
- Crea un retriever que obtiene fragmentos de información relevantes desde una base de datos vectorial.
- Define un prompt personalizado que orienta al modelo para responder con amabilidad, precisión y sin generar información inventada.
- Construye una cadena RAG que:
- Recupera información contextual.
- Genera una respuesta basada en dicha información.
- Devuelve una salida textual clara y útil.

In [None]:
llm = HuggingFacePipeline(pipeline=llm_pipeline)

# Crear el retriever
retriever = vector_store.as_retriever(search_kwargs={"k": 6}) # Recupera los 6 chunks más relevantes

# --- Definir el Prompt Template ---
# Este prompt guía al LLM sobre cómo debe responder
prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template="""
    Eres un asistente de IA amigable y eficiente que responde preguntas relacionadas con procedimientos de afiliación.
    Debes responder únicamente con base en el contexto proporcionado, sin mencionar los documentos ni fuentes consultadas.
    Si la información del contexto no es suficiente para responder con certeza, indica amablemente que no estás seguro.
    Cada respuesta debe comenzar con una frase introductoria distinta que transmita amabilidad, interés y cercanía (por ejemplo: "Con gusto te explico..." o "Qué buena pregunta, aquí tienes la información..."), y procura variar esa frase en cada ocasión.
    Al final de cada respuesta, incluye:
    – Una frase que invite al usuario a contactar al área normativa en caso de dudas adicionales (por ejemplo: "Si tienes alguna otra duda, no dudes en ponerte en contacto con el área normativa correspondiente.")
    – Una advertencia clara indicando que el contenido fue generado por inteligencia artificial, que puede contener errores, y que es importante verificar la información antes de tomar decisiones.


    Contexto: {context}

    Pregunta: {question}

    Respuesta útil:
    """
)

# --- Construir la cadena de RAG con Langchain Expression Language (LCEL) ---
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)

  llm = HuggingFacePipeline(pipeline=llm_pipeline)


# Chatbot

La función `chat_with_rag` recibe una pregunta del usuario y devuelve una respuesta generada a partir de la cadena RAG, la cual combina recuperación de información y generación de texto.

Se crea una aplicación web interactiva que permite:
- Ingresar preguntas en un campo de texto.
- Obtener respuestas generadas por IA basadas en información recuperada.
- Visualizar un título, una descripción y ejemplos que facilitan la interacción del usuario.

La creación de la interfaz incluye las siguientes configuraciones clave:
- `fn=chat_with_rag`: conecta la función principal del asistente con la interfaz.
- `inputs`: define el campo de entrada donde el usuario formula su pregunta.
- `outputs`: especifica el área donde se muestra la respuesta generada.
- `title`: establece el título visible de la aplicación.
- `description`: proporciona una breve explicación sobre el propósito de la interfaz.
- `examples`: muestra preguntas sugeridas que el usuario puede seleccionar para probar el sistema.




In [None]:
# --- Función para la interfaz de Gradio ---
def chat_with_rag(user_query):
    try:
        response = rag_chain.invoke(user_query)
        return response
    except Exception as e:
        return f"Ocurrió un error: {e}"

# --- Interfaz de Gradio ---
print("Creando interfaz de Gradio...")

iface = gr.Interface(
    fn=chat_with_rag,
    inputs=gr.Textbox(lines=2, placeholder="Escribe tu pregunta aquí...", label="Tu Pregunta"),
    outputs=gr.Textbox(label="Respuesta del Asistente"),
    title="Consultor Virtual de la Unidad de Incorporación al Seguro Social – Potenciado por IA",
    description="Aclaramos tus consultas sobre los procedimientos de afiliación.",
    examples=["Explícame el procedimiento de alta patronal", "¿Qué modalidades validas existen?", "¿Cómo doy de alta un patron persona física?"]
)

# Lanzar la interfaz
iface.launch(share=True) # share=True para generar un enlace público temporal

Creando interfaz de Gradio...
* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://62e9020ce8a6345c57.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




# **Conclusiones:**

* #### **Incluyan sus conclusiones de la actividad chatbot LLM + RAG:**



None

# **Fin de la actividad chatbot: LLM + RAG**

Revisar si queremos formato markdown

https://faiss.ai/