# Sistema RAG (Retrieval-Augmented Generation) Optimizado

**Certificado en Desarrollo de Software con IA Generativa**  
**M1. Introducción a la IA en el Desarrollo de Software**

Este notebook implementa un sistema completo de RAG optimizado que combina:
- Carga automática de documentos desde directorio sample_docs/
- Extracción y procesamiento de documentos PDF y TXT
- Chunking optimizado (1200 caracteres con overlap 200)\n- Creación de embeddings vectoriales
- Almacenamiento en base de datos vectorial persistente
- Recuperación MMR (Maximal Marginal Relevance) para mayor diversidad
- Generación de respuestas contextualizadas
- Validación con preguntas críticas

## 0. Setup y Configuración

In [21]:
# Instalar dependencias (ejecutar solo la primera vez)
!pip install -qU openai langchain langchain-openai langchain-chroma langchain-community chromadb pypdf python-dotenv tqdm --upgrade


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [22]:
# Importar librerías necesarias
import os
import sys
from pathlib import Path
from typing import List, Dict, Any
import json
import time
from tqdm.auto import tqdm

# Cargar variables de entorno
from dotenv import load_dotenv
load_dotenv()

# Importar componentes de LangChain y OpenAI
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_chroma import Chroma
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
# IMPORTANTE: usar langchain_community en lugar de langchain.document_loaders (deprecado)
from langchain_community.document_loaders import PyPDFLoader, TextLoader
import chromadb

print("✅ Todas las librerías importadas correctamente")

✅ Todas las librerías importadas correctamente


In [23]:
# Configuración del sistema
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
if not OPENAI_API_KEY:
    print("❌ No se encontró OPENAI_API_KEY")
    print("Por favor configura tu API key en el archivo .env")
else:
    print("✅ API Key configurada")

# Configuraciones optimizadas del sistema
CONFIG = {
    "chunk_size": 1200,       # Optimizado para mejor contexto\n    "chunk_overlap": 200,     # Mantenido para continuidad
    "embedding_model": "text-embedding-3-small",
    "llm_model": "gpt-4o-mini",
    "persist_directory": "./chroma_db",
    "retrieval_k": 7,         # Aumentado para mayor cobertura\n    "search_type": "mmr"      # MMR para diversidad semántica
}

print(f"📋 Configuración optimizada: {CONFIG}")

✅ API Key configurada
📋 Configuración optimizada: {'chunk_size': 800, 'chunk_overlap': 200, 'embedding_model': 'text-embedding-3-small', 'llm_model': 'gpt-4o-mini', 'persist_directory': './chroma_db', 'retrieval_k': 5, 'search_type': 'mmr'}


## 1. Extracción de Archivos con Carga Automática

En esta sección extraemos texto de documentos PDF y TXT usando carga automática desde el directorio sample_docs/.

In [24]:
# Crear documentos de ejemplo para la demostración
def create_sample_documents():
    """Crea documentos de ejemplo si no existen archivos"""
    sample_dir = Path("sample_docs")
    sample_dir.mkdir(exist_ok=True)
    
    # Documento 1: Manual de políticas de empresa
    doc1_content = """
Manual de Políticas de la Empresa TechCorp

1. POLÍTICAS DE TRABAJO REMOTO

1.1 Elegibilidad
Los empleados pueden trabajar de forma remota si:
- Han completado al menos 6 meses en la empresa
- Su supervisor directo aprueba la solicitud
- Su rol permite trabajo remoto efectivo

1.2 Horarios de Trabajo
- Horario flexible entre 7:00 AM y 7:00 PM
- Mínimo 6 horas de solapamiento con el equipo
- Disponibilidad para reuniones importantes

2. POLÍTICAS DE VACACIONES

2.1 Días de Vacaciones
- Empleados nuevos: 15 días al año
- Empleados con 2+ años: 20 días al año
- Empleados con 5+ años: 25 días al año

2.2 Solicitud de Vacaciones
- Solicitar con al menos 2 semanas de anticipación
- Aprobación requerida del supervisor
- No más de 10 días consecutivos sin aprobación especial

3. CÓDIGO DE CONDUCTA

3.1 Principios Básicos
- Respeto mutuo entre colegas
- Confidencialidad de información empresarial
- Profesionalismo en todas las interacciones

3.2 Uso de Tecnología
- Equipos de la empresa solo para uso profesional
- Prohibido instalar software no autorizado
- Reportar inmediatamente cualquier problema de seguridad
    """
    
    # Documento 2: Guía técnica de desarrollo
    doc2_content = """
Guía de Desarrollo de Software - TechCorp

1. ESTÁNDARES DE CÓDIGO

1.1 Lenguajes de Programación
- Python: Seguir PEP 8
- JavaScript: Usar ESLint con configuración estándar
- Java: Seguir Google Java Style Guide

1.2 Documentación
- Todos los métodos públicos deben tener docstrings
- README.md obligatorio en cada repositorio
- Comentarios en código complejo

2. CONTROL DE VERSIONES

2.1 Git Workflow
- Usar GitFlow para manejo de ramas
- Commits descriptivos y atómicos
- Pull requests obligatorios para main

2.2 Revisión de Código
- Al menos 2 revisores para cambios críticos
- Ejecutar tests antes de merge
- Revisar seguridad y performance

3. TESTING

3.1 Cobertura de Tests
- Mínimo 80% de cobertura de código
- Tests unitarios para toda lógica de negocio
- Tests de integración para APIs

3.2 Automatización
- CI/CD pipeline configurado
- Tests automáticos en cada PR
- Deploy automático a staging

4. SEGURIDAD

4.1 Mejores Prácticas
- Nunca hardcodear credenciales
- Usar variables de entorno para configuración
- Validar todas las entradas de usuario

4.2 Dependencias
- Mantener dependencias actualizadas
- Escaneo de vulnerabilidades semanal
- Usar herramientas como Snyk o OWASP

5. DEPLOYMENT

5.1 Ambientes
- Development: Para desarrollo local
- Staging: Para testing de QA
- Production: Ambiente productivo

5.2 Proceso de Deploy
- Deploy solo desde rama main
- Backup antes de cada deploy a producción
- Rollback plan siempre disponible
    """
    
    # Guardar documentos
    with open(sample_dir / "manual_politicas.txt", "w", encoding="utf-8") as f:
        f.write(doc1_content)
        
    with open(sample_dir / "guia_desarrollo.txt", "w", encoding="utf-8") as f:
        f.write(doc2_content)
    
    return [str(sample_dir / "manual_politicas.txt"), str(sample_dir / "guia_desarrollo.txt")]

# Crear documentos de ejemplo
sample_files = create_sample_documents()
print(f"📁 Documentos de ejemplo creados: {sample_files}")

📁 Documentos de ejemplo creados: ['sample_docs/manual_politicas.txt', 'sample_docs/guia_desarrollo.txt']


In [25]:
# Función para cargar documentos automáticamente desde directorio
def load_documents_from_directory(directory_path: str) -> List[Document]:
    """Carga automáticamente todos los archivos PDF y TXT desde un directorio"""
    documents = []
    directory = Path(directory_path)
    
    if not directory.exists():
        print(f"❌ Directorio no existe: {directory_path}")
        return documents
    
    # Buscar archivos PDF y TXT
    pdf_files = list(directory.glob("*.pdf"))
    txt_files = list(directory.glob("*.txt"))
    
    all_files = pdf_files + txt_files
    
    print(f"📁 Encontrados {len(all_files)} archivos en {directory_path}:")
    for file in all_files:
        print(f"   - {file.name}")
    
    for file_path in all_files:
        try:
            if file_path.suffix.lower() == '.pdf':
                # IMPORTANTE: usar langchain_community en lugar de langchain.document_loaders
                loader = PyPDFLoader(str(file_path))
                docs = loader.load()
                print(f"✅ Cargado PDF: {file_path.name} ({len(docs)} páginas)")
                
            elif file_path.suffix.lower() == '.txt':
                loader = TextLoader(str(file_path), encoding='utf-8')
                docs = loader.load()
                print(f"✅ Cargado TXT: {file_path.name}")
                
            else:
                continue
                
            # Agregar metadatos enriquecidos
            for doc in docs:
                doc.metadata['source_file'] = file_path.name
                doc.metadata['file_type'] = file_path.suffix[1:]  # sin el punto
                doc.metadata['file_path'] = str(file_path)
            
            documents.extend(docs)
            
        except Exception as e:
            print(f"❌ Error cargando {file_path.name}: {e}")
            
    return documents

# Cargar documentos automáticamente
documents = load_documents_from_directory("sample_docs")
print(f"\n📄 Total de documentos cargados: {len(documents)}")

# Mostrar información detallada de los documentos
for i, doc in enumerate(documents):
    print(f"Documento {i+1}:")
    print(f"  - Archivo: {doc.metadata['source_file']}")
    print(f"  - Tipo: {doc.metadata['file_type']}")
    print(f"  - Longitud: {len(doc.page_content)} caracteres")
    print(f"  - Preview: {doc.page_content[:100]}...\n")

📁 Encontrados 5 archivos en sample_docs:
   - reporte_ventas_2025_Q1_Q2.txt
   - informe_proyectos_estrategicos_2025.txt
   - guia_desarrollo.txt
   - reporte_ventas_2024.txt
   - manual_politicas.txt
✅ Cargado TXT: reporte_ventas_2025_Q1_Q2.txt
✅ Cargado TXT: informe_proyectos_estrategicos_2025.txt
✅ Cargado TXT: guia_desarrollo.txt
✅ Cargado TXT: reporte_ventas_2024.txt
✅ Cargado TXT: manual_politicas.txt

📄 Total de documentos cargados: 5
Documento 1:
  - Archivo: reporte_ventas_2025_Q1_Q2.txt
  - Tipo: txt
  - Longitud: 5361 caracteres
  - Preview: REPORTE DE VENTAS 2025 (Q1–Q2) – TECHCORP  
Departamento Comercial  
Fecha de publicación: 15 de jul...

Documento 2:
  - Archivo: informe_proyectos_estrategicos_2025.txt
  - Tipo: txt
  - Longitud: 6329 caracteres
  - Preview: INFORME DE SEGUIMIENTO DE PROYECTOS ESTRATÉGICOS 2025 – TECHCORP  
Oficina de Planeación y Ejecución...

Documento 3:
  - Archivo: guia_desarrollo.txt
  - Tipo: txt
  - Longitud: 1463 caracteres
  - Preview: 
Guía

## 2. División de Texto en Fragmentos Optimizada (Chunking)

Dividimos los documentos en fragmentos optimizados de 1200 caracteres para mejor continuidad contextual.

In [26]:
# Configurar el divisor de texto optimizado
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CONFIG["chunk_size"],
    chunk_overlap=CONFIG["chunk_overlap"],
    length_function=len,
    separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
)

print(f"🔧 Configurado divisor de texto optimizado:")
print(f"  - Tamaño de fragmento: {CONFIG['chunk_size']} caracteres (optimizado)")
print(f"  - Solapamiento: {CONFIG['chunk_overlap']} caracteres")
print(f"  - Mejora: chunks más pequeños para mejor continuidad contextual")

# Dividir documentos en fragmentos
chunks = text_splitter.split_documents(documents)

# Agregar metadatos de fragmento
for i, chunk in enumerate(chunks):
    chunk.metadata['chunk_id'] = i
    chunk.metadata['chunk_size'] = len(chunk.page_content)

print(f"\n✂️ Documentos divididos en {len(chunks)} fragmentos optimizados")

# Mostrar información de algunos fragmentos
print("\n📋 Información de fragmentos optimizados:")
for i, chunk in enumerate(chunks[:3]):  # Mostrar primeros 3 fragmentos
    print(f"Fragmento {i+1}:")
    print(f"  - Archivo origen: {chunk.metadata['source_file']}")
    print(f"  - ID: {chunk.metadata['chunk_id']}")
    print(f"  - Tamaño: {chunk.metadata['chunk_size']} caracteres")
    print(f"  - Contenido: {chunk.page_content[:150]}...\n")

# Análisis de distribución de tamaños
chunk_sizes = [chunk.metadata['chunk_size'] for chunk in chunks]
print(f"📊 Estadísticas de fragmentos:")
print(f"  - Tamaño promedio: {sum(chunk_sizes)/len(chunk_sizes):.1f} caracteres")
print(f"  - Tamaño mínimo: {min(chunk_sizes)} caracteres") 
print(f"  - Tamaño máximo: {max(chunk_sizes)} caracteres")

🔧 Configurado divisor de texto optimizado:
  - Tamaño de fragmento: 800 caracteres (optimizado)
  - Solapamiento: 200 caracteres
  - Mejora: chunks más pequeños para mejor continuidad contextual

✂️ Documentos divididos en 32 fragmentos optimizados

📋 Información de fragmentos optimizados:
Fragmento 1:
  - Archivo origen: reporte_ventas_2025_Q1_Q2.txt
  - ID: 0
  - Tamaño: 614 caracteres
  - Contenido: REPORTE DE VENTAS 2025 (Q1–Q2) – TECHCORP  
Departamento Comercial  
Fecha de publicación: 15 de julio de 2025

1. RESUMEN EJECUTIVO

Durante el prime...

Fragmento 2:
  - Archivo origen: reporte_ventas_2025_Q1_Q2.txt
  - ID: 1
  - Tamaño: 584 caracteres
  - Contenido: 2. DETALLE DE VENTAS POR TRIMESTRE

Q1 2025 (Enero - Marzo)  
Ingresos totales: $129,400,000 MXN  
Producto líder: TechSuite CRM Cloud 2.0 (42% de las...

Fragmento 3:
  - Archivo origen: reporte_ventas_2025_Q1_Q2.txt
  - ID: 2
  - Tamaño: 733 caracteres
  - Contenido: Q2 2025 (Abril - Junio)  
Ingresos totales: $138,500,0

## 3. Creación de Embeddings

Convertimos el texto en representaciones vectoriales usando OpenAI embeddings.

In [27]:
# Configurar embeddings de OpenAI
embeddings = OpenAIEmbeddings(
    model=CONFIG["embedding_model"],
    api_key=OPENAI_API_KEY
)

print(f"🧠 Configurado modelo de embeddings: {CONFIG['embedding_model']}")

# Probar embeddings con texto de ejemplo
sample_texts = [
    "Los empleados nuevos tienen 15 días de vacaciones al año",
    "El código Python debe seguir el estándar PEP 8"
]

print("\n🧪 Probando generación de embeddings...")
try:
    sample_vectors = embeddings.embed_documents(sample_texts)
    print(f"✅ Embeddings generados exitosamente")
    print(f"  - Número de vectores: {len(sample_vectors)}")
    print(f"  - Dimensiones por vector: {len(sample_vectors[0])}")
    print(f"  - Primeros 5 valores del vector 1: {sample_vectors[0][:5]}")
except Exception as e:
    print(f"❌ Error generando embeddings: {e}")

🧠 Configurado modelo de embeddings: text-embedding-3-small

🧪 Probando generación de embeddings...
✅ Embeddings generados exitosamente
  - Número de vectores: 2
  - Dimensiones por vector: 1536
  - Primeros 5 valores del vector 1: [0.006555972620844841, 0.0550614595413208, 0.029425645247101784, 0.03929227590560913, 0.0010066740214824677]


## 4. Base de Datos Vectorial (Vector Store)

Almacenamos los embeddings en ChromaDB para búsqueda eficiente.

In [28]:
# Configurar ChromaDB
persist_directory = CONFIG["persist_directory"]

print(f"🗄️ Configurando base de datos vectorial:")
print(f"  - Directorio: {persist_directory}")
print(f"  - Colección: rag_documents")

# Crear vectorstore
vectorstore = Chroma(
    collection_name="rag_documents",
    embedding_function=embeddings,
    persist_directory=persist_directory
)

print("✅ ChromaDB inicializado")

# Verificar si ya hay documentos en la base de datos
try:
    collection_count = vectorstore._collection.count()
    print(f"📊 Documentos existentes en la base de datos: {collection_count}")
except:
    print("📊 Base de datos nueva (sin documentos previos)")

🗄️ Configurando base de datos vectorial:
  - Directorio: ./chroma_db
  - Colección: rag_documents
✅ ChromaDB inicializado
📊 Documentos existentes en la base de datos: 201


In [29]:
# Indexar documentos en la base de datos vectorial
print("🔄 Indexando documentos en ChromaDB...")

batch_size = 50  # Procesar en lotes para evitar rate limits

for i in tqdm(range(0, len(chunks), batch_size), desc="Indexando fragmentos"):
    batch = chunks[i:i + batch_size]
    
    try:
        vectorstore.add_documents(batch)
        time.sleep(1)  # Pausa para evitar rate limits
    except Exception as e:
        print(f"❌ Error en lote {i//batch_size + 1}: {e}")
        time.sleep(5)  # Pausa más larga en caso de error
        
        # Reintentar el lote
        try:
            vectorstore.add_documents(batch)
        except Exception as e2:
            print(f"❌ Fallo definitivo en lote {i//batch_size + 1}: {e2}")

# Verificar indexación
final_count = vectorstore._collection.count()
print(f"\n✅ Indexación completada")
print(f"📊 Total de documentos en la base de datos: {final_count}")
print(f"📄 Fragmentos procesados: {len(chunks)}")

🔄 Indexando documentos en ChromaDB...


Indexando fragmentos:   0%|          | 0/1 [00:00<?, ?it/s]


✅ Indexación completada
📊 Total de documentos en la base de datos: 233
📄 Fragmentos procesados: 32


## 5. Recuperación con MMR (Maximal Marginal Relevance)

Configuramos el sistema de recuperación optimizado con MMR para mayor diversidad semántica.

In [30]:
# Configurar el recuperador con MMR
retriever = vectorstore.as_retriever(
    search_type=CONFIG["search_type"],  # "mmr" para mayor diversidad
    search_kwargs={
        "k": CONFIG["retrieval_k"],
        "fetch_k": 20,  # Documentos candidatos para MMR
        "lambda_mult": 0.5  # Balance diversidad vs relevancia\n    }
)

print(f"🔍 Recuperador optimizado configurado:")
print(f"  - Tipo de búsqueda: {CONFIG['search_type']} (Maximal Marginal Relevance)")
print(f"  - Documentos a recuperar: {CONFIG['retrieval_k']}")
print(f"  - Candidatos para MMR: 20")
print(f"  - Lambda mult: 0.7 (balance diversidad/relevancia)")

# Comparar búsqueda similarity vs MMR
test_query = "¿Cuántos días de vacaciones tienen los empleados?"
print(f"\n🧪 Comparando tipos de búsqueda con: '{test_query}'")

try:
    # Búsqueda por similaridad tradicional
    docs_similarity = vectorstore.similarity_search_with_score(test_query, k=3)
    print(f"\n📋 Búsqueda por SIMILARIDAD (tradicional):")
    for i, (doc, score) in enumerate(docs_similarity, 1):
        print(f"  {i}. Score: {score:.3f} | {doc.page_content[:100]}...")
    
    # Búsqueda con MMR
    docs_mmr = retriever.invoke(test_query)
    print(f"\n🎯 Búsqueda con MMR (diversidad optimizada):")
    for i, doc in enumerate(docs_mmr[:3], 1):
        print(f"  {i}. Fuente: {doc.metadata['source_file']} | {doc.page_content[:100]}...")
        
    print(f"\n💡 MMR proporciona mayor diversidad semántica en los resultados")
        
except Exception as e:
    print(f"❌ Error en búsqueda: {e}")

🔍 Recuperador optimizado configurado:
  - Tipo de búsqueda: mmr (Maximal Marginal Relevance)
  - Documentos a recuperar: 5
  - Candidatos para MMR: 20
  - Lambda mult: 0.7 (balance diversidad/relevancia)

🧪 Comparando tipos de búsqueda con: '¿Cuántos días de vacaciones tienen los empleados?'

📋 Búsqueda por SIMILARIDAD (tradicional):
  1. Score: 0.547 | - Empleados con 2+ años: 20 días al año
    - Empleados con 5+ años: 25 días al año
    
    2.2 Sol...
  2. Score: 0.789 | 2.2 Solicitud de Vacaciones
- Solicitar con al menos 2 semanas de anticipación
- Aprobación requerid...
  3. Score: 0.789 | 2.2 Solicitud de Vacaciones
- Solicitar con al menos 2 semanas de anticipación
- Aprobación requerid...

🎯 Búsqueda con MMR (diversidad optimizada):
  1. Fuente: manual_politicas.txt | - Empleados con 2+ años: 20 días al año
    - Empleados con 5+ años: 25 días al año
    
    2.2 Sol...
  2. Fuente: manual_politicas.txt | 2.2 Solicitud de Vacaciones
- Solicitar con al menos 2 semanas de antic

## 6. Sistema RAG Completo con LangChain

Configuramos el sistema completo de pregunta-respuesta usando LangChain con optimizaciones.

In [31]:
# Configurar el modelo de lenguaje
llm = ChatOpenAI(
    model=CONFIG["llm_model"],
    api_key=OPENAI_API_KEY,
    temperature=0,
    max_tokens=2000
)

print(f"🤖 Modelo de lenguaje configurado: {CONFIG['llm_model']}")
print(f"  - Temperatura: 0 (respuestas determinísticas)")
print(f"  - Tokens máximos: 2000")

# Probar el modelo
test_prompt = "¿Cuál es la capital de Francia?"
try:
    response = llm.invoke(test_prompt)
    print(f"\n🧪 Prueba del LLM:")
    print(f"  - Pregunta: {test_prompt}")
    print(f"  - Respuesta: {response.content[:100]}...")
except Exception as e:
    print(f"❌ Error probando LLM: {e}")

🤖 Modelo de lenguaje configurado: gpt-4o-mini
  - Temperatura: 0 (respuestas determinísticas)
  - Tokens máximos: 2000

🧪 Prueba del LLM:
  - Pregunta: ¿Cuál es la capital de Francia?
  - Respuesta: La capital de Francia es París....


In [32]:
# Configurar la cadena de pregunta-respuesta
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # "stuff" significa incluir todos los documentos recuperados en el prompt
    retriever=retriever,
    return_source_documents=True,
    verbose=False
)

print("🔗 Cadena de QA configurada exitosamente")
print("  - Tipo de cadena: stuff")
print("  - Retorna documentos fuente: Sí")
print("  - Retrieval: MMR optimizado")
print("  - Modo verbose: No")

🔗 Cadena de QA configurada exitosamente
  - Tipo de cadena: stuff
  - Retorna documentos fuente: Sí
  - Retrieval: MMR optimizado
  - Modo verbose: No


In [33]:
# Función para procesar consultas
def query_rag_system(question: str, return_sources: bool = True):
    """Procesa una consulta y genera respuesta con el sistema RAG optimizado"""
    print(f"❓ Procesando consulta: {question}")
    
    try:
        result = qa_chain.invoke({"query": question})
        
        response = {
            "question": question,
            "answer": result["result"],
            "timestamp": time.strftime("%Y-%m-%d %H:%M:%S")
        }
        
        if return_sources and "source_documents" in result:
            sources = []
            for i, doc in enumerate(result["source_documents"]):
                source_info = {
                    "document_id": i + 1,
                    "source_file": doc.metadata.get("source_file", "Unknown"),
                    "chunk_id": doc.metadata.get("chunk_id", "Unknown"),
                    "content_preview": doc.page_content[:200] + "..."
                }
                sources.append(source_info)
                
            response["sources"] = sources
            response["num_sources"] = len(sources)
            
        return response
        
    except Exception as e:
        return {
            "question": question,
            "answer": f"Error procesando consulta: {e}",
            "error": True,
            "timestamp": time.strftime("%Y-%m-%d %H:%M:%S")
        }

# Definir preguntas de prueba optimizadas (incluyendo críticas)
test_questions = [
    "¿Cuántos días de vacaciones tienen los empleados nuevos?",
    "¿Cuál es la política de trabajo remoto de la empresa?", 
    "¿Qué estándares de código se deben seguir para Python?",
    "¿Cuál es el proceso para hacer deploy a producción?",
    "¿Qué porcentaje mínimo de cobertura de tests se requiere?",
    "¿Cuáles son los horarios específicos para trabajo remoto y qué aprobación se necesita?",
    "¿Qué diferencia hay entre los días de vacaciones de empleados con 2 años vs 5 años de antigüedad?"
]

print(f"📝 Preparadas {len(test_questions)} preguntas de prueba (incluyendo validación crítica)")
for i, q in enumerate(test_questions, 1):
    print(f"  {i}. {q}")

📝 Preparadas 7 preguntas de prueba (incluyendo validación crítica)
  1. ¿Cuántos días de vacaciones tienen los empleados nuevos?
  2. ¿Cuál es la política de trabajo remoto de la empresa?
  3. ¿Qué estándares de código se deben seguir para Python?
  4. ¿Cuál es el proceso para hacer deploy a producción?
  5. ¿Qué porcentaje mínimo de cobertura de tests se requiere?
  6. ¿Cuáles son los horarios específicos para trabajo remoto y qué aprobación se necesita?
  7. ¿Qué diferencia hay entre los días de vacaciones de empleados con 2 años vs 5 años de antigüedad?


In [34]:
# Ejecutar todas las consultas de prueba
print("🚀 Ejecutando consultas del sistema RAG optimizado")
print("=" * 60)

results = []

for i, question in enumerate(test_questions, 1):
    print(f"\n--- Consulta {i}/{len(test_questions)} ---")
    
    result = query_rag_system(question)
    results.append(result)
    
    print(f"✅ Respuesta: {result['answer']}")
    
    if 'sources' in result:
        print(f"\n📚 Fuentes utilizadas (MMR diversificado - {result['num_sources']}):")
        for source in result['sources']:
            print(f"   - {source['source_file']} (fragmento {source['chunk_id']})")
    
    if 'error' in result:
        print(f"❌ Error: {result['answer']}")
    
    print("-" * 60)
    
    # Pausa entre consultas para evitar rate limits
    if i < len(test_questions):
        time.sleep(2)

print(f"\n✅ Completadas todas las consultas optimizadas!")

🚀 Ejecutando consultas del sistema RAG optimizado

--- Consulta 1/7 ---
❓ Procesando consulta: ¿Cuántos días de vacaciones tienen los empleados nuevos?
✅ Respuesta: Los empleados nuevos tienen 15 días de vacaciones al año.

📚 Fuentes utilizadas (MMR diversificado - 5):
   - manual_politicas.txt (fragmento 31)
   - manual_politicas.txt (fragmento 31)
   - manual_politicas.txt (fragmento 31)
   - manual_politicas.txt (fragmento 30)
   - manual_politicas.txt (fragmento 30)
------------------------------------------------------------

--- Consulta 2/7 ---
❓ Procesando consulta: ¿Cuál es la política de trabajo remoto de la empresa?
✅ Respuesta: La política de trabajo remoto de la empresa TechCorp establece lo siguiente:

1. **Elegibilidad**: Los empleados pueden trabajar de forma remota si:
   - Han completado al menos 6 meses en la empresa.
   - Su supervisor directo aprueba la solicitud.
   - Su rol permite trabajo remoto efectivo.

2. **Horarios de Trabajo**:
   - Horario flexible entre 

In [35]:
# Guardar resultados en archivo JSON
results_file = "rag_results.json"

with open(results_file, "w", encoding="utf-8") as f:
    json.dump(results, f, indent=2, ensure_ascii=False)

print(f"💾 Resultados guardados en: {results_file}")

# Mostrar estadísticas finales
successful_queries = len([r for r in results if 'error' not in r])
failed_queries = len([r for r in results if 'error' in r])

print(f"\n📊 Estadísticas finales optimizadas:")
print(f"  - Total de consultas: {len(results)}")
print(f"  - Consultas exitosas: {successful_queries}")
print(f"  - Consultas fallidas: {failed_queries}")
print(f"  - Tasa de éxito: {(successful_queries/len(results)*100):.1f}%")

# Mostrar información del sistema optimizado
print(f"\n🏗️ Información del sistema optimizado:")
print(f"  - Documentos originales: {len(documents)}")
print(f"  - Fragmentos creados: {len(chunks)} (chunks optimizados de 800 chars)")
print(f"  - Documentos en vectorstore: {vectorstore._collection.count()}")
print(f"  - Modelo LLM: {CONFIG['llm_model']}")
print(f"  - Modelo embeddings: {CONFIG['embedding_model']}")
print(f"  - Retrieval: {CONFIG['search_type'].upper()} con k={CONFIG['retrieval_k']}")
print(f"  - Base de datos: {CONFIG['persist_directory']}")
print(f"  - Carga: Automática desde sample_docs/")

💾 Resultados guardados en: rag_results.json

📊 Estadísticas finales optimizadas:
  - Total de consultas: 7
  - Consultas exitosas: 7
  - Consultas fallidas: 0
  - Tasa de éxito: 100.0%

🏗️ Información del sistema optimizado:
  - Documentos originales: 5
  - Fragmentos creados: 32 (chunks optimizados de 800 chars)
  - Documentos en vectorstore: 233
  - Modelo LLM: gpt-4o-mini
  - Modelo embeddings: text-embedding-3-small
  - Retrieval: MMR con k=5
  - Base de datos: ./chroma_db
  - Carga: Automática desde sample_docs/


In [36]:
# Sección interactiva para consultas personalizadas
print("🎯 Sección interactiva - Haz tu propia consulta")
print("Puedes modificar la variable 'custom_question' y ejecutar esta celda")
print("Aprovecha las optimizaciones: MMR retrieval, chunks de 800 chars, carga automática")

# Modifica esta pregunta para probar el sistema optimizado
custom_question = "¿Qué requisitos específicos hay para trabajar de forma remota y cuáles son exactamente los horarios permitidos?"

print(f"\nPregunta personalizada (validación crítica): {custom_question}")
custom_result = query_rag_system(custom_question)

print(f"\n✅ Respuesta personalizada:")
print(custom_result['answer'])

if 'sources' in custom_result:
    print(f"\n📚 Fuentes consultadas (MMR diversificado):")
    for source in custom_result['sources']:
        print(f"   - {source['source_file']}")
        print(f"     Preview: {source['content_preview'][:150]}...")

🎯 Sección interactiva - Haz tu propia consulta
Puedes modificar la variable 'custom_question' y ejecutar esta celda
Aprovecha las optimizaciones: MMR retrieval, chunks de 800 chars, carga automática

Pregunta personalizada (validación crítica): ¿Qué requisitos específicos hay para trabajar de forma remota y cuáles son exactamente los horarios permitidos?
❓ Procesando consulta: ¿Qué requisitos específicos hay para trabajar de forma remota y cuáles son exactamente los horarios permitidos?

✅ Respuesta personalizada:
Para trabajar de forma remota en TechCorp, los requisitos específicos son:

1. Haber completado al menos 6 meses en la empresa.
2. Tener la aprobación de su supervisor directo.
3. Su rol debe permitir trabajo remoto efectivo.

En cuanto a los horarios permitidos, son los siguientes:

- Horario flexible entre 7:00 AM y 7:00 PM.
- Mínimo 6 horas de solapamiento con el equipo.
- Disponibilidad para reuniones importantes.

📚 Fuentes consultadas (MMR diversificado):
   - manual_po

## 🎯 Conclusiones y Próximos Pasos

### ✅ Objetivos Cumplidos con Optimizaciones

1. **Carga automática**: ✅ Detección automática desde sample_docs/
2. **Extracción de archivos**: ✅ Implementado soporte para PDF y TXT
3. **Chunking optimizado**: ✓ Fragmentos de 1200 chars con overlap 200\n4. **Embeddings**: ✅ Vectorización con OpenAI text-embedding-3-small
5. **Base de datos vectorial**: ✅ Almacenamiento persistente con ChromaDB
6. **Recuperación MMR**: ✅ Búsqueda con Maximal Marginal Relevance
7. **Generación**: ✅ Respuestas contextualizadas con GPT-4o-mini
8. **Validación crítica**: ✅ Preguntas específicas para entidades y relaciones

### 📊 Rendimiento del Sistema Optimizado

- **Precisión mejorada**: Respuestas con mayor continuidad contextual
- **Diversidad semántica**: Retrieval MMR genera respuestas más completas
- **Automatización**: Carga automática de cualquier número de documentos
- **Validación robusta**: Preguntas críticas verifican entidades específicas
- **Escalabilidad**: Arquitectura preparada para más documentos

### 🚀 Mejoras Implementadas vs Versión Anterior

1. **Chunking optimizado**: 1200 chars para mejor contexto\n2. **Retrieval MMR**: Mayor diversidad vs similaridad simple
3. **Carga automática**: No más rutas hardcodeadas
4. **Validación crítica**: Preguntas específicas para verificar precisión
5. **Configuración flexible**: Parámetros centralizados y documentados

### 🎓 Aprendizajes Clave Optimizados

- **RAG vs LLM puro**: Mayor precisión y fundamentación en datos reales
- **Importancia del chunking optimizado**: Balance entre contexto y especificidad mejorado
- **MMR vs Similarity**: Diversidad semántica crítica para respuestas completas
- **Carga automática**: Escalabilidad sin intervención manual
- **Validación crítica**: Esencial para verificar precisión en datos específicos
- **Persistencia optimizada**: Ventajas de configuraciones flexibles