# Notebook Optimizado: Backend RAG para el Chatbot "Eureka" de la ANLA

## Celda 1: Configuración e Instalación

In [None]:
import os
import logging
from pathlib import Path

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Instalar dependencias optimizadas
!pip install -qU chromadb==0.4.15 langchain==0.0.350 langchain_community langchain_ollama langchain_text_splitters streamlit python-dotenv sentence-transformers

# Verificar que Ollama está disponible
def check_ollama():
    try:
        import subprocess
        result = subprocess.run(['ollama', 'list'], capture_output=True, text=True)
        if result.returncode == 0:
            logger.info("✅ Ollama está disponible")
            return True
        else:
            logger.error("❌ Ollama no está disponible o no responde")
            return False
    except FileNotFoundError:
        logger.error("❌ Ollama no está instalado")
        return False

check_ollama()

## Celda 2: Base de Conocimiento Expandida

In [None]:
%%writefile eureka-knowledge.txt
# Base de Conocimiento Completa para Eureka - ANLA

## Información Institucional
La Autoridad Nacional de Licencias Ambientales (ANLA) es la entidad encargada de que los proyectos, obras o actividades sujetos a licenciamiento, permiso o trámite ambiental en Colombia cumplan con la normativa ambiental nacional.

### Misión
Contribuir al desarrollo sostenible del país mediante la evaluación, seguimiento y control de los proyectos, obras o actividades sujetos a licenciamiento, permiso o trámite ambiental.

### Visión
Ser reconocida como una entidad líder en la evaluación y control de proyectos con impacto ambiental.

## Licenciamiento Ambiental

### ¿Qué es?
El licenciamiento ambiental es la autorización que otorga la autoridad ambiental competente para la ejecución de un proyecto, obra o actividad que pueda producir deterioro grave a los recursos naturales renovables o al medio ambiente.

### Tipos de instrumentos:
1. **Licencia Ambiental**: Para proyectos de gran impacto
2. **Permisos Ambientales**: Para actividades específicas
3. **Concesiones**: Para uso de recursos naturales
4. **Autorizaciones**: Para manejo de fauna y flora

### Sectores que requieren licencia:
- Hidrocarburos
- Minería
- Infraestructura vial
- Energía eléctrica
- Portuario
- Agroindustrial

## Participación Ciudadana

### Marco Legal
La participación ciudadana está fundamentada en:
- Artículo 79 de la Constitución Nacional
- Ley 99 de 1993
- Decreto 1076 de 2015
- Resolución 1552 de 2005

### Mecanismos Principales

#### 1. Audiencias Públicas Ambientales
**¿Qué son?**
Espacios de diálogo entre la autoridad ambiental, el solicitante de la licencia y la comunidad.

**¿Quién puede solicitarlas?**
- Procurador General de la Nación
- Defensor del Pueblo  
- Ministros
- Gobernadores
- Alcaldes
- Al menos 100 personas
- 3 organizaciones cívicas

**Información completa**: https://www.anla.gov.co/participacion

#### 2. Terceros Intervinientes
**¿Qué es?**
Mecanismo que permite a personas naturales o jurídicas participar en procedimientos administrativos cuando tienen un interés jurídico directo.

**Requisitos**:
- Demostrar interés directo en la decisión
- Radicar solicitud dentro de los términos establecidos
- Aportar documentos que soporten el interés

#### 3. Derecho de Petición
Cualquier persona puede presentar peticiones respetuosas para:
- Obtener información
- Solicitar actuaciones
- Formular consultas
- Presentar quejas o reclamos

**Canal oficial**: VITAL (Ventanilla Integral de Trámites Ambientales en Línea)

#### 4. Consulta de Expedientes
Los ciudadanos pueden consultar:
- Estado de trámites
- Documentos técnicos
- Conceptos emitidos
- Resoluciones

**Acceso**: https://www.anla.gov.co/expedientes

## Información de Contacto
- **Sitio web**: https://www.anla.gov.co
- **VITAL**: https://vital.anla.gov.co
- **Línea de atención**: (601) 254 8888
- **Correo institucional**: info@anla.gov.co
- **Dirección**: Calle 37 # 8 - 40, Bogotá D.C.

## Horarios de Atención
- **Presencial**: Lunes a viernes de 8:00 AM a 5:00 PM
- **Virtual (VITAL)**: 24 horas, 7 días a la semana
- **Línea telefónica**: Lunes a viernes de 8:00 AM a 5:00 PM

## Celda 3: Clase RAG Optimizada

In [None]:
import hashlib
from typing import List, Optional, Dict
from dataclasses import dataclass
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_ollama.chat_models import ChatOllama
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.callbacks.manager import CallbackManagerForChainRun
from langchain.schema import Document

@dataclass
class EurekaConfig:
    """Configuración para el sistema Eureka"""
    chunk_size: int = 800
    chunk_overlap: int = 100
    embedding_model: str = "mxbai-embed-large"
    llm_model: str = "llama3.2"
    persist_directory: str = "./eureka_optimized_db"
    retriever_k: int = 5
    temperature: float = 0.1

class EurekaRAG:
    def __init__(self, config: EurekaConfig):
        self.config = config
        self.vectorstore: Optional[Chroma] = None
        self.qa_chain: Optional[RetrievalQA] = None
        self.embeddings = OllamaEmbeddings(model=config.embedding_model)
        self.llm = ChatOllama(
            model=config.llm_model,
            temperature=config.temperature
        )
        
        # Prompt optimizado con mejor estructura
        self.prompt_template = """Eres "Eureka", el asistente virtual oficial de la ANLA (Autoridad Nacional de Licencias Ambientales).

PERSONALIDAD Y TONO:
- Servicial, claro, profesional y confiable
- Usa un lenguaje accesible para ciudadanos
- Siempre mantén un tono institucional respetuoso

REGLAS ESTRICTAS:
1. SOLO responde basándote en el CONTEXTO proporcionado
2. Si la información no está en el contexto, usa EXACTAMENTE esta respuesta:
   "Gracias por tu consulta. No tengo información específica sobre ese tema en mi base de conocimiento actual. 
   Te invito a contactar los canales oficiales de la ANLA:
   - VITAL: https://vital.anla.gov.co
   - Línea: (601) 254 8888
   - Sitio web: https://www.anla.gov.co"

3. Si el contexto contiene enlaces, SIEMPRE inclúyelos al final
4. Para consultas sobre procedimientos, siempre menciona VITAL
5. No proporciones asesoría legal, solo información institucional

CONTEXTO RELEVANTE:
{context}

PREGUNTA DEL USUARIO:
{question}

RESPUESTA DE EUREKA:"""

        self.prompt = PromptTemplate(
            template=self.prompt_template,
            input_variables=["context", "question"]
        )

    def load_documents(self, file_path: str) -> List[Document]:
        """Carga y procesa documentos con manejo de errores mejorado"""
        try:
            loader = TextLoader(file_path, encoding='utf-8')
            documents = loader.load()
            
            # Mejorar metadatos
            for doc in documents:
                doc.metadata.update({
                    'source': file_path,
                    'content_hash': hashlib.md5(doc.page_content.encode()).hexdigest()
                })
            
            # Divisor optimizado
            splitter = RecursiveCharacterTextSplitter(
                chunk_size=self.config.chunk_size,
                chunk_overlap=self.config.chunk_overlap,
                length_function=len,
                separators=["\n\n", "\n", ". ", " ", ""]
            )
            
            split_docs = splitter.split_documents(documents)
            logger.info(f"✅ Procesados {len(split_docs)} chunks desde {file_path}")
            return split_docs
            
        except Exception as e:
            logger.error(f"❌ Error cargando documentos: {str(e)}")
            raise

    def create_vectorstore(self, documents: List[Document]) -> None:
        """Crea la base de datos vectorial con optimizaciones"""
        try:
            # Verificar si ya existe
            if Path(self.config.persist_directory).exists():
                logger.info("📂 Cargando base de datos existente...")
                self.vectorstore = Chroma(
                    persist_directory=self.config.persist_directory,
                    embedding_function=self.embeddings
                )
            else:
                logger.info("🏗️ Creando nueva base de datos vectorial...")
                self.vectorstore = Chroma.from_documents(
                    documents=documents,
                    embedding=self.embeddings,
                    persist_directory=self.config.persist_directory,
                    collection_metadata={"description": "Eureka ANLA Knowledge Base"}
                )
                
            logger.info(f"✅ Base vectorial lista con {self.vectorstore._collection.count()} documentos")
            
        except Exception as e:
            logger.error(f"❌ Error creando vectorstore: {str(e)}")
            raise

    def setup_qa_chain(self) -> None:
        """Configura la cadena de QA optimizada"""
        if not self.vectorstore:
            raise ValueError("Vectorstore no inicializado")
            
        retriever = self.vectorstore.as_retriever(
            search_type="mmr",  # Máxima relevancia marginal
            search_kwargs={
                "k": self.config.retriever_k,
                "fetch_k": self.config.retriever_k * 2,
                "lambda_mult": 0.7
            }
        )
        
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=True,  # Para debugging
            chain_type_kwargs={"prompt": self.prompt},
            verbose=False
        )
        
        logger.info("✅ Cadena QA configurada")

    def query(self, question: str) -> Dict:
        """Procesa consulta con manejo de casos especiales"""
        if not self.qa_chain:
            raise ValueError("QA chain no inicializada")
            
        # Modo administrador
        if question.strip().lower().startswith("admin:"):
            return {
                "answer": """🔧 **Información Técnica de Eureka**

**Arquitectura**: RAG (Retrieval-Augmented Generation)
**Embeddings**: mxbai-embed-large via Ollama
**LLM**: Llama 3.2 via Ollama  
**Base de datos**: ChromaDB vectorial
**Búsqueda**: MMR (Máxima Relevancia Marginal)
**Framework**: LangChain + Streamlit

**Flujo de procesamiento**:
1. Análisis de intención de la consulta
2. Búsqueda semántica en knowledge base
3. Selección de contexto relevante
4. Generación de respuesta estructurada
5. Aplicación de filtros de calidad""",
                "sources": [],
                "type": "admin"
            }
        
        try:
            result = self.qa_chain.invoke({"query": question.strip()})
            return {
                "answer": result["result"],
                "sources": [doc.metadata.get("source", "") for doc in result["source_documents"]],
                "type": "standard"
            }
        except Exception as e:
            logger.error(f"❌ Error procesando consulta: {str(e)}")
            return {
                "answer": "Disculpa, ocurrió un error procesando tu consulta. Por favor intenta de nuevo o contacta soporte técnico.",
                "sources": [],
                "type": "error"
            }

    def build_system(self, knowledge_file: str) -> None:
        """Construye el sistema completo"""
        logger.info("🚀 Iniciando construcción del sistema Eureka...")
        
        # 1. Cargar documentos
        documents = self.load_documents(knowledge_file)
        
        # 2. Crear vectorstore
        self.create_vectorstore(documents)
        
        # 3. Configurar QA
        self.setup_qa_chain()
        
        logger.info("✅ Sistema Eureka listo para consultas")

# Inicializar sistema
config = EurekaConfig()
eureka = EurekaRAG(config)
eureka.build_system("eureka-knowledge.txt")

## Celda 4: Testing y Validación

In [None]:
# Suite de pruebas completa
def test_eureka_system():
    """Pruebas automatizadas del sistema"""
    test_cases = [
        {
            "query": "¿Qué es una licencia ambiental?",
            "expected_keywords": ["licencia", "ambiental", "autorización"],
            "should_contain_links": False
        },
        {
            "query": "¿Cómo puedo participar en una audiencia pública?",
            "expected_keywords": ["audiencia", "pública", "participación"],
            "should_contain_links": True
        },
        {
            "query": "¿Cuál es el precio del Bitcoin hoy?",
            "expected_keywords": ["no tengo información", "VITAL"],
            "should_contain_links": True
        },
        {
            "query": "admin: ¿cómo funcionas?",
            "expected_keywords": ["RAG", "ChromaDB", "Llama"],
            "should_contain_links": False
        }
    ]
    
    print("🧪 Iniciando pruebas del sistema Eureka...\n" + "="*60)
    
    for i, test in enumerate(test_cases, 1):
        print(f"\n**Prueba {i}**: {test['query']}")
        result = eureka.query(test['query'])
        answer = result['answer']
        
        print(f"**Respuesta**: {answer[:200]}...")
        
        # Validar keywords esperadas
        keywords_found = sum(1 for keyword in test['expected_keywords'] 
                             if keyword.lower() in answer.lower())
        print(f"**Keywords encontradas**: {keywords_found}/{len(test['expected_keywords'])}")
        
        # Validar enlaces
        has_links = "http" in answer
        links_ok = has_links == test['should_contain_links']
        print(f"**Enlaces**: {'✅' if links_ok else '❌'}")
        
        print("-" * 40)

# Ejecutar pruebas
test_eureka_system()

## Celda 5: Aplicación Streamlit Mejorada

In [None]:
%%writefile app_eureka_optimized.py
import streamlit as st
import time
from datetime import datetime
import hashlib
from typing import List, Optional, Dict
from dataclasses import dataclass
from pathlib import Path
import logging

# Dependencias de LangChain (copiadas desde el notebook)
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_ollama.chat_models import ChatOllama
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.schema import Document

# Configurar un logger básico para el script de Streamlit
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- Copia de la Clase EurekaRAG y su Configuración ---
@dataclass
class EurekaConfig:
    chunk_size: int = 800
    chunk_overlap: int = 100
    embedding_model: str = "mxbai-embed-large"
    llm_model: str = "llama3.2"
    persist_directory: str = "./eureka_optimized_db"
    retriever_k: int = 5
    temperature: float = 0.1

class EurekaRAG:
    def __init__(self, config: EurekaConfig):
        self.config = config
        self.vectorstore: Optional[Chroma] = None
        self.qa_chain: Optional[RetrievalQA] = None
        self.embeddings = OllamaEmbeddings(model=config.embedding_model)
        self.llm = ChatOllama(
            model=config.llm_model,
            temperature=config.temperature
        )
        self.prompt_template = """Eres "Eureka", el asistente virtual oficial de la ANLA (Autoridad Nacional de Licencias Ambientales).

PERSONALIDAD Y TONO:
- Servicial, claro, profesional y confiable
- Usa un lenguaje accesible para ciudadanos
- Siempre mantén un tono institucional respetuoso

REGLAS ESTRICTAS:
1. SOLO responde basándote en el CONTEXTO proporcionado
2. Si la información no está en el contexto, usa EXACTAMENTE esta respuesta:
   "Gracias por tu consulta. No tengo información específica sobre ese tema en mi base de conocimiento actual. 
   Te invito a contactar los canales oficiales de la ANLA:
   - VITAL: https://vital.anla.gov.co
   - Línea: (601) 254 8888
   - Sitio web: https://www.anla.gov.co"

3. Si el contexto contiene enlaces, SIEMPRE inclúyelos al final
4. Para consultas sobre procedimientos, siempre menciona VITAL
5. No proporciones asesoría legal, solo información institucional

CONTEXTO RELEVANTE:
{context}

PREGUNTA DEL USUARIO:
{question}

RESPUESTA DE EUREKA:"""
        self.prompt = PromptTemplate(
            template=self.prompt_template,
            input_variables=["context", "question"]
        )

    def load_documents(self, file_path: str) -> List[Document]:
        try:
            loader = TextLoader(file_path, encoding='utf-8')
            documents = loader.load()
            for doc in documents:
                doc.metadata.update({
                    'source': file_path,
                    'content_hash': hashlib.md5(doc.page_content.encode()).hexdigest()
                })
            splitter = RecursiveCharacterTextSplitter(
                chunk_size=self.config.chunk_size,
                chunk_overlap=self.config.chunk_overlap,
                length_function=len,
                separators=["\n\n", "\n", ". ", " ", ""]
            )
            split_docs = splitter.split_documents(documents)
            logger.info(f"✅ Procesados {len(split_docs)} chunks desde {file_path}")
            return split_docs
        except Exception as e:
            logger.error(f"❌ Error cargando documentos: {str(e)}")
            raise

    def create_vectorstore(self, documents: List[Document]) -> None:
        try:
            if Path(self.config.persist_directory).exists():
                logger.info("📂 Cargando base de datos existente...")
                self.vectorstore = Chroma(
                    persist_directory=self.config.persist_directory,
                    embedding_function=self.embeddings
                )
            else:
                logger.info("🏗️ Creando nueva base de datos vectorial...")
                self.vectorstore = Chroma.from_documents(
                    documents=documents,
                    embedding=self.embeddings,
                    persist_directory=self.config.persist_directory,
                    collection_metadata={"description": "Eureka ANLA Knowledge Base"}
                )
            logger.info(f"✅ Base vectorial lista con {self.vectorstore._collection.count()} documentos")
        except Exception as e:
            logger.error(f"❌ Error creando vectorstore: {str(e)}")
            raise

    def setup_qa_chain(self) -> None:
        if not self.vectorstore:
            raise ValueError("Vectorstore no inicializado")
        retriever = self.vectorstore.as_retriever(
            search_type="mmr",
            search_kwargs={
                "k": self.config.retriever_k,
                "fetch_k": self.config.retriever_k * 2,
                "lambda_mult": 0.7
            }
        )
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=True,
            chain_type_kwargs={"prompt": self.prompt},
            verbose=False
        )
        logger.info("✅ Cadena QA configurada")

    def query(self, question: str) -> Dict:
        if not self.qa_chain:
            raise ValueError("QA chain no inicializada")
        if question.strip().lower().startswith("admin:"):
            return {
                "answer": """🔧 **Información Técnica de Eureka**

**Arquitectura**: RAG (Retrieval-Augmented Generation)
**Embeddings**: mxbai-embed-large via Ollama
**LLM**: Llama 3.2 via Ollama  
**Base de datos**: ChromaDB vectorial
**Búsqueda**: MMR (Máxima Relevancia Marginal)
**Framework**: LangChain + Streamlit

**Flujo de procesamiento**:
1. Análisis de intención de la consulta
2. Búsqueda semántica en knowledge base
3. Selección de contexto relevante
4. Generación de respuesta estructurada
5. Aplicación de filtros de calidad""",
                "sources": [],
                "type": "admin"
            }
        try:
            result = self.qa_chain.invoke({"query": question.strip()})
            return {
                "answer": result["result"],
                "sources": [doc.metadata.get("source", "") for doc in result["source_documents"]],
                "type": "standard"
            }
        except Exception as e:
            logger.error(f"❌ Error procesando consulta: {str(e)}")
            return {
                "answer": "Disculpa, ocurrió un error procesando tu consulta. Por favor intenta de nuevo o contacta soporte técnico.",
                "sources": [],
                "type": "error"
            }

    def build_system(self, knowledge_file: str) -> None:
        logger.info("🚀 Iniciando construcción del sistema Eureka...")
        documents = self.load_documents(knowledge_file)
        self.create_vectorstore(documents)
        self.setup_qa_chain()
        logger.info("✅ Sistema Eureka listo para consultas")

# --- Fin de la Copia ---

# Configuración de página
st.set_page_config(
    page_title="Eureka - ANLA",
    page_icon="🌿",
    layout="wide",
    initial_sidebar_state="expanded"
)

# CSS personalizado
st.markdown("""
<style>
    .main-header {
        padding: 1rem 0;
        border-bottom: 2px solid #2E8B57;
        margin-bottom: 2rem;
    }
    .chat-message {
        padding: 1rem;
        margin: 0.5rem 0;
        border-radius: 0.5rem;
    }
    .user-message {
        background-color: #f0f2f6;
    }
    .assistant-message {
        background-color: #e8f5e8;
    }
    .metrics-container {
        background-color: #f8f9fa;
        padding: 1rem;
        border-radius: 0.5rem;
        margin: 1rem 0;
    }
</style>
""", unsafe_allow_html=True)

# Inicialización del sistema (cached)
@st.cache_resource
def initialize_eureka():
    config = EurekaConfig()
    eureka = EurekaRAG(config)
    # Asegurarse de que el archivo de conocimiento exista
    knowledge_file = "eureka-knowledge.txt"
    if not Path(knowledge_file).exists():
        st.error(f"El archivo de conocimiento '{knowledge_file}' no fue encontrado. Asegúrate de ejecutar la Celda 2 del notebook.")
        return None
    eureka.build_system(knowledge_file)
    return eureka

# Función para logging de métricas
def log_interaction(query: str, response: str, response_time: float):
    """Log de interacciones para análisis posterior"""
    if "interaction_log" not in st.session_state:
        st.session_state.interaction_log = []
    
    st.session_state.interaction_log.append({
        "timestamp": datetime.now(),
        "query": query,
        "response_length": len(response),
        "response_time": response_time,
        "session_id": st.session_state.get("session_id", "unknown")
    })

# Header principal
st.markdown('<div class="main-header">', unsafe_allow_html=True)
col1, col2 = st.columns([1, 4])
with col1:
    st.image("https://www.anla.gov.co/images/logo-anla.png", width=120)
with col2:
    st.title("🌿 Eureka")
    st.markdown("**Tu asistente virtual de la ANLA**")
st.markdown('</div>', unsafe_allow_html=True)

# Sidebar con información
with st.sidebar:
    st.header("ℹ️ Información")
    st.info("""
    **Eureka** es tu asistente virtual oficial de la ANLA.
    
    **Puedo ayudarte con:**
    - Licenciamiento ambiental
    - Participación ciudadana
    - Información institucional
    - Trámites y procedimientos
    """ )
    
    st.header("📊 Estadísticas de Sesión")
    if "interaction_log" in st.session_state and st.session_state.interaction_log:
        total_queries = len(st.session_state.interaction_log)
        if total_queries > 0:
            avg_response_time = sum(log["response_time"] for log in st.session_state.interaction_log) / total_queries
            st.metric("Consultas realizadas", total_queries)
            st.metric("Tiempo promedio respuesta", f"{avg_response_time:.2f}s")
    else:
        st.metric("Consultas realizadas", 0)
        st.metric("Tiempo promedio respuesta", "0.00s")

# Inicializar sistema
eureka = initialize_eureka()

# Generar session ID único
if "session_id" not in st.session_state:
    st.session_state.session_id = str(hash(datetime.now().isoformat()))

# Inicializar chat
if "messages" not in st.session_state:
    st.session_state.messages = [{
        "role": "assistant", 
        "content": """¡Hola! 👋 Soy **Eureka**, tu asistente virtual de la ANLA.

Estoy aquí para ayudarte con información sobre:
- 📋 Licenciamiento ambiental
- 🗣️ Participación ciudadana  
- 🏛️ Información institucional
- 📝 Trámites y procedimientos

¿En qué puedo colaborarte hoy?"""
    }]

# Mostrar historial de chat
for message in st.session_state.messages:
    with st.chat_message(message["role"]):
        st.markdown(message["content"])

# Input del usuario
if prompt := st.chat_input("💬 Escribe tu consulta aquí..."):
    # Agregar mensaje del usuario
    st.session_state.messages.append({"role": "user", "content": prompt})
    
    with st.chat_message("user"):
        st.markdown(prompt)

    # Generar respuesta
    with st.chat_message("assistant"):
        if eureka:
            with st.spinner("🤔 Procesando tu consulta..."):
                start_time = time.time()
                
                try:
                    result = eureka.query(prompt)
                    response = result["answer"]
                    response_time = time.time() - start_time
                    
                    # Log de interacción
                    log_interaction(prompt, response, response_time)
                    
                    st.markdown(response)
                    
                    # Mostrar fuentes si están disponibles (modo debug)
                    if st.sidebar.checkbox("Mostrar información de debug") and result.get("sources"):
                        with st.expander("🔍 Fuentes consultadas"):
                            st.json(result["sources"])
                
                except Exception as e:
                    st.error(f"❌ Error procesando la consulta: {str(e)}")
                    response = "Disculpa, ocurrió un error técnico. Por favor intenta nuevamente."
                    response_time = time.time() - start_time
        else:
            response = "El sistema Eureka no está inicializado correctamente. Por favor, revisa los logs."
    
    # Agregar respuesta al historial
    st.session_state.messages.append({"role": "assistant", "content": response})
    # Actualizar las métricas en el sidebar
    st.rerun()

# Footer
st.markdown("---")
st.markdown("""
<div style='text-align: center; color: #666; font-size: 0.8em;'>
    <p>🌿 Eureka - Asistente Virtual de la ANLA | Desarrollado con ❤️ para la comunidad</p>
    <p>📞 Línea de atención: (601) 254 8888 | 🌐 <a href="https://www.anla.gov.co">www.anla.gov.co</a></p>
</div>
""", unsafe_allow_html=True)

## Celda 6: Instrucciones de Ejecución

## 🚀 Instrucciones para Ejecutar Eureka Optimizado

### 1. Verificar Dependencias
Asegúrate de que Ollama esté instalado y funcionando:
```bash
ollama --version
ollama pull llama3.2:latest
ollama pull mxbai-embed-large
```

### 2. Ejecutar la Aplicación
En la terminal del directorio del notebook:
```bash
streamlit run app_eureka_optimized.py
```

### 3. Características Nuevas
- ✅ Manejo mejorado de errores
- ✅ Sistema de logging y métricas  
- ✅ Búsqueda MMR para mejor relevancia
- ✅ Base de conocimiento expandida
- ✅ UI mejorada con métricas en tiempo real
- ✅ Modo debug para desarrolladores
- ✅ Validación automatizada
- ✅ Arquitectura modular y escalable

### 4. Configuración Avanzada
Puedes ajustar parámetros en `EurekaConfig`:
- `chunk_size`: Tamaño de fragmentos de texto
- `retriever_k`: Número de documentos a recuperar
- `temperature`: Creatividad del modelo (0.0 = determinista)

## Principales Optimizaciones Implementadas:

### 🔧 **Técnicas**
1. **Arquitectura modular**: Clase `EurekaRAG` reutilizable
2. **Búsqueda MMR**: Mejor diversidad y relevancia
3. **Caché inteligente**: Evita recalcular embeddings
4. **Manejo robusto de errores**: Logs detallados
5. **Configuración centralizada**: Fácil ajuste de parámetros

### 📊 **Monitoreo**
1. **Métricas en tiempo real**: Tiempo de respuesta, consultas
2. **Logging de interacciones**: Para análisis posterior
3. **Modo debug**: Visualización de fuentes consultadas
4. **Testing automatizado**: Validación de respuestas

### 🎨 **UX/UI**
1. **Diseño responsive**: Mejor experiencia móvil
2. **Indicadores visuales**: Estados de carga, métricas
3. **Sidebar informativo**: Contexto y estadísticas
4. **CSS personalizado**: Branding coherente

### ⚡ **Performance**
1. **Chunks optimizados**: 800 caracteres vs 500 originales
2. **Overlap inteligente**: 100 caracteres para mejor contexto
3. **Temperatura baja**: Respuestas más consistentes (0.1)
4. **Retrieval eficiente**: k=5 documentos por consulta

Esta versión optimizada es más robusta, escalable y proporciona mejor experiencia tanto para usuarios finales como desarrolladores.