# Notebook Optimizado: Backend RAG para el Chatbot "Eureka" de la ANLA

## Celda 1: Configuraci√≥n e Instalaci√≥n

In [None]:
import os
import logging
from pathlib import Path

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Instalar dependencias optimizadas
!pip install -qU chromadb==0.4.15 langchain==0.0.350 langchain_community langchain_ollama langchain_text_splitters streamlit python-dotenv sentence-transformers

# Verificar que Ollama est√° disponible
def check_ollama():
    try:
        import subprocess
        result = subprocess.run(['ollama', 'list'], capture_output=True, text=True)
        if result.returncode == 0:
            logger.info("‚úÖ Ollama est√° disponible")
            return True
        else:
            logger.error("‚ùå Ollama no est√° disponible o no responde")
            return False
    except FileNotFoundError:
        logger.error("‚ùå Ollama no est√° instalado")
        return False

check_ollama()

## Celda 2: Base de Conocimiento Expandida

In [None]:
%%writefile eureka-knowledge.txt
# Base de Conocimiento Completa para Eureka - ANLA

## Informaci√≥n Institucional
La Autoridad Nacional de Licencias Ambientales (ANLA) es la entidad encargada de que los proyectos, obras o actividades sujetos a licenciamiento, permiso o tr√°mite ambiental en Colombia cumplan con la normativa ambiental nacional.

### Misi√≥n
Contribuir al desarrollo sostenible del pa√≠s mediante la evaluaci√≥n, seguimiento y control de los proyectos, obras o actividades sujetos a licenciamiento, permiso o tr√°mite ambiental.

### Visi√≥n
Ser reconocida como una entidad l√≠der en la evaluaci√≥n y control de proyectos con impacto ambiental.

## Licenciamiento Ambiental

### ¬øQu√© es?
El licenciamiento ambiental es la autorizaci√≥n que otorga la autoridad ambiental competente para la ejecuci√≥n de un proyecto, obra o actividad que pueda producir deterioro grave a los recursos naturales renovables o al medio ambiente.

### Tipos de instrumentos:
1. **Licencia Ambiental**: Para proyectos de gran impacto
2. **Permisos Ambientales**: Para actividades espec√≠ficas
3. **Concesiones**: Para uso de recursos naturales
4. **Autorizaciones**: Para manejo de fauna y flora

### Sectores que requieren licencia:
- Hidrocarburos
- Miner√≠a
- Infraestructura vial
- Energ√≠a el√©ctrica
- Portuario
- Agroindustrial

## Participaci√≥n Ciudadana

### Marco Legal
La participaci√≥n ciudadana est√° fundamentada en:
- Art√≠culo 79 de la Constituci√≥n Nacional
- Ley 99 de 1993
- Decreto 1076 de 2015
- Resoluci√≥n 1552 de 2005

### Mecanismos Principales

#### 1. Audiencias P√∫blicas Ambientales
**¬øQu√© son?**
Espacios de di√°logo entre la autoridad ambiental, el solicitante de la licencia y la comunidad.

**¬øQui√©n puede solicitarlas?**
- Procurador General de la Naci√≥n
- Defensor del Pueblo  
- Ministros
- Gobernadores
- Alcaldes
- Al menos 100 personas
- 3 organizaciones c√≠vicas

**Informaci√≥n completa**: https://www.anla.gov.co/participacion

#### 2. Terceros Intervinientes
**¬øQu√© es?**
Mecanismo que permite a personas naturales o jur√≠dicas participar en procedimientos administrativos cuando tienen un inter√©s jur√≠dico directo.

**Requisitos**:
- Demostrar inter√©s directo en la decisi√≥n
- Radicar solicitud dentro de los t√©rminos establecidos
- Aportar documentos que soporten el inter√©s

#### 3. Derecho de Petici√≥n
Cualquier persona puede presentar peticiones respetuosas para:
- Obtener informaci√≥n
- Solicitar actuaciones
- Formular consultas
- Presentar quejas o reclamos

**Canal oficial**: VITAL (Ventanilla Integral de Tr√°mites Ambientales en L√≠nea)

#### 4. Consulta de Expedientes
Los ciudadanos pueden consultar:
- Estado de tr√°mites
- Documentos t√©cnicos
- Conceptos emitidos
- Resoluciones

**Acceso**: https://www.anla.gov.co/expedientes

## Informaci√≥n de Contacto
- **Sitio web**: https://www.anla.gov.co
- **VITAL**: https://vital.anla.gov.co
- **L√≠nea de atenci√≥n**: (601) 254 8888
- **Correo institucional**: info@anla.gov.co
- **Direcci√≥n**: Calle 37 # 8 - 40, Bogot√° D.C.

## Horarios de Atenci√≥n
- **Presencial**: Lunes a viernes de 8:00 AM a 5:00 PM
- **Virtual (VITAL)**: 24 horas, 7 d√≠as a la semana
- **L√≠nea telef√≥nica**: Lunes a viernes de 8:00 AM a 5:00 PM

## Celda 3: Clase RAG Optimizada

In [None]:
import hashlib
from typing import List, Optional, Dict
from dataclasses import dataclass
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_ollama.chat_models import ChatOllama
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.callbacks.manager import CallbackManagerForChainRun
from langchain.schema import Document

@dataclass
class EurekaConfig:
    """Configuraci√≥n para el sistema Eureka"""
    chunk_size: int = 800
    chunk_overlap: int = 100
    embedding_model: str = "mxbai-embed-large"
    llm_model: str = "llama3.2"
    persist_directory: str = "./eureka_optimized_db"
    retriever_k: int = 5
    temperature: float = 0.1

class EurekaRAG:
    def __init__(self, config: EurekaConfig):
        self.config = config
        self.vectorstore: Optional[Chroma] = None
        self.qa_chain: Optional[RetrievalQA] = None
        self.embeddings = OllamaEmbeddings(model=config.embedding_model)
        self.llm = ChatOllama(
            model=config.llm_model,
            temperature=config.temperature
        )
        
        # Prompt optimizado con mejor estructura
        self.prompt_template = """Eres "Eureka", el asistente virtual oficial de la ANLA (Autoridad Nacional de Licencias Ambientales).

PERSONALIDAD Y TONO:
- Servicial, claro, profesional y confiable
- Usa un lenguaje accesible para ciudadanos
- Siempre mant√©n un tono institucional respetuoso

REGLAS ESTRICTAS:
1. SOLO responde bas√°ndote en el CONTEXTO proporcionado
2. Si la informaci√≥n no est√° en el contexto, usa EXACTAMENTE esta respuesta:
   "Gracias por tu consulta. No tengo informaci√≥n espec√≠fica sobre ese tema en mi base de conocimiento actual. 
   Te invito a contactar los canales oficiales de la ANLA:
   - VITAL: https://vital.anla.gov.co
   - L√≠nea: (601) 254 8888
   - Sitio web: https://www.anla.gov.co"

3. Si el contexto contiene enlaces, SIEMPRE incl√∫yelos al final
4. Para consultas sobre procedimientos, siempre menciona VITAL
5. No proporciones asesor√≠a legal, solo informaci√≥n institucional

CONTEXTO RELEVANTE:
{context}

PREGUNTA DEL USUARIO:
{question}

RESPUESTA DE EUREKA:"""

        self.prompt = PromptTemplate(
            template=self.prompt_template,
            input_variables=["context", "question"]
        )

    def load_documents(self, file_path: str) -> List[Document]:
        """Carga y procesa documentos con manejo de errores mejorado"""
        try:
            loader = TextLoader(file_path, encoding='utf-8')
            documents = loader.load()
            
            # Mejorar metadatos
            for doc in documents:
                doc.metadata.update({
                    'source': file_path,
                    'content_hash': hashlib.md5(doc.page_content.encode()).hexdigest()
                })
            
            # Divisor optimizado
            splitter = RecursiveCharacterTextSplitter(
                chunk_size=self.config.chunk_size,
                chunk_overlap=self.config.chunk_overlap,
                length_function=len,
                separators=["\n\n", "\n", ". ", " ", ""]
            )
            
            split_docs = splitter.split_documents(documents)
            logger.info(f"‚úÖ Procesados {len(split_docs)} chunks desde {file_path}")
            return split_docs
            
        except Exception as e:
            logger.error(f"‚ùå Error cargando documentos: {str(e)}")
            raise

    def create_vectorstore(self, documents: List[Document]) -> None:
        """Crea la base de datos vectorial con optimizaciones"""
        try:
            # Verificar si ya existe
            if Path(self.config.persist_directory).exists():
                logger.info("üìÇ Cargando base de datos existente...")
                self.vectorstore = Chroma(
                    persist_directory=self.config.persist_directory,
                    embedding_function=self.embeddings
                )
            else:
                logger.info("üèóÔ∏è Creando nueva base de datos vectorial...")
                self.vectorstore = Chroma.from_documents(
                    documents=documents,
                    embedding=self.embeddings,
                    persist_directory=self.config.persist_directory,
                    collection_metadata={"description": "Eureka ANLA Knowledge Base"}
                )
                
            logger.info(f"‚úÖ Base vectorial lista con {self.vectorstore._collection.count()} documentos")
            
        except Exception as e:
            logger.error(f"‚ùå Error creando vectorstore: {str(e)}")
            raise

    def setup_qa_chain(self) -> None:
        """Configura la cadena de QA optimizada"""
        if not self.vectorstore:
            raise ValueError("Vectorstore no inicializado")
            
        retriever = self.vectorstore.as_retriever(
            search_type="mmr",  # M√°xima relevancia marginal
            search_kwargs={
                "k": self.config.retriever_k,
                "fetch_k": self.config.retriever_k * 2,
                "lambda_mult": 0.7
            }
        )
        
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=True,  # Para debugging
            chain_type_kwargs={"prompt": self.prompt},
            verbose=False
        )
        
        logger.info("‚úÖ Cadena QA configurada")

    def query(self, question: str) -> Dict:
        """Procesa consulta con manejo de casos especiales"""
        if not self.qa_chain:
            raise ValueError("QA chain no inicializada")
            
        # Modo administrador
        if question.strip().lower().startswith("admin:"):
            return {
                "answer": """üîß **Informaci√≥n T√©cnica de Eureka**

**Arquitectura**: RAG (Retrieval-Augmented Generation)
**Embeddings**: mxbai-embed-large via Ollama
**LLM**: Llama 3.2 via Ollama  
**Base de datos**: ChromaDB vectorial
**B√∫squeda**: MMR (M√°xima Relevancia Marginal)
**Framework**: LangChain + Streamlit

**Flujo de procesamiento**:
1. An√°lisis de intenci√≥n de la consulta
2. B√∫squeda sem√°ntica en knowledge base
3. Selecci√≥n de contexto relevante
4. Generaci√≥n de respuesta estructurada
5. Aplicaci√≥n de filtros de calidad""",
                "sources": [],
                "type": "admin"
            }
        
        try:
            result = self.qa_chain.invoke({"query": question.strip()})
            return {
                "answer": result["result"],
                "sources": [doc.metadata.get("source", "") for doc in result["source_documents"]],
                "type": "standard"
            }
        except Exception as e:
            logger.error(f"‚ùå Error procesando consulta: {str(e)}")
            return {
                "answer": "Disculpa, ocurri√≥ un error procesando tu consulta. Por favor intenta de nuevo o contacta soporte t√©cnico.",
                "sources": [],
                "type": "error"
            }

    def build_system(self, knowledge_file: str) -> None:
        """Construye el sistema completo"""
        logger.info("üöÄ Iniciando construcci√≥n del sistema Eureka...")
        
        # 1. Cargar documentos
        documents = self.load_documents(knowledge_file)
        
        # 2. Crear vectorstore
        self.create_vectorstore(documents)
        
        # 3. Configurar QA
        self.setup_qa_chain()
        
        logger.info("‚úÖ Sistema Eureka listo para consultas")

# Inicializar sistema
config = EurekaConfig()
eureka = EurekaRAG(config)
eureka.build_system("eureka-knowledge.txt")

## Celda 4: Testing y Validaci√≥n

In [None]:
# Suite de pruebas completa
def test_eureka_system():
    """Pruebas automatizadas del sistema"""
    test_cases = [
        {
            "query": "¬øQu√© es una licencia ambiental?",
            "expected_keywords": ["licencia", "ambiental", "autorizaci√≥n"],
            "should_contain_links": False
        },
        {
            "query": "¬øC√≥mo puedo participar en una audiencia p√∫blica?",
            "expected_keywords": ["audiencia", "p√∫blica", "participaci√≥n"],
            "should_contain_links": True
        },
        {
            "query": "¬øCu√°l es el precio del Bitcoin hoy?",
            "expected_keywords": ["no tengo informaci√≥n", "VITAL"],
            "should_contain_links": True
        },
        {
            "query": "admin: ¬øc√≥mo funcionas?",
            "expected_keywords": ["RAG", "ChromaDB", "Llama"],
            "should_contain_links": False
        }
    ]
    
    print("üß™ Iniciando pruebas del sistema Eureka...\n" + "="*60)
    
    for i, test in enumerate(test_cases, 1):
        print(f"\n**Prueba {i}**: {test['query']}")
        result = eureka.query(test['query'])
        answer = result['answer']
        
        print(f"**Respuesta**: {answer[:200]}...")
        
        # Validar keywords esperadas
        keywords_found = sum(1 for keyword in test['expected_keywords'] 
                             if keyword.lower() in answer.lower())
        print(f"**Keywords encontradas**: {keywords_found}/{len(test['expected_keywords'])}")
        
        # Validar enlaces
        has_links = "http" in answer
        links_ok = has_links == test['should_contain_links']
        print(f"**Enlaces**: {'‚úÖ' if links_ok else '‚ùå'}")
        
        print("-" * 40)

# Ejecutar pruebas
test_eureka_system()

## Celda 5: Aplicaci√≥n Streamlit Mejorada

In [None]:
%%writefile app_eureka_optimized.py
import streamlit as st
import time
from datetime import datetime
import hashlib
from typing import List, Optional, Dict
from dataclasses import dataclass
from pathlib import Path
import logging

# Dependencias de LangChain (copiadas desde el notebook)
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_ollama.chat_models import ChatOllama
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.schema import Document

# Configurar un logger b√°sico para el script de Streamlit
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- Copia de la Clase EurekaRAG y su Configuraci√≥n ---
@dataclass
class EurekaConfig:
    chunk_size: int = 800
    chunk_overlap: int = 100
    embedding_model: str = "mxbai-embed-large"
    llm_model: str = "llama3.2"
    persist_directory: str = "./eureka_optimized_db"
    retriever_k: int = 5
    temperature: float = 0.1

class EurekaRAG:
    def __init__(self, config: EurekaConfig):
        self.config = config
        self.vectorstore: Optional[Chroma] = None
        self.qa_chain: Optional[RetrievalQA] = None
        self.embeddings = OllamaEmbeddings(model=config.embedding_model)
        self.llm = ChatOllama(
            model=config.llm_model,
            temperature=config.temperature
        )
        self.prompt_template = """Eres "Eureka", el asistente virtual oficial de la ANLA (Autoridad Nacional de Licencias Ambientales).

PERSONALIDAD Y TONO:
- Servicial, claro, profesional y confiable
- Usa un lenguaje accesible para ciudadanos
- Siempre mant√©n un tono institucional respetuoso

REGLAS ESTRICTAS:
1. SOLO responde bas√°ndote en el CONTEXTO proporcionado
2. Si la informaci√≥n no est√° en el contexto, usa EXACTAMENTE esta respuesta:
   "Gracias por tu consulta. No tengo informaci√≥n espec√≠fica sobre ese tema en mi base de conocimiento actual. 
   Te invito a contactar los canales oficiales de la ANLA:
   - VITAL: https://vital.anla.gov.co
   - L√≠nea: (601) 254 8888
   - Sitio web: https://www.anla.gov.co"

3. Si el contexto contiene enlaces, SIEMPRE incl√∫yelos al final
4. Para consultas sobre procedimientos, siempre menciona VITAL
5. No proporciones asesor√≠a legal, solo informaci√≥n institucional

CONTEXTO RELEVANTE:
{context}

PREGUNTA DEL USUARIO:
{question}

RESPUESTA DE EUREKA:"""
        self.prompt = PromptTemplate(
            template=self.prompt_template,
            input_variables=["context", "question"]
        )

    def load_documents(self, file_path: str) -> List[Document]:
        try:
            loader = TextLoader(file_path, encoding='utf-8')
            documents = loader.load()
            for doc in documents:
                doc.metadata.update({
                    'source': file_path,
                    'content_hash': hashlib.md5(doc.page_content.encode()).hexdigest()
                })
            splitter = RecursiveCharacterTextSplitter(
                chunk_size=self.config.chunk_size,
                chunk_overlap=self.config.chunk_overlap,
                length_function=len,
                separators=["\n\n", "\n", ". ", " ", ""]
            )
            split_docs = splitter.split_documents(documents)
            logger.info(f"‚úÖ Procesados {len(split_docs)} chunks desde {file_path}")
            return split_docs
        except Exception as e:
            logger.error(f"‚ùå Error cargando documentos: {str(e)}")
            raise

    def create_vectorstore(self, documents: List[Document]) -> None:
        try:
            if Path(self.config.persist_directory).exists():
                logger.info("üìÇ Cargando base de datos existente...")
                self.vectorstore = Chroma(
                    persist_directory=self.config.persist_directory,
                    embedding_function=self.embeddings
                )
            else:
                logger.info("üèóÔ∏è Creando nueva base de datos vectorial...")
                self.vectorstore = Chroma.from_documents(
                    documents=documents,
                    embedding=self.embeddings,
                    persist_directory=self.config.persist_directory,
                    collection_metadata={"description": "Eureka ANLA Knowledge Base"}
                )
            logger.info(f"‚úÖ Base vectorial lista con {self.vectorstore._collection.count()} documentos")
        except Exception as e:
            logger.error(f"‚ùå Error creando vectorstore: {str(e)}")
            raise

    def setup_qa_chain(self) -> None:
        if not self.vectorstore:
            raise ValueError("Vectorstore no inicializado")
        retriever = self.vectorstore.as_retriever(
            search_type="mmr",
            search_kwargs={
                "k": self.config.retriever_k,
                "fetch_k": self.config.retriever_k * 2,
                "lambda_mult": 0.7
            }
        )
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=True,
            chain_type_kwargs={"prompt": self.prompt},
            verbose=False
        )
        logger.info("‚úÖ Cadena QA configurada")

    def query(self, question: str) -> Dict:
        if not self.qa_chain:
            raise ValueError("QA chain no inicializada")
        if question.strip().lower().startswith("admin:"):
            return {
                "answer": """üîß **Informaci√≥n T√©cnica de Eureka**

**Arquitectura**: RAG (Retrieval-Augmented Generation)
**Embeddings**: mxbai-embed-large via Ollama
**LLM**: Llama 3.2 via Ollama  
**Base de datos**: ChromaDB vectorial
**B√∫squeda**: MMR (M√°xima Relevancia Marginal)
**Framework**: LangChain + Streamlit

**Flujo de procesamiento**:
1. An√°lisis de intenci√≥n de la consulta
2. B√∫squeda sem√°ntica en knowledge base
3. Selecci√≥n de contexto relevante
4. Generaci√≥n de respuesta estructurada
5. Aplicaci√≥n de filtros de calidad""",
                "sources": [],
                "type": "admin"
            }
        try:
            result = self.qa_chain.invoke({"query": question.strip()})
            return {
                "answer": result["result"],
                "sources": [doc.metadata.get("source", "") for doc in result["source_documents"]],
                "type": "standard"
            }
        except Exception as e:
            logger.error(f"‚ùå Error procesando consulta: {str(e)}")
            return {
                "answer": "Disculpa, ocurri√≥ un error procesando tu consulta. Por favor intenta de nuevo o contacta soporte t√©cnico.",
                "sources": [],
                "type": "error"
            }

    def build_system(self, knowledge_file: str) -> None:
        logger.info("üöÄ Iniciando construcci√≥n del sistema Eureka...")
        documents = self.load_documents(knowledge_file)
        self.create_vectorstore(documents)
        self.setup_qa_chain()
        logger.info("‚úÖ Sistema Eureka listo para consultas")

# --- Fin de la Copia ---

# Configuraci√≥n de p√°gina
st.set_page_config(
    page_title="Eureka - ANLA",
    page_icon="üåø",
    layout="wide",
    initial_sidebar_state="expanded"
)

# CSS personalizado
st.markdown("""
<style>
    .main-header {
        padding: 1rem 0;
        border-bottom: 2px solid #2E8B57;
        margin-bottom: 2rem;
    }
    .chat-message {
        padding: 1rem;
        margin: 0.5rem 0;
        border-radius: 0.5rem;
    }
    .user-message {
        background-color: #f0f2f6;
    }
    .assistant-message {
        background-color: #e8f5e8;
    }
    .metrics-container {
        background-color: #f8f9fa;
        padding: 1rem;
        border-radius: 0.5rem;
        margin: 1rem 0;
    }
</style>
""", unsafe_allow_html=True)

# Inicializaci√≥n del sistema (cached)
@st.cache_resource
def initialize_eureka():
    config = EurekaConfig()
    eureka = EurekaRAG(config)
    # Asegurarse de que el archivo de conocimiento exista
    knowledge_file = "eureka-knowledge.txt"
    if not Path(knowledge_file).exists():
        st.error(f"El archivo de conocimiento '{knowledge_file}' no fue encontrado. Aseg√∫rate de ejecutar la Celda 2 del notebook.")
        return None
    eureka.build_system(knowledge_file)
    return eureka

# Funci√≥n para logging de m√©tricas
def log_interaction(query: str, response: str, response_time: float):
    """Log de interacciones para an√°lisis posterior"""
    if "interaction_log" not in st.session_state:
        st.session_state.interaction_log = []
    
    st.session_state.interaction_log.append({
        "timestamp": datetime.now(),
        "query": query,
        "response_length": len(response),
        "response_time": response_time,
        "session_id": st.session_state.get("session_id", "unknown")
    })

# Header principal
st.markdown('<div class="main-header">', unsafe_allow_html=True)
col1, col2 = st.columns([1, 4])
with col1:
    st.image("https://www.anla.gov.co/images/logo-anla.png", width=120)
with col2:
    st.title("üåø Eureka")
    st.markdown("**Tu asistente virtual de la ANLA**")
st.markdown('</div>', unsafe_allow_html=True)

# Sidebar con informaci√≥n
with st.sidebar:
    st.header("‚ÑπÔ∏è Informaci√≥n")
    st.info("""
    **Eureka** es tu asistente virtual oficial de la ANLA.
    
    **Puedo ayudarte con:**
    - Licenciamiento ambiental
    - Participaci√≥n ciudadana
    - Informaci√≥n institucional
    - Tr√°mites y procedimientos
    """ )
    
    st.header("üìä Estad√≠sticas de Sesi√≥n")
    if "interaction_log" in st.session_state and st.session_state.interaction_log:
        total_queries = len(st.session_state.interaction_log)
        if total_queries > 0:
            avg_response_time = sum(log["response_time"] for log in st.session_state.interaction_log) / total_queries
            st.metric("Consultas realizadas", total_queries)
            st.metric("Tiempo promedio respuesta", f"{avg_response_time:.2f}s")
    else:
        st.metric("Consultas realizadas", 0)
        st.metric("Tiempo promedio respuesta", "0.00s")

# Inicializar sistema
eureka = initialize_eureka()

# Generar session ID √∫nico
if "session_id" not in st.session_state:
    st.session_state.session_id = str(hash(datetime.now().isoformat()))

# Inicializar chat
if "messages" not in st.session_state:
    st.session_state.messages = [{
        "role": "assistant", 
        "content": """¬°Hola! üëã Soy **Eureka**, tu asistente virtual de la ANLA.

Estoy aqu√≠ para ayudarte con informaci√≥n sobre:
- üìã Licenciamiento ambiental
- üó£Ô∏è Participaci√≥n ciudadana  
- üèõÔ∏è Informaci√≥n institucional
- üìù Tr√°mites y procedimientos

¬øEn qu√© puedo colaborarte hoy?"""
    }]

# Mostrar historial de chat
for message in st.session_state.messages:
    with st.chat_message(message["role"]):
        st.markdown(message["content"])

# Input del usuario
if prompt := st.chat_input("üí¨ Escribe tu consulta aqu√≠..."):
    # Agregar mensaje del usuario
    st.session_state.messages.append({"role": "user", "content": prompt})
    
    with st.chat_message("user"):
        st.markdown(prompt)

    # Generar respuesta
    with st.chat_message("assistant"):
        if eureka:
            with st.spinner("ü§î Procesando tu consulta..."):
                start_time = time.time()
                
                try:
                    result = eureka.query(prompt)
                    response = result["answer"]
                    response_time = time.time() - start_time
                    
                    # Log de interacci√≥n
                    log_interaction(prompt, response, response_time)
                    
                    st.markdown(response)
                    
                    # Mostrar fuentes si est√°n disponibles (modo debug)
                    if st.sidebar.checkbox("Mostrar informaci√≥n de debug") and result.get("sources"):
                        with st.expander("üîç Fuentes consultadas"):
                            st.json(result["sources"])
                
                except Exception as e:
                    st.error(f"‚ùå Error procesando la consulta: {str(e)}")
                    response = "Disculpa, ocurri√≥ un error t√©cnico. Por favor intenta nuevamente."
                    response_time = time.time() - start_time
        else:
            response = "El sistema Eureka no est√° inicializado correctamente. Por favor, revisa los logs."
    
    # Agregar respuesta al historial
    st.session_state.messages.append({"role": "assistant", "content": response})
    # Actualizar las m√©tricas en el sidebar
    st.rerun()

# Footer
st.markdown("---")
st.markdown("""
<div style='text-align: center; color: #666; font-size: 0.8em;'>
    <p>üåø Eureka - Asistente Virtual de la ANLA | Desarrollado con ‚ù§Ô∏è para la comunidad</p>
    <p>üìû L√≠nea de atenci√≥n: (601) 254 8888 | üåê <a href="https://www.anla.gov.co">www.anla.gov.co</a></p>
</div>
""", unsafe_allow_html=True)

## Celda 6: Instrucciones de Ejecuci√≥n

## üöÄ Instrucciones para Ejecutar Eureka Optimizado

### 1. Verificar Dependencias
Aseg√∫rate de que Ollama est√© instalado y funcionando:
```bash
ollama --version
ollama pull llama3.2:latest
ollama pull mxbai-embed-large
```

### 2. Ejecutar la Aplicaci√≥n
En la terminal del directorio del notebook:
```bash
streamlit run app_eureka_optimized.py
```

### 3. Caracter√≠sticas Nuevas
- ‚úÖ Manejo mejorado de errores
- ‚úÖ Sistema de logging y m√©tricas  
- ‚úÖ B√∫squeda MMR para mejor relevancia
- ‚úÖ Base de conocimiento expandida
- ‚úÖ UI mejorada con m√©tricas en tiempo real
- ‚úÖ Modo debug para desarrolladores
- ‚úÖ Validaci√≥n automatizada
- ‚úÖ Arquitectura modular y escalable

### 4. Configuraci√≥n Avanzada
Puedes ajustar par√°metros en `EurekaConfig`:
- `chunk_size`: Tama√±o de fragmentos de texto
- `retriever_k`: N√∫mero de documentos a recuperar
- `temperature`: Creatividad del modelo (0.0 = determinista)

## Principales Optimizaciones Implementadas:

### üîß **T√©cnicas**
1. **Arquitectura modular**: Clase `EurekaRAG` reutilizable
2. **B√∫squeda MMR**: Mejor diversidad y relevancia
3. **Cach√© inteligente**: Evita recalcular embeddings
4. **Manejo robusto de errores**: Logs detallados
5. **Configuraci√≥n centralizada**: F√°cil ajuste de par√°metros

### üìä **Monitoreo**
1. **M√©tricas en tiempo real**: Tiempo de respuesta, consultas
2. **Logging de interacciones**: Para an√°lisis posterior
3. **Modo debug**: Visualizaci√≥n de fuentes consultadas
4. **Testing automatizado**: Validaci√≥n de respuestas

### üé® **UX/UI**
1. **Dise√±o responsive**: Mejor experiencia m√≥vil
2. **Indicadores visuales**: Estados de carga, m√©tricas
3. **Sidebar informativo**: Contexto y estad√≠sticas
4. **CSS personalizado**: Branding coherente

### ‚ö° **Performance**
1. **Chunks optimizados**: 800 caracteres vs 500 originales
2. **Overlap inteligente**: 100 caracteres para mejor contexto
3. **Temperatura baja**: Respuestas m√°s consistentes (0.1)
4. **Retrieval eficiente**: k=5 documentos por consulta

Esta versi√≥n optimizada es m√°s robusta, escalable y proporciona mejor experiencia tanto para usuarios finales como desarrolladores.