# Generador de Embeddings para Documentos del DOF

## Índice de Contenidos
- [1. Descripción General](#1)
- [2. Características Principales](#2)
- [3. Requisitos y Dependencias](#3)
- [4. Instalación](#4)
- [5. Estructura de Directorios](#5)
- [6. Importación de Librerías](#6)
- [7. Configuración de Modelos](#7)
- [8. Inicialización de Base de Datos](#8)
- [9. Funciones de Procesamiento](#9)
- [10. Procesamiento de Archivos](#10)
- [11. Widget para Procesamiento](#11)
- [12. Procesamiento Manual](#12)
- [13. Visor de Chunks](#13)
- [14. Sistema de Consulta con Gemini](#14)
- [15. Notas Importantes](#15)

<h2 id="1">1. Descripción General</h2>

Este sistema procesa archivos markdown del Diario Oficial de la Federación (DOF), genera embeddings semánticos y permite realizar consultas utilizando búsqueda vectorial e inteligencia artificial. El sistema divide los documentos en secciones jerárquicas basadas en sus encabezados, fragmenta el texto y utiliza modelos de embedding para indexar el contenido.

El notebook implementa:
- Detección automática de encabezados en Markdown
- División del texto en chunks suaves (sin romper oraciones)
- Generación de encabezados contextuales para cada fragmento
- Almacenamiento en base de datos SQLite con capacidades vectoriales
- Consultas semánticas con Gemini 2.0

<h2 id="2">2. Características Principales</h2>

- **Procesamiento Jerárquico**: Detecta automáticamente encabezados y subtítulos para mantener la estructura del documento.
- **Fragmentación Suave**: Divide el texto respetando límites naturales como oraciones.
- **Generación de Embeddings**: Utiliza modelos modernos para convertir texto a vectores semánticos.
- **Almacenamiento Vectorial**: Base de datos SQLite optimizada para búsquedas vectoriales.
- **Consultas con IA**: Integración con Gemini 2.0 para respuestas contextualizadas.
- **Interfaz Interactiva**: Widgets interactivos para procesamiento y consultas.

<h2 id="3">3. Requisitos y Dependencias</h2>

El sistema depende de las siguientes bibliotecas y tecnologías:

- typer: para la interfaz de línea de comandos
- fastlite: para manipulación simplificada de bases de datos SQLite
- sqlite-vec: para habilitar capacidades vectoriales en SQLite
- sentence-transformers: para la generación de embeddings
- tokenizers: para tokenizar el texto
- tqdm: para mostrar barras de progreso
- google.generativeai: para integración con Gemini 2.0
- numpy: para procesamiento numérico
- python-dotenv: para cargar variables de entorno
- ipywidgets: para widgets interactivos

<h2 id="4">4. Instalación</h2>

1. Clona el repositorio o descarga los archivos
2. Instala las dependencias necesarias usando uv (instalador de paquetes más rápido y moderno):

```bash
# Instalar uv si no lo tienes
curl -sSf https://astral.sh/uv/install.sh | sh

# Instalar dependencias con uv
uv pip install typer fastlite sqlite-vec sentence-transformers tokenizers tqdm google-generativeai numpy python-dotenv ipywidgets
```

3. Configura una API key de Google Gemini en un archivo .env:

```
GOOGLE_API_KEY=tu_api_key_aquí
```

<h2 id="5">5. Estructura de Directorios</h2>

```
├── DOF_Embeddings_Generator.ipynb # Notebook principal
├── dof_db/ # Directorio para la base de datos
│   └── db.sqlite # Base de datos SQLite
├── .env # Archivo de variables de entorno
└── documentos_dof/ # Documentos markdown para procesar
```

<h2 id="6">6. Importación de Librerías</h2>

En esta sección se importan todas las bibliotecas necesarias para el funcionamiento del sistema. Incluye bibliotecas para:
- Manipulación de archivos y expresiones regulares
- Base de datos y vectores
- Modelos de embeddings
- Widgets interactivos
- Integración con Gemini

<h2 id="7">7. Configuración de Modelos</h2>

Configuración del modelo de embeddings y tokenizador:
- Se utiliza "nomic-ai/modernbert-embed-base" para generar embeddings vectoriales de alta calidad
- Se establece la longitud máxima de cada chunk (por defecto 1000 caracteres)

<h2 id="8">8. Inicialización de Base de Datos</h2>

Esta sección configura la base de datos SQLite con extensiones vectoriales:
- Crea/conecta a la base de datos en "dof_db/db.sqlite"
- Habilita extensiones para búsqueda vectorial con sqlite-vec
- Define esquema para tablas "documents" y "chunks"
- Establece relaciones entre documentos y sus fragmentos

<h2 id="9">9. Funciones de Procesamiento</h2>

Funciones clave para el procesamiento de documentos:

1. **parse_text_by_headings**: Divide el texto en secciones basadas en la jerarquía de encabezados
2. **split_text_smooth**: Divide el texto en chunks respetando límites de oraciones
3. **build_chunk_header**: Genera encabezados contextuales para cada fragmento
4. **get_url_from_filename**: Obtiene la URL oficial del DOF a partir del nombre del archivo

<h2 id="10">10. Procesamiento de Archivos</h2>

Estas funciones manejan el procesamiento completo de archivos y directorios:

1. **process_file**: Procesa un archivo markdown individual
   - Extrae metadatos del documento
   - Parsea la estructura jerárquica
   - Divide el texto en chunks
   - Genera embeddings
   - Almacena todo en la base de datos
   - Crea un archivo de depuración

2. **process_directory**: Procesa todos los archivos markdown en un directorio

<h2 id="11">11. Widget para Procesamiento</h2>

Interfaz interactiva para procesar documentos del DOF. Pasos para usarlo:

1. Ingresa la ruta al directorio que contiene los archivos markdown del DOF
2. Haz clic en "Procesar archivos" para iniciar el procesamiento
3. Espera a que se complete el proceso y revisa los resultados

<h2 id="12">12. Procesamiento Manual (opcional)</h2>

Esta sección permite ejecutar el procesamiento programáticamente sin usar los widgets.

<h2 id="13">13. Visor de Chunks Generados</h2>

Interfaz para visualizar y explorar los chunks generados. Pasos para usarlo:

1. Haz clic en "Buscar archivos" para encontrar todos los archivos de chunks generados
2. Selecciona un archivo del menú desplegable
3. Haz clic en "Ver contenido" para mostrar los chunks y sus encabezados

<h2 id="14">14. Sistema de Consulta con Gemini 2.0</h2>

Esta sección implementa el sistema de búsqueda semántica y consulta con IA. Proceso de consulta:

1. Ingresa una pregunta sobre los documentos del DOF
2. El sistema busca los chunks más relevantes mediante similitud de embeddings
3. Se obtiene contexto extendido (chunks adyacentes) para mejorar la comprensión
4. Se formula un prompt para Gemini 2.0 con el contexto relevante
5. Gemini 2.0 genera una respuesta contextualizada
6. Se muestra la respuesta junto con información sobre la fuente

<h2 id="15">15. Notas Importantes</h2>

- Los nombres de archivo deben seguir el formato `DDMMYYYY-XXX.md` para generar URLs correctas.
- Para obtener mejores resultados, asegúrate de que los documentos tengan una estructura clara con encabezados markdown (# Título, ## Subtítulo, etc.).
- La calidad de las respuestas depende de la riqueza del contenido indexado.
- El tamaño máximo de chunk (1000 caracteres) podría necesitar ajustes según el modelo de embeddings.
- La visualización de resultados está optimizada para notebooks Jupyter.
- El rendimiento puede verse afectado cuando la base de datos contiene muchos documentos.

[Volver al Índice](#Índice-de-Contenidos) 

## Importación de librerías

In [1]:
import os
import re
from datetime import datetime

import typer
from fastlite import database
from sqlite_vec import load, serialize_float32
from sentence_transformers import SentenceTransformer
from tokenizers import Tokenizer
from tqdm import tqdm
import google.generativeai as genai
from os import getenv
import numpy as np
from dotenv import load_dotenv

# Importar widgets para la interfaz interactiva
import ipywidgets as widgets
from IPython.display import display, HTML

## Configuración de modelos y tokenizadores

In [2]:
# Configuración de modelos y tokenizadores
tokenizer = Tokenizer.from_pretrained("nomic-ai/modernbert-embed-base")
model = SentenceTransformer("nomic-ai/modernbert-embed-base", trust_remote_code=True)

# Configuración: máximo de caracteres para cada chunk suave
MAX_CHUNK_LENGTH = 1000

## Inicialización de la base de datos

In [3]:
# Inicializar la base de datos con sqlite-vec
db = database("dof_db/db.sqlite")
db.conn.enable_load_extension(True)
load(db.conn)
db.conn.enable_load_extension(False)

# Crear/actualizar esquema de tablas
db.t.documents.create(
    id=int, 
    title=str, 
    url=str, 
    file_path=str, 
    created_at=datetime, 
    pk="id", 
    ignore=True
)
db.t.documents.create_index(["url"], unique=True, if_not_exists=True)

# Se añade la columna 'header' para guardar el encabezado contextual
db.t.chunks.create(
    id=int,
    document_id=int,
    text=str,
    header=str,
    embedding=bytes,
    created_at=datetime,
    pk="id",
    foreign_keys=[("document_id", "documents")],
    ignore=True,
)

<Table chunks (id, document_id, text, header, embedding, created_at)>

## Funciones para procesar el documento

In [4]:
# Regex para detectar headings en Markdown
HEADING_PATTERN = re.compile(r'^(#{1,6})\s+(.*)$')

def parse_text_by_headings(text: str):
    """
    Divide el texto en secciones basadas en los headings de Markdown.
    Retorna una lista de diccionarios con:
      - "heading_hierarchy": lista con la jerarquía de headings
      - "content": contenido de la sección
    """
    lines = text.split('\n')
    sections = []
    current_hierarchy = []
    current_content_lines = []

    def add_section(hierarchy, content_lines):
        if not hierarchy or not content_lines:
            return
        sections.append({
            "heading_hierarchy": hierarchy.copy(),
            "content": "\n".join(content_lines).strip()
        })

    for line in lines:
        heading_match = HEADING_PATTERN.match(line)
        if heading_match:
            # Cuando se detecta un heading, se cierra la sección anterior
            add_section(current_hierarchy, current_content_lines)
            current_content_lines = []
            hashes = heading_match.group(1)
            heading_text = heading_match.group(2).strip()
            level = len(hashes)
            # Ajustar la jerarquía: mantener los niveles anteriores hasta (nivel-1)
            current_hierarchy = current_hierarchy[:level-1]
            current_hierarchy.append(heading_text)
        else:
            current_content_lines.append(line)

    # Agregar la última sección si existe contenido
    add_section(current_hierarchy, current_content_lines)
    return sections

def split_text_smooth(text: str, max_length: int = MAX_CHUNK_LENGTH, min_chunk_ratio: float = 0.5):
    """
    Divide el texto en chunks suaves sin romper oraciones.
    Separa el texto en oraciones basándose en signos de puntuación y las agrupa sin
    exceder el límite de caracteres (max_length). Si el último chunk es muy corto
    (menos de min_chunk_ratio * max_length), se fusiona con el chunk anterior.
    """
    # Separa el texto en oraciones (manteniendo el signo de puntuación)
    sentences = re.split(r'(?<=[.!?])\s+', text)
    chunks = []
    current_chunk = ""
    
    for sentence in sentences:
        if len(current_chunk) + len(sentence) + 1 <= max_length:
            current_chunk += sentence + " "
        else:
            if current_chunk:
                chunks.append(current_chunk.strip())
            current_chunk = sentence + " "
    
    if current_chunk:
        current_chunk = current_chunk.strip()
        # Si el último chunk es muy corto y existe un chunk previo, fusiónalo
        if chunks and len(current_chunk) < max_length * min_chunk_ratio:
            previous_chunk = chunks.pop()
            merged = previous_chunk + " " + current_chunk
            chunks.append(merged.strip())
        else:
            chunks.append(current_chunk)
    return chunks


def build_chunk_header(doc_title: str, heading_hierarchy: list):
    """
    Construye el encabezado contextual utilizando el título del documento y la jerarquía de headings.
    """
    if not heading_hierarchy:
        return f"Document: {doc_title}"
    hierarchy_str = " > ".join(heading_hierarchy)
    return f"Document: {doc_title} | Section: {hierarchy_str}"

def get_url_from_filename(filename: str) -> str:
    """
    Genera la URL con base en el patrón del nombre de archivo.
    Formato esperado: DDMMYYYY-XXX.md
    Ejemplo: 23012025-MAT.md
    """
    base_filename = os.path.basename(filename).replace(".md", "")
    if len(base_filename) >= 8:
        year = base_filename[4:8]
        pdf_filename = f"{base_filename}.pdf"
        url = f"https://diariooficial.gob.mx/abrirPDF.php?archivo={pdf_filename}&anio={year}&repo=repositorio/"
        return url
    else:
        raise ValueError(f"Expected filename like 23012025-MAT.md but got {filename}")

## Funciones para procesamiento de archivos

In [5]:
def process_file(file_path: str):
    """
    Procesa un archivo markdown, extrae secciones basadas en headings,
    divide cada sección en chunks suaves, genera embeddings y los almacena en la base de datos.
    """
    with open(file_path, "r", encoding="utf-8") as file:
        content = file.read()

    # 1) Extraer metadatos y preparar la inserción del documento
    title = os.path.splitext(os.path.basename(file_path))[0]
    url = get_url_from_filename(file_path)

    # Eliminar cualquier versión anterior del documento
    db.t.documents.delete_where("url = ?", [url])
    doc = db.t.documents.insert(
        title=title, 
        url=url, 
        file_path=file_path, 
        created_at=datetime.now()
    )

    # 2) Parsear el contenido basado en headings
    sections = parse_text_by_headings(content)

    # Archivo de salida para depuración de chunks
    chunks_file_path = os.path.splitext(file_path)[0] + "_chunks.txt"
    # Definimos un contador global para numerar secuencialmente los chunks
    global_chunk_counter = 1
    with open(chunks_file_path, "w", encoding="utf-8") as chunks_file:
        # 3) Procesar cada sección
        for section in sections:
            hierarchy = section.get("heading_hierarchy", [])
            section_content = section.get("content", "")
            # Construir el encabezado contextual
            header = build_chunk_header(title, hierarchy)
            # Dividir la sección en chunks suaves
            sub_chunks = split_text_smooth(section_content, max_length=MAX_CHUNK_LENGTH)

            for i, chunk in enumerate(sub_chunks):
                # Texto completo para el embedding: encabezado + chunk
                text_for_embedding = f"{header}\n\n{chunk}"
                embedding = model.encode(f"search_document: {text_for_embedding}")

                # Guardar en el archivo de depuración
                chunks_file.write(f"--- CHUNK #{global_chunk_counter} ---\n")
                chunks_file.write(f"Header: {header}\n")
                chunks_file.write(f"Texto:\n{chunk}\n")
                chunks_file.write("\n" + "-"*50 + "\n\n")
                global_chunk_counter += 1

                # Insertar en la base de datos
                db.t.chunks.insert(
                    document_id=doc["id"],
                    text=chunk,
                    header=header,
                    embedding=embedding,
                    created_at=datetime.now(),
                )

    return f"✅ Procesado completado para: {file_path}\nSe generó el archivo de chunks en: {chunks_file_path}"

def process_directory(directory: str):
    """Procesa todos los archivos .md de un directorio."""
    results = []
    md_files = [f for f in os.listdir(directory) if f.endswith(".md")]
    
    if not md_files:
        return "⚠️ No se encontraron archivos .md en el directorio especificado."
    
    for f in tqdm(md_files, desc="Procesando archivos"):
        file_path = os.path.join(directory, f)
        result = process_file(file_path)
        results.append(result)
    
    return "\n\n".join(results)

## Widget para ingresar la ruta de procesamiento

In [6]:
# Crear widget de entrada para la ruta del directorio
text_input = widgets.Text(
    value='',
    placeholder='Ingresa la ruta del directorio con archivos .md',
    description='Directorio:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='80%')
)

process_button = widgets.Button(
    description='Procesar archivos',
    button_style='primary',
    tooltip='Haz clic para procesar los archivos en el directorio especificado',
    icon='check'
)

output = widgets.Output()

def on_button_clicked(b):
    with output:
        output.clear_output()
        directory = text_input.value.strip()
    md_files = [f for f in os.listdir(directory) if f.endswith(".md")]
    
    if not md_files:
        return "⚠️ No se encontraron archivos .md en el directorio especificado."
    
    for f in tqdm(md_files, desc="Procesando archivos"):
        file_path = os.path.join(directory, f)
        result = process_file(file_path)
        results.append(result)
    
    return "\n\n".join(results)

def on_button_clicked(b):
    with output:
        output.clear_output()
        directory = text_input.value.strip()
        
        if not directory:
            print("⚠️ Por favor ingresa una ruta de directorio válida.")
            return
        
        if not os.path.exists(directory):
            print(f"⚠️ El directorio '{directory}' no existe.")
            return
            
        print(f"🔄 Procesando archivos en: {directory}")
        try:
            result = process_directory(directory)
            print(result)
        except Exception as e:
            print(f"❌ Error durante el procesamiento: {str(e)}")

process_button.on_click(on_button_clicked)

# Mostrar los widgets
display(widgets.HTML("<h3>Procesamiento de archivos DOF</h3>"))
display(text_input)
display(process_button)
display(output)

HTML(value='<h3>Procesamiento de archivos DOF</h3>')

Text(value='', description='Directorio:', layout=Layout(width='80%'), placeholder='Ingresa la ruta del directo…

Button(button_style='primary', description='Procesar archivos', icon='check', style=ButtonStyle(), tooltip='Ha…

Output()

## Ejemplo de procesamiento manual (opcional)

In [7]:
# Ejemplo de cómo procesar un directorio específico manualmente
# Descomenta la siguiente línea y especifica la ruta
# result = process_directory("ruta/a/tu/directorio")
# print(result)

## Visor de Chunks Generados

In [10]:

import glob
import os
from IPython.display import display, HTML

# Widget para seleccionar archivo de chunks
file_selector = widgets.Dropdown(
    options=[],
    description='Archivo:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='80%')
)

refresh_button = widgets.Button(
    description='Buscar archivos',
    button_style='info',
    tooltip='Actualizar lista de archivos de chunks',
    icon='refresh'
)

view_button = widgets.Button(
    description='Ver contenido',
    button_style='success',
    tooltip='Mostrar el contenido del archivo seleccionado',
    icon='eye'
)

chunk_output = widgets.Output(layout=widgets.Layout(
    border='1px solid #ddd',
    max_height='500px',
    overflow_y='auto',
    padding='10px'
))

def update_file_list(b=None):
    # Buscar todos los archivos _chunks.txt en el directorio de la entrada de texto
    directory = text_input.value.strip() if hasattr(text_input, 'value') and text_input.value.strip() else '.'
    chunk_files = glob.glob(os.path.join(directory, "*_chunks.txt"))
    
    # Añadir también la búsqueda recursiva en subdirectorios
    if not chunk_files:
        for root, dirs, files in os.walk(directory):
            for file in files:
                if file.endswith("_chunks.txt"):
                    chunk_files.append(os.path.join(root, file))
    
    # Actualizar opciones del selector
    file_selector.options = [os.path.basename(f) for f in sorted(chunk_files)]
    file_selector.paths = {os.path.basename(f): f for f in sorted(chunk_files)}
    
    with chunk_output:
        chunk_output.clear_output()
        if not chunk_files:
            print(f"❌ No se encontraron archivos de chunks en '{directory}' ni sus subdirectorios.")
        else:
            print(f"✅ Se encontraron {len(chunk_files)} archivos de chunks.")

def display_chunk_file(b):
    with chunk_output:
        chunk_output.clear_output()
        if not file_selector.options:
            print("❌ No hay archivos para mostrar. Usa 'Buscar archivos' primero.")
            return
            
        selected_file = file_selector.value
        full_path = file_selector.paths[selected_file]
        
        try:
            with open(full_path, 'r', encoding='utf-8') as f:
                content = f.read()
            
            # Formatear el contenido para HTML
            content_html = content.replace('\n', '<br>')
            content_html = re.sub(r'--- CHUNK #(\d+) ---', r'<h4 style="color:blue;">--- CHUNK #\1 ---</h4>', content_html)
            content_html = re.sub(r'Header: (.*?)<br>', r'<b>Header:</b> <span style="color:green;">\1</span><br>', content_html)
            content_html = re.sub(r'-{50}', r'<hr style="border-top: 1px dashed #ccc;">', content_html)
            
            display(HTML(f"<h3>Contenido de: {selected_file}</h3>"))
            display(HTML(content_html))
        except Exception as e:
            print(f"❌ Error al leer el archivo: {str(e)}")

refresh_button.on_click(update_file_list)
view_button.on_click(display_chunk_file)

# Mostrar widgets
display(widgets.HTML("<h3>Visor de Chunks Generados</h3>"))
display(widgets.HBox([refresh_button, file_selector]))
display(view_button)
display(chunk_output)

# Inicializar la lista de archivos
update_file_list()

HTML(value='<h3>Visor de Chunks Generados</h3>')

HBox(children=(Button(button_style='info', description='Buscar archivos', icon='refresh', style=ButtonStyle(),…

Button(button_style='success', description='Ver contenido', icon='eye', style=ButtonStyle(), tooltip='Mostrar …

Output(layout=Layout(border_bottom='1px solid #ddd', border_left='1px solid #ddd', border_right='1px solid #dd…

## Sistema de Consulta con Gemini 2.0

In [12]:


import os
import numpy as np
from IPython.display import display, HTML, clear_output
import google.generativeai as genai
from sentence_transformers import SentenceTransformer
from datetime import datetime
from dotenv import load_dotenv

# Cargar variables de entorno y configurar Gemini
load_dotenv()
api_key = os.getenv("GOOGLE_API_KEY")
if not api_key:
    print("⚠️ GOOGLE_API_KEY no está configurada en las variables de entorno")
else:
    genai.configure(api_key=api_key)

# Usar el mismo modelo de embeddings que usamos para indexar
model_query = SentenceTransformer("nomic-ai/modernbert-embed-base", trust_remote_code=True)

# Funciones para procesamiento de consultas

def deserialize_embedding(blob):
    """Convierte un BLOB almacenado en la base de datos a un vector NumPy de tipo float32."""
    return np.frombuffer(blob, dtype=np.float32)

def get_all_chunks():
    """Obtiene todos los chunks almacenados en la base de datos."""
    results = db.query(
        """
        SELECT 
            c.id as chunk_id,
            c.text as chunk_text,
            c.header as chunk_header,
            c.document_id as document_id,
            d.title as doc_title,
            d.url as doc_url,
            c.embedding as embedding_blob
        FROM chunks c
        JOIN documents d ON c.document_id = d.id
        ORDER BY c.id;
        """
    )
    return list(results)

def find_relevant_chunks(query, all_chunks, top_k=10):
    """Encuentra los chunks más relevantes para la consulta."""
    # Generar embedding para la consulta
    query_embedding = model_query.encode(f"search_query: {query}")
    
    # Calcular distancias
    scored_results = []
    for chunk in all_chunks:
        chunk_embedding = deserialize_embedding(chunk["embedding_blob"])
        distance = np.linalg.norm(query_embedding - chunk_embedding)
        scored_results.append({
            "chunk_id": chunk["chunk_id"],
            "chunk_text": chunk["chunk_text"],
            "chunk_header": chunk["chunk_header"],
            "document_id": chunk["document_id"],
            "doc_title": chunk["doc_title"],
            "doc_url": chunk["doc_url"],
            "distance": distance,
            "similarity": 1.0 / (1.0 + distance)  # Convertir distancia a similitud
        })
    
    # Ordenar por menor distancia (mayor similitud)
    return sorted(scored_results, key=lambda x: x["distance"])[:top_k]

def get_extended_context(best_chunk, all_chunks):
    """Obtiene un contexto extendido incluyendo chunks adyacentes."""
    # Filtrar chunks del mismo documento
    same_doc_chunks = [c for c in all_chunks if c["document_id"] == best_chunk["document_id"]]
    
    # Ordenar por ID para mantener el orden original
    same_doc_chunks = sorted(same_doc_chunks, key=lambda c: c["chunk_id"])
    
    # Encontrar la posición del mejor chunk
    best_index = None
    for i, chunk in enumerate(same_doc_chunks):
        if chunk["chunk_id"] == best_chunk["chunk_id"]:
            best_index = i
            break
    
    # Construir contexto extendido
    context_parts = []
    context_headers = []
    
    if best_index is not None:
        # Añadir chunk anterior si existe
        if best_index > 0:
            context_parts.append(same_doc_chunks[best_index - 1]["chunk_text"])
            context_headers.append(same_doc_chunks[best_index - 1]["chunk_header"])
            
        # Añadir el mejor chunk
        context_parts.append(best_chunk["chunk_text"])
        context_headers.append(best_chunk["chunk_header"])
        
        # Añadir chunk siguiente si existe
        if best_index < len(same_doc_chunks) - 1:
            context_parts.append(same_doc_chunks[best_index + 1]["chunk_text"])
            context_headers.append(same_doc_chunks[best_index + 1]["chunk_header"])
    else:
        # Si no se encuentra (caso raro), usar solo el mejor chunk
        context_parts.append(best_chunk["chunk_text"])
        context_headers.append(best_chunk["chunk_header"])
    
    # Generar contexto con headers
    full_context = ""
    for i, (header, text) in enumerate(zip(context_headers, context_parts)):
        full_context += f"[Sección {i+1}]: {header}\n\n{text}\n\n"
    
    return full_context

def query_gemini(query, query_output):
    """Realiza una consulta completa: búsqueda de chunks y generación de respuesta con Gemini."""
    try:
        with query_output:
            clear_output()
            print(f"🔍 Procesando consulta: '{query}'")
            print("Obteniendo chunks de la base de datos...")
        
            # Obtener todos los chunks
            all_chunks = get_all_chunks()
            
            if not all_chunks:
                print("❌ No se encontraron documentos en la base de datos.")
                return
                
            print(f"Se obtuvieron {len(all_chunks)} chunks totales.")
            print("Buscando chunks relevantes...")
            
            # Encontrar chunks relevantes
            top_results = find_relevant_chunks(query, all_chunks)
            
            if not top_results:
                print("❌ No se encontraron chunks relevantes para esta consulta.")
                return
                
            # Obtener el mejor resultado
            best_chunk = top_results[0]
            
            print(f"Se encontraron {len(top_results)} chunks relevantes.")
            print(f"Mejor chunk: ID={best_chunk['chunk_id']}, Distancia={best_chunk['distance']:.4f}")
            print("Obteniendo contexto extendido...")
            
            # Obtener contexto extendido (con chunks adyacentes)
            extended_context = get_extended_context(best_chunk, all_chunks)
            
            print("Generando prompt para Gemini...")
            
            # Construir prompt para Gemini
            prompt = (
                f"Utilizando el siguiente contexto extraído de un documento del Diario Oficial de la Federación:\n\n"
                f"---\n{extended_context}\n---\n\n"
                f"Instrucciones:\n"
                f"- Si la consulta está relacionada directamente con el contenido, responde basándote en la información proporcionada.\n"
                f"- Si la consulta es un saludo, despedida o una interacción social común, responde de forma cordial y adecuada.\n"
                f"- Si se solicita información que no se encuentra en el contexto, indica de manera clara que no hay información relevante disponible en el documento.\n"
                f"- Asegúrate de interpretar correctamente la solicitud, contestando únicamente lo que se pregunta y evitando agregar información irrelevante.\n\n"
                f"Pregunta:\n{query}"
            )
            
            print("Enviando consulta a Gemini...")
            
            # Generar respuesta con Gemini
            model_gemini = genai.GenerativeModel('gemini-2.0-flash')
            response = model_gemini.generate_content(prompt)
            
            # Mostrar respuesta
            print("\n" + "="*60)
            print(f"RESPUESTA A: '{query}'")
            print("="*60)
            display(HTML(f"<div style='background-color: #f8f9fa; padding: 15px; border-radius: 5px; margin: 10px 0;'>{response.text.replace(chr(10), '<br>')}</div>"))
            
            print("\n" + "-"*60)
            print(f"Fuente: {best_chunk['doc_title']}")
            print(f"URL: {best_chunk['doc_url']}")
            print(f"Relevancia (distancia): {best_chunk['distance']:.4f}")
            print(f"Similitud: {best_chunk['similarity']:.4f}")
            print("-"*60)
            
            # Mostrar contexto utilizado en un formato colapsable
            context_html = extended_context.replace('\n', '<br>').replace('[Sección', '<b>[Sección')
            context_html = context_html.replace(']:', ']:</b>')
            
            display(HTML(f"""
            <details>
                <summary style="cursor: pointer; color: #0066cc;">Ver contexto utilizado (click para expandir)</summary>
                <div style="background-color: #f5f5f5; padding: 10px; border: 1px solid #ddd; margin-top: 10px;">
                    {context_html}
                </div>
            </details>
            """))
            
    except Exception as e:
        with query_output:
            print(f"❌ Error durante el proceso: {str(e)}")

# Crear widgets para la interfaz de consulta
query_input = widgets.Text(
    value='',
    placeholder='Ingresa tu consulta sobre documentos del DOF',
    description='Consulta:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='80%')
)

query_button = widgets.Button(
    description='Consultar',
    button_style='primary',
    tooltip='Enviar consulta a Gemini',
    icon='search'
)

query_output = widgets.Output(
    layout=widgets.Layout(
        border='1px solid #ddd',
        padding='10px',
        overflow_y='auto',
        max_height='600px'
    )
)

# Función para manejar el evento del botón
def on_query_button_clicked(b):
    query = query_input.value.strip()
    if not query:
        with query_output:
            clear_output()
            print("⚠️ Por favor ingresa una consulta válida.")
        return
    
    query_gemini(query, query_output)

# Función para manejar el evento de tecla Enter
def on_query_input_submit(sender):
    query = query_input.value.strip()
    if not query:
        with query_output:
            clear_output()
            print("⚠️ Por favor ingresa una consulta válida.")
        return
    
    query_gemini(query, query_output)

def on_query_input_changed(change):
    if change.new and not change.old:  # Solo se activa cuando cambia de vacío a un valor
        query = change.new.strip()
        if query:
            query_gemini(query, query_output)

query_button.on_click(on_query_button_clicked)
query_input.continuous_update = False  
# Observar cambios en el valor en lugar de usar on_submit
query_input.observe(lambda change: 
    on_query_gemini_if_enter(change, query_output), 
    names='value')

def on_query_gemini_if_enter(change, output):
    # Comprobar si se presionó Enter (el cambio viene con un valor nuevo)
    if hasattr(change, 'new') and change.new.strip():
        query = change.new.strip()
        query_gemini(query, output)

# Mostrar la interfaz
display(widgets.HTML("<h3>Consulta de Documentos DOF con Gemini 2.0</h3>"))
display(widgets.VBox([
    widgets.Label("Ingresa una consulta sobre los documentos del Diario Oficial de la Federación:"),
    widgets.HBox([query_input, query_button]),
    query_output
]))

HTML(value='<h3>Consulta de Documentos DOF con Gemini 2.0</h3>')

VBox(children=(Label(value='Ingresa una consulta sobre los documentos del Diario Oficial de la Federación:'), …