# Notebook 1: Creador de la Base de Datos Vectorial

**Objetivo:** Leer `eureka-merge.txt`, procesarlo y guardar los vectores en una base de datos ChromaDB persistente en el disco.

## Celda 1: Instalación y Configuración

In [None]:
import os
import logging
import shutil
from pathlib import Path

# Instalar dependencias necesarias para la indexación
!pip install -qU chromadb langchain langchain-community langchain-ollama langchain-text-splitters python-dotenv sentence-transformers

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

## Celda 2: Definir Parámetros

In [None]:
KNOWLEDGE_BASE_FILE = "eureka-merge.txt"
PERSIST_DIRECTORY = "./eureka_chroma_db"
EMBEDDING_MODEL = "mxbai-embed-large"
CHUNK_SIZE = 800
CHUNK_OVERLAP = 100

## Celda 3: Proceso de Indexación

In [None]:
def create_vector_database():
    """Función principal para crear y guardar la base de datos vectorial."""
    # Validar que el archivo de conocimiento exista
    if not os.path.exists(KNOWLEDGE_BASE_FILE):
        logger.error(f"❌ ERROR: El archivo '{KNOWLEDGE_BASE_FILE}' no se encontró. No se puede continuar.")
        return

    # Si la base de datos ya existe, la eliminamos para asegurar una reconstrucción limpia
    if os.path.exists(PERSIST_DIRECTORY):
        logger.warning(f"🗑️ La base de datos existente en '{PERSIST_DIRECTORY}' será eliminada para crear una nueva.")
        shutil.rmtree(PERSIST_DIRECTORY)

    # 1. Cargar el documento
    logger.info(f"- Paso 1: Cargando '{KNOWLEDGE_BASE_FILE}'...")
    loader = TextLoader(KNOWLEDGE_BASE_FILE, encoding='utf-8')
    documents = loader.load()

    # 2. Dividir en chunks
    logger.info("- Paso 2: Dividiendo el documento en chunks...")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=CHUNK_SIZE,
        chunk_overlap=CHUNK_OVERLAP
    )
    split_docs = splitter.split_documents(documents)

    # 3. Inicializar embeddings
    logger.info(f"- Paso 3: Inicializando el modelo de embeddings '{EMBEDDING_MODEL}'...")
    embeddings = OllamaEmbeddings(model=EMBEDDING_MODEL)

    # 4. Crear y guardar la base de datos en disco
    logger.info(f"- Paso 4: Creando y guardando la base de datos en '{PERSIST_DIRECTORY}'...")
    vectorstore = Chroma.from_documents(
        documents=split_docs,
        embedding=embeddings,
        persist_directory=PERSIST_DIRECTORY
    )

    logger.info(f"\n✅ ¡Éxito! Base de datos creada en '{PERSIST_DIRECTORY}' con {vectorstore._collection.count()} vectores.")
    logger.info("Ahora puedes ejecutar el notebook del chatbot.")

# Ejecutar el proceso
create_vector_database()