# Notebook 1: Constructor del Grafo de Conocimiento y Base Vectorial

**Objetivo:** Procesar `eureka-merge.txt` para extraer documentos, entidades (leyes, palabras clave) y relaciones. Guarda una base de datos vectorial (ChromaDB) para la búsqueda inicial y un archivo de grafo (NetworkX) para explorar las conexiones.

## Celda 1: Instalación de Dependencias

In [1]:
# Se necesitan librerías adicionales para el manejo de grafos
!pip install -qU chromadb langchain langchain-community langchain-ollama langchain-text-splitters sentence-transformers networkx

## Celda 2: Importaciones y Configuración

In [2]:
import os
import re
import logging
import networkx as nx
from typing import List, Dict, Any

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain.schema import Document

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- Parámetros de Configuración ---
KNOWLEDGE_FILE = "eureka-merge.txt"
CHROMA_PATH = "./chroma_graph_db"
GRAPH_PATH = "./knowledge_graph.gml"
EMBEDDING_MODEL = "mxbai-embed-large"
CHUNK_SIZE = 1000
CHUNK_OVERLAP = 150

## Celda 3: Función de Parseo del Archivo

In [3]:
def parse_consolidated_file(file_path: str) -> List[Dict[str, Any]]:
    """Parsea el archivo consolidado para extraer la estructura de cada documento."""
    if not os.path.exists(file_path):
        logger.error(f"El archivo de conocimiento '{file_path}' no fue encontrado.")
        return []

    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    
    docs_raw = re.split(r'# ARCHIVO \\d{2,}:', content)
    parsed_documents = []

    for i, doc_text in enumerate(docs_raw):
        if len(doc_text.strip()) == 0 or 'FIN DE:' not in doc_text:
            continue
            
        doc_id = f"doc_{i}"
        
        def extract_field(pattern, text):
            # Patrón actualizado para manejar URL con < > o sin ellos
            match = re.search(pattern, text, re.DOTALL)
            return match.group(1).strip() if match else "N/A"
            
        def extract_list(pattern, text):
            field = extract_field(pattern, text)
            return [item.strip() for item in field.split('–') if item.strip()] if field != "N/A" else []

        title = extract_field(r'# \\*\\*Título:\\*\\* (.+?)\\n', doc_text)
        # --- LÍNEA NUEVA: Extracción de la URL ---
        url = extract_field(r'\\*\\*URL:\\*\\* <(.+?)>', doc_text) 
        category = extract_field(r'### \\*\\*Categoría:\\*\\* (.+?)\\n', doc_text)
        summary = extract_field(r'## \\*\\*Resumen\\*\\*\\n(.+?)### \\*\\*Fuente:\\*\\*', doc_text)
        source = extract_field(r'### \\*\\*Fuente:\\*\\* (.+?)\\n', doc_text)
        keywords = extract_list(r'## \\*\\*Palabras Claves\\*\\*\\n(.+?)## \\*\\*Concordancias\\*\\*', doc_text)
        concordances = extract_list(r'## \\*\\*Concordancias\\*\\*\\n(.+?)############################################################', doc_text)
        
        parsed_documents.append({
            'id': doc_id,
            'title': title,
            'url': url, # <-- Atributo URL añadido
            'category': category,
            'summary': summary,
            'source': source,
            'keywords': keywords,
            'concordances': concordances,
            'full_text': doc_text.strip()
        })
        
    logger.info(f"Parseados {len(parsed_documents)} documentos del archivo.")
    return parsed_documents

## Celda 4: Construcción del Grafo y la Base de Datos Vectorial

In [None]:
def build_knowledge_base():
    """Orquesta la creación del grafo y la base de datos vectorial."""
    documents_data = parse_consolidated_file(KNOWLEDGE_FILE)
    if not documents_data:
        return

    # --- CAMBIO EN LA CREACIÓN DEL NODO ---
    G = nx.Graph()
    for doc in documents_data:
        doc_id = doc['id']
        # Añadimos la URL como un atributo del nodo
        G.add_node(doc_id, 
                   type='Documento', 
                   title=doc['title'], 
                   summary=doc['summary'], 
                   url=doc['url']) # <-- Atributo URL añadido al nodo
        
        # El resto del código para crear relaciones no cambia...
        for conc in doc['concordances']:
            G.add_node(conc, type='Normativa')
            G.add_edge(doc_id, conc, type='CONCORDANCIA')
            
        for keyword in doc['keywords']:
            G.add_node(keyword, type='Keyword')
            G.add_edge(doc_id, keyword, type='TIENE_KEYWORD')
            
    nx.write_gml(G, GRAPH_PATH)
    logger.info(f"✅ Grafo de conocimiento guardado en '{GRAPH_PATH}'.")

    # El resto del código para crear la base vectorial no cambia...
    docs_for_vectorstore = []
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
    
    for doc in documents_data:
        chunks = text_splitter.split_text(doc['full_text'])
        for i, chunk in enumerate(chunks):
            metadata = {'doc_id': doc['id'], 'title': doc['title'], 'chunk_num': i}
            docs_for_vectorstore.append(Document(page_content=chunk, metadata=metadata))
    
    embeddings = OllamaEmbeddings(model=EMBEDDING_MODEL)
    vectorstore = Chroma.from_documents(
        documents=docs_for_vectorstore,
        embedding=embeddings,
        persist_directory=CHROMA_PATH
    )
    logger.info(f"✅ Base de datos vectorial guardada en '{CHROMA_PATH}'.")

# Ejecutar el proceso de construcción
build_knowledge_base()

2025-09-10 16:51:54,871 - INFO - Parseados 284 documentos del archivo.
2025-09-10 16:51:54,940 - INFO - ✅ Grafo de conocimiento guardado en './knowledge_graph.gml'. Nodos: 4134, Relaciones: 6480.
2025-09-10 16:51:55,178 - INFO - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.
