In [1]:
# üìå Celda 1 ‚Äî Verificar versi√≥n de Python y librer√≠as clave
!python --version

!pip show llama-index-core
!pip show llama-index-vector-stores-chroma
!pip show llama-index-embeddings-huggingface
!pip show chromadb
!pip show sentence-transformers
!pip show transformers
!pip show tokenizers
!pip show numpy


Python 3.10.18
Name: llama-index-core
Version: 0.12.20
Summary: Interface between LLMs and your data
Home-page: https://llamaindex.ai
Author: Jerry Liu
Author-email: jerry@llamaindex.ai
License: MIT
Location: c:\users\eduar\anaconda3\envs\vbd_01245_local\lib\site-packages
Requires: aiohttp, dataclasses-json, deprecated, dirtyjson, filetype, fsspec, httpx, nest-asyncio, networkx, nltk, numpy, pillow, pydantic, PyYAML, requests, SQLAlchemy, tenacity, tiktoken, tqdm, typing-extensions, typing-inspect, wrapt
Required-by: llama-index-embeddings-huggingface, llama-index-vector-stores-chroma
Name: llama-index-vector-stores-chroma
Version: 0.4.2
Summary: llama-index vector_stores chroma integration
Home-page: 
Author: 
Author-email: Your Name <you@example.com>
License-Expression: MIT
Location: c:\users\eduar\anaconda3\envs\vbd_01245_local\lib\site-packages
Requires: chromadb, llama-index-core
Required-by: 
Name: llama-index-embeddings-huggingface
Version: 0.5.2
Summary: llama-index embeddings 

In [2]:
# üìå Celda 2 ‚Äî Configuraci√≥n de rutas locales para la persistencia del √≠ndice
import os

# üìÇ Ruta ra√≠z de trabajo local
BASE_DIR = r"C:\\batch001"

# üìÇ Carpeta de almacenamiento para este test espec√≠fico
STORAGE_DIR = os.path.join(BASE_DIR, "store_test_yaml2")

# üìÇ Carpeta donde est√°n los YAML de ontolog√≠a
ONTOLOGY_DIR = os.path.join(BASE_DIR, "ontology")

# Crear carpeta de almacenamiento si no existe
os.makedirs(STORAGE_DIR, exist_ok=True)

print(f"üìÇ Carpeta base: {BASE_DIR}")
print(f"üìÇ Carpeta almacenamiento: {STORAGE_DIR}")
print(f"üìÇ Carpeta ontolog√≠a: {ONTOLOGY_DIR}")


üìÇ Carpeta base: C:\\batch001
üìÇ Carpeta almacenamiento: C:\\batch001\store_test_yaml2
üìÇ Carpeta ontolog√≠a: C:\\batch001\ontology


In [3]:
# üìå Celda 3 ‚Äî Inicializaci√≥n de Chroma y StorageContext sin persist_dir inicial
import chromadb
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext

# Inicializar cliente de Chroma persistente
chroma_client = chromadb.PersistentClient(path=os.path.join(STORAGE_DIR, "chroma"))
chroma_collection = chroma_client.get_or_create_collection("riesgos_collection")

# Crear VectorStore
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)

# Crear StorageContext (sin persist_dir para evitar lectura de archivos inexistentes)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

print("‚úÖ StorageContext creado correctamente (sin persist_dir inicial).")



‚úÖ StorageContext creado correctamente (sin persist_dir inicial).


In [4]:
# üìå Celda 4 ‚Äî Cargar modelo de embeddings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# Modelo recomendado para sem√°ntica multiling√ºe (BAAI/bge-m3) o usar MiniLM si quieres m√°s velocidad
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")

print("‚úÖ Modelo de embeddings cargado correctamente.")


  from .autonotebook import tqdm as notebook_tqdm


‚úÖ Modelo de embeddings cargado correctamente.


In [5]:
# üìå Celda 5 ‚Äî Preparar nodos desde el YAML de riesgos
# üìå Celda 5 ‚Äî Preparar nodos desde el YAML de riesgos (versi√≥n corregida con id_ expl√≠cito)

import yaml
from llama_index.core.schema import TextNode

# Ruta del archivo de riesgos
yaml_riesgos_path = os.path.join(ONTOLOGY_DIR, "01_catalogo_riesgos_v8.yaml")

if not os.path.exists(yaml_riesgos_path):
    raise FileNotFoundError(f"‚ùå No se encontr√≥ el archivo: {yaml_riesgos_path}")

# Cargar datos
with open(yaml_riesgos_path, "r", encoding="utf-8") as f:
    riesgos_data = yaml.safe_load(f)

nodes_riesgos = []

for item in riesgos_data:
    # Texto optimizado para b√∫squedas sem√°nticas
    content = f"{item.get('nombre', '')}. {item.get('descripcion', '')}"

    # Metadatos ligeros (para VDB)
    metadata = {
        "id": item.get("id"),  # ID principal del riesgo (clave para VDB y GDB)
        "peligro_asociado": item.get("peligro_asociado"),
        "bowtie_id": item.get("bowtie_id"),
        "area": item.get("area"),
        "aplicabilidad": item.get("aplicabilidad"),
        "tags": ", ".join(item.get("tags", [])),
        # Flags de existencia (sin guardar listas largas en VDB)
        "tiene_causas": bool(item.get("causas_asociadas")),
        "tiene_controles_preventivos": bool(item.get("controles_preventivos_asociados")),
        "tiene_controles_criticos": bool(item.get("controles_criticos_asociados")),
        "tiene_controles_mitigacion": bool(item.get("controles_mitigacion_asociados")),
        "tiene_barreras_recuperacion": bool(item.get("barreras_recuperacion_asociadas")),
        "tiene_consecuencias": bool(item.get("consecuencias_asociadas")),
        "tiene_factores_degradacion": bool(item.get("factores_degradacion_asociados")),
        "tiene_factores_exposicion": bool(item.get("factores_exposicion_relacionados")),
        "tipo": "riesgo"
    }

    # ‚ö†Ô∏è Aqu√≠ la correcci√≥n: usar id_=item.get("id") para que no genere UUID
    node = TextNode(id_=item.get("id"), text=content, metadata=metadata)
    nodes_riesgos.append(node)

print(f"‚úÖ Nodos de riesgos creados: {len(nodes_riesgos)}")
print("üîç Ejemplo nodo:")
print("Texto:", nodes_riesgos[0].text)
print("Metadatos:", nodes_riesgos[0].metadata)


‚úÖ Nodos de riesgos creados: 3
üîç Ejemplo nodo:
Texto: Ca√≠da desde Altura. Este riesgo se refiere a la probabilidad de que una persona caiga desde un nivel superior a uno inferior, resultando en lesiones graves o fatales. Se materializa en situaciones como trabajos en andamios, plataformas elevadas, techos, escaleras verticales, o al transitar cerca de bordes desprotegidos (vanos, aberturas). La altura cr√≠tica suele definirse a partir de 1.8 metros, pero cualquier desnivel con potencial de lesi√≥n grave es relevante. Las consecuencias pueden variar desde fracturas y traumatismos severos hasta la muerte, adem√°s de da√±os a equipos o interrupci√≥n de la operaci√≥n si la ca√≠da afecta infraestructura cr√≠tica.

Metadatos: {'id': 'R01', 'peligro_asociado': 'Trabajos en altura (‚â•1,8m o cerca de bordes sin protecci√≥n)', 'bowtie_id': 'R01_BOW_CAIDA_V001', 'area': 'Todas las √Åreas Operacionales', 'aplicabilidad': 'Identificaci√≥n y evaluaci√≥n de riesgos cr√≠ticos', 'tags': 'ca√≠da d

In [6]:
# üìå Celda 6 ‚Äî Persistencia siguiendo la l√≥gica de test8
from llama_index.core import VectorStoreIndex

# Registrar nodos de riesgos en docstore
storage_context.docstore.add_documents(nodes_riesgos)

# Crear √≠ndice vac√≠o
index = VectorStoreIndex(
    [],
    storage_context=storage_context,
    embed_model=embed_model
)

# Insertar nodos para generar embeddings y asociarlos a Chroma
index.insert_nodes(nodes_riesgos)

# Persistir todo el contenido (docstore, index_store, graph_store, Chroma)
storage_context.persist(persist_dir=STORAGE_DIR)

print(f"‚úÖ Riesgos indexados y persistidos en: {STORAGE_DIR}")


‚úÖ Riesgos indexados y persistidos en: C:\\batch001\store_test_yaml2


In [7]:
# üìå Celda 7 ‚Äî Procesar YAML de controles con flags booleanos (misma l√≥gica que riesgos)
# üìå Celda 7 ‚Äî Procesar YAML de controles con flags booleanos y riesgo expl√≠cito (ID + nombre)

import yaml
from llama_index.core.schema import TextNode

# === Cargar cat√°logo de riesgos para mapear IDs -> nombres ===
yaml_riesgos = os.path.join(ONTOLOGY_DIR, "01_catalogo_riesgos_v8.yaml")
with open(yaml_riesgos, "r", encoding="utf-8") as f:
    riesgos = yaml.safe_load(f)

# Diccionario auxiliar: { "R01": "Ca√≠da de altura", "R02": "Ca√≠da de objetos", ... }
mapa_riesgos = {item["id"]: item["nombre"] for item in riesgos}

# === Cargar cat√°logo de controles ===
yaml_controles = os.path.join(ONTOLOGY_DIR, "02_catalogo_controles_v6.yaml")
with open(yaml_controles, "r", encoding="utf-8") as f:
    controles = yaml.safe_load(f)

# Campos expl√≠citamente permitidos como metadatos (no duplicamos 'id')
campos_permitidos = {
    "tipo_control", "es_critico", "clase_implementacion", "aplicabilidad",
    "tags", "area", "registro_aplicable_a"
}

# Relaciones que se convierten en flags booleanos
relaciones_flags = {
    "riesgo_asociado": "tiene_riesgo_asociado",
    "causas_que_previene": "tiene_causas_que_previene",
    "consecuencias_que_mitiga": "tiene_consecuencias_que_mitiga",
    "factores_degradacion_que_lo_afectan": "tiene_factores_degradacion"
}

nodes_controles = []
for item in controles:
    content = f"{item.get('nombre', '')}. {item.get('descripcion', '')}"

    metadata = {}
    for k in campos_permitidos:
        if k == "tags":
            tags = item.get("tags", [])
            metadata["tags"] = ", ".join(tags) if isinstance(tags, list) else str(tags)
        elif k == "registro_aplicable_a":
            lista = item.get(k, [])
            metadata[k] = ", ".join(lista) if isinstance(lista, list) else str(lista)
        elif k == "es_critico":
            metadata[k] = bool(item.get(k))
        else:
            metadata[k] = item.get(k)

    # Flags booleanos
    for campo_yaml, campo_flag in relaciones_flags.items():
        metadata[campo_flag] = bool(item.get(campo_yaml))

    # === Asociaci√≥n expl√≠cita con riesgo (ID + nombre) ===
    riesgo_id = item.get("riesgo_asociado")
    if riesgo_id:
        metadata["riesgo_asociado_id"] = riesgo_id
        metadata["riesgo_asociado_nombre"] = mapa_riesgos.get(riesgo_id, "Desconocido")

    # Crear nodo
    node = TextNode(text=content, metadata=metadata, id_=item.get("id"))
    nodes_controles.append(node)

print(f"‚úîÔ∏è Nodos de control procesados: {len(nodes_controles)}")
print("üîç Ejemplo de nodo de control:\n")
print("Texto:", nodes_controles[0].text)
print("Metadatos:", nodes_controles[0].metadata)




‚úîÔ∏è Nodos de control procesados: 48
üîç Ejemplo de nodo de control:

Texto: Sistema Personal de Detenci√≥n de Ca√≠das (SPDC). Implementaci√≥n y uso obligatorio de arneses de cuerpo completo, l√≠neas de vida con absorbedor de energ√≠a y puntos de anclaje certificados. Este sistema debe ser inspeccionado antes de cada uso, garantizar su compatibilidad entre componentes, y ser ajustado adecuadamente por el usuario. Su funci√≥n principal es detener una ca√≠da de forma segura, minimizando las fuerzas de impacto sobre el cuerpo y evitando el contacto con el nivel inferior. Es el √∫ltimo recurso personal para prevenir la ca√≠da libre.

Metadatos: {'clase_implementacion': 'EPP', 'registro_aplicable_a': 'incidente, observacion', 'tags': 'SPDC, arn√©s, l√≠nea de vida, detenci√≥n de ca√≠da, EPP, seguridad en altura, inspecci√≥n pre-uso, anclaje certificado, fuerza de impacto, prevenci√≥n de ca√≠da libre', 'area': 'Todas las √Åreas Operacionales', 'aplicabilidad': 'Prevenci√≥n de incidentes', 

In [8]:
# üìå Celda 8 ‚Äî Insertar y persistir nodos de controles en la misma carpeta que riesgos (flujo seguro)

from llama_index.core import VectorStoreIndex

# 1Ô∏è‚É£ Registrar nodos de controles en docstore
for node in nodes_controles:
    index.docstore.add_documents([node])

# 2Ô∏è‚É£ Insertar nodos de controles en Chroma (generar embeddings)
index = VectorStoreIndex(
    list(index.docstore.docs.values()),  # todos los nodos actuales (riesgos + controles)
    storage_context=storage_context,
    embed_model=embed_model,
    store_nodes_in_index=True
)

# 3Ô∏è‚É£ Persistir todos los cambios (docstore, index_store y Chroma)
storage_context.persist(persist_dir=STORAGE_DIR)

# 4Ô∏è‚É£ Verificar
print(f"‚úÖ Controles insertados y persistidos en: {STORAGE_DIR}")
print(f"üì¶ Total de nodos en docstore ahora: {len(index.docstore.docs)}")



Add of existing embedding ID: R01
Add of existing embedding ID: R02
Add of existing embedding ID: R03
Insert of existing embedding ID: R01
Insert of existing embedding ID: R02
Insert of existing embedding ID: R03


‚úÖ Controles insertados y persistidos en: C:\\batch001\store_test_yaml2
üì¶ Total de nodos en docstore ahora: 51


In [1]:
# üìå Celda A - Reinicio - Configuraci√≥n inicial y verificaci√≥n de entorno
import sys
import platform
import pkg_resources

print(f"Python {platform.python_version()}")

# Versi√≥n de librer√≠as clave
for pkg in ["llama-index-core", "llama-index-vector-stores-chroma", 
            "llama-index-embeddings-huggingface", "chromadb"]:
    try:
        version = pkg_resources.get_distribution(pkg).version
        print(f"{pkg}: {version}")
    except pkg_resources.DistributionNotFound:
        print(f"{pkg}: ‚ùå No instalado")


  import pkg_resources


Python 3.10.18
llama-index-core: 0.12.20
llama-index-vector-stores-chroma: 0.4.2
llama-index-embeddings-huggingface: 0.5.2
chromadb: 0.5.23


In [2]:
# üìå Celda B - Reinicio -  Restaurar almacenamiento existente
# üìå Celda B - Reinicio - Restaurar almacenamiento existente
# üìå Restaurar √≠ndice usando siempre el √∫ltimo registrado en index_store.json

import os, json
import chromadb
from llama_index.core import StorageContext, load_index_from_storage
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.vector_stores.chroma import ChromaVectorStore

# ‚ö†Ô∏è Rutas fijas de tu proyecto
BASE_DIR = r"C:\batch001"
STORAGE_DIR = os.path.join(BASE_DIR, "store_test_yaml2")
ONTOLOGY_DIR = os.path.join(BASE_DIR, "ontology")  # ‚úÖ agregado

# Cliente y colecci√≥n de Chroma
chroma_client = chromadb.PersistentClient(path=os.path.join(STORAGE_DIR, "chroma"))
vector_store = ChromaVectorStore(
    chroma_collection=chroma_client.get_or_create_collection("riesgos_collection")
)

# Restaurar StorageContext
storage_context = StorageContext.from_defaults(
    vector_store=vector_store,
    persist_dir=STORAGE_DIR
)

# Embeddings
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")

# üìå Leer index_store.json y tomar el √∫ltimo √≠ndice
index_store_path = os.path.join(STORAGE_DIR, "index_store.json")
with open(index_store_path, "r", encoding="utf-8") as f:
    index_store_data = json.load(f)

index_ids = list(index_store_data["index_store/data"].keys())
print("üìÇ √çndices encontrados en index_store.json:", index_ids)

if not index_ids:
    raise ValueError("‚ùå No se encontraron √≠ndices en index_store.json")

# Seleccionar siempre el √∫ltimo √≠ndice
last_index_id = index_ids[-1]
print(f"üìå Usando el √∫ltimo √≠ndice: {last_index_id}")

# Restaurar ese √≠ndice
index = load_index_from_storage(
    storage_context=storage_context,
    index_id=last_index_id,
    embed_model=embed_model
)

print(f"‚úÖ Contexto e √≠ndice restaurados desde: {STORAGE_DIR}")




  from .autonotebook import tqdm as notebook_tqdm


üìÇ √çndices encontrados en index_store.json: ['5fef50fb-2ec8-4c24-ac8d-68fc3de1834d', '39acc04d-8ea2-4ba0-9d4b-a3a716589d6a']
üìå Usando el √∫ltimo √≠ndice: 39acc04d-8ea2-4ba0-9d4b-a3a716589d6a
‚úÖ Contexto e √≠ndice restaurados desde: C:\batch001\store_test_yaml2


In [3]:
# üìå Celda C ‚Äî Verificaci√≥n de sincronizaci√≥n despu√©s de restaurar el √≠ndice

# 1Ô∏è‚É£ Total de nodos en docstore
docstore_ids = set(index.docstore.docs.keys())
print(f"üìö Total de nodos en docstore: {len(docstore_ids)}")

# 2Ô∏è‚É£ Total de embeddings en Chroma
chroma_data = vector_store._collection.get(limit=999999)  # obtener todos
chroma_ids = set(chroma_data["ids"])
print(f"üü¶ Total de embeddings en Chroma: {len(chroma_ids)}")

# 3Ô∏è‚É£ Comparaci√≥n de IDs
faltan_en_chroma = docstore_ids - chroma_ids
faltan_en_docstore = chroma_ids - docstore_ids

if not faltan_en_chroma and not faltan_en_docstore:
    print("‚úÖ Docstore y Chroma est√°n sincronizados (mismos IDs).")
else:
    print("‚ö†Ô∏è Desincronizaci√≥n detectada:")
    if faltan_en_chroma:
        print(f"   ‚Üí IDs en docstore pero no en Chroma: {faltan_en_chroma}")
    if faltan_en_docstore:
        print(f"   ‚Üí IDs en Chroma pero no en docstore: {faltan_en_docstore}")

# 4Ô∏è‚É£ Mostrar un ejemplo de nodo restaurado
if docstore_ids:
    ejemplo_id = list(docstore_ids)[0]
    ejemplo_node = index.docstore.docs[ejemplo_id]
    print("\nüîç Ejemplo de nodo restaurado:")
    print("ID:", ejemplo_node.node_id)
    print("Texto:", ejemplo_node.text[:150], "...")
    print("Metadatos:", ejemplo_node.metadata)


üìö Total de nodos en docstore: 51
üü¶ Total de embeddings en Chroma: 51
‚úÖ Docstore y Chroma est√°n sincronizados (mismos IDs).

üîç Ejemplo de nodo restaurado:
ID: R02CC06
Texto: Plan de Izaje y Maniobras de Carga Cr√≠ticas (APROBADO). Documento formal y detallado que describe paso a paso c√≥mo se realizar√° cada maniobra de izaje ...
Metadatos: {'clase_implementacion': 'administrativo', 'registro_aplicable_a': 'incidente, observacion', 'tags': 'plan de izaje, maniobras de carga, planificaci√≥n, seguridad operacional, procedimiento, aprobaci√≥n', 'area': 'Todas las √Åreas Operacionales', 'aplicabilidad': 'Prevenci√≥n de incidentes', 'es_critico': True, 'tipo_control': 'preventivo', 'tiene_riesgo_asociado': True, 'tiene_causas_que_previene': True, 'tiene_consecuencias_que_mitiga': False, 'tiene_factores_degradacion': True, 'riesgo_asociado_id': 'R02', 'riesgo_asociado_nombre': 'Ca√≠da de Objetos'}


In [4]:
# ‚úÖ Celda 9 ‚Äî Crear nodos de causas con flags booleanos para relaciones
# üìå Celda 9 ‚Äî Crear nodos de causas desde YAML con riesgo expl√≠cito (ID + nombre)

import yaml
from llama_index.core.schema import TextNode

# === Cargar cat√°logo de riesgos para mapear IDs -> nombres ===
yaml_riesgos = os.path.join(ONTOLOGY_DIR, "01_catalogo_riesgos_v8.yaml")
with open(yaml_riesgos, "r", encoding="utf-8") as f:
    riesgos = yaml.safe_load(f)

mapa_riesgos = {item["id"]: item["nombre"] for item in riesgos}

# === Cargar cat√°logo de causas ===
yaml_causas = os.path.join(ONTOLOGY_DIR, "03_catalogo_causas_v4.yaml")
with open(yaml_causas, "r", encoding="utf-8") as f:
    causas = yaml.safe_load(f)

# Campos expl√≠citamente permitidos como metadatos (no duplicamos 'id')
campos_permitidos_causas = {
    "tipo_causa", "aplicabilidad", "tags", "area", "registro_aplicable_a"
}

# Relaciones que se convierten en flags booleanos
relaciones_flags_causas = {
    "riesgo_asociado": "tiene_riesgo_asociado",
    "controles_que_previenen": "tiene_controles_que_previenen",
    "eventos_que_desencadena": "tiene_eventos_desencadena"
}

nodes_causas = []
for item in causas:
    content = f"{item.get('nombre', '')}. {item.get('descripcion', '')}"
    metadata = {}

    # Metadatos base
    for k in campos_permitidos_causas:
        if k == "tags":
            tags = item.get("tags", [])
            metadata[k] = ", ".join(tags) if isinstance(tags, list) else str(tags)
        elif k == "registro_aplicable_a":
            lista = item.get(k, [])
            metadata[k] = ", ".join(lista) if isinstance(lista, list) else str(lista)
        else:
            metadata[k] = item.get(k)

    # Flags booleanos (relaciones)
    for campo_yaml, campo_flag in relaciones_flags_causas.items():
        metadata[campo_flag] = bool(item.get(campo_yaml))

    # === Asociaci√≥n expl√≠cita con riesgo (ID + nombre) ===
    riesgo_id = item.get("riesgo_asociado")
    if riesgo_id:
        metadata["riesgo_asociado_id"] = riesgo_id
        metadata["riesgo_asociado_nombre"] = mapa_riesgos.get(riesgo_id, "Desconocido")

    # Crear nodo con ID estable
    node = TextNode(id_=item.get("id"), text=content, metadata=metadata)
    nodes_causas.append(node)

print(f"‚úîÔ∏è Nodos de causas procesados: {len(nodes_causas)}")
print("üîç Ejemplo de nodo de causa:\n")
print("Texto:", nodes_causas[0].text)
print("Metadatos:", nodes_causas[0].metadata)



‚úîÔ∏è Nodos de causas procesados: 18
üîç Ejemplo de nodo de causa:

Texto: Bordes o aberturas sin protecci√≥n. Ausencia total o parcial de sistemas de protecci√≥n perimetral (barandas, rodapi√©s, cubiertas) en bordes de plataformas, vanos, aberturas en el piso, o desniveles significativos. Esto permite que una persona, herramienta o material caiga sin contenci√≥n. Puede variar en la altura del desnivel, el tipo de borde (recto, curvo), la presencia o ausencia de se√±alizaci√≥n, y el tipo de actividad que se realiza cerca del borde. Ejemplos incluyen la falta de barandas en una plataforma de trabajo, una abertura sin cubrir en un piso, o un desnivel sin rodapi√©s en una pasarela.

Metadatos: {'tipo_causa': 'Fallas de infraestructura', 'aplicabilidad': 'Prevenci√≥n de incidentes', 'area': 'Todas las √Åreas Operacionales', 'tags': 'seguridad perimetral, barandas, rodapi√©s, infraestructura, dise√±o, protecci√≥n de borde, apertura, vano, desnivel, contenci√≥n', 'registro_aplicable_a': 'i

In [5]:
# üìå Celda 10 ‚Äî Insertar y persistir nodos de causas

# üìå Celda 10 ‚Äî Insertar y persistir nodos de causas en la misma carpeta que riesgos y controles (flujo seguro)

from llama_index.core import VectorStoreIndex

# 1Ô∏è‚É£ Registrar nodos de causas en docstore
for node in nodes_causas:
    index.docstore.add_documents([node])

# 2Ô∏è‚É£ Insertar nodos de causas en Chroma (generar embeddings)
index = VectorStoreIndex(
    list(index.docstore.docs.values()),  # todos los nodos actuales (riesgos + controles + causas)
    storage_context=storage_context,
    embed_model=embed_model,
    store_nodes_in_index=True
)

# 3Ô∏è‚É£ Persistir todos los cambios (docstore, index_store y Chroma)
storage_context.persist(persist_dir=STORAGE_DIR)

# 4Ô∏è‚É£ Verificar
print(f"‚úÖ Causas insertadas y persistidas en: {STORAGE_DIR}")
print(f"üì¶ Total de nodos en docstore ahora: {len(index.docstore.docs)}")



Add of existing embedding ID: R01
Add of existing embedding ID: R02
Add of existing embedding ID: R03
Insert of existing embedding ID: R01
Insert of existing embedding ID: R02
Insert of existing embedding ID: R03
Insert of existing embedding ID: R01CC01
Insert of existing embedding ID: R01CC02
Insert of existing embedding ID: R01CC03
Insert of existing embedding ID: R01CC04
Insert of existing embedding ID: R01CC05
Insert of existing embedding ID: R01CC06
Insert of existing embedding ID: R01CP01
Insert of existing embedding ID: R01CP02
Insert of existing embedding ID: R01CP03
Insert of existing embedding ID: R01CP04
Insert of existing embedding ID: R01CP05
Insert of existing embedding ID: R01CP06
Insert of existing embedding ID: R01CM01
Insert of existing embedding ID: R01CM02
Insert of existing embedding ID: R01CM03
Insert of existing embedding ID: R01CM04
Insert of existing embedding ID: R02CC01
Insert of existing embedding ID: R02CC02
Insert of existing embedding ID: R02CC03
Insert o

‚úÖ Causas insertadas y persistidas en: C:\batch001\store_test_yaml2
üì¶ Total de nodos en docstore ahora: 69


In [10]:
# üìå Celda 11 ‚Äî Verificaci√≥n de nodos de causas en docstore.json

import json
import os

docstore_path = os.path.join(persist_dir, "docstore.json")

# 1Ô∏è‚É£ Cargar docstore desde disco
with open(docstore_path, "r", encoding="utf-8") as f:
    docstore_data = json.load(f)

# 2Ô∏è‚É£ Filtrar solo nodos de causas (IDs que empiezan con R01CA, R02CA, R03CA)
causas_ids = [k for k in docstore_data["docstore/data"].keys() if "CA" in k]
print(f"üìÑ Total de causas encontradas en docstore: {len(causas_ids)}")

# 3Ô∏è‚É£ Mostrar un ejemplo con metadatos
if causas_ids:
    ejemplo_id = causas_ids[0]
    ejemplo_data = docstore_data["docstore/data"][ejemplo_id]
    print(f"\nüîç Ejemplo de nodo de causa guardado en docstore ({ejemplo_id}):")
    print("Texto:", ejemplo_data["__data__"]["text"])
    print("Metadatos:", ejemplo_data["__data__"]["metadata"])
else:
    print("‚ö†Ô∏è No se encontraron nodos de causas en docstore.json")


üìÑ Total de causas encontradas en docstore: 18

üîç Ejemplo de nodo de causa guardado en docstore (R01CA01):
Texto: Bordes o aberturas sin protecci√≥n. Ausencia total o parcial de sistemas de protecci√≥n perimetral (barandas, rodapi√©s, cubiertas) en bordes de plataformas, vanos, aberturas en el piso, o desniveles significativos. Esto permite que una persona, herramienta o material caiga sin contenci√≥n. Puede variar en la altura del desnivel, el tipo de borde (recto, curvo), la presencia o ausencia de se√±alizaci√≥n, y el tipo de actividad que se realiza cerca del borde. Ejemplos incluyen la falta de barandas en una plataforma de trabajo, una abertura sin cubrir en un piso, o un desnivel sin rodapi√©s en una pasarela.

Metadatos: {'area': 'Todas las √Åreas Operacionales', 'registro_aplicable_a': 'incidente, observacion', 'tags': 'seguridad perimetral, barandas, rodapi√©s, infraestructura, dise√±o, protecci√≥n de borde, apertura, vano, desnivel, contenci√≥n', 'tipo_causa': 'Fallas d

In [5]:
# üìå Celda 12 ‚Äî Crear nodos de consecuencias desde YAML
# üìå Celda 12 ‚Äî Crear nodos de consecuencias desde YAML (con severidad y flags booleanos para relaciones)

import yaml
from llama_index.core.schema import TextNode

yaml_consecuencias = "ontology/04_catalogo_consecuencias_v6.yaml"

with open(yaml_consecuencias, "r", encoding="utf-8") as f:
    consecuencias = yaml.safe_load(f)

# Campos base para metadatos (no incluyen IDs de relaciones)
campos_permitidos_consecuencias = {
    "tipo_consecuencia", "aplicabilidad", "tags", "area", "registro_aplicable_a", "severidad_consecuencia"
}

# Relaciones a convertir en flags booleanos
relaciones_flags_consecuencias = {
    "riesgo_asociado": "tiene_riesgo_asociado",
    "controles_mitigacion_asociados": "tiene_controles_mitigacion",
    "barreras_recuperacion_asociadas": "tiene_barreras_recuperacion"
}

nodes_consecuencias = []
for item in consecuencias:
    # Texto principal
    content = f"{item.get('nombre', '')}. {item.get('descripcion', '')}"
    metadata = {}

    # Procesar campos permitidos
    for k in campos_permitidos_consecuencias:
        if k == "tags":
            tags = item.get("tags", [])
            metadata[k] = ", ".join(tags) if isinstance(tags, list) else str(tags)
        elif k == "registro_aplicable_a":
            lista = item.get(k, [])
            metadata[k] = ", ".join(lista) if isinstance(lista, list) else str(lista)
        else:
            metadata[k] = item.get(k)

    # Procesar relaciones como flags booleanos (sin guardar IDs)
    for campo_yaml, campo_flag in relaciones_flags_consecuencias.items():
        metadata[campo_flag] = bool(item.get(campo_yaml))

    # Crear nodo
    node = TextNode(id_=item.get("id", None), text=content, metadata=metadata)
    nodes_consecuencias.append(node)

print(f"‚úîÔ∏è Nodos de consecuencias procesados: {len(nodes_consecuencias)}")
print("üîç Ejemplo de nodo de consecuencia:")
print("Texto:", nodes_consecuencias[0].text)
print("Metadatos:", nodes_consecuencias[0].metadata)




‚úîÔ∏è Nodos de consecuencias procesados: 18
üîç Ejemplo de nodo de consecuencia:
Texto: Lesiones graves. Fracturas √≥seas m√∫ltiples, traumatismos craneoencef√°licos y contusiones profundas que requieren atenci√≥n m√©dica de urgencia. Estas lesiones suelen derivar en hospitalizaci√≥n prolongada, intervenciones quir√∫rgicas y tiempo de inactividad laboral significativo. El impacto puede incluir secuelas a largo plazo como limitaciones de movilidad o d√©ficit neurol√≥gico. 
Metadatos: {'registro_aplicable_a': 'incidente', 'tipo_consecuencia': 'Salud_Persona', 'area': 'Todas las √Åreas Operacionales', 'tags': 'gravedad, trauma, incapacidad, lesiones', 'aplicabilidad': 'Evaluaci√≥n de consecuencias', 'severidad_consecuencia': 'ALTA', 'tiene_riesgo_asociado': True, 'tiene_controles_mitigacion': True, 'tiene_barreras_recuperacion': True}


In [15]:
# üìå Celda 13 ‚Äî Insertar consecuencias y persistir en Chroma y docstore.json (flujo seguro)
# üìå Celda 13 ‚Äî Insertar nodos de consecuencias en Chroma y docstore con verificaci√≥n real
# üìå Celda 13 ‚Äî Inserci√≥n segura de consecuencias (comparaci√≥n directa contra Chroma)

from llama_index.core import VectorStoreIndex
import json
import os

# 1Ô∏è‚É£ Extraer todos los IDs de consecuencias desde la lista de nodos
ids_consecuencias = [n.node_id for n in nodes_consecuencias]

# 2Ô∏è‚É£ Consultar a Chroma SOLO esos IDs
chroma_check = storage_context.vector_store._collection.get(
    ids=ids_consecuencias,
    where=None,
    limit=999999
)

ids_consecuencias_chroma = set(chroma_check["ids"])
print(f"üì¶ Consecuencias ya en Chroma: {len(ids_consecuencias_chroma)}/{len(ids_consecuencias)}")

# 3Ô∏è‚É£ Consultar al docstore SOLO esos IDs
ids_docstore = set(index.docstore.docs.keys())
ids_consecuencias_docstore = {id_ for id_ in ids_consecuencias if id_ in ids_docstore}
print(f"üìö Consecuencias ya en docstore: {len(ids_consecuencias_docstore)}/{len(ids_consecuencias)}")

# 4Ô∏è‚É£ Filtrar faltantes en Chroma y docstore
nodos_faltan_chroma = [n for n in nodes_consecuencias if n.node_id not in ids_consecuencias_chroma]
nodos_faltan_docstore = [n for n in nodes_consecuencias if n.node_id not in ids_consecuencias_docstore]

print(f"üÜï Nodos de consecuencias a insertar en Chroma: {len(nodos_faltan_chroma)}")
print(f"üÜï Nodos de consecuencias a insertar en docstore: {len(nodos_faltan_docstore)}")

# 5Ô∏è‚É£ Insertar en Chroma si faltan
if nodos_faltan_chroma:
    _ = VectorStoreIndex(
        nodos_faltan_chroma,
        storage_context=storage_context,
        embed_model=embed_model,
        store_nodes_in_index=True
    )
    print("‚úÖ Consecuencias insertadas en Chroma.")

# 6Ô∏è‚É£ Insertar en docstore si faltan
if nodos_faltan_docstore:
    for node in nodos_faltan_docstore:
        index.docstore.add_documents([node])
    print("‚úÖ Consecuencias insertadas en docstore.")

# 7Ô∏è‚É£ Persistir cambios
storage_context.persist()

# 8Ô∏è‚É£ Guardar manualmente el docstore.json
docstore_path = os.path.join(persist_dir, "docstore.json")
with open(docstore_path, "w", encoding="utf-8") as f:
    json.dump(index.docstore.to_dict(), f, ensure_ascii=False, indent=2)

print(f"üíæ Persistencia completada. docstore.json actualizado en: {docstore_path}")



üì¶ Consecuencias ya en Chroma: 18/18
üìö Consecuencias ya en docstore: 18/18
üÜï Nodos de consecuencias a insertar en Chroma: 0
üÜï Nodos de consecuencias a insertar en docstore: 0
üíæ Persistencia completada. docstore.json actualizado en: store_test_yaml\docstore.json


In [18]:
# üìå Celda ‚Äî Revisar IDs en Chroma para un tipo espec√≠fico (ej. Consecuencias)

# Obtener TODOS los registros actuales en Chroma
chroma_data = storage_context.vector_store._collection.get(
    ids=None,
    limit=999999,  # evitar cortes
    include=["metadatas", "documents"]
)

# Lista completa de IDs en Chroma
ids_chroma = set(chroma_data["ids"])
print(f"üì¶ Total de IDs en Chroma: {len(ids_chroma)}")

# Filtrar solo los que corresponden a consecuencias (patr√≥n 'CON' en el ID)
ids_consecuencias_chroma = sorted([id_ for id_ in ids_chroma if "CON" in id_])
print(f"üì¶ Consecuencias en Chroma: {len(ids_consecuencias_chroma)}")
print(ids_consecuencias_chroma)


üì¶ Total de IDs en Chroma: 87
üì¶ Consecuencias en Chroma: 18
['R01CON01', 'R01CON02', 'R01CON03', 'R01CON04', 'R01CON05', 'R01CON06', 'R01CON07', 'R02CON01', 'R02CON02', 'R02CON03', 'R02CON04', 'R02CON05', 'R03CON01', 'R03CON02', 'R03CON03', 'R03CON04', 'R03CON05', 'R03CON06']
