Paso 0 ‚Äî Reset seguro de la colecci√≥n (opcional)

In [1]:
# --- Paso 0: reset opcional de la colecci√≥n para evitar "ruido" previo ---
import chromadb

VDB_PATH = "./vectordb"
COLLECTION_NAME = "langchain"

def reset_collection():
    client = chromadb.PersistentClient(path=VDB_PATH)
    try:
        client.delete_collection(COLLECTION_NAME)
        print(f"üßπ Colecci√≥n '{COLLECTION_NAME}' eliminada.")
    except Exception as e:
        print(f"(info) No se elimin√≥ colecci√≥n (quiz√° no exist√≠a): {e}")

# Si quieres limpiar todo antes de reindexar:
# reset_collection()


In [None]:
# --- Paso 1: imports y utilidades ---
import os, re, pdfplumber
from typing import List, Tuple, Dict, Any
from collections import Counter

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema import Document  # langchain_core.documents.Document en versiones nuevas

from dotenv import load_dotenv
import os

# Cargar variables del archivo .env
load_dotenv()

# Leer la API key desde el entorno
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")


# Patrones de limpieza (encabezados/pies repetidos del PDF ejemplo)
CLEAN_PATTERNS = [
    r"FORMATO REQUISICI√ìN.*",
    r"ECOPETROL DESARROLLO DE PROYECTO.*",
    r"Todos los derechos reservados.*",
    r"EDP-F-046.*Versi√≥n.*",
    r"MR.*#:.*CAS.*",
    r"P√°gina\s+\d+\s+de\s+\d+",
    r"_{6,}",  # l√≠neas de subrayado largas
]

def clean_text(text: str) -> str:
    for p in CLEAN_PATTERNS:
        text = re.sub(p, "", text, flags=re.IGNORECASE)
    text = re.sub(r"[ \t]+", " ", text)
    text = re.sub(r"\n{3,}", "\n\n", text)
    return text.strip()


# Palabras clave para asignar prioridad (ES/EN)
HD_HINTS = [
    r"\bAPI\s*675\b", r"HOJA\s*DE\s*DATOS", r"\bDATA\s*SHEET\b", r"\bDATASHEET\b",
    r"BOMB(A|S)?\s+(DOSIFICADORA|DOSING)"
]

ALCANCE_HINTS = [
    r"\bALCANCE\b", r"ALCANCE\s+DEL\s+SUMINISTRO", r"\bSCOPE\b", r"SCOPE\s+OF\s+SUPPLY"
]

REQ_HINTS = [
    # Espa√±ol: requisitos expl√≠citos
    r"\bREQUISITO(S)?\b",
    r"\bREQUERIMIENTO(S)?\b",
    r"REQUISITO(S)?\s+T(√â|E)CNICO(S)?",
    r"CONDICIONES?\s+T(√â|E)CNICAS?",
    r"CRITERIOS?\s+DE\s+DISE(√ë|N)O",
    r"DATOS?\s+DE\s+DISE(√ë|N)O",

    # Ingl√©s: requisitos expl√≠citos
    r"\bREQUIREMENT(S)?\b",
    r"DESIGN\s+REQUIREMENT(S)?",
    r"TECHNICAL\s+REQUIREMENT(S)?",
    r"\bSPECIFICATION(S)?\b",
    r"MINIMUM\s+REQUIREMENT(S)?",

    # Espa√±ol: frases prescriptivas comunes
    r"\bEL\s+PROVEEDOR\s+DEBE\b",
    r"\bEL\s+VENDEDOR\s+DEBE\b",
    r"\bDEBER√Å\b",
    r"\bSE\s+REQUIERE(N)?\b",

    # Ingl√©s: frases prescriptivas comunes
    r"\bSHALL\b",
    r"\bMUST\b",
    r"\bIS\s+REQUIRED\s+TO\b",
]


NORM_HINTS = [
    r"\bNORMAS?\b", r"\bEST[√ÅA]NDA(RE|R)E?S?\b",
    r"\bC(√ì|O)DIGO(S)?\b", r"\bCODE(S)?\b", r"\bSTANDARD(S)?\b",
    r"\bSPEC(S|IFICATIONS)?\b", r"\bREGULATION(S)?\b",
    r"\bRETIE\b", r"\bAPI\b", r"\bASTM\b", r"\bASME\b", r"\bIEC\b", r"\bIEEE\b",
    r"APPLICABLE\s+(CODES|STANDARDS|SPECIFICATIONS)"
]


def matches_any(text: str, patterns: List[str]) -> bool:
    return any(re.search(p, text, flags=re.IGNORECASE) for p in patterns)

def detect_priority(text: str) -> str:
    if matches_any(text, HD_HINTS):      return "hoja_datos"
    if matches_any(text, ALCANCE_HINTS): return "alcance"
    if matches_any(text, REQ_HINTS):     return "requisito"
    if matches_any(text, NORM_HINTS):    return "norma"
    return "general"

def table_to_text_and_kv(rows: List[List[str]]) -> Tuple[str, Dict[str, str] | None]:
    """Convierte una tabla (lista de filas) a texto legible y, si parece key-value (2 columnas), devuelve un dict kv."""
    clean_rows = []
    for r in rows:
        if not r:
            continue
        rr = [(c or "").strip() for c in r]
        if any(rr):
            clean_rows.append(rr)

    kv = None
    if clean_rows and max(len(r) for r in clean_rows) <= 2 and len(clean_rows) >= 2:
        kv = {}
        for r in clean_rows:
            if len(r) >= 2 and r[0] and r[1]:
                kv[r[0]] = r[1]

    text = "\n".join(" | ".join(r) for r in clean_rows)
    return text, kv if kv else None


def kv_from_text_page(text: str) -> Dict[str, str]:
    """Extrae pares clave-valor t√≠picos de una Hoja de Datos por regex"""
    t = " ".join(text.split()).upper()
    kv = {}

    m = re.search(r"(\d+(?:[.,]\d+)?)\s*GPH", t)
    if m: kv["caudal_gph"] = m.group(1)

    m = re.search(r"@\s*(\d+(?:[.,]\d+)?)\s*PSI", t)
    if m: kv["presion_psig"] = m.group(1)

    m = re.search(r"(\d+)\s*-\s*(\d+)\s*CPS", t)
    if m:
        kv["rango_cps_min"] = m.group(1)
        kv["rango_cps_max"] = m.group(2)

    m = re.search(r"(\d+(?:[.,]\d+)?)\s*HP", t)
    if m: kv["hp_motor"] = m.group(1)

    m = re.search(r"\b(\d+)\s*\+\s*(\d+)\b", t)
    if m:
        kv["bombas_operativas"] = m.group(1)
        kv["bombas_respaldo"] = m.group(2)

    if "304" in t: kv["material_tanque"] = "304SS"
    if "316" in t: kv["material_mojado"] = "316SS"
    if "API 675" in t: kv["api_675"] = "true"

    return kv


def kv_from_table_cells(table_rows: List[List[str]]) -> Dict[str, str]:
    """Convierte tabla en texto y aplica regex de kv_from_text_page"""
    lines = []
    for row in table_rows:
        cells = [c.strip() for c in row if c]
        if any(cells):
            lines.append(" | ".join(cells))
    table_text = "\n".join(lines)
    return kv_from_text_page(table_text)



In [3]:
# --- Paso 2: extracci√≥n de contenido del PDF ---
import json
from typing import List

def kv_from_text_page(text: str) -> dict:
    """
    Extrae pares clave-valor t√≠picos de una Hoja de Datos desde texto plano (ES/EN).
    Usa regex para capturar caudal, presi√≥n, HP, materiales, etc.
    """
    t = " ".join(text.split()).upper()
    kv = {}

    # Caudal (GPH o LPH)
    m = re.search(r"(\d+(?:[.,]\d+)?)\s*(GPH|GALLON[S]?\s+PER\s+HOUR)", t)
    if m: kv["caudal_gph"] = m.group(1)

    m = re.search(r"(\d+(?:[.,]\d+)?)\s*(LPH|LITROS?\s+POR\s+HORA)", t)
    if m: kv["caudal_lph"] = m.group(1)

    # Presi√≥n (PSI o BAR)
    m = re.search(r"(\d+(?:[.,]\d+)?)\s*PSI", t)
    if m: kv["presion_psig"] = m.group(1)

    m = re.search(r"(\d+(?:[.,]\d+)?)\s*BAR", t)
    if m: kv["presion_bar"] = m.group(1)

    # Potencia (HP o KW)
    m = re.search(r"(\d+(?:[.,]\d+)?)\s*HP", t)
    if m: kv["hp_motor"] = m.group(1)

    m = re.search(r"(\d+(?:[.,]\d+)?)\s*KW", t)
    if m: kv["kw_motor"] = m.group(1)

    # Viscosidad (cps)
    m = re.search(r"(\d+)\s*-\s*(\d+)\s*CPS", t)
    if m:
        kv["rango_cps_min"] = m.group(1)
        kv["rango_cps_max"] = m.group(2)

    # Bombas operativas + respaldo (ej. "1+1")
    m = re.search(r"\b(\d+)\s*\+\s*(\d+)\b", t)
    if m:
        kv["bombas_operativas"] = m.group(1)
        kv["bombas_respaldo"] = m.group(2)

    # Materiales comunes
    if "304" in t: kv["material_tanque"] = "304SS"
    if "316" in t: kv["material_mojado"] = "316SS"

    # API 675
    if "API 675" in t: kv["api_675"] = "true"

    return kv


def extract_pdf_content(filepath: str) -> List[Document]:
    """
    Extrae texto y tablas del PDF con metadatos enriquecidos:
    - tipo (text/table)
    - prioridad (hoja_datos, alcance, requisito, norma, general)
    - kv cuando se detecta info t√©cnica
    """
    docs: List[Document] = []

    with pdfplumber.open(filepath) as pdf:
        for i, page in enumerate(pdf.pages, start=1):
            # --- Texto plano ---
            txt = page.extract_text() or ""
            clean = clean_text(txt)

            if clean:
                prio = detect_priority(clean)
                md = {"source": filepath, "page": i, "type": "text", "prio": prio}

                kv = kv_from_text_page(clean)
                if kv:
                    md["kv"] = json.dumps(kv, ensure_ascii=False)
                docs.append(Document(page_content=clean, metadata=md))

            # --- Tablas ---
            try:
                tables = page.extract_tables() or []
            except Exception:
                tables = []

            for trows in tables:
                table_text, kv_table = table_to_text_and_kv(trows)
                table_text = clean_text(table_text)
                if not table_text:
                    continue

                prio = detect_priority(table_text)
                md = {"source": filepath, "page": i, "type": "table", "prio": prio}

                kv_detected = kv_from_text_page(table_text)  # tambi√©n extraemos de texto de tabla
                if kv_table:
                    kv_detected = {**kv_detected, **kv_table}

                if kv_detected:
                    md["kv"] = json.dumps(kv_detected, ensure_ascii=False)

                docs.append(Document(page_content=table_text, metadata=md))

    return docs


In [4]:
# ============================================
# Paso 3 - Extractor de PDF (texto + tablas + HD + prioridades)
# ============================================
import pdfplumber, json
from langchain.schema import Document
from typing import List

def extract_pdf_content(filepath: str) -> List[Document]:
    docs: List[Document] = []
    
    with pdfplumber.open(filepath) as pdf:
        for i, page in enumerate(pdf.pages, start=1):
            # --- 1) Texto plano ---
            raw_text = page.extract_text() or ""
            clean = clean_text(raw_text)
            if clean:
                md = {
                    "source": filepath,
                    "page": i,
                    "type": "text",
                    "prio": detect_priority(clean)  # prioridad autom√°tica
                }

                # Regex: intentar extraer posibles valores t√©cnicos (caudal, presi√≥n, hp‚Ä¶)
                kv_text = kv_from_text_page(clean)
                if kv_text:
                    md["kv"] = json.dumps(kv_text, ensure_ascii=False)

                docs.append(Document(page_content=clean, metadata=md))

            # --- 2) Tablas ---
            try:
                tables = page.extract_tables()
            except Exception:
                tables = []

            for t in tables:
                if not t:
                    continue

                table_text = "\n".join(
                    [" | ".join(filter(None, row)) for row in t if any(row)]
                )
                table_text = clean_text(table_text)

                md = {
                    "source": filepath,
                    "page": i,
                    "type": "table",
                    "prio": detect_priority(table_text)
                }

                # Extraer key-values si la tabla tiene estructura tipo HD
                kv_table = kv_from_table_cells(t)
                if kv_table:
                    md["kv"] = json.dumps(kv_table, ensure_ascii=False)

                if table_text:
                    docs.append(Document(page_content=table_text, metadata=md))

    return docs


In [5]:
# ============================================
# Paso 4 - Indexar en Chroma (persistente)
# ============================================
from collections import Counter
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings

# Configuraci√≥n global
VDB_PATH = "./vectordb"
COLLECTION_NAME = "autoselx_docs"

def reset_collection():
    """Elimina la colecci√≥n persistente (para recargar desde cero)."""
    import shutil, os
    if os.path.exists(VDB_PATH):
        shutil.rmtree(VDB_PATH)
        print(f"üóëÔ∏è Colecci√≥n eliminada en {VDB_PATH}")

def add_files_to_vectordb(filepath: str, reset: bool = False):
    if reset:
        reset_collection()

    # --- 1) Extraer documentos brutos (texto + tablas + HD) ---
    raw_docs = extract_pdf_content(filepath)

    # --- 2) Chunking con preservaci√≥n de prio + kv ---
    splits = chunk_documents(raw_docs)

    # --- 3) Indexar en Chroma persistente ---
    vectorstore = Chroma.from_documents(
        documents=splits,
        embedding=OpenAIEmbeddings(),
        persist_directory=VDB_PATH,
        collection_name=COLLECTION_NAME
    )

    # --- 4) Diagn√≥stico de indexaci√≥n ---
    by_type = Counter(d.metadata.get("type", "text") for d in splits)
    by_prio = Counter(d.metadata.get("prio", "general") for d in splits)
    total_kv = sum(1 for d in splits if "kv" in d.metadata)

    print(f"‚úÖ {len(splits)} fragmentos indexados en {VDB_PATH} (colecci√≥n '{COLLECTION_NAME}')")
    print("   üìä Por tipo:", dict(by_type))
    print("   üìä Por prioridad:", dict(by_prio))
    print(f"   üîë Documentos con KV extra√≠dos: {total_kv}")

    return vectorstore


In [6]:
# ============================================
# Paso 5 - Utilidad para inspeccionar fuentes en la colecci√≥n
# ============================================
from collections import Counter
import chromadb

def get_unique_sources_list():
    """Devuelve lista de fuentes √∫nicas indexadas y estad√≠sticas de metadatos."""
    client = chromadb.PersistentClient(path=VDB_PATH)
    collection = client.get_collection(COLLECTION_NAME)

    data = collection.get(include=["documents", "metadatas"])
    metadatas = data.get("metadatas", [])

    sources = []
    for m in metadatas:
        if not m:
            continue
        src = m.get("source")
        if src:
            sources.append(src.split("/")[-1])

    # üìä Diagn√≥stico
    by_prio = Counter(m.get("prio", "general") for m in metadatas if m)
    by_type = Counter(m.get("type", "text") for m in metadatas if m)

    print(f"üìÅ Fuentes √∫nicas en la colecci√≥n ({COLLECTION_NAME}): {len(set(sources))}")
    print("   ", sorted(set(sources)))
    print("   üìä Distribuci√≥n por prioridad:", dict(by_prio))
    print("   üìä Distribuci√≥n por tipo:", dict(by_type))

    return sorted(set(sources))

# Ejemplo:
# fuentes = get_unique_sources_list()
# print("Fuentes disponibles:", fuentes)




In [7]:
# ============================================
# Paso 5.1 - Chunking con preservaci√≥n de metadatos
# ============================================
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema import Document

def chunk_documents(docs: List[Document], chunk_size: int = 800, chunk_overlap: int = 100) -> List[Document]:
    """
    Divide documentos largos en chunks manejables para embeddings,
    conservando metadatos (source, page, type, prio, kv).
    """
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=["\n\n", "\n", " ", ""]
    )

    chunks: List[Document] = []

    for doc in docs:
        splits = splitter.split_text(doc.page_content)
        for idx, chunk in enumerate(splits, start=1):
            new_meta = doc.metadata.copy()
            new_meta["chunk_id"] = f"{new_meta.get('page','na')}_{idx}"

            # Mantener prio y kv
            if "prio" not in new_meta:
                new_meta["prio"] = "general"
            if "kv" in doc.metadata:
                new_meta["kv"] = doc.metadata["kv"]

            chunks.append(Document(page_content=chunk, metadata=new_meta))

    return chunks


In [8]:
# --- Paso 6: correr el pipeline ---
if __name__ == "__main__":
    # Limpia todo si quieres partir desde cero:
    # reset_collection()

    vectorstore = add_files_to_vectordb(
        "./data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf",
        reset=False  # pon True si quieres borrar la colecci√≥n antes
    )


‚úÖ 613 fragmentos indexados en ./vectordb (colecci√≥n 'autoselx_docs')
   üìä Por tipo: {'text': 386, 'table': 227}
   üìä Por prioridad: {'alcance': 108, 'norma': 80, 'general': 125, 'hoja_datos': 197, 'requisito': 103}
   üîë Documentos con KV extra√≠dos: 151


In [9]:
# ============================================
# Paso 7 - Debug: explorar fragmentos
# ============================================
import json

retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
query = "¬øCu√°l es el alcance del suministro?"
results = retriever.get_relevant_documents(query)

print(f"üîé Consulta: {query}")
print(f"üìä Fragmentos recuperados: {len(results)}")

for idx, r in enumerate(results, start=1):
    print(f"\n--- CHUNK {idx} ---")
    print(r.page_content[:500], "...")
    print("Metadatos:", r.metadata)
    if "kv" in r.metadata:
        try:
            kv_dict = json.loads(r.metadata["kv"])
            print("KV dict:", json.dumps(kv_dict, indent=2, ensure_ascii=False))
        except Exception:
            print("KV (raw):", r.metadata["kv"])



  results = retriever.get_relevant_documents(query)


üîé Consulta: ¬øCu√°l es el alcance del suministro?
üìä Fragmentos recuperados: 5

--- CHUNK 1 ---
SECCI√ìN | DESCRIPCI√ìN
2 | ALCANCE DEL SUMINISTRO
10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN) ...
Metadatos: {'type': 'table', 'chunk_id': '1_1', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance', 'page': 1}

--- CHUNK 2 ---
SECCI√ìN | DESCRIPCI√ìN
2 | ALCANCE DEL SUMINISTRO
10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN) ...
Metadatos: {'chunk_id': '1_1', 'page': 1, 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance'}

--- CHUNK 3 ---
SECCI√ìN | DESCRIPCI√ìN
2 | ALCANCE DEL SUMINISTRO
10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN) ...
Metadatos: {'page': 1, 'chunk_id': '1_1', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'type': 'table', 'prio': 'alcance'}

--- CHUNK 4 ---
SECCI√ìN | DESCRIPCI√ìN
2 

In [10]:
# ==========================
# Complemento Paso 7 - Funci√≥n auxiliar de debug
# ==========================
def debug_query(vectorstore, query, prio=None, k=5):
    """
    Ejecuta una b√∫squeda con filtro de metadatos (cuando prio != None).
    Hace fallback si no hay resultados en la prioridad especificada.
    """
    import json

    # Mapeo de "prios aceptables" por intenci√≥n (fallbacks):
    prio_fallbacks = {
        "alcance":   ["alcance", "general"],
        "requisito": ["requisito", "hoja_datos", "general"],
        "norma":     ["norma", "general"],
        "hoja_datos":["hoja_datos", "requisito", "general"]
    }

    print(f"\nüîé DEBUG QUERY: '{query}' (prio={prio})\n")

    def run_search(allowed_prios, topk):
        if allowed_prios is None:
            # sin filtro
            return vectorstore.similarity_search(query, k=topk)
        else:
            # filtro por metadatos (Chroma soporta {'$in': [...]})
            return vectorstore.similarity_search(
                query, k=topk, filter={"prio": {"$in": allowed_prios}}
            )

    # 1) Intento con filtro (si prio se pidi√≥)
    if prio:
        allowed = prio_fallbacks.get(prio, [prio])
        docs = run_search(allowed_prios=allowed, topk=max(k, 10))
        if not docs:
            # 2) Fallback agresivo: ampliar K y permitir 'general' siempre
            allowed_wide = list(set(allowed + ["general"]))
            docs = run_search(allowed_prios=allowed_wide, topk=50)
            if not docs:
                print("‚ö†Ô∏è No se encontraron resultados con esa prioridad (ni con fallback).")
                return
    else:
        docs = run_search(allowed_prios=None, topk=k)

    print(f"üìä Fragmentos recuperados: {len(docs)}\n")
    for i, r in enumerate(docs, 1):
        print(f"--- CHUNK {i} ---")
        print(r.page_content[:400].replace("\n", " "))
        print("Metadatos:", r.metadata)
        if "kv" in r.metadata:
            try:
                print("KV dict:", json.loads(r.metadata["kv"]))
            except Exception:
                print("KV (raw):", r.metadata["kv"])
        print()


In [11]:
# ==========================
# Pruebas de debug por prioridad
# ==========================

# Alcance del suministro
debug_query(vectorstore, "alcance del suministro", prio="alcance")


üîé DEBUG QUERY: 'alcance del suministro' (prio=alcance)

üìä Fragmentos recuperados: 10

--- CHUNK 1 ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance', 'type': 'table', 'chunk_id': '1_1', 'page': 1}

--- CHUNK 2 ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'prio': 'alcance', 'page': 1, 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'type': 'table', 'chunk_id': '1_1'}

--- CHUNK 3 ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '1_1', 'prio': 'alcance', 'page': 1}

--- CHUNK 4 ---
SECCI√ìN | DESCRIPCI√ìN 2 | AL

In [12]:
debug_query(vectorstore, "API 675 caudal presi√≥n material", prio="hoja_datos")


üîé DEBUG QUERY: 'API 675 caudal presi√≥n material' (prio=hoja_datos)

üìä Fragmentos recuperados: 10

--- CHUNK 1 ---
UNIDAD COMPLETA ÔÅ¨ ÔÅ≠ ÔÅ≠ ÔÅ≠ ÔÅ¨ CERTIFICADOS DE MATERIAL APLICADO A UNIDAD PAQUETE OTROS: API 675 BOMBAS DE DESPLAZAMIENTO POSITIVO - VOL. CONTROLADO ÔÅ≠ OTROS: | | | | | | | | | | | | | | | | | | | |   | PREPARACI√ìN DE ENV√çO | | | | | | | | | | | | | | | | | | | |   | PREPARACI√ìN DOM√âSTICA: ÔÅ¨ POR PROVEEDOR ÔÅ≠ POR COMPRADOR ÔÅ≠ OBSERVACIONES CAJA DE EXPORTACI√ìN: ÔÅ¨ POR PROVEEDOR ÔÅ≠ POR COMPRADOR ÔÅ≠ OBSERVACIONE
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'hoja_datos', 'type': 'table', 'chunk_id': '42_11', 'page': 42, 'kv': '{"caudal_gph": "12-18", "presion_psig": "40", "hp_motor": "1", "kw_motor": "5", "rango_cps_min": "500", "rango_cps_max": "1000", "bombas_operativas": "1", "bombas_respaldo": "1", "material_tanque": "304SS", "material_mojado": "316SS", "api_675": "true"}'}
KV dict: {'caudal_gph'

In [13]:
debug_query(vectorstore, "RETIE y normas aplicables", prio="norma")


üîé DEBUG QUERY: 'RETIE y normas aplicables' (prio=norma)

üìä Fragmentos recuperados: 10

--- CHUNK 1 ---
puede ser hecha sin permiso escrito. Ning√∫n p√°rrafo de esta publicaci√≥n puede ser reproducido, copiado o transmitido digitalmente sin un consentimiento escrito o de acuerdo con las leyes que regulan los derechos de autor y con base en la regulaci√≥n vigente.
Metadatos: {'prio': 'norma', 'type': 'text', 'page': 4, 'chunk_id': '4_4', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}

--- CHUNK 2 ---
puede ser hecha sin permiso escrito. Ning√∫n p√°rrafo de esta publicaci√≥n puede ser reproducido, copiado o transmitido digitalmente sin un consentimiento escrito o de acuerdo con las leyes que regulan los derechos de autor y con base en la regulaci√≥n vigente.
Metadatos: {'page': 14, 'type': 'text', 'prio': 'norma', 'chunk_id': '14_5', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}

--- CHUNK 3 ---
puede ser hecha sin pe

In [14]:
debug_query(vectorstore, "requisitos t√©cnicos del sistema de dosificaci√≥n", prio="requisito")


üîé DEBUG QUERY: 'requisitos t√©cnicos del sistema de dosificaci√≥n' (prio=requisito)

üìä Fragmentos recuperados: 10

--- CHUNK 1 ---
de acuerdo con la hoja de datos Paquete De Qu√≠mica STAP EC3 CAS-09991-MER-HD-000003 a fin de garantizar una unidad funcional completa. El PROVEEDOR debe cumplir con los requerimientos m√≠nimos requeridos por el cliente para entregar un sistema de dosificaci√≥n efectivo y que cumpla con las expectativas en la operaci√≥n y producci√≥n de la estaci√≥n. EDP-F-046 ‚Äì 20/11/2017 V-1 8/36 Documento Rector: EDP
Metadatos: {'page': 8, 'prio': 'hoja_datos', 'chunk_id': '8_5', 'type': 'text', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}

--- CHUNK 2 ---
de acuerdo con la hoja de datos Paquete De Qu√≠mica STAP EC3 CAS-09991-MER-HD-000003 a fin de garantizar una unidad funcional completa. El PROVEEDOR debe cumplir con los requerimientos m√≠nimos requeridos por el cliente para entregar un sistema de dosificaci√≥n efectivo y que 

In [15]:
# ============================================
# Paso 8 - Probar extracci√≥n de Hoja de Datos API 675
# ============================================
import json

def buscar_hojas_datos(pregunta: str = "hoja de datos bomba", k: int = 12):
    # --- 1) Buscamos primero chunks con prio=hoja_datos ---
    retriever = vectorstore.as_retriever(search_kwargs={"k": k})
    results = retriever.get_relevant_documents(pregunta)
    hd_chunks = [r for r in results if r.metadata.get("prio") == "hoja_datos"]

    # --- 2) Si hay pocos resultados, ampliamos con los que tengan KV ---
    if len(hd_chunks) < 3:
        kv_chunks = [r for r in results if "kv" in r.metadata]
        filtrados = hd_chunks + kv_chunks
    else:
        filtrados = hd_chunks

    print(f"üîé Total de chunks candidatos (HD/kv): {len(filtrados)}")

    count = 0
    for r in filtrados:
        has_kv = "kv" in r.metadata
        if has_kv:
            count += 1

        flag = "üîë" if has_kv else ""
        print(f"\n--- CHUNK HD {flag} ---")
        print(f"p.{r.metadata.get('page')} | {r.metadata.get('type')} | prio={r.metadata.get('prio')}")
        print(r.page_content[:400])

        if has_kv:
            try:
                kv = json.loads(r.metadata["kv"])
                print("KV:", kv)
            except Exception:
                print("KV (raw):", r.metadata["kv"])

    print(f"‚úÖ Chunks con KV reales: {count}")
    return filtrados


# Ejemplo:
buscar_hojas_datos("Datos de dise√±o de bomba dosificadora API 675 (caudal, presi√≥n, HP)")



üîé Total de chunks candidatos (HD/kv): 12

--- CHUNK HD üîë ---
p.43 | text | prio=hoja_datos
96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El
paquete contara con un sistema de control PLC dedicado a gestionar todas las fun
KV: {'caudal_gph': '18', 'presion_psig': '100', 'hp_motor': '1', 'material_tanque': '304SS', 'api_675': 'true'}

--- CHUNK HD üîë ---
p.43 | text | prio=hoja_datos
96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El
paq

[Document(metadata={'kv': '{"caudal_gph": "18", "presion_psig": "100", "hp_motor": "1", "material_tanque": "304SS", "api_675": "true"}', 'type': 'text', 'chunk_id': '43_3', 'prio': 'hoja_datos', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 43}, page_content='96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El\npaquete contara con un sistema de control PLC dedicado a gestionar todas las funciones del paquete, sus cajas (Potencia, Instrumentaci√≥n, Instrumentos y Control NEMA 4X (√Årea no clasificada). La instrumentaci√≥n m√≠nima asociada al paquete est√° indicada en el P&ID CAS-09991-PRO-PID-000012 - STAP EC3.\n97'),
 Document(metadata={'type': 'text', 'prio': 'hoja_datos', '

In [16]:
# ============================================
# Paso 8.1 - Consolidar Hoja de Datos API 675
# ============================================
import json

def extraer_campos_extras(texto: str) -> Dict[str, str]:
    """Regex para campos no capturados a√∫n en kv_from_text_page"""
    t = texto.upper()
    kv = {}

    # Fluido de operaci√≥n
    m = re.search(r"FLUIDO\s+DE\s+OPERACI[√ìO]N\s+SI\s+([A-Z√Å√â√ç√ì√ö0-9\s]+)", t)
    if m:
        kv["fluido"] = m.group(1).title()

    # Viscosidad cP
    m = re.search(r"VISCO(SIDAD)?[^0-9]*(\d{2,5})\s*-\s*(\d{2,5})\s*CP", t)
    if m:
        kv["viscosidad_cps"] = f"{m.group(2)}-{m.group(3)}"

    # Eficiencia %
    m = re.search(r"EFICIENCIA.*?(\d{1,3})\s*%|‚â•\s*(\d{1,3})", t)
    if m:
        kv["eficiencia_pct"] = m.group(1) or m.group(2)

    # Clasificaci√≥n de √°rea
    m = re.search(r"CLASIFICACI[√ìO]N\s+DEL\s+√ÅREA\s+NO\s+([A-Z\s]+)", t)
    if m:
        kv["clasificacion_area"] = m.group(1).title()

    return kv

def consolidar_hoja_datos(pregunta="hoja de datos bomba API 675", k=12) -> Dict[str, Any]:
    docs = buscar_hojas_datos(pregunta, k=k)
    consolidado = {}

    for d in docs:
        # 1) KV en metadata
        if "kv" in d.metadata:
            try:
                kv = json.loads(d.metadata["kv"])
                consolidado.update(kv)
            except Exception:
                pass

        # 2) Extra campos con regex sobre el contenido
        extras = extraer_campos_extras(d.page_content)
        consolidado.update(extras)

    print("\n‚úÖ JSON consolidado:")
    print(json.dumps(consolidado, indent=2, ensure_ascii=False))
    return consolidado

# Ejemplo:
consolidar_hoja_datos("Datos de dise√±o de bomba dosificadora API 675")


üîé Total de chunks candidatos (HD/kv): 12

--- CHUNK HD üîë ---
p.43 | text | prio=hoja_datos
96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El
paquete contara con un sistema de control PLC dedicado a gestionar todas las fun
KV: {'caudal_gph': '18', 'presion_psig': '100', 'hp_motor': '1', 'material_tanque': '304SS', 'api_675': 'true'}

--- CHUNK HD üîë ---
p.43 | text | prio=hoja_datos
96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El
paq

{'caudal_gph': '12-18',
 'presion_psig': '100',
 'hp_motor': '1',
 'material_tanque': '304SS',
 'api_675': 'true'}

In [17]:
# ============================================
# Paso 9 - Inspeccionar metadatos del Alcance
# ============================================

def buscar_alcance(pregunta: str = "alcance del suministro", k: int = 8):
    """Busca chunks relacionados con alcance (prio=alcance) y muestra metadatos"""
    retriever = vectorstore.as_retriever(
        search_kwargs={"k": k, "filter": {"prio": "alcance"}}
    )
    results = retriever.get_relevant_documents(pregunta)

    print(f"üîé Total de chunks recuperados (prio=alcance): {len(results)}")
    for r in results:
        print(
            f"\n--- CHUNK p.{r.metadata.get('page')} | "
            f"{r.metadata.get('type')} | prio={r.metadata.get('prio')} ---"
        )
        print(r.page_content[:400].replace("\n", " "))
        print("Metadatos:", r.metadata)

    return results

# Ejemplo de prueba:
buscar_alcance()



üîé Total de chunks recuperados (prio=alcance): 8

--- CHUNK p.1 | table | prio=alcance ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'page': 1, 'chunk_id': '1_1', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance', 'type': 'table'}

--- CHUNK p.1 | table | prio=alcance ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'chunk_id': '1_1', 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 1, 'prio': 'alcance'}

--- CHUNK p.1 | table | prio=alcance ---
SECCI√ìN | DESCRIPCI√ìN 2 | ALCANCE DEL SUMINISTRO 10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '1_1', 'type': 'table', 'prio': 'alcance', 'page': 1}

--- CHUNK p.

[Document(metadata={'page': 1, 'chunk_id': '1_1', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance', 'type': 'table'}, page_content='SECCI√ìN | DESCRIPCI√ìN\n2 | ALCANCE DEL SUMINISTRO\n10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)'),
 Document(metadata={'chunk_id': '1_1', 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 1, 'prio': 'alcance'}, page_content='SECCI√ìN | DESCRIPCI√ìN\n2 | ALCANCE DEL SUMINISTRO\n10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)'),
 Document(metadata={'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '1_1', 'type': 'table', 'prio': 'alcance', 'page': 1}, page_content='SECCI√ìN | DESCRIPCI√ìN\n2 | ALCANCE DEL SUMINISTRO\n10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)'),
 Document(metadata={'page': 1, 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4

In [18]:
# ============================================
# Paso 10 - Validar TODOS los metadatos (corregido)
# ============================================
from collections import Counter

def validar_metadatos_globales():
    """Valida consistencia de metadatos en la colecci√≥n completa."""
    collection = vectorstore._collection
    data = collection.get(include=["metadatas", "documents"])

    total_docs = len(data["documents"])
    print(f"üîé Total de registros en la colecci√≥n: {total_docs}")

    errores = 0
    prio_counts = Counter()
    type_counts = Counter()
    kv_count = 0
    seen_ids = set()
    duplicados = 0

    for i, meta in enumerate(data["metadatas"]):
        doc_id = data["ids"][i]  # aqu√≠ s√≠ podemos usarlo, ya viene siempre

        # Detectar duplicados de ID
        if doc_id in seen_ids:
            duplicados += 1
        else:
            seen_ids.add(doc_id)

        # Validar claves m√≠nimas
        if not all(key in meta for key in ["source", "page", "type"]):
            print(f"‚ö†Ô∏è Registro {i} con metadatos incompletos:", meta)
            errores += 1
            continue

        # Validar valores
        if not isinstance(meta.get("page"), int) or meta["page"] <= 0:
            print(f"‚ö†Ô∏è Registro {i} con p√°gina inv√°lida:", meta)
            errores += 1

        if not meta.get("type"):
            print(f"‚ö†Ô∏è Registro {i} con tipo vac√≠o:", meta)
            errores += 1

        # Contadores √∫tiles
        prio_counts[meta.get("prio", "none")] += 1
        type_counts[meta.get("type", "unknown")] += 1
        if "kv" in meta:
            kv_count += 1

    # Resumen
    if errores == 0:
        print("‚úÖ Todos los documentos tienen metadatos completos y v√°lidos.")
    else:
        print(f"‚ö†Ô∏è Se encontraron {errores} problemas de metadatos.")

    if duplicados > 0:
        print(f"‚ö†Ô∏è Se detectaron {duplicados} duplicados de IDs.")

    print("\nüìä Distribuci√≥n por prioridad:", dict(prio_counts))
    print("üìä Distribuci√≥n por tipo:", dict(type_counts))
    print(f"üìä Total de documentos con KV (tablas clave-valor): {kv_count}")

# Ejemplo:
validar_metadatos_globales()



üîé Total de registros en la colecci√≥n: 7369
‚úÖ Todos los documentos tienen metadatos completos y v√°lidos.

üìä Distribuci√≥n por prioridad: {'alcance': 1298, 'general': 1604, 'hoja_datos': 2370, 'norma': 988, 'requisito': 1109}
üìä Distribuci√≥n por tipo: {'text': 4632, 'table': 2737}
üìä Total de documentos con KV (tablas clave-valor): 1836


In [19]:
# ============================================
# Paso 11 - Buscar solo tablas o solo texto
# ============================================
def buscar_por_tipo(tipo: str = "table", pregunta: str = "bomba dosificadora", k: int = 5):
    """
    Recupera fragmentos filtrando por tipo ('table' o 'text').
    """
    retriever = vectorstore.as_retriever(
        search_kwargs={"k": k, "filter": {"type": tipo}}
    )
    results = retriever.get_relevant_documents(pregunta)

    print(f"\nüîé Resultados filtrados por tipo='{tipo}' | pregunta='{pregunta}' ‚Üí {len(results)} encontrados")
    for i, r in enumerate(results, 1):
        print(f"\n--- CHUNK {i} ---")
        print(r.page_content[:400].replace("\n", " "))
        print("Metadatos:", r.metadata)

        if "kv" in r.metadata:  # Mostrar KV si existe
            try:
                import json
                print("KV:", json.loads(r.metadata["kv"]))
            except Exception:
                print("KV (raw):", r.metadata["kv"])

    return results


# Ejemplos de prueba:
buscar_por_tipo("table", "tags y cantidades")
buscar_por_tipo("text", "alcance del suministro")




üîé Resultados filtrados por tipo='table' | pregunta='tags y cantidades' ‚Üí 5 encontrados

--- CHUNK 1 ---
| | requer√≠an clasificaci√≥n.
Metadatos: {'chunk_id': '51_1', 'page': 51, 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'type': 'table', 'prio': 'general'}

--- CHUNK 2 ---
requer√≠an clasificaci√≥n.
Metadatos: {'prio': 'general', 'page': 51, 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '51_1'}

--- CHUNK 3 ---
requer√≠an clasificaci√≥n.
Metadatos: {'type': 'table', 'page': 51, 'chunk_id': '51_1', 'prio': 'general', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}

--- CHUNK 4 ---
requer√≠an clasificaci√≥n.
Metadatos: {'type': 'table', 'chunk_id': '51_1', 'prio': 'general', 'page': 51, 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}

--- CHUNK 5 ---
requer√≠an clasificaci√≥n.
Metadatos: {'prio': 'general', 'page': 51, 'typ

[Document(metadata={'page': 58, 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'type': 'text', 'chunk_id': '58_2', 'prio': 'hoja_datos'}, page_content='2.0 ALCANCE\nEste documento describe el alcance del suministro y servicios del PROVEEDOR, sus\nresponsabilidades, plan de ejecuci√≥n y dem√°s aspectos generales para el dise√±o; fabricaci√≥n;\nsuministro; asistencia para el montaje y pruebas del PAQUETE de inyecci√≥n de qu√≠micos de Pol√≠mero\nAni√≥nico AX-75317 y los Quill¬¥s de Inyecci√≥n Retr√°ctil roscado, completamente operacionales y\nfuncionales.\nLos detalles relevantes a los requerimientos de proceso, caracter√≠sticas constructivas, garant√≠as de\ndesempe√±o y otros requerimientos est√°n incluidos en este documento.\nEsta especificaci√≥n debe ser le√≠da en conjunto con:\n‚Ä¢ CAS-09991-MER-HD-000003: HOJA DE DATOS PAQUETE DE QU√çMICA STAP EC3.\n‚Ä¢ CAS-09991-PRO-PID-000012: DIAGRAMA DE TUBER√çA E INSTRUMENTACI√ìN SISTEMA'),
 Document(metadata={'ty

In [20]:
# ============================================
# Paso 11.1 - Comparar resultados table vs text
# ============================================
from collections import Counter
import json

def comparar_table_vs_text(pregunta="alcance del suministro", k=6):
    resultados = {}
    for tipo in ["table", "text"]:
        retriever = vectorstore.as_retriever(
            search_kwargs={"k": k, "filter": {"type": tipo}}
        )
        docs = retriever.get_relevant_documents(pregunta)
        resultados[tipo] = docs

        print(f"\nüîé Resultados filtrados por tipo='{tipo}' ‚Üí {len(docs)} encontrados")
        prio_counter = Counter([d.metadata.get("prio", "none") for d in docs])
        kv_count = sum(1 for d in docs if "kv" in d.metadata)

        print(f"üìä Distribuci√≥n de prioridades: {dict(prio_counter)}")
        print(f"üìä Con KV extra√≠dos: {kv_count}")

        for r in docs:
            print("\n--- CHUNK ---")
            print(r.page_content[:300].replace("\n", " "))
            print("Metadatos:", r.metadata)
            if "kv" in r.metadata:
                try:
                    print("KV:", json.loads(r.metadata["kv"]))
                except:
                    print("KV (raw):", r.metadata["kv"])

    # Comparaci√≥n final
    print("\n================= RESUMEN COMPARATIVO =================")
    for tipo in ["table", "text"]:
        print(f"Tipo: {tipo} | Total: {len(resultados[tipo])}")
        kv_total = sum(1 for d in resultados[tipo] if "kv" in d.metadata)
        print(f" ‚Üí Con KV: {kv_total}")
        prio_counter = Counter([d.metadata.get("prio", "none") for d in resultados[tipo]])
        print(f" ‚Üí Prioridades: {dict(prio_counter)}")

# Ejemplo de prueba
comparar_table_vs_text("tags y cantidades", k=5)
comparar_table_vs_text("alcance del suministro", k=5)



üîé Resultados filtrados por tipo='table' ‚Üí 5 encontrados
üìä Distribuci√≥n de prioridades: {'general': 5}
üìä Con KV extra√≠dos: 0

--- CHUNK ---
| | requer√≠an clasificaci√≥n.
Metadatos: {'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'general', 'page': 51, 'chunk_id': '51_1'}

--- CHUNK ---
requer√≠an clasificaci√≥n.
Metadatos: {'prio': 'general', 'chunk_id': '51_1', 'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 51}

--- CHUNK ---
requer√≠an clasificaci√≥n.
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '51_1', 'page': 51, 'prio': 'general', 'type': 'table'}

--- CHUNK ---
requer√≠an clasificaci√≥n.
Metadatos: {'chunk_id': '51_1', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'general', 'page': 51, 'type': 'table'}

--- CHUNK ---
requer√≠an clasificaci√≥n.
Metadatos: {

In [21]:
# ============================================
# Paso 12 - Buscar en una p√°gina espec√≠fica
# ============================================
def buscar_por_pagina(pagina: int, pregunta: str):
    retriever = vectorstore.as_retriever(
        search_kwargs={"k": 5, "filter": {"page": pagina}}
    )
    results = retriever.get_relevant_documents(pregunta)

    print(f"üîé Resultados en p√°gina {pagina}: {len(results)}")
    for r in results:
        print("\n--- CHUNK ---")
        print(r.page_content[:400].replace("\n", " "))
        print("Metadatos:", r.metadata)

# Ejemplo:
buscar_por_pagina(32, "alcance del suministro")
buscar_por_pagina(42, "caudal de la bomba")


üîé Resultados en p√°gina 32: 5

--- CHUNK ---
componentes, o dieciocho (18) meses a partir de la entrega a satisfacci√≥n de estos por parte de ECOPETROL S.A. Durante este per√≠odo la garant√≠a debe cubrir la reparaci√≥n o reemplazo de los componentes defectuosos por parte del VENDEDOR incluyendo todas las labores, equipos, transporte y dem√°s costos generados y requeridos para llevar a cabo dicha reparaci√≥n y/o reemplazo. 10. ANEXOS 10.1. LISTA DE
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 32, 'type': 'text', 'prio': 'hoja_datos', 'kv': '{"caudal_gph": "18", "presion_psig": "100", "hp_motor": "1", "material_tanque": "304SS", "api_675": "true"}', 'chunk_id': '32_3'}

--- CHUNK ---
componentes, o dieciocho (18) meses a partir de la entrega a satisfacci√≥n de estos por parte de ECOPETROL S.A. Durante este per√≠odo la garant√≠a debe cubrir la reparaci√≥n o reemplazo de los componentes defectuosos por parte del VENDEDOR incluyendo t

In [22]:
# ============================================
# Paso 13.1 ‚Äì Inventario de sistemas (Skids, TAGs y cantidades)
# ============================================

import json

def prueba_inventario_sistemas():
    pregunta = "¬øCu√°les son los skids o sistemas de dosificaci√≥n requeridos? Dame los TAG y las cantidades."
    retriever = vectorstore.as_retriever(
        search_kwargs={"k": 10, "filter": {"type": "table"}}
    )
    results = retriever.get_relevant_documents(pregunta)

    print(f"üîé Resultados prueba INVENTARIO (skids + tags + cantidades): {len(results)}")

    kv_count = 0
    for r in results:
        print("\n--- CHUNK INVENTARIO ---")
        print(r.page_content[:400].replace("\n", " "))
        print("Metadatos:", r.metadata)

        if "kv" in r.metadata:
            try:
                kv_dict = json.loads(r.metadata["kv"])
                print("KV dict:", kv_dict)
                kv_count += 1
            except Exception:
                print("KV (raw):", r.metadata["kv"])

    print(f"\nüìä Total de chunks con KV √∫tiles: {kv_count}")

# Ejemplo de ejecuci√≥n
prueba_inventario_sistemas()


üîé Resultados prueba INVENTARIO (skids + tags + cantidades): 10

--- CHUNK INVENTARIO ---
SKID. -INSTALACI√ìN DE CABLEADOS INTERNOS DE EL√âCTRICIDAD E INSTRUMENTACI√ìN, AS√ç COMO INTERCONEXIONES DE LOS EQUIPOS ROTATIVOS Y EST√ÅTICOS QUE INTEGRAN EL SKID. -SISTEMA DE CONTROL LOCAL DEL SKID, QUE CUENTEN CON PUERTOS DE FIBRA √ìPTICA Y PROTOCOLO MODBUS TCP/IP PARA COMUNICACI√ìN CON EL SISTEMA DE CONTROL DEL STAP EC3; CONTROLADOR PCS-009. 2. DE ACUERDO A INFORMACI√ìN DEL PROVEEDOR DEL SKID DE QU√çMI
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '54_3', 'page': 54, 'type': 'table', 'kv': '{"caudal_gph": "18", "presion_psig": "100", "hp_motor": "1", "material_tanque": "304SS"}', 'prio': 'alcance'}
KV dict: {'caudal_gph': '18', 'presion_psig': '100', 'hp_motor': '1', 'material_tanque': '304SS'}

--- CHUNK INVENTARIO ---
SKID. -INSTALACI√ìN DE CABLEADOS INTERNOS DE EL√âCTRICIDAD E INSTRUMENTACI√ìN, AS√ç COMO INTERCONEXIONES DE LOS EQUIP

In [23]:
# ============================================
# Paso 14 (v3) ‚Äì Alcance + Datos de dise√±o de la bomba API 675 (robusto + actualizado)
# ============================================
import re, json
from langchain.schema import Document

def _j(x):
    try:
        return json.loads(x)
    except Exception:
        return {}

def _parse_nums(text: str):
    """Extrae caudal (GPH), presi√≥n (psig) y HP desde texto libre (fallback)."""
    caudal = None
    pres = None
    hp = None

    # Caudal "12 - 18 GPH" | "12‚Äì18 Gph" | "12 a 18 GPH" | simple "18 GPH"
    m = re.search(r'(\d+(?:[.,]\d+)?)\s*(?:-|‚Äì|a|to)\s*(\d+(?:[.,]\d+)?)\s*(gph|g\.?p\.?h\.?)\b', text, re.I)
    if m:
        caudal = f"{m.group(1)} - {m.group(2)}"
    else:
        m = re.search(r'\b(\d+(?:[.,]\d+)?)\s*(gph|g\.?p\.?h\.?)\b', text, re.I)
        if m:
            caudal = m.group(1)

    # Presi√≥n "@ 100 psi" | "100 psig"
    m = re.search(r'@?\s*(\d+(?:[.,]\d+)?)\s*(psi|psig)\b', text, re.I)
    if m:
        pres = m.group(1)

    # Potencia "1 HP"
    m = re.search(r'\b(\d+(?:[.,]\d+)?)\s*hp\b', text, re.I)
    if m:
        hp = m.group(1)

    return caudal, pres, hp

def prueba_alcance_y_datos_bomba_v3():
    q_alc = "alcance del suministro paquete de inyecci√≥n de qu√≠micos"
    q_hd  = "bomba dosificadora API 675 caudal presi√≥n HP materiales GPH psig"

    # 1) Recuperar alcance
    retr_alc = vectorstore.as_retriever(
        search_kwargs={"k": 12, "filter": {"prio": "alcance"}},
        search_type="mmr"
    )
    alc_docs = retr_alc.get_relevant_documents(q_alc)

    if not alc_docs:  # fallback
        retr_alc_fb = vectorstore.as_retriever(search_kwargs={"k": 12}, search_type="mmr")
        alc_docs = retr_alc_fb.get_relevant_documents("alcance del suministro")

    # 2) Recuperar hojas de datos
    retr_hd = vectorstore.as_retriever(
        search_kwargs={"k": 20, "filter": {"prio": "hoja_datos"}},
        search_type="mmr"
    )
    hd_docs = retr_hd.get_relevant_documents(q_hd)

    # 3) Refuerzo directo desde la colecci√≥n (KV + texto clave)
    coll = vectorstore._collection
    meta_hd = coll.get(where={"prio": "hoja_datos"}, include=["metadatas", "documents"])
    for md, doc in zip(meta_hd["metadatas"], meta_hd["documents"]):
        if not isinstance(md, dict):
            continue
        if ("kv" in md and any(k in md["kv"] for k in ["caudal_gph", "presion_psig", "hp_motor", "material_tanque", "material_mojado", "bombas_operativas", "bombas_respaldo"])) \
           or ("API 675" in (doc or "") or "GPH" in (doc or "") or "psig" in (doc or "")):
            hd_docs.append(Document(page_content=doc, metadata=md))

    # 4) De-duplicar por (page,type,primeros 60 chars)
    def _key(d): return (d.metadata.get("page"), d.metadata.get("type"), (d.page_content or "")[:60])
    seen = set()
    alc_unique, hd_unique = [], []
    for d in alc_docs:
        k = _key(d)
        if k not in seen:
            seen.add(k); alc_unique.append(d)
    for d in hd_docs:
        k = _key(d)
        if k not in seen:
            seen.add(k); hd_unique.append(d)

    # 5) Extraer KV + regex ‚Üí s√≠ntesis
    datos = {
        "caudal_gph": None,
        "presion_psig": None,
        "hp_motor": None,
        "materiales": set(),
        "api_675": False,
        "bombas_operativas": None,
        "bombas_respaldo": None,
        "paginas_fuente": set(),
    }

    for d in hd_unique:
        md = d.metadata or {}
        if "page" in md:
            datos["paginas_fuente"].add(md["page"])

        # KV directo
        if "kv" in md:
            kv = _j(md["kv"])
            if not datos["caudal_gph"] and kv.get("caudal_gph"):
                datos["caudal_gph"] = kv["caudal_gph"]
            if not datos["presion_psig"] and kv.get("presion_psig"):
                datos["presion_psig"] = kv["presion_psig"]
            if not datos["hp_motor"] and kv.get("hp_motor"):
                datos["hp_motor"] = kv["hp_motor"]
            if kv.get("material_tanque"):
                datos["materiales"].add(kv["material_tanque"])
            if kv.get("material_mojado"):
                datos["materiales"].add(kv["material_mojado"])
            if str(kv.get("api_675")).lower() == "true":
                datos["api_675"] = True
            if kv.get("bombas_operativas"):
                datos["bombas_operativas"] = kv["bombas_operativas"]
            if kv.get("bombas_respaldo"):
                datos["bombas_respaldo"] = kv["bombas_respaldo"]

        # Fallback regex
        if any(v is None for v in (datos["caudal_gph"], datos["presion_psig"], datos["hp_motor"])):
            c, p, h = _parse_nums(d.page_content or "")
            if c and not datos["caudal_gph"]:
                datos["caudal_gph"] = c
            if p and not datos["presion_psig"]:
                datos["presion_psig"] = p
            if h and not datos["hp_motor"]:
                datos["hp_motor"] = h

    # 6) Mostrar resultados
    print(f"üîé ALCANCE (k={len(alc_unique)}):")
    for r in alc_unique[:5]:
        print(f"\n‚Äî p.{r.metadata.get('page')} | {r.metadata.get('type')}")
        print((r.page_content or "")[:350].replace("\n", " "))

    print(f"\nüîé HOJA DE DATOS (k={len(hd_unique)}):")
    for r in hd_unique[:6]:
        print(f"\n‚Äî p.{r.metadata.get('page')} | {r.metadata.get('type')}")
        print((r.page_content or "")[:350].replace("\n", " "))
        if "kv" in r.metadata:
            print("KV:", r.metadata["kv"])

    print("\n‚úÖ EXTRACCI√ìN SINTETIZADA:")
    print(f"  ‚Ä¢ Caudal (GPH): {datos['caudal_gph']}")
    print(f"  ‚Ä¢ Presi√≥n (psig): {datos['presion_psig']}")
    print(f"  ‚Ä¢ Potencia (HP): {datos['hp_motor']}")
    print(f"  ‚Ä¢ Materiales: {', '.join(sorted(datos['materiales'])) or '‚Äî'}")
    print(f"  ‚Ä¢ API 675: {'S√≠' if datos['api_675'] else 'N/D'}")
    print(f"  ‚Ä¢ Bombas operativas: {datos['bombas_operativas'] or '‚Äî'}")
    print(f"  ‚Ä¢ Bombas respaldo: {datos['bombas_respaldo'] or '‚Äî'}")
    print(f"  ‚Ä¢ P√°ginas fuente (HD): {sorted(datos['paginas_fuente'])}")

    return {"alcance": alc_unique, "hoja_datos": hd_unique, "datos": datos}

# Ejecuci√≥n:
prueba_alcance_y_datos_bomba_v3()



üîé ALCANCE (k=8):

‚Äî p.1 | text
MAYORES PAQUETES DE INYECCI√ìN DE QU√çMICOS

‚Äî p.18 | text
MAYORES PAQUETES DE INYECCI√ìN DE QU√çMICOS

‚Äî p.25 | text
MAYORES PAQUETES DE INYECCI√ìN DE QU√çMICOS

‚Äî p.26 | text
MAYORES PAQUETES DE INYECCI√ìN DE QU√çMICOS

‚Äî p.2 | text
MAYORES PAQUETES DE INYECCI√ìN DE QU√çMICOS

üîé HOJA DE DATOS (k=106):

‚Äî p.43 | text
96 2 agua, para la introducci√≥n del pol√≠mero s√≥lido, agitacion, alarma para vaciado y llenado. para la dosificacion debe contar con Una (1) bomba dosificadora de diafragma para la inyecci√≥n de pol√≠mero l√≠quido preparado de 1Hp,12 - 18 gph @ 100psi, API 675, con una (1) de respaldo accionadas por motores el√©ctricos. El paquete contara con un sistema
KV: {"caudal_gph": "18", "presion_psig": "100", "hp_motor": "1", "material_tanque": "304SS", "api_675": "true"}

‚Äî p.42 | table
(GPH) | | MODELO | RANGO (Cps) | POTENCIA MOTOR ELECTRICO (hp) (NOTA 15) | CANTIDAD 20 21 22 23 24 25 26 27 28 | STAP EC3 (NOTA 18) AFC4 | Se r

{'alcance': [Document(metadata={'page': 1, 'prio': 'alcance', 'chunk_id': '1_1', 'type': 'text', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}, page_content='MAYORES\nPAQUETES DE INYECCI√ìN DE QU√çMICOS'),
  Document(metadata={'page': 18, 'type': 'text', 'chunk_id': '18_1', 'prio': 'alcance', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf'}, page_content='MAYORES\nPAQUETES DE INYECCI√ìN DE QU√çMICOS'),
  Document(metadata={'type': 'text', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'prio': 'alcance', 'page': 25, 'chunk_id': '25_1'}, page_content='MAYORES\nPAQUETES DE INYECCI√ìN DE QU√çMICOS'),
  Document(metadata={'type': 'text', 'page': 26, 'prio': 'alcance', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'chunk_id': '26_1'}, page_content='MAYORES\nPAQUETES DE INYECCI√ìN DE QU√çMICOS'),
  Document(metadata={'prio': 'alcance', 'source': './data/CAS09991MERMR