In [8]:
# ============================================
# Paso 0 - Limpieza total de vectordb
# ============================================
import chromadb
import shutil
import os

VDB_PATH = "./vectordb"
COLLECTION_NAME = "langchain"

In [9]:
# Opci√≥n 1: Eliminar carpeta f√≠sicamente
'''
if os.path.exists(VDB_PATH):
    shutil.rmtree(VDB_PATH)
    print("üóëÔ∏è Carpeta ./vectordb eliminada por completo.")
else:
    print("‚ÑπÔ∏è No existe carpeta ./vectordb, nada que limpiar.")

'''

'\nif os.path.exists(VDB_PATH):\n    shutil.rmtree(VDB_PATH)\n    print("üóëÔ∏è Carpeta ./vectordb eliminada por completo.")\nelse:\n    print("‚ÑπÔ∏è No existe carpeta ./vectordb, nada que limpiar.")\n\n'

In [10]:
# Opci√≥n 2: Eliminar colecci√≥n desde Chroma (por si persiste alg√∫n registro)
'''
client = chromadb.PersistentClient(path=VDB_PATH)
try:
    client.delete_collection(COLLECTION_NAME)
    print(f"üóëÔ∏è Colecci√≥n '{COLLECTION_NAME}' eliminada.")
except Exception:
    print(f"‚ÑπÔ∏è No hab√≠a colecci√≥n '{COLLECTION_NAME}' para eliminar.")
'''

'\nclient = chromadb.PersistentClient(path=VDB_PATH)\ntry:\n    client.delete_collection(COLLECTION_NAME)\n    print(f"üóëÔ∏è Colecci√≥n \'{COLLECTION_NAME}\' eliminada.")\nexcept Exception:\n    print(f"‚ÑπÔ∏è No hab√≠a colecci√≥n \'{COLLECTION_NAME}\' para eliminar.")\n'

In [None]:
# ============================================
# Paso 1 - Configuraci√≥n API y librer√≠as
# ============================================
import os
import re
import pdfplumber
import chromadb
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from typing import List
from langchain.schema import Document

from dotenv import load_dotenv
import os

# Cargar variables del archivo .env
load_dotenv()

# Leer la API key desde el entorno
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")



# Cliente persistente de Chroma
persistent_client = chromadb.PersistentClient(path=VDB_PATH)


In [12]:
# ============================================
# Paso 2 - Funci√≥n de limpieza de texto
# ============================================
def clean_text(text: str) -> str:
    patrones = [
        r"FORMATO REQUISICI√ìN.*",
        r"ECOPETROL DESARROLLO DE PROYECTO.*",
        r"Todos los derechos reservados.*",
        r"___________________________________________________________________",
        r"EDP-F-046.*Versi√≥n.*",
        r"MR.*#:.*CAS.*",
        r"P√°gina\s+\d+\s+de\s+\d+",
    ]
    for p in patrones:
        text = re.sub(p, "", text, flags=re.IGNORECASE)
    text = re.sub(r"\s{2,}", " ", text)  # normalizar espacios
    return text.strip()


In [13]:
# ============================================
# Paso 3 - Extractor de PDF (texto + tablas)
# ============================================
def extract_pdf_content(filepath: str) -> List[Document]:
    docs = []
    with pdfplumber.open(filepath) as pdf:
        for i, page in enumerate(pdf.pages, start=1):
            # --- Extraer texto limpio ---
            text = page.extract_text() or ""
            text = clean_text(text)

            if text:
                docs.append(
                    Document(
                        page_content=text,
                        metadata={"source": filepath, "page": i, "type": "text"}
                    )
                )

            # --- Extraer tablas ---
            try:
                tables = page.extract_tables()
                for t in tables:
                    if not t:
                        continue
                    # Convertir filas en texto legible
                    table_text = "\n".join(
                        [" | ".join(filter(None, row)) for row in t if any(row)]
                    )
                    table_text = clean_text(table_text)
                    if table_text:
                        docs.append(
                            Document(
                                page_content=table_text,
                                metadata={"source": filepath, "page": i, "type": "table"}
                            )
                        )
            except Exception as e:
                print(f"‚ö†Ô∏è No se pudo procesar tabla en p√°gina {i}: {e}")

    return docs



In [14]:
# ============================================
# Paso 4 - Divisi√≥n en chunks y guardado en vectordb
# ============================================
def add_files_to_vectordb(filepath: str):
    # Eliminar colecci√≥n previa para evitar duplicados
    try:
        persistent_client.delete_collection(COLLECTION_NAME)
        print(f"üóëÔ∏è Colecci√≥n '{COLLECTION_NAME}' eliminada.")
    except Exception:
        print(f"‚ÑπÔ∏è No hab√≠a colecci√≥n previa '{COLLECTION_NAME}'.")

    docs = extract_pdf_content(filepath)

    # Dividir en fragmentos manejables
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=800,
        chunk_overlap=100,
        separators=["\n\n", "\n", ".", " ", ""]
    )
    splits = text_splitter.split_documents(docs)

    # Guardar en Chroma en colecci√≥n limpia
    vectorstore = Chroma.from_documents(
        documents=splits,
        embedding=OpenAIEmbeddings(),
        persist_directory=VDB_PATH,
        collection_name=COLLECTION_NAME
    )

    print(f"‚úÖ {len(splits)} fragmentos indexados en ./vectordb (colecci√≥n {COLLECTION_NAME})")
    return vectorstore


In [15]:
# ============================================
# Paso 5 - Ejemplo de uso
# ============================================
if __name__ == "__main__":
    vectorstore = add_files_to_vectordb(
        "./data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf"
    )


üóëÔ∏è Colecci√≥n 'langchain' eliminada.
‚úÖ 545 fragmentos indexados en ./vectordb (colecci√≥n langchain)


In [16]:
# ============================================
# Paso 6 - Verificar qu√© documentos hay en vectordb
# ============================================
def get_unique_sources_list(chroma_settings):
    collection_data = chroma_settings.get_collection('langchain').get(
        include=['embeddings', 'documents', 'metadatas']
    )
    metadatas = collection_data['metadatas']

    sources = set()
    for metadata in metadatas:
        source = metadata.get('source', None)
        if source:
            sources.add(source)

    # Obtener solo el nombre de archivo de cada ruta
    file_names = list(set(source.split('/')[-1] for source in sources))
    return file_names

print("üìÇ Documentos en vectordb:", get_unique_sources_list(persistent_client))


üìÇ Documentos en vectordb: ['CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf']


In [19]:
retriever = vectorstore.as_retriever(search_kwargs={"k":8})
results = retriever.get_relevant_documents("¬øCu√°l es el alcance del suministro?")
for r in results:
    print("\n--- CHUNK ---")
    print(r.page_content[:500])
    print("Metadatos:", r.metadata)



--- CHUNK ---
2.0 ALCANCE
Este documento describe el alcance del suministro y servicios del PROVEEDOR, sus
responsabilidades, plan de ejecuci√≥n y dem√°s aspectos generales para el dise√±o; fabricaci√≥n;
suministro; asistencia para el montaje y pruebas del PAQUETE de inyecci√≥n de qu√≠micos de Pol√≠mero
Ani√≥nico AX-75317 y los Quill¬¥s de Inyecci√≥n Retr√°ctil roscado, completamente operacionales y
funcionales.
Los detalles relevantes a los requerimientos de proceso, caracter√≠sticas constructivas, garant√≠as de
desempe√±
Metadatos: {'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 58, 'type': 'text'}

--- CHUNK ---
SECCI√ìN | DESCRIPCI√ìN
2 | ALCANCE DEL SUMINISTRO
10.3 | DOCUMENTOS DE REFERENCIA (ACTUALIZA √öLTIMA REVISI√ìN)
Metadatos: {'type': 'table', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 1}

--- CHUNK ---
1.2. GLOSARIO ...........................................................................

In [22]:
retriever = vectorstore.as_retriever(search_kwargs={"k":3})
results = retriever.get_relevant_documents("¬øCuales son los tags y cantides de los sistemas de inyeccion solcitiados?")
for r in results:
    print("\n--- CHUNK ---")
    print(r.page_content[:500])
    print("Metadatos:", r.metadata)


--- CHUNK ---
Descripci√≥n | C√≥digo de
Cat√°logo
ECOPETROL
√çtem | Cantidad | Unidad | TAG
El paquete contara con un sistema de control PLC dedicado
a gestionar todas las funciones del paquete, sus cajas
Potencia, Instrumentaci√≥n, Instrumentos y Control NEMA
4X.
Las bombas dosificaran qu√≠mico ani√≥nico hacia el pat√≠n de
almacenamiento Tanques de Decantaci√≥n ATR-7551
A/B/C/D/E/F Cabezal de 8‚Äù PWA-751407-AA1A33-01-N-
0.0‚Äù
2 | 1 | UND | AX-
75317 | Suministro de un (1) quill de inyecci√≥n retr√°ctil (boquilla de
inyec
Metadatos: {'page': 33, 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'type': 'table'}

--- CHUNK ---
PAQUETE DE INYECCI√ìN DE POLIMERO ANI√ìNICO AX-75317
TIPO | SISTEMA AUTOM√ÅTICO PARA PREPARACI√ìN DE POL√çMERO EN POLVO
BOMBAS DOSIFICADORAS CON MOTOR EL√âCTRICO
CAPACIDAD | 12-18 GPH
PRESI√ìN DE DESCARGA | 100 PSIG
POTENCIA DE MOTOR BOMBA | 1 HP
QUILLS DE INYECCI√ìN | 1
CAPACIDAD TANQUE | 4000 L
POTENCIA DE MOTOR AGITADORES | 1 HP


In [18]:
# Ver todos los chunks de la p√°gina 32 (texto + tablas)
collection = persistent_client.get_collection("langchain")
docs_data = collection.get(include=["documents", "metadatas"])

docs_p32 = [
    (doc, meta) for doc, meta in zip(docs_data["documents"], docs_data["metadatas"])
    if meta.get("page") == 32
]

print(f"üîé Total de chunks en p√°gina 32: {len(docs_p32)}\n")

for doc, meta in docs_p32[:10]:  # muestra hasta 10
    print("\n--- CHUNK ---")
    print(doc[:500])  # primeras 500 chars
    print("Metadatos:", meta)


üîé Total de chunks en p√°gina 32: 8


--- CHUNK ---
MAYORES
PAQUETES DE INYECCI√ìN DE QU√çMICOS VICEPRESIDENCIA DE INGENIER√çA Y PROYECTOS
C√ìDIGO Elaborado
Versi√≥n: 1
EDP-F-046 20/11/2017
MR #:
INGENIER√çA DETALLADA ESTACIONES M√ìDULO
CAS-09991-MER-MR- REV: 4
INTEGRAL
000003
Documento:
Requisici√≥n de Materiales FECHA:
Especialidad Mec√°nica
Paquete de inyecci√≥n de 14/11/2024
qu√≠micos
Todos los equipos componentes del paquete de inyecci√≥n de qu√≠micos, as√≠ como los componentes de los
quill¬¥s de inyecci√≥n retr√°ctiles deben ser dise√±ados y seleccionados pa
Metadatos: {'type': 'text', 'source': './data/CAS09991MERMR000003_InyeccionQxSTAPEC3_4_250429_200355.pdf', 'page': 32}

--- CHUNK ---
v√°lida por doce (12) meses, contados a partir de la fecha de puesta en funcionamiento del equipo y sus
componentes, o dieciocho (18) meses a partir de la entrega a satisfacci√≥n de estos por parte de
ECOPETROL S.A. Durante este per√≠odo la garant√≠a debe cubrir la reparaci√≥n o reemplazo de 