In [1]:
import os
import nest_asyncio
from dotenv import load_dotenv
from typing import Optional

# --- Importaciones LlamaIndex ---
from llama_index.core import Settings, VectorStoreIndex, StorageContext, Document
from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_parse import LlamaParse
#from llama_index.readers.file import PyMuPDFReade

# --- Importaciones Qdrant ---
from qdrant_client import QdrantClient

# --- Importaciones LangChain (Inteligencia de Extracci√≥n) ---
from langchain.chat_models import init_chat_model
from pydantic import BaseModel, Field

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 1. CARGA DE ENTORNO Y VALIDACI√ìN (TU C√ìDIGO)
# ==========================================================
nest_asyncio.apply()
load_dotenv()

# Configuraci√≥n OpenAI
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
if not OPENAI_API_KEY:
    raise ValueError("‚ùå No se encontr√≥ OPENAI_API_KEY en el .env")

# Configuraci√≥n Qdrant
QDRANT_URL = os.getenv("QDRANT_URL")
QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
COLLECTION_NAME = "metabolomics_agent_db" # Tu colecci√≥n definida

if not QDRANT_URL:
    raise ValueError("‚ùå No se encontr√≥ QDRANT_URL en el .env")
if not QDRANT_API_KEY:
    raise ValueError("‚ùå No se encontr√≥ QDRANT_API_KEY en el .env")

# Configuraci√≥n LlamaCloud
LLAMA_CLOUD_API_KEY = os.getenv("LLAMA_CLOUD_API_KEY")
if not LLAMA_CLOUD_API_KEY:
    raise ValueError("‚ùå No se encontr√≥ LLAMA_CLOUD_API_KEY en el .env")

print("‚úÖ Credenciales validadas correctamente.")

‚úÖ Credenciales validadas correctamente.


In [3]:
# 2. INICIALIZACI√ìN DE CLIENTES Y MODELOS
# ==========================================================

# A. Cliente Qdrant (Conectado a tu Cloud)
qdrant_client = QdrantClient(
    url=QDRANT_URL, 
    api_key=QDRANT_API_KEY,
)

# Verificar conexi√≥n imprimiendo colecciones (opcional)
print(qdrant_client.get_collections())

# B. LlamaIndex Embeddings (Para Vectores Densos)
# Usar√° autom√°ticamente la OPENAI_API_KEY del entorno
Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small")

# C. LangChain LLM (Para Extracci√≥n y CDE)
# Usando init_chat_model como pediste
llm_chat = init_chat_model(
    model="gpt-4o-mini",
    model_provider="openai",
    temperature=0
)

collections=[CollectionDescription(name='bio_semantic_db')]


In [4]:
# 3. SCHEMA DE DATOS (PYDANTIC)
# ==========================================================
class MetaboliteMetadata(BaseModel):
    """
    Modelo para la extracci√≥n estructurada de features metabol√≥micas.
    """
    mz_value: Optional[float] = Field(default=None, description="La relaci√≥n masa/carga (m/z) exacta.")
    rt_value: Optional[float] = Field(default=None, description="El tiempo de retenci√≥n (RT) en minutos.")
    compound_name: Optional[str] = Field(default=None, description="Nombre del compuesto qu√≠mico identificado o putativo.")
    sample_source: Optional[str] = Field(default=None, description="Matriz biol√≥gica o fuente de la muestra (ej. T√© Verde).")

# Vinculamos el LLM con el Schema
metadata_extractor = llm_chat.with_structured_output(MetaboliteMetadata)

In [5]:
# 4. FUNCIONES DEL PIPELINE (CDE + PARSE + EXTRACT)
# ==========================================================

async def procesar_pdf_completo(file_path):
    print(f"\nüìÑ [1/4] Parseando PDF: {file_path}")
    
    # A. LlamaParse: PDF -> Markdown
    parser = LlamaParse(result_type="markdown", language="es")
    documents = await parser.aload_data(file_path)
    full_text = documents[0].text
    
    # B. CDE (Contextual Document Embeddings - Simulado)
    # Generamos un resumen global para inyectar contexto a los chunks
    print("üß† [2/4] Generando Contexto Global (CDE)...")
    prompt_cde = f"Resume en 2 oraciones el objetivo cient√≠fico principal y la muestra analizada de: {full_text[:3000]}"
    resumen_global = llm_chat.invoke(prompt_cde).content
    print(f"      Contexto: {resumen_global}")

    # C. Semantic Chunking
    splitter = SemanticSplitterNodeParser(
        buffer_size=1, 
        breakpoint_percentile_threshold=95, 
        embed_model=Settings.embed_model
    )
    nodes = splitter.get_nodes_from_documents(documents)
    print(f"‚úÇÔ∏è [3/4] Generados {len(nodes)} chunks sem√°nticos.")

    # D. Enriquecimiento (Loop de Extracci√≥n)
    print("üî¨ [4/4] Extrayendo m/z y RT...")
    nodes_enriquecidos = []
    
    for node in nodes:
        # Inyectar Contexto Global (CDE) en la metadata
        node.metadata["global_context"] = resumen_global
        node.metadata["file_name"] = os.path.basename(file_path) # Asegurar nombre de archivo
        
        try:
            # Extracci√≥n Estructurada con LangChain
            data = metadata_extractor.invoke(node.get_content())
            
            # Guardamos solo si hay datos valiosos
            if data.mz_value is not None:
                print(f"      ‚úÖ Feature: m/z {data.mz_value} ({data.compound_name})")
                node.metadata.update(data.model_dump(exclude_none=True))
        except Exception:
            pass # Continuar si falla un chunk espec√≠fico
            
        nodes_enriquecidos.append(node)

    return nodes_enriquecidos

In [6]:
import glob

# ==========================================================
# 5. EJECUCI√ìN PRINCIPAL (CON RUTA RELATIVA CORREGIDA)
# ==========================================================

async def main_ingest():
    # 1. Detectar archivos en la carpeta '../data'
    # '..' significa subir un nivel (salir de notebooks)
    # 'data/*.pdf' significa entrar a data y buscar todo lo que termine en .pdf
    ruta_data = os.path.join("..", "data", "*.pdf")
    pdf_files = glob.glob(ruta_data)
    
    print(f"üìÇ Buscando archivos en: {ruta_data}")
    
    if not pdf_files:
        print("‚ùå No se encontraron PDFs en la carpeta '../data'. Verifica la ruta.")
        # Imprimir directorio actual para depurar
        print(f"   (Directorio actual del notebook: {os.getcwd()})")
        return None

    print(f"‚úÖ Se encontraron {len(pdf_files)} archivos PDF: {[os.path.basename(f) for f in pdf_files]}")

    # 2. Conexi√≥n Vector Store -> Tu Cliente Qdrant
    vector_store = QdrantVectorStore(
        client=qdrant_client,           
        collection_name=COLLECTION_NAME,
        enable_hybrid=True,             
        batch_size=20
    )
    storage_context = StorageContext.from_defaults(vector_store=vector_store)

    all_nodes = []
    
    # 3. Procesamiento de Archivos encontrados
    for pdf in pdf_files:
        try:
            nodes = await procesar_pdf_completo(pdf)
            all_nodes.extend(nodes)
        except Exception as e:
            print(f"‚ö†Ô∏è Error procesando {os.path.basename(pdf)}: {e}")

    if not all_nodes:
        print("‚ùå No se generaron nodos v√°lidos.")
        return None

    # 4. Indexaci√≥n
    print("\nüöÄ Subiendo vectores a Qdrant Cloud...")
    index = VectorStoreIndex(
        all_nodes,
        storage_context=storage_context,
        embed_model=Settings.embed_model
    )
    print(f"‚úÖ ¬°Ingesta completada! {len(all_nodes)} fragmentos subidos.")
    return index

# --- EJECUTAR ---
index = await main_ingest()

üìÇ Buscando archivos en: ../data/*.pdf
‚úÖ Se encontraron 1 archivos PDF: ['1-s2.0-S0022316622152399-main.pdf']

üìÑ [1/4] Parseando PDF: ../data/1-s2.0-S0022316622152399-main.pdf
Started parsing the file under job_id f7e333c4-0935-4254-82f0-11b175401e8e
.üß† [2/4] Generando Contexto Global (CDE)...
      Contexto: El objetivo principal del estudio fue investigar la absorci√≥n y el metabolismo de los antocianinas (ACN) en mujeres ancianas tras el consumo de extracto de sa√∫co o ar√°ndano, identificando los metabolitos en la orina. La muestra analizada consisti√≥ en cuatro mujeres ancianas que consumieron 12 g de extracto de sa√∫co y seis mujeres ancianas que ingirieron 189 g de ar√°ndano bajo, evaluando la excreci√≥n de ACN en orina y plasma.
‚úÇÔ∏è [3/4] Generados 34 chunks sem√°nticos.
üî¨ [4/4] Extrayendo m/z y RT...
      ‚úÖ Feature: m/z 287.1 (Cyanidin-3-glucoside)
      ‚úÖ Feature: m/z 250.123 (Caffeine)
      ‚úÖ Feature: m/z 1865.0 (None)
      ‚úÖ Feature: m/z 0.0 (3-O-

## Simulaci√≥n del retrieval

In [9]:
import os
from dotenv import load_dotenv
from qdrant_client import QdrantClient
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_index.core.vector_stores import MetadataFilters, MetadataFilter, FilterOperator
from llama_index.core import VectorStoreIndex, Settings
from llama_index.embeddings.openai import OpenAIEmbedding

# 1. Cargar Credenciales
load_dotenv()

# Configurar el modelo de embedding (debe ser el mismo que usaste en la ingesta)
Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small")

# 2. Conectar a tu Base de Datos Existente
client = QdrantClient(
    url=os.getenv("QDRANT_URL"),
    api_key=os.getenv("QDRANT_API_KEY"),
)

vector_store = QdrantVectorStore(
    client=client,
    collection_name="metabolomics_agent_db", # <--- La misma colecci√≥n que creaste
    enable_hybrid=True # <--- Importante para buscar por texto + sem√°ntica
)

# Reconstruimos el √≠ndice desde Qdrant (no lo crea de nuevo, solo se conecta)
index = VectorStoreIndex.from_vector_store(vector_store=vector_store)

# ==========================================
# 3. SIMULACI√ìN DE CONSULTA DEL PROYECTO
# ==========================================

# üîπ ESCENARIO: El usuario busca m/z 449.1
# En tu log vimos que detect√≥ "Cyanidin-3-O-Œ≤-glucoside" con m/z 449.1
MZ_TARGET = 449.1 
TOLERANCIA = 0.5 # +/- 0.5 Da de margen de error

print(f"üîé Buscando features con m/z entre {MZ_TARGET - TOLERANCIA} y {MZ_TARGET + TOLERANCIA}...")

# A. Definir Filtros (Solo traer documentos con ese rango de masa)
filters = MetadataFilters(
    filters=[
        MetadataFilter(
            key="mz_value", 
            operator=FilterOperator.GTE, 
            value=MZ_TARGET - TOLERANCIA
        ),
        MetadataFilter(
            key="mz_value", 
            operator=FilterOperator.LTE, 
            value=MZ_TARGET + TOLERANCIA
        ),
    ]
)

# B. Configurar el Motor de Recuperaci√≥n (Retriever)
retriever = index.as_retriever(
    filters=filters,      # Aplicar filtro num√©rico primero
    similarity_top_k=3,   # Traer los 3 mejores chunks
    vector_store_kwargs={"qdrant_client": client}
)

# C. Ejecutar la Pregunta
# Preguntamos por "bioactividad" para usar la b√∫squeda h√≠brida (Sem√°ntica)
results = retriever.retrieve("¬øQu√© compuesto es y qu√© bioactividad tiene?")

# 4. Mostrar Resultados
if not results:
    print("‚ùå No se encontraron coincidencias.")
else:
    print(f"‚úÖ Se encontraron {len(results)} documentos relevantes:\n")
    for i, res in enumerate(results):
        meta = res.metadata
        print(f"--- Resultado {i+1} ---")
        print(f"üìÑ Archivo: {meta.get('file_name')}")
        print(f"üß™ Feature Detectada: m/z {meta.get('mz_value')} | Nombre: {meta.get('compound_name')}")
        print(f"üìù Fragmento del texto:\n\"{res.get_content()[:200]}...\"\n")

üîé Buscando features con m/z entre 448.6 y 449.6...
‚úÖ Se encontraron 3 documentos relevantes:

--- Resultado 1 ---
üìÑ Archivo: 1-s2.0-S0022316622152399-main.pdf
üß™ Feature Detectada: m/z 449.1 | Nombre: Peonidin 3-glucoside
üìù Fragmento del texto:
"
ANTHOCYANIN METABOLITES IN HUMANS
lower detection limit under our current conditions would be 0.005 mg/L (based on cyanidin-3-glucoside).

# DISCUSSION

ACN have been considered to not be absorbed in..."

--- Resultado 2 ---
üìÑ Archivo: 1-s2.0-S0022316622152399-main.pdf
üß™ Feature Detectada: m/z 449.1 | Nombre: Peonidin-3-glucoside
üìù Fragmento del texto:
"Two possible pathways could describe the formation of this metabolite (Fig. 6). Cyanidin-3-glucoside could be absorbed intact and some methylated to form peonidin-3-glucoside in the liver (Fig. 6; Pat..."

--- Resultado 3 ---
üìÑ Archivo: 1-s2.0-S0022316622152399-main.pdf
üß™ Feature Detectada: m/z 449.1 | Nombre: Cyanidin-3-O-Œ≤-glucoside
üìù Fragmento del texto:
"The 

In [11]:
from langchain.messages import SystemMessage, HumanMessage

# ==========================================
# PASO 3: GENERACI√ìN DE RESPUESTA (LLM)
# ==========================================

def generar_reporte_final(query_usuario, resultados_recuperados, llm):
    """
    Toma la pregunta del usuario y los chunks recuperados de Qdrant
    para generar una respuesta cient√≠fica sintetizada.
    """
    
    # 1. Preparar el Contexto (Unir los fragmentos recuperados)
    contexto_texto = ""
    for i, res in enumerate(resultados_recuperados):
        meta = res.metadata
        contexto_texto += f"""
        [Documento {i+1}]
        - Fuente: {meta.get('file_name')}
        - Compuesto Detectado: {meta.get('compound_name')} (m/z {meta.get('mz_value')})
        - Fragmento: "{res.get_content()}"
        -------------------------------------------
        """

    # 2. Crear el Prompt para el Experto
    prompt_sistema = """
    Eres un asistente experto en Metabol√≥mica y Qu√≠mica Anal√≠tica.
    Tu tarea es responder a la consulta del investigador bas√°ndote EXCLUSIVAMENTE en el contexto proporcionado.
    
    Reglas:
    1. Identifica el compuesto putativo bas√°ndote en el m/z y RT si est√°n disponibles.
    2. Resume las bioactividades mencionadas en el texto recuperado.
    3. Cita la fuente (Documento X) para cada afirmaci√≥n.
    4. Si hay varios candidatos con el mismo m/z (is√≥meros), menci√≥nalos y explica la diferencia si el texto lo dice.
    5. S√© conciso y profesional.
    """

    prompt_usuario = f"""
    Consulta del Investigador: "{query_usuario}"
    
    Contexto Recuperado de la Base de Datos Interna:
    {contexto_texto}
    
    Por favor, genera el informe de anotaci√≥n funcional:
    """

    # 3. Invocar al LLM (Usando tu modelo llm_chat de LangChain ya configurado)
    mensajes = [
        SystemMessage(content=prompt_sistema),
        HumanMessage(content=prompt_usuario)
    ]
    
    print("ü§ñ Generando respuesta final...")
    respuesta = llm.invoke(mensajes)
    
    return respuesta.content

# --- EJECUCI√ìN ---
# Usamos los 'results' que obtuviste en la celda anterior
query = "¬øQu√© compuesto es y qu√© bioactividad tiene?"
informe_final = generar_reporte_final(query, results, llm_chat)

print("\n" + "="*50)
print("üìù INFORME FINAL DEL AGENTE RAG")
print("="*50)
print(informe_final)

ü§ñ Generando respuesta final...

üìù INFORME FINAL DEL AGENTE RAG
**Compuesto Putativo:**
El compuesto detectado es Peonidin 3-glucoside, con un m/z de 449.1. Tambi√©n se menciona Cyanidin-3-O-Œ≤-glucoside, que comparte el mismo m/z (449.1), pero se diferencia en su estructura qu√≠mica, ya que el primero es un derivado de peonidina y el segundo de cianidina. La diferencia radica en la sustituci√≥n de grupos en la estructura de los flavonoides (Documento 1, Documento 3).

**Bioactividad:**
1. Se ha discutido que los antocianos (ACN) como el Peonidin 3-glucoside pueden ser absorbidos en el cuerpo humano, lo que sugiere que podr√≠an tener efectos bioactivos, aunque su absorci√≥n puede depender de la presencia de az√∫cares y otros factores (Documento 1).
2. Se ha propuesto que el Peonidin 3-glucoside podr√≠a ser metabolizado en el h√≠gado a trav√©s de la formaci√≥n de glucur√≥nidos, lo que podr√≠a influir en su actividad biol√≥gica y en la eliminaci√≥n de xenobi√≥ticos (Documento 2).

*