# LangChain para INVIAS

## üîí 1. Instalaci√≥n de librer√≠as

### üîì  Solo ejecutar este script si no se han instalado los paquetes para desarrollar el c√≥digo

In [None]:
""" 
Lista de los paquetes a instalar:

    upgrade:
        pip
        setuptools
        wheel
    Packages:
        langchain 
        pypdf 
        openai 
        chromadb 
        tiktoken
        langchain-community
"""
import subprocess

comandos = [
    ["pip", "install", "--upgrade", "pip", "setuptools", "wheel"],
    ["pip", "install", "langchain", "pypdf", "openai", "chromadb", "tiktoken"],
    ["pip", "install", "-U", "langchain-community"],
    ["python", "-m", "pip", "install", "--upgrade", "pip"]
]

log_path = "instalacion_log.txt"

with open(log_path, "w", encoding="utf-8") as log_file:
    for i, cmd in enumerate(comandos, start=1):
        log_file.write(f"\nüîß Ejecutando comando {i}: {' '.join(cmd)}\n")
        result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        
        log_file.write("‚úÖ STDOUT:\n")
        log_file.write(result.stdout + "\n")
        
        if result.stderr:
            log_file.write("‚ö†Ô∏è STDERR:\n")
            log_file.write(result.stderr + "\n")

print(f"‚úÖ Resultado guardado en {log_path}")


## üü¢ 2. Configuraci√≥n de API Key de OpenAI

In [1]:
import os
from openai import OpenAI
# Recuperar la clave API de la variable de entorno
api_key_environ = os.environ.get("OPENAI_API_KEY")
 
# Verificar que la clave API est√© disponible
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada o est√° vac√≠a.")
 
# Inicializar el cliente de OpenAI con la clave API
client = OpenAI(api_key=api_key_environ)
 
# Usar el cliente para tus tareas
print("¬°Cliente de OpenAI inicializado correctamente!")

¬°Cliente de OpenAI inicializado correctamente!


## üîí 3. Carga de documents

### üîì  Solo ejecutar este script si no se ha hecho el proceso de embedding

In [None]:
import requests
from langchain.document_loaders import PyPDFLoader
import os

relative_pdf_path = "../../../assets/DG_docs/PDFs_test/"

ml_papers = []

for i, file_name in enumerate(os.listdir(relative_pdf_path)):
    if file_name.lower().endswith(".pdf"):
        full_pdf_path = os.path.join(relative_pdf_path,file_name)
        print(f"üìÑ Cargando {file_name}")

        loader = PyPDFLoader(full_pdf_path)
        data = loader.load() # AI_Queries\code_explanation\ai_query-langc_v01-PyPDFLoader(filename).loader.load()_usage.md
        ml_papers.extend(data) # AI_Queries\code_explanation\ai_query-langc_v01-.extend_usage.md
        # print (ml_papers) # AI_Queries/code_explanation/ai_query-langc_v01-list_start_end_usage.md
# Utiliza la lista ml_papers para acceder a los elementos de todos los documentos descargados
print('Esto es todo el contenido de `ml_papers:`')
print(f"""
üÜó Todos los documentos estan cargados en ml_papers.
‚ûñ Total de fragmentos: {len(ml_papers)}
‚ûñ Los fragmentos son cada una de las hojas de cada uno de los {len(os.listdir(relative_pdf_path))} archivos en la carpeta {relative_pdf_path}
‚ûñ Este script se ejecuta desde {os.getcwd()}
‚ûñ Este es el contenido de la √∫ltima hoja cargada {ml_papers[-1]}
""")

## üîí 4. Split de documents

### üîì Solo ejecutar este script para desarrollar el proceso de embedding; este script depende del script anterior 

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500, 
    # AI_Queries\code_explanation\ai_query-langc_v01-chunk_usage.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-max_tokens_Chatgptmodels.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-meaning_inputpromptandanswer.md 
    # AI_Queries\code_explanation\ai_query-langc_v01-retrieval_meaning.md
    
    chunk_overlap=200,
    length_function=len
    )

documents = text_splitter.split_documents(ml_papers)

In [None]:
len(documents), documents[0]

## üîí 5. Embeddings e ingesta a base de datos vectorial 

‚ö†Ô∏è advertencia de uso de esta secci√≥n ‚ö†Ô∏è

### üîì 5.1. Solo ejecutar este script para desarrolla el proceso de embedding; este script depende del script anterior

**Aqu√≠ se consume recurso de la API de OpenAI**

In [None]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# AI_Queries\code_explanation\ai_query-langc_v01-Embeddings_and_Vector_Store_Ingestion.md

# 1. Crear embeddings con el modelo oficial de OpenAI
embeddings = OpenAIEmbeddings(model="text-embedding-3-small") # ‚ö†Ô∏è cambiar a "text-embedding-3-small"

# 2. Definir carpeta para almacenar la base de datos vectorial
persist_directory = "chroma_db" #

# 3. Crear la base desde documentos y embeddings
vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings,
    persist_directory=persist_directory
)

# 4. Guardar la base en disco
vectorstore.persist()
print("‚úÖ Base de datos Chroma guardada en:", persist_directory)


# 5. Cargar la base vectorial guardada en disco
vectorstore = Chroma(
    embedding_function=embeddings,
    persist_directory="chroma_db"
)

# 6. Usar como retriever
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 3}
    )

### 5.2. üü¢

Fue necesario crear copia de las lineas "*# 1. Crear embeddings con el modelo oficial de OpenAI*", "*# 5. Cargar la base vectorial guardada en disco*" y "*# 6. Usar como retriever*" para **solamente hacer uso de la Based de Datos de embeddings `chroma_db` ya creada y evitar recalcularla**.

In [2]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# 1. Modelo de embeddings (debe ser el mismo usado al crear la base)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")  # ‚ö†Ô∏è cambiar a "text-embedding-3-small"

# 5. Cargar la base vectorial guardada en disco
vectorstore = Chroma(
    embedding_function=embeddings,
    persist_directory="chroma_db"
)

# 6. Usar como retriever
retriever = vectorstore.as_retriever(
    search_kwargs={"k": 5}
)

  embeddings = OpenAIEmbeddings(model="text-embedding-3-small")  # ‚ö†Ô∏è cambiar a "text-embedding-3-small"
  vectorstore = Chroma(


## 6. Modelos de chat y cadenas para consulta de informaci√≥n

### üö© 6.1. Recuperaci√≥n sin trazabilidad ‚Äì Primer acercamiento con LangChain; ~~No cita las fuentes de donde extrae la informaci√≥n~~.

In [None]:
#AI_Queries/code_explanation/ai_query-langc_v01-Chat_Models_and_Retrieval_Chains_for_Information_Querying.md

from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

chat = ChatOpenAI(
    openai_api_key=api_key_environ,
    model_name='gpt-3.5-turbo',
    temperature=0.0
)

# AI_Queries/code_explanation/ai_query-langc_v01-RetrievalQA.from_chain_type_usage.md
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    chain_type="stuff",
    retriever=retriever
)

In [None]:
# AI_Queries/code_explanation/ai_query-langc_v01-qa_chain.run()_usage.md

query = "qu√© es CCPT?"
qa_chain.run(query)

üß† Comparaci√≥n entre Script 1 y Script 2

| Aspecto                           | **Script anterior**                                 | **Script siguiente**                                                       |
| --------------------------------- | --------------------------------------------------- | -------------------------------------------------------------------------- |
| **Importaci√≥n del modelo**        | `from langchain.chat_models` (obsoleto)             | `from langchain_openai` (recomendado)                                      |
| **Versi√≥n del API**               | Antiguo LangChain monol√≠tico                        | Nuevo ecosistema modular `langchain-openai`                                |
| **M√©todo de ejecuci√≥n**           | `qa_chain.run(query)` (‚ö†Ô∏è obsoleto)                 | `qa_chain.invoke({"query": query})` (‚úÖ recomendado)                        |
| **Fuentes del resultado**         | ‚ùå No devuelve los documentos fuente                 | ‚úÖ Incluye los documentos fuente con `return_source_documents=True`         |
| **Retorno estructurado**          | S√≥lo devuelve texto plano                           | Devuelve un diccionario con respuesta y `source_documents`                 |
| **Transparencia institucional**   | Baja (no se puede verificar origen de la respuesta) | Alta (permite validar en qu√© parte de los documentos se basa la respuesta) |
| **Uso pedag√≥gico recomendado**    | Para introducir conceptos b√°sicos de `RetrievalQA`  | Para ense√±ar buenas pr√°cticas actuales en trazabilidad y uso del LLM       |
| **Estabilidad futura del c√≥digo** | Baja (usa m√≥dulos y m√©todos deprecados)             | Alta (adaptado a la versi√≥n estable y mantenida de LangChain)              |

### (üö©Revisar por qu√© no est√° gerendo resultadosüö©) 6.2. Con recuperaci√≥n b√°sica ‚Äì El sistema responde y cita fuentes

In [None]:
from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA

# Inicializa el modelo de lenguaje
chat = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0.0,
    openai_api_key=api_key_environ
)

# Crear la cadena de preguntas y respuestas con fuentes
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True  # ‚úÖ Para obtener las fuentes
)

In [None]:
query = " que pasa en Oca√±a?"
result = qa_chain.invoke({"query": query})

# Imprimir respuesta
print("üß† Respuesta:")
print(result['result'])

# Imprimir fuentes
print("\nüìö Fuentes:")
for i, doc in enumerate(result['source_documents']):
    print(f"\nFuente {i+1}:")
    print("Archivo:", doc.metadata.get("source", "desconocido"))
    print("Contenido:", doc.page_content[:400])  # Muestra primeros 400 caracteres


üß† Comparaci√≥n entre Script 1 y Script 2

| Aspecto                           | **Script anterior**                                 | **Script actual**                                                       |
| --------------------------------- | --------------------------------------------------- | -------------------------------------------------------------------------- |
| **Importaci√≥n del modelo**        | `from langchain.chat_models` (obsoleto)             | `from langchain_openai` (recomendado)                                      |
| **Versi√≥n del API**               | Antiguo LangChain monol√≠tico                        | Nuevo ecosistema modular `langchain-openai`                                |
| **M√©todo de ejecuci√≥n**           | `qa_chain.run(query)` (‚ö†Ô∏è obsoleto)                 | `qa_chain.invoke({"query": query})` (‚úÖ recomendado)                        |
| **Fuentes del resultado**         | ‚ùå No devuelve los documentos fuente                 | ‚úÖ Incluye los documentos fuente con `return_source_documents=True`         |
| **Retorno estructurado**          | S√≥lo devuelve texto plano                           | Devuelve un diccionario con respuesta y `source_documents`                 |
| **Transparencia institucional**   | Baja (no se puede verificar origen de la respuesta) | Alta (permite validar en qu√© parte de los documentos se basa la respuesta) |
| **Uso pedag√≥gico recomendado**    | Para introducir conceptos b√°sicos de `RetrievalQA`  | Para ense√±ar buenas pr√°cticas actuales en trazabilidad y uso del LLM       |
| **Estabilidad futura del c√≥digo** | Baja (usa m√≥dulos y m√©todos deprecados)             | Alta (adaptado a la versi√≥n estable y mantenida de LangChain)              |

üß† Diferencias clave entre ambos scripts

| Caracter√≠stica       | Script con `create_retrieval_chain` (moderno, script siguiente)            | Script con `RetrievalQA.from_chain_type` (cl√°sico, script anterior) |
| -------------------- | -------------------------------------------------------- | -------------------------------------------------- |
| API utilizada        | Moderna (modular, flexible)                              | Cl√°sica (m√°s sencilla, menos control)              |
| Cadena usada         | `create_retrieval_chain` + `combine_docs_chain`          | `RetrievalQA.from_chain_type`                      |
| Prompt               | Totalmente personalizado con `PromptTemplate`            | Interno, no configurable por defecto               |
| Control de flujo     | Separaci√≥n clara de pasos (`retriever`, `prompt`, `LLM`) | Todo en una sola l√≠nea                             |
| Adaptabilidad futura | Alta (recomendado en versiones recientes)                | Limitada (deprecated en versiones nuevas)          |


### 6.3. Con recuperaci√≥n moderna ‚Äì El sistema responde y muestra fuentes

#### üü¢ 6.3.0. Retriever

In [3]:
from langchain.prompts import PromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains.retrieval import create_retrieval_chain
from langchain_openai import ChatOpenAI

# 1. LLM moderno
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.0, api_key=api_key_environ)

# 2. Prompt simple para combinar documentos
prompt = PromptTemplate.from_template(
    "Usa los siguientes documentos para responder la pregunta.\n\n{context}\n\nPregunta: {input}"
)

# 3. Cadena para combinar documentos (tipo "stuff")
combine_docs_chain = create_stuff_documents_chain(
    llm=llm,
    prompt=prompt
)

# 4. Cadena de recuperaci√≥n completa con el retriever
qa_chain = create_retrieval_chain(
    retriever=retriever,
    combine_docs_chain=combine_docs_chain
)


In [4]:
response = qa_chain.invoke({"input": " deme un listado de los documentos donde se menciona CCPT?"})

print("üß† Respuesta:")
print(response["answer"])

print("\nüìö Documentos usados:")
for i, doc in enumerate(response["context"]):
    print(f"\nFuente {i+1}:", doc.metadata.get("source", "desconocido"))
    print(doc.page_content[:300])


üß† Respuesta:
1. Convenios-Contratos suscritos CCPT
2. Anexo No. 1 - Convenios-Contratos suscritos CCPT
3. Consolidado CCPT Detallado
4. Convenios CCPT.xlsx

üìö Documentos usados:

Fuente 1: ../../../assets/DG_docs/PDF_test_gradio/2025S-VBOG-005929.pdf
que en el documento adjunto mencionado en la respuesta al numeral 1¬∫ de la petici√≥n y que se denomina ‚ÄúConvenios-Contratos suscritos CCPT‚Äù , se relaciona la totalidad de los convenios y contratos suscritos en el marco del programa Caminos Comunitarios de la Paz Total, especificando los convenios cel

Fuente 2: ../../../assets/DG_docs/PDF_test_gradio/2025S-VBOG-020627.pdf
En la parte final de la presente respuesta usted encontrar√° un enlace donde podr√° evidenciar un archivo denominado ‚ÄúAnexo No. 1 - Convenios-Contratos suscritos CCPT‚Äù all√≠ encontrar√° la relaci√≥n de convenios y contratos suscritos en las vigencias 2023 ‚Äì 2024 con la informaci√≥n del departamento, munic

Fuente 3: ../../../assets/DG_docs/PDF_test_gradio

üß† Diferencias clave entre ambos scripts

| Caracter√≠stica       | Script con `create_retrieval_chain` (moderno)            | Script con `RetrievalQA.from_chain_type` (cl√°sico) |
| -------------------- | -------------------------------------------------------- | -------------------------------------------------- |
| API utilizada        | Moderna (modular, flexible)                              | Cl√°sica (m√°s sencilla, menos control)              |
| Cadena usada         | `create_retrieval_chain` + `combine_docs_chain`          | `RetrievalQA.from_chain_type`                      |
| Prompt               | Totalmente personalizado con `PromptTemplate`            | Interno, no configurable por defecto               |
| Control de flujo     | Separaci√≥n clara de pasos (`retriever`, `prompt`, `LLM`) | Todo en una sola l√≠nea                             |
| Adaptabilidad futura | Alta (recomendado en versiones recientes)                | Limitada (deprecated en versiones nuevas)          |


#### üü¢ 6.3.1 Gradio para seccion 6.3.

In [5]:
import gradio as gr

# Funci√≥n para manejar la entrada y salida de QA Chain
def ask_question(question: str):
    # Invoca la cadena con la pregunta del usuario
    response = qa_chain.invoke({"input": question})
    # Extrae la respuesta
    answer = response.get("answer", "")
    # Construye la lista de fuentes y fragmentos
    context_snippets = []
    for i, doc in enumerate(response.get("context", [])):
        source = doc.metadata.get("source", "desconocido")
        snippet = doc.page_content[:300].replace("\n", " ")  # primeras 300 chars
        context_snippets.append(f"Fuente {i+1}: {source}\n{snippet}")
    context_text = "\n\n".join(context_snippets)
    return answer, context_text

# Definici√≥n de la interfaz de Gradio
iface = gr.Interface(
    fn=ask_question,
    inputs=gr.Textbox(lines=2, placeholder="Ingrese su pregunta aqu√≠‚Ä¶"),
    outputs=[
        gr.Textbox(label="Respuesta"),
        gr.Textbox(label="Documentos usados")
    ],
    title="Interfaz QA con LangChain",
    description="Ingrese una consulta y obtenga la respuesta junto con las fuentes utilizadas."
)

# Lanzar la aplicaci√≥n (en local o con share=True para exponerla)
iface.launch()
#iface.launch(share=True)


* Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




#### 6.3.2 ‚ùå Fall√≥ la busqueda ‚ùå

Entendido. Tu sospecha es excelente y es el camino correcto para diagnosticar el problema en un sistema RAG (B√∫squeda y Generaci√≥n Aumentada). Si el sistema no encuentra la informaci√≥n correcta, el problema casi siempre est√° en la etapa de **recuperaci√≥n (*retrieval*)**, no en el modelo de lenguaje que genera la respuesta final.

Vamos a crear un "test de recuperaci√≥n" para verificar exactamente qu√© informaci√≥n est√° encontrando el sistema antes de intentar responder. Este test nos permitir√° aislar el problema.

##### Objetivo del Test: Evaluar al `Retriever`

El `retriever` es el componente encargado de buscar en tu base de datos vectorial (ChromaDB) los fragmentos de texto m√°s relevantes para la pregunta que haces. Si no le entrega los fragmentos correctos al modelo de lenguaje (LLM), es imposible que el LLM genere una buena respuesta.

Vamos a ejecutar el `retriever` de forma aislada para inspeccionar su "trabajo".

---

##### Paso 1: Escoge un Caso de Prueba Espec√≠fico

Primero, necesitas un "caso de oro" que puedas verificar manualmente.

1.  **Busca en tus PDFs:** Abre uno de los documentos PDF que usaste para crear la base de datos. Encuentra un dato muy espec√≠fico y √∫nico. Por ejemplo, el nombre de un proyecto, un n√∫mero de contrato, una fecha clave o una frase t√©cnica.
2.  **Define tu "Golden Pair":**
    * **Pregunta de prueba:** Formula una pregunta que *deber√≠a* encontrar ese dato. Ejemplo: `"¬øCu√°l es el n√∫mero del contrato para el mantenimiento de la v√≠a Oca√±a-C√∫cuta?"`
    * **Contenido esperado:** Anota la frase o las palabras clave que *obligatoriamente* deben estar en los fragmentos recuperados para poder responder la pregunta. Ejemplo: `"contrato de obra p√∫blica No. 2345-2023"`.

##### Paso 2: C√≥digo para Ejecutar el Test

He preparado una versi√≥n simplificada de tu script que se enfoca **√∫nicamente en realizar este test**. No utilizaremos el LLM para generar respuestas, solo para cargar los embeddings y usar el `retriever`.

Copia y ejecuta el siguiente c√≥digo. Aseg√∫rate de modificar las variables de la secci√≥n "CONFIGURACI√ìN DEL TEST".

```python
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "que pasa en Oca√±a?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["Oca√±a", "emergencia", "deslizamiento"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

```

##### ¬øC√≥mo Interpretar los Resultados?

1.  **Si el veredicto es "√âXITO"**: Significa que tu base de datos y tu `retriever` funcionan correctamente. El problema podr√≠a estar en el `prompt` que le das al LLM o en el propio LLM (aunque es menos probable).
2.  **Si el veredicto es "FALLO"**: Confirma tu sospecha. El problema est√° en la base de conocimiento. El sistema no es capaz de encontrar los fragmentos de texto relevantes.

##### ¬øQu√© Hacer si el Test Falla?

Si el test falla, aqu√≠ tienes las causas m√°s probables y c√≥mo solucionarlas:

1.  **Problema con la Divisi√≥n de Texto (`chunking`)**:
    * **Causa**: El `chunk_size=1500` puede ser muy grande, y la informaci√≥n clave se "diluye" con texto irrelevante en el mismo fragmento. O puede ser muy peque√±o y parte una frase importante.
    * **Soluci√≥n**: Prueba a regenerar tu base de datos con un `chunk_size` m√°s peque√±o (ej. 1000) y un `chunk_overlap` mayor (ej. 250). Esto crea m√°s fragmentos, pero m√°s enfocados.

2.  **Problema con la Extracci√≥n de Texto del PDF**:
    * **Causa**: Algunos PDFs son en realidad im√°genes de texto (escaneados). `PyPDFLoader` no puede leer texto de im√°genes.
    * **Soluci√≥n**: Verifica el contenido de tus documentos justo despu√©s de cargarlos (la variable `ml_papers` en tu script original). Si ves caracteres extra√±os o texto sin sentido, necesitas usar una herramienta de **OCR (Reconocimiento √ìptico de Caracteres)** para extraer el texto de esos PDFs antes de pasarlos a LangChain.

3.  **Problema con el Modelo de Embeddings**:
    * **Causa**: `text-embedding-ada-002` es un modelo m√°s antiguo. Puede que no est√© capturando el significado sem√°ntico de tu pregunta con la suficiente precisi√≥n.
    * **Soluci√≥n**: Regenera tu base de datos usando un modelo m√°s moderno y potente como `"text-embedding-3-small"` (m√°s barato y eficiente) o `"text-embedding-3-large"` (m√°xima calidad). Tu propio c√≥digo ya tiene un comentario sugiriendo este cambio.

Ejecuta este test y, seg√∫n el resultado, podremos enfocarnos en la soluci√≥n correcta.

##### 6.3.2.1. Analisis del documento 73SentenciaTutela.pdf by GEMINI

Excelente. He analizado el documento `73SentenciaTutela.pdf` y he extra√≠do varios datos espec√≠ficos y √∫nicos que nos servir√°n perfectamente para crear los "casos de oro" y probar la eficacia de tu sistema de recuperaci√≥n de informaci√≥n.

A continuaci√≥n, te presento 3 casos de prueba con diferentes niveles de especificidad. Podemos usar uno o todos para diagnosticar tu sistema.

---

###### Caso de Prueba 1: **N√∫mero de Radicaci√≥n (Dato √önico)**

Este es el dato m√°s espec√≠fico y f√°cil de verificar. Es ideal para una primera prueba.

* [cite_start]**Dato espec√≠fico encontrado:** El n√∫mero de radicaci√≥n del proceso de tutela es `080013187005202500020-00`[cite: 1, 7, 15, 23, 29, 37, 47, 55, 64, 74, 86, 94, 101, 110, 116, 125, 132, 140, 145, 149, 154, 163, 171, 180, 187, 195, 206, 222, 231, 239, 255, 262, 269, 276, 286, 297, 305, 313, 323, 329].
* **Pregunta de prueba sugerida:** `¬øCu√°l es el n√∫mero de radicaci√≥n de la acci√≥n de tutela de Gersel Luis P√©rez Altamiranda?`
* **Contenido esperado (palabras clave):** El `retriever` debe devolver fragmentos que contengan obligatoriamente la cadena `080013187005202500020-00`.

###### Caso de Prueba 2: **Nombre de Resoluci√≥n (Dato Espec√≠fico)**

Este caso prueba si el sistema puede asociar una acci√≥n (distribuir un cobro) con un acto administrativo concreto.

* [cite_start]**Dato espec√≠fico encontrado:** La `Resoluci√≥n No. 3856 de 26 de agosto de 2024` es la que distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n[cite: 9, 11].
* **Pregunta de prueba sugerida:** `¬øQu√© resoluci√≥n distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n para el proyecto Circunvalar de la Prosperidad?`
* **Contenido esperado (palabras clave):** El `retriever` deber√≠a encontrar fragmentos que incluyan `Resoluci√≥n No. 3856` y `distribuye el cobro`.

###### Caso de Prueba 3: **Concepto Jur√≠dico y Condici√≥n (Dato Complejo)**

Este caso es m√°s avanzado. Eval√∫a si el sistema puede encontrar informaci√≥n conceptual y sus condiciones, no solo datos literales.

* [cite_start]**Dato espec√≠fico encontrado:** La Ley 1819 de 2016, en su art√≠culo 253, excluye del cobro de valorizaci√≥n a "las tierras comunales de grupos √©tnicos, las tierras de resguardo y el patrimonio arqueol√≥gico y cultural de la naci√≥n, cuando su titularidad radique en una entidad de derecho p√∫blico"[cite: 112, 127, 166, 235].
* **Pregunta de prueba sugerida:** `¬øBajo qu√© condici√≥n est√°n excluidas del cobro de valorizaci√≥n las tierras de grupos √©tnicos?`
* **Contenido esperado (palabras clave):** El `retriever` debe recuperar fragmentos que contengan `excluidos`, `tierras comunales`, `grupos √©tnicos` y, crucialmente, `titularidad radique en una entidad de derecho p√∫blico`.

---

**Siguiente Paso Sugerido:**

Ahora que tenemos estos casos, te propongo que elijas uno de ellos (recomiendo empezar por el **Caso de Prueba 1** por su simplicidad) y lo usemos en el script de test que te proporcion√© anteriormente.

Solo necesitas actualizar la secci√≥n `CONFIGURACI√ìN DEL TEST` en ese c√≥digo con la "Pregunta de prueba" y el "Contenido esperado" del caso que elijas. Al ejecutarlo, veremos inmediatamente si tu sistema puede encontrar esta informaci√≥n b√°sica en el PDF.

###### ü™õ PREGUNTA 1: ¬øCu√°l es el n√∫mero de radicaci√≥n de la acci√≥n de tutela de Gersel Luis P√©rez Altamiranda?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øCu√°l es el n√∫mero de radicaci√≥n de la acci√≥n de tutela de Gersel Luis P√©rez Altamiranda?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["080013187005202500020-00"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

###### ü™õ PREGUNTA 2: ¬øQu√© resoluci√≥n distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n para el proyecto Circunvalar de la Prosperidad?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øQu√© resoluci√≥n distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n para el proyecto Circunvalar de la Prosperidad?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["Resoluci√≥n No. 3856", "distribuye el cobro"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

###### ü™õ PREGUNTA 3: ¬øBajo qu√© condici√≥n est√°n excluidas del cobro de valorizaci√≥n las tierras de grupos √©tnicos?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øBajo qu√© condici√≥n est√°n excluidas del cobro de valorizaci√≥n las tierras de grupos √©tnicos?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["excluidos", "tierras comunales", "grupos √©tnicos", "titularidad radique en una entidad de derecho p√∫blico"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

##### 6.3.2.2. Diagn√≥stico Definitivo: Verifiquemos qu√© "lee" `PyPDFLoader`

Ok, este resultado es la pieza de informaci√≥n m√°s importante que podr√≠amos haber obtenido y confirma nuestras sospechas de la manera m√°s clara posible.

El hecho de que los tres tests hayan fallado, en especial el del **n√∫mero de radicaci√≥n** (que es un dato literal y √∫nico), nos dice con un 99% de certeza que el problema no est√° en la configuraci√≥n de la b√∫squeda (`chunk_size`), ni en el modelo de `embeddings`.

**El problema fundamental est√° en la extracci√≥n del texto del propio archivo PDF.**

Para usar una analog√≠a: le hemos pedido a nuestro sistema que busque una aguja en un pajar, pero al revisar el pajar, descubrimos que nunca metimos la aguja dentro. El "texto" que tu sistema tiene almacenado probablemente est√° corrupto, incompleto o es inexistente.

###### Diagn√≥stico Definitivo: Verifiquemos qu√© "lee" `PyPDFLoader`

La causa m√°s com√∫n de este fallo total es que el PDF (`73SentenciaTutela.pdf`) no es un documento de texto, sino un **conjunto de im√°genes escaneadas**. `PyPDFLoader` no puede leer texto de im√°genes, por lo que extrae caracteres sin sentido o simplemente cadenas vac√≠as.

Vamos a hacer un √∫ltimo test, el m√°s simple y revelador de todos. Ejecutemos un c√≥digo que solo cargue el PDF y nos muestre exactamente qu√© texto est√° extrayendo.

**C√≥digo de Diagn√≥stico de Extracci√≥n:**

```python
from langchain_community.document_loaders import PyPDFLoader
import os

# --- CONFIGURACI√ìN ---
# Aseg√∫rate de que el PDF est√© en la misma carpeta que este script,
# o proporciona la ruta completa.
PDF_PATH = "73SentenciaTutela.pdf" 

# --- L√ìGICA DE DIAGN√ìSTICO ---

print(f"üìÑ Intentando cargar el archivo: {PDF_PATH}")

if not os.path.exists(PDF_PATH):
    print(f"‚ùå ERROR: No se encontr√≥ el archivo en la ruta especificada.")
else:
    try:
        loader = PyPDFLoader(PDF_PATH)
        pages = loader.load()
        
        print(f"\n‚úÖ Archivo cargado. El PDF tiene {len(pages)} p√°ginas.")
        print("--- Mostrando el texto extra√≠do de las primeras 3 p√°ginas ---")
        
        for i in range(min(3, len(pages))):
            page_content = pages[i].page_content
            print(f"\n\n--- P√ÅGINA {i+1} ---")
            # Imprimimos solo los primeros 500 caracteres para no saturar la pantalla
            print(page_content[:500])
            if not page_content.strip():
                print(">>> ¬°ALERTA! El contenido de esta p√°gina est√° vac√≠o o solo contiene espacios.")

    except Exception as e:
        print(f"\n‚ùå Ocurri√≥ un error al cargar o procesar el PDF: {e}")

```

###### ¬øQu√© Esperamos Ver?

Ejecuta el c√≥digo anterior. El resultado nos dir√° todo:

  * **Resultado Esperado (si todo estuviera bien):** Ver√≠as el texto real de la sentencia, claramente legible. Por ejemplo: `Rama Judicial Consejo Superior de la Judicatura...`.
  * **Resultado Incorrecto (El m√°s probable):** Ver√°s una salida con texto sin sentido, s√≠mbolos extra√±os, o peor a√∫n, una salida completamente vac√≠a (`''`). **Esta es mi principal sospecha.**

-----

###### La Soluci√≥n: Usar OCR (Reconocimiento √ìptico de Caracteres)

Si confirmamos que el texto extra√≠do es basura o est√° vac√≠o, la soluci√≥n es procesar el PDF con una herramienta de **OCR**. Esto convierte las im√°genes de texto en texto real que LangChain s√≠ puede entender.

Aqu√≠ te explico c√≥mo modificar tu flujo de trabajo para incluir OCR.

####### 1\. Instalar las librer√≠as necesarias

Necesitar√°s instalar `pytesseract`, una librer√≠a de Python que interact√∫a con el motor de OCR de Google (Tesseract), y `pdf2image` para convertir las p√°ginas del PDF en im√°genes.

```bash
pip install pytesseract pdf2image Pillow
```

Adem√°s, debes **instalar el motor Tesseract de Google** en tu sistema. Las instrucciones var√≠an seg√∫n tu sistema operativo:

  * **Windows:** Descarga el instalador desde [este enlace oficial](https://www.google.com/search?q=https://github.com/UB-Mannheim/tesseract/wiki) y aseg√∫rate de a√±adir la ruta de instalaci√≥n al PATH de tu sistema.
  * **macOS:** `brew install tesseract`
  * **Linux (Debian/Ubuntu):** `sudo apt-get install tesseract-ocr`

####### 2\. Nuevo Proceso para Cargar Documentos con OCR

Ahora, en lugar de usar `PyPDFLoader`, usar√≠as una funci√≥n personalizada que primero hace OCR y luego crea los objetos `Document` que LangChain necesita.

Este ser√≠a el reemplazo para tu celda "Carga de documents":

```python
from pdf2image import convert_from_path
import pytesseract
from langchain.docstore.document import Document
import os

# --- CONFIGURACI√ìN ---
PDF_PATH = "73SentenciaTutela.pdf" # Ruta a tu PDF

# Si instalaste Tesseract en una ubicaci√≥n no est√°ndar (Windows),
# podr√≠as necesitar especificar la ruta aqu√≠.
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'


# --- FUNCI√ìN DE CARGA CON OCR ---
def load_pdf_with_ocr(file_path):
    """
    Carga un PDF, extrae texto de cada p√°gina usando OCR y devuelve
    una lista de objetos Document de LangChain.
    """
    print("üîÑ Convirtiendo p√°ginas de PDF a im√°genes...")
    images = convert_from_path(file_path)
    
    documents_ocr = []
    print(f"üîç Procesando {len(images)} p√°ginas con OCR...")
    
    for i, image in enumerate(images):
        # Usar Tesseract para extraer texto de la imagen
        # 'spa' es para espa√±ol
        text = pytesseract.image_to_string(image, lang='spa')
        
        # Crear un documento de LangChain por cada p√°gina
        doc = Document(
            page_content=text,
            metadata={
                "source": os.path.basename(file_path),
                "page": i + 1
            }
        )
        documents_ocr.append(doc)
    
    print("‚úÖ Proceso de OCR completado.")
    return documents_ocr


# --- EJECUCI√ìN ---
# Reemplaza la carga original de PyPDFLoader con esta funci√≥n
ml_papers = load_pdf_with_ocr(PDF_PATH)

# A partir de aqu√≠, el resto de tu script sigue igual.
# La variable `ml_papers` ahora contiene el texto extra√≠do correctamente.
print(f"\nTotal de p√°ginas procesadas: {len(ml_papers)}")
print("\nContenido de la primera p√°gina (extra√≠do con OCR):")
print(ml_papers[0].page_content[:500])

# Ahora puedes pasar `ml_papers` al `text_splitter`
# text_splitter = RecursiveCharacterTextSplitter(...)
# documents = text_splitter.split_documents(ml_papers)
# ...y continuar con el resto de tu script.
```

Te recomiendo primero ejecutar el **c√≥digo de diagn√≥stico**. Una vez que confirmes que la extracci√≥n de texto falla, implementa la **soluci√≥n con OCR**. Este es el camino correcto para resolver el problema de ra√≠z.

###### ü™õ C√≥digo de Diagn√≥stico de Extracci√≥n:

In [None]:
from langchain_community.document_loaders import PyPDFLoader
import os

# --- CONFIGURACI√ìN ---
# Aseg√∫rate de que el PDF est√© en la misma carpeta que este script,
# o proporciona la ruta completa.
PDF_PATH = "../../../assets/DG_docs/PDF_test_gradio/73SentenciaTutela.pdf" 

# --- L√ìGICA DE DIAGN√ìSTICO ---

print(f"üìÑ Intentando cargar el archivo: {PDF_PATH}")

if not os.path.exists(PDF_PATH):
    print(f"‚ùå ERROR: No se encontr√≥ el archivo en la ruta especificada.")
else:
    try:
        loader = PyPDFLoader(PDF_PATH)
        pages = loader.load()
        
        print(f"\n‚úÖ Archivo cargado. El PDF tiene {len(pages)} p√°ginas.")
        print("--- Mostrando el texto extra√≠do de las primeras 3 p√°ginas ---")
        
        for i in range(min(3, len(pages))):
            page_content = pages[i].page_content
            print(f"\n\n--- P√ÅGINA {i+1} ---")
            # Imprimimos solo los primeros 500 caracteres para no saturar la pantalla
            print(page_content[:500])
            if not page_content.strip():
                print(">>> ¬°ALERTA! El contenido de esta p√°gina est√° vac√≠o o solo contiene espacios.")

    except Exception as e:
        print(f"\n‚ùå Ocurri√≥ un error al cargar o procesar el PDF: {e}")

##### 6.3.2.3. Inspeccionar los "Chunks" o Fragmentos Finales

¬°Perfecto! Esta informaci√≥n que me has dado es incre√≠blemente √∫til y **cambia por completo el diagn√≥stico.**

Tu resultado demuestra que mi sospecha anterior (que el PDF era una imagen) era incorrecta. **El `PyPDFLoader` S√ç est√° extrayendo el texto correctamente y de forma legible.** Esta es una excelente noticia, porque significa que no necesitamos la complejidad de usar OCR.

Sin embargo, esto tambi√©n nos dice que, si el texto se carga bien pero la b√∫squeda sigue fallando, el problema debe ocurrir en uno de los pasos intermedios:

1.  La **divisi√≥n del texto** (`RecursiveCharacterTextSplitter`).
2.  La **creaci√≥n de los embeddings** y su almacenamiento en ChromaDB.

###### Nueva Hip√≥tesis: "Texto Sucio" o Divisi√≥n Inesperada

Aunque el texto es legible para nosotros, puede que contenga caracteres invisibles o un formato problem√°tico (como saltos de l√≠nea extra√±os o espacios no est√°ndar `¬†`) que confunden al `TextSplitter` o al modelo de `embeddings`.

Es como darle a un chef ingredientes que parecen buenos, pero que no est√°n bien limpios. El resultado final (la b√∫squeda) sale mal.

###### Nuevo Test: Inspeccionar los "Chunks" o Fragmentos Finales

Vamos a realizar un nuevo diagn√≥stico para ver exactamente c√≥mo queda el texto *despu√©s* de ser dividido en fragmentos (`chunks`) y justo *antes* de ser enviado a OpenAI para crear los embeddings.

**C√≥digo de Diagn√≥stico de Chunks:**

Este c√≥digo cargar√° el PDF, lo limpiar√° (como buena pr√°ctica) y luego lo dividir√°, mostr√°ndonos los primeros 5 fragmentos resultantes.

```python
import os
import re
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# --- CONFIGURACI√ìN ---
PDF_PATH = "../../../assets/DG_docs/PDF_test_gradio/73SentenciaTutela.pdf"

# --- 1. FUNCI√ìN DE LIMPIEZA DE TEXTO ---
# Esta es una buena pr√°ctica para normalizar el texto antes de procesarlo.
def clean_text(text: str) -> str:
    # Reemplaza el espacio no separable (un car√°cter com√∫n en PDFs) por un espacio normal
    text = text.replace('\xa0', ' ')
    # Reemplaza m√∫ltiples saltos de l√≠nea o espacios por un solo espacio
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# --- 2. CARGA Y LIMPIEZA DE DOCUMENTOS ---
print(f"üìÑ Cargando y limpiando el archivo: {PDF_PATH}")
loader = PyPDFLoader(PDF_PATH)
pages = loader.load()

# Aplicamos la limpieza a cada p√°gina
for doc in pages:
    doc.page_content = clean_text(doc.page_content)

print("‚úÖ Texto limpiado.")

# --- 3. DIVISI√ìN DEL TEXTO ---
# Usamos los mismos par√°metros de tu script original
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    length_function=len
)
documents = text_splitter.split_documents(pages)
print(f"‚úÖ Texto dividido en {len(documents)} fragmentos (chunks).")

# --- 4. INSPECCI√ìN DE LOS FRAGMENTOS ---
print("\nüîç --- Inspeccionando los primeros 5 fragmentos --- üîç")
for i in range(min(5, len(documents))):
    print(f"\n--- FRAGMENTO {i+1} ---\n")
    print(documents[i].page_content)
    print("\n" + "="*50)

```

###### ¬øQu√© Debemos Buscar en el Resultado?

Ejecuta este nuevo script y presta atenci√≥n a la salida de los fragmentos:

* **¬øSe ve el texto coherente?** ¬øO los fragmentos parecen cortados en lugares extra√±os?
* **¬øAparece el n√∫mero de radicaci√≥n `080013187005202500020-00` en alguno de los primeros fragmentos?** Deber√≠a aparecer.
* **¬øHay fragmentos muy cortos o casi vac√≠os?** Esto podr√≠a indicar un problema en la divisi√≥n.

###### El Siguiente Paso L√≥gico

El resultado de este script nos dar√° la respuesta definitiva.

* **Si los fragmentos se ven bien y coherentes,** y contienen la informaci√≥n clave, entonces podemos concluir con alta seguridad que el problema est√° en el **almacenamiento o corrupci√≥n de la base de datos ChromaDB**. La soluci√≥n en ese caso ser√≠a simplemente borrar la carpeta `chroma_db` y volver a generar la base de datos desde cero con el texto ya limpio.
* **Si los fragmentos se ven mal (cortados, extra√±os),** entonces el problema es el `TextSplitter` y debemos ajustar sus par√°metros (`chunk_size`, `chunk_overlap`, o incluso los separadores).

Estoy casi seguro de que una simple limpieza del texto y la regeneraci√≥n de la base de datos resolver√° el fallo. Ejecuta el script de inspecci√≥n y mu√©strame el resultado para dar el paso final.

###### ü™õ C√≥digo de Diagn√≥stico de Chunks:

In [None]:
import os
import re
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# --- CONFIGURACI√ìN ---
PDF_PATH = "../../../assets/DG_docs/PDF_test_gradio/73SentenciaTutela.pdf"

# --- 1. FUNCI√ìN DE LIMPIEZA DE TEXTO ---
# Esta es una buena pr√°ctica para normalizar el texto antes de procesarlo.
def clean_text(text: str) -> str:
    # Reemplaza el espacio no separable (un car√°cter com√∫n en PDFs) por un espacio normal
    text = text.replace('\xa0', ' ')
    # Reemplaza m√∫ltiples saltos de l√≠nea o espacios por un solo espacio
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# --- 2. CARGA Y LIMPIEZA DE DOCUMENTOS ---
print(f"üìÑ Cargando y limpiando el archivo: {PDF_PATH}")
loader = PyPDFLoader(PDF_PATH)
pages = loader.load()

# Aplicamos la limpieza a cada p√°gina
for doc in pages:
    doc.page_content = clean_text(doc.page_content)

print("‚úÖ Texto limpiado.")

# --- 3. DIVISI√ìN DEL TEXTO ---
# Usamos los mismos par√°metros de tu script original
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    length_function=len
)
documents = text_splitter.split_documents(pages)
print(f"‚úÖ Texto dividido en {len(documents)} fragmentos (chunks).")

# --- 4. INSPECCI√ìN DE LOS FRAGMENTOS ---
print("\nüîç --- Inspeccionando los primeros 5 fragmentos --- üîç")
for i in range(min(5, len(documents))):
    print(f"\n--- FRAGMENTO {i+1} ---\n")
    print(documents[i].page_content)
    print("\n" + "="*50)

##### 6.3.2.4. El problema reside en la base de datos vectorial (chroma_db)

¬°Excelente! Este resultado es exactamente lo que necesit√°bamos. Es el √∫ltimo paso del diagn√≥stico y nos lleva directamente a la causa ra√≠z y a la soluci√≥n final.

###### An√°lisis Final del Diagn√≥stico

1.  **Carga de PDF:** Confirmado, funciona.
2.  **Extracci√≥n de Texto:** Confirmado, el texto es legible y correcto.
3.  **Limpieza de Texto:** Confirmado, el texto se normaliza correctamente.
4.  **Divisi√≥n en Chunks:** **Confirmado por tu √∫ltimo resultado.** Los fragmentos que me muestras son coherentes, limpios y, lo m√°s importante, **contienen la informaci√≥n que buscamos**. Por ejemplo, el `FRAGMENTO 1` incluye claramente el n√∫mero de Radicaci√≥n.

Esto nos deja con una sola conclusi√≥n posible.

###### Causa Definitiva del Problema

El problema no est√° en c√≥mo cargas, limpias o divides el texto. El problema reside en la **base de datos vectorial (`chroma_db`) que est√°s utilizando**.

Lo m√°s probable es que la base de datos que tienes en tu disco se gener√≥ en un intento anterior con el texto "sucio" o mal extra√≠do. Aunque hayas corregido el c√≥digo de carga, el `retriever` sigue consultando esa base de datos antigua y corrupta, y por eso nunca encuentra nada.

###### La Soluci√≥n Final: Regenerar la Base de Datos

La soluci√≥n es simple y directa: debemos **borrar la base de datos antigua y crear una completamente nueva** con el proceso de carga y limpieza que ya hemos validado.

A continuaci√≥n, te proporciono el **script completo y definitivo**. Este c√≥digo integra todos los pasos que hemos confirmado que funcionan: la limpieza, la divisi√≥n y la creaci√≥n de la base de datos.

**Instrucciones:**

1.  **MUY IMPORTANTE:** Ve a la carpeta de tu proyecto y **elimina manualmente la carpeta `chroma_db`**.
2.  Ejecuta el siguiente script. Este crear√° una nueva carpeta `chroma_db` poblada con la informaci√≥n limpia y correcta.

####### Script Consolidado para Regenerar la Base de Datos

```python
import os
import re
import shutil
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# --- CONFIGURACI√ìN ---
PDF_DIRECTORY = "../../../assets/DG_docs/PDF_test_gradio/"
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small"  # Usamos un modelo m√°s moderno y eficiente

print("--- Iniciando el Proceso Completo de Creaci√≥n de la Base de Datos Vectorial ---")

# 1. Aseg√∫rate de que la clave API est√© configurada
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

# 2. Eliminar la base de datos antigua si existe (por seguridad)
if os.path.exists(PERSIST_DIRECTORY):
    print(f"üóëÔ∏è Eliminando la base de datos antigua en '{PERSIST_DIRECTORY}'...")
    shutil.rmtree(PERSIST_DIRECTORY)
    print("‚úÖ Base de datos antigua eliminada.")

# 3. Funci√≥n de limpieza de texto
def clean_text(text: str) -> str:
    text = text.replace('\xa0', ' ')
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# 4. Cargar y procesar todos los PDFs del directorio
all_pages = []
pdf_files = [f for f in os.listdir(PDF_DIRECTORY) if f.lower().endswith(".pdf")]

print(f"\nüìÑ Encontrados {len(pdf_files)} archivos PDF para procesar...")

for pdf_file in pdf_files:
    pdf_path = os.path.join(PDF_DIRECTORY, pdf_file)
    print(f"  -> Cargando y limpiando '{pdf_file}'...")
    loader = PyPDFLoader(pdf_path)
    pages = loader.load()
    for doc in pages:
        doc.page_content = clean_text(doc.page_content)
    all_pages.extend(pages)

print(f"\n‚úÖ Total de p√°ginas cargadas y limpiadas: {len(all_pages)}")

# 5. Dividir los documentos en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    length_function=len
)
documents = text_splitter.split_documents(all_pages)
print(f"‚úÖ Texto dividido en {len(documents)} fragmentos (chunks).")


# 6. Crear embeddings y la base de datos vectorial
print(f"\nüß† Creando embeddings con el modelo '{EMBEDDING_MODEL}' y guardando en ChromaDB...")
print("(Esto puede tardar unos minutos y consumir tokens de OpenAI...)")

embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL, openai_api_key=api_key_environ)

vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings,
    persist_directory=PERSIST_DIRECTORY
)

print("\nüéâ ¬°√âXITO! Tu nueva base de datos vectorial ha sido creada y guardada correctamente.")
print(f"Ahora puedes usar el directorio '{PERSIST_DIRECTORY}' para tus consultas.")

```

###### Siguientes Pasos

Una vez que este script termine de ejecutarse, tu sistema estar√° listo.

Vuelve a ejecutar el **primer script de test que te di** (el que ten√≠a los 3 casos de prueba). Ahora, el resultado deber√≠a ser:

`‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.`

Cuando eso suceda, habremos solucionado el problema de ra√≠z y podr√°s conectar tu `retriever` al resto de tu aplicaci√≥n con la confianza de que est√° encontrando la informaci√≥n correcta.

###### ü™õ Script Consolidado para Regenerar la Base de Datos

In [None]:
import os
import re
import shutil
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# --- CONFIGURACI√ìN ---
PDF_DIRECTORY = "../../../assets/DG_docs/PDF_test_gradio/"
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small"

print("--- Iniciando el Proceso Completo de Creaci√≥n de la Base de Datos Vectorial ---")

# 1. Aseg√∫rate de que la clave API est√© configurada
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

# 2. Eliminar la base de datos antigua si existe
if os.path.exists(PERSIST_DIRECTORY):
    print(f"üóëÔ∏è Eliminando la base de datos antigua en '{PERSIST_DIRECTORY}'...")
    shutil.rmtree(PERSIST_DIRECTORY)
    print("‚úÖ Base de datos antigua eliminada.")

# 3. Funci√≥n de limpieza de texto
def clean_text(text: str) -> str:
    text = text.replace('\xa0', ' ')
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# 4. Cargar y procesar todos los PDFs
all_pages = []
pdf_files = [f for f in os.listdir(PDF_DIRECTORY) if f.lower().endswith(".pdf")]
print(f"\nüìÑ Encontrados {len(pdf_files)} archivos PDF para procesar...")
for pdf_file in pdf_files:
    pdf_path = os.path.join(PDF_DIRECTORY, pdf_file)
    try:
        print(f"  -> Cargando y limpiando '{pdf_file}'...")
        loader = PyPDFLoader(pdf_path)
        pages = loader.load()
        for doc in pages:
            doc.page_content = clean_text(doc.page_content)
            # Filtramos p√°ginas que quedaron vac√≠as despu√©s de limpiar
            if doc.page_content:
                all_pages.append(doc)
    except Exception as e:
        print(f"  ‚ö†Ô∏è Error al procesar el archivo {pdf_file}: {e}. Omitiendo.")

print(f"\n‚úÖ Total de p√°ginas cargadas y limpiadas: {len(all_pages)}")

# 5. Dividir los documentos en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    length_function=len
)
documents = text_splitter.split_documents(all_pages)
print(f"‚úÖ Texto dividido en {len(documents)} fragmentos (chunks).")


# --- 6. (MODIFICADO) Crear embeddings y la base de datos POR LOTES ---
print(f"\nüß† Creando embeddings con el modelo '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL, openai_api_key=api_key_environ)

print(f"‚úÖ Inicializando base de datos vac√≠a en '{PERSIST_DIRECTORY}'...")
# Inicializamos la base de datos vac√≠a
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY, 
    embedding_function=embeddings
)

# Definimos el tama√±o del lote (un n√∫mero seguro para no exceder los l√≠mites)
batch_size = 200
total_docs = len(documents)
print(f"\n‚ûï A√±adiendo {total_docs} documentos a la base de datos en lotes de {batch_size}...")

for i in range(0, total_docs, batch_size):
    # Obtenemos el lote actual de documentos
    batch = documents[i:i + batch_size]
    
    # Calculamos el n√∫mero de lote actual para mostrar el progreso
    batch_number = (i // batch_size) + 1
    total_batches = (total_docs + batch_size - 1) // batch_size
    
    print(f"  -> Procesando lote {batch_number}/{total_batches} (documentos {i+1} a {min(i + batch_size, total_docs)})...")
    
    # A√±adimos el lote a la base de datos. La llamada a la API de OpenAI ocurre aqu√≠.
    vectorstore.add_documents(batch)

print("\nüéâ ¬°√âXITO! Tu nueva base de datos vectorial ha sido creada y guardada correctamente.")
print(f"Ahora puedes usar el directorio '{PERSIST_DIRECTORY}' para tus consultas.")

##### 6.3.2.5. Objetivo del Test: Evaluar `de nuevo` al Retriever. Tres preguntas del PDF "73SentenciaTutela.pdf" 

###### Objetivo del Test: Evaluar al `Retriever`

El `retriever` es el componente encargado de buscar en tu base de datos vectorial (ChromaDB) los fragmentos de texto m√°s relevantes para la pregunta que haces. Si no le entrega los fragmentos correctos al modelo de lenguaje (LLM), es imposible que el LLM genere una buena respuesta.

Vamos a ejecutar el `retriever` de forma aislada para inspeccionar su "trabajo".

---

###### Paso 1: Escoge un Caso de Prueba Espec√≠fico

Primero, necesitas un "caso de oro" que puedas verificar manualmente.

1.  **Busca en tus PDFs:** Abre uno de los documentos PDF que usaste para crear la base de datos. Encuentra un dato muy espec√≠fico y √∫nico. Por ejemplo, el nombre de un proyecto, un n√∫mero de contrato, una fecha clave o una frase t√©cnica.
2.  **Define tu "Golden Pair":**
    * **Pregunta de prueba:** Formula una pregunta que *deber√≠a* encontrar ese dato. Ejemplo: `"¬øCu√°l es el n√∫mero del contrato para el mantenimiento de la v√≠a Oca√±a-C√∫cuta?"`
    * **Contenido esperado:** Anota la frase o las palabras clave que *obligatoriamente* deben estar en los fragmentos recuperados para poder responder la pregunta. Ejemplo: `"contrato de obra p√∫blica No. 2345-2023"`.

###### Paso 2: C√≥digo para Ejecutar el Test

He preparado una versi√≥n simplificada de tu script que se enfoca **√∫nicamente en realizar este test**. No utilizaremos el LLM para generar respuestas, solo para cargar los embeddings y usar el `retriever`.

Copia y ejecuta el siguiente c√≥digo. Aseg√∫rate de modificar las variables de la secci√≥n "CONFIGURACI√ìN DEL TEST".

```python
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "que pasa en Oca√±a?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["Oca√±a", "emergencia", "deslizamiento"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

```

###### ¬øC√≥mo Interpretar los Resultados?

1.  **Si el veredicto es "√âXITO"**: Significa que tu base de datos y tu `retriever` funcionan correctamente. El problema podr√≠a estar en el `prompt` que le das al LLM o en el propio LLM (aunque es menos probable).
2.  **Si el veredicto es "FALLO"**: Confirma tu sospecha. El problema est√° en la base de conocimiento. El sistema no es capaz de encontrar los fragmentos de texto relevantes.

###### ¬øQu√© Hacer si el Test Falla?

Si el test falla, aqu√≠ tienes las causas m√°s probables y c√≥mo solucionarlas:

1.  **Problema con la Divisi√≥n de Texto (`chunking`)**:
    * **Causa**: El `chunk_size=1500` puede ser muy grande, y la informaci√≥n clave se "diluye" con texto irrelevante en el mismo fragmento. O puede ser muy peque√±o y parte una frase importante.
    * **Soluci√≥n**: Prueba a regenerar tu base de datos con un `chunk_size` m√°s peque√±o (ej. 1000) y un `chunk_overlap` mayor (ej. 250). Esto crea m√°s fragmentos, pero m√°s enfocados.

2.  **Problema con la Extracci√≥n de Texto del PDF**:
    * **Causa**: Algunos PDFs son en realidad im√°genes de texto (escaneados). `PyPDFLoader` no puede leer texto de im√°genes.
    * **Soluci√≥n**: Verifica el contenido de tus documentos justo despu√©s de cargarlos (la variable `ml_papers` en tu script original). Si ves caracteres extra√±os o texto sin sentido, necesitas usar una herramienta de **OCR (Reconocimiento √ìptico de Caracteres)** para extraer el texto de esos PDFs antes de pasarlos a LangChain.

3.  **Problema con el Modelo de Embeddings**:
    * **Causa**: `text-embedding-ada-002` es un modelo m√°s antiguo. Puede que no est√© capturando el significado sem√°ntico de tu pregunta con la suficiente precisi√≥n.
    * **Soluci√≥n**: Regenera tu base de datos usando un modelo m√°s moderno y potente como `"text-embedding-3-small"` (m√°s barato y eficiente) o `"text-embedding-3-large"` (m√°xima calidad). Tu propio c√≥digo ya tiene un comentario sugiriendo este cambio.

Ejecuta este test y, seg√∫n el resultado, podremos enfocarnos en la soluci√≥n correcta.

###### üîÅ PREGUNTA 1: ¬øCu√°l es el n√∫mero de radicaci√≥n de la acci√≥n de tutela de Gersel Luis P√©rez Altamiranda?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øCu√°l es el n√∫mero de radicaci√≥n de la acci√≥n de tutela de Gersel Luis P√©rez Altamiranda?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["080013187005202500020-00"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

###### üîÅ PREGUNTA 2: ¬øQu√© resoluci√≥n distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n para el proyecto Circunvalar de la Prosperidad?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øQu√© resoluci√≥n distribuye el cobro de la Contribuci√≥n Nacional de Valorizaci√≥n para el proyecto Circunvalar de la Prosperidad?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["Resoluci√≥n No. 3856", "distribuye el cobro"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

###### üîÅ PREGUNTA 3: ¬øBajo qu√© condici√≥n est√°n excluidas del cobro de valorizaci√≥n las tierras de grupos √©tnicos?

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øBajo qu√© condici√≥n est√°n excluidas del cobro de valorizaci√≥n las tierras de grupos √©tnicos?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["excluidos", "tierras comunales", "grupos √©tnicos", "titularidad radique en una entidad de derecho p√∫blico"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

##### 6.3.2.6. Objetivo del Test 2: Evaluar `de nuevo` al Retriever. Tres preguntas del PDF "2024S-VBOG-059529.pdf" 

###### üîÅ PREGUNTA 1: 
- Pregunta de Prueba (TEST_QUERY): ¬øCu√°l es el valor actualizado del contrato de obra 0987 de 2021?

- Contenido Esperado (EXPECTED_KEYWORDS): ["0987 DE 2021", "Valor actualizado", "324,627,245,375.00"]


In [6]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øCu√°l es el valor actualizado del contrato de obra 0987 de 2021?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["0987 DE 2021", "Valor actualizado", "324,627,245,375.00"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

üß™ Iniciando el Test de Recuperaci√≥n de Contexto...
Buscando en la base de datos en: 'chroma_db'
Cargando embeddings con el modelo: 'text-embedding-3-small'...

üîç Ejecutando retriever con la pregunta: '¬øCu√°l es el valor actualizado del contrato de obra 0987 de 2021?'

üìÑ --- Fragmentos Recuperados --- üìÑ

--- Documento 1 (Fuente: ../../../assets/DG_docs/PDF_test_gradio/2024S-VBOG-082247.pdf) ---

CONTRATO 964 DE 2021 VIGENCIA VALOR 2023 $27.072.000.000 2024 $54.144.000.000 2025 $ 63.168.000.000 2026 $ 72.192.000.000 2027 $ 67.680.000.000 2028 $ 63.168.000.000 2029 $ 54.144.000.000 2030 $ 94.752.000.000 Total $ 541.389.953.817 CONTRATO 1111 DE 2021 VIGENCIA VALOR 2021 $30.402.106.819 2022 $20.379.255.249 2023 $29.328.000.000 2024 $61.056.000.000 2025 $ 71.232.000.000 2026 $81.408.000.000 2027 $ 76.320.000.000 2028 $ 71.232.000.000 2029 $ 61.656.000.000 2030 $ 107.448.000.000 Total $ 610.461.362.068 De igual forma, se relacionan las modificaciones adelantadas en el marco de l

Created dataset file at: .gradio\flagged\dataset1.csv


###### üîÅ PREGUNTA 2: 

- Pregunta de Prueba (Test Query): ¬øQu√© inversi√≥n ha realizado INV√çAS para cumplir la acci√≥n popular en el corredor Curos-M√°laga?

- Contenido Esperado (Expected Keywords): ["acci√≥n popular", "68001-23-33-000-2015-00847", "invierte", "316.664.639.074", "contrato de obra No. 1042 de 2021"]

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬øQu√© inversi√≥n ha realizado INV√çAS para cumplir la acci√≥n popular en el corredor Curos-M√°laga?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["acci√≥n popular", "68001-23-33-000-2015-00847", "invierte", "316.664.639.074", "contrato de obra No. 1042 de 2021"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

###### üîÅ PREGUNTA 3: 

Pregunta de Prueba (Test Query): ¬øCu√°l es el avance f√≠sico y financiero del proyecto de la Variante de San Gil?

Contenido Esperado (Expected Keywords): ["Variante de San Gil", "avance f√≠sico", "96.69%", "avance financiero", "95.19%"]

In [None]:
import os
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# --- CONFIGURACI√ìN DEL TEST ---
# 1. Aseg√∫rate de que tu clave de API est√© configurada como variable de entorno
#    os.environ["OPENAI_API_KEY"] = "tu_clave_aqui"

# 2. Define la pregunta y el contenido que esperas encontrar
TEST_QUERY = "¬ø¬øCu√°l es el avance f√≠sico y financiero del proyecto de la Variante de San Gil?"  # <--- CAMBIA ESTO por tu pregunta de prueba
EXPECTED_KEYWORDS = ["Variante de San Gil", "avance f√≠sico", "96.69%", "avance financiero", "95.19%"] # <--- CAMBIA ESTO por las palabras clave que deben aparecer

# 3. Define la ruta a tu base de datos vectorial
PERSIST_DIRECTORY = "chroma_db"
EMBEDDING_MODEL = "text-embedding-3-small" # Usa el mismo modelo con el que creaste la base

# --- L√ìGICA DEL TEST ---

print("üß™ Iniciando el Test de Recuperaci√≥n de Contexto...")

# 1. Validar configuraci√≥n
api_key_environ = os.environ.get("OPENAI_API_KEY")
if not api_key_environ:
    raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")

if not os.path.exists(PERSIST_DIRECTORY):
    raise FileNotFoundError(f"El directorio de la base de datos '{PERSIST_DIRECTORY}' no existe. Aseg√∫rate de haber ejecutado el script principal primero.")

print(f"Buscando en la base de datos en: '{PERSIST_DIRECTORY}'")

# 2. Cargar el retriever
print(f"Cargando embeddings con el modelo: '{EMBEDDING_MODEL}'...")
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma(
    persist_directory=PERSIST_DIRECTORY,
    embedding_function=embeddings
)
# Aumentamos 'k' para tener m√°s contexto que inspeccionar
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 3. Ejecutar el retriever de forma aislada
print(f"\nüîç Ejecutando retriever con la pregunta: '{TEST_QUERY}'")
retrieved_docs = retriever.invoke(TEST_QUERY)

# 4. Analizar los resultados
print("\nüìÑ --- Fragmentos Recuperados --- üìÑ")
if not retrieved_docs:
    print("‚ùå ¬°ERROR! El retriever no devolvi√≥ ning√∫n documento.")
else:
    for i, doc in enumerate(retrieved_docs):
        source = doc.metadata.get("source", "desconocido")
        content = doc.page_content
        print(f"\n--- Documento {i+1} (Fuente: {source}) ---\n")
        print(content)
        print("-" * 40)

# 5. Verificaci√≥n autom√°tica
print("\nüèÅ --- Verificaci√≥n de Palabras Clave --- üèÅ")
found_keywords_count = 0
for doc in retrieved_docs:
    for keyword in EXPECTED_KEYWORDS:
        if keyword.lower() in doc.page_content.lower():
            print(f"‚úÖ Palabra clave encontrada: '{keyword}' en Fuente: {doc.metadata.get('source', 'N/A')}")
            found_keywords_count += 1

print("\n--- Veredicto del Test ---")
if found_keywords_count > 0:
    print("‚úÖ √âXITO PARCIAL/TOTAL: Se encontraron uno o m√°s de los contenidos esperados en los fragmentos recuperados.")
else:
    print("‚ùå FALLO: Ninguna de las palabras clave esperadas fue encontrada. El contexto relevante no se est√° recuperando.")

### 6.4. Con memoria ‚Äì El sistema conserva el contexto

In [None]:
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

qa_chain = ConversationalRetrievalChain.from_llm(
    llm=ChatOpenAI(temperature=0),
    retriever=vectorstore.as_retriever(),
    memory=memory
)

# Simulaci√≥n de una conversaci√≥n con contexto
chat_history = []

# Primera pregunta
response_1 = qa_chain({"question": "¬øQu√© entidad est√° a cargo del contrato de la v√≠a Oca√±a-C√∫cuta?"})
print("Respuesta 1:", response_1['answer'])

# Segunda pregunta que se apoya en la anterior
response_2 = qa_chain({"question": "¬øCu√°l es el plazo de entrega del contrato?"})
print("Respuesta 2:", response_2['answer'])
# Aqu√≠, la segunda pregunta s√≠ aprovecha el contexto anterior, gracias a la memoria.

## 7. LangChain para INVIAS


### 7.1. Descripci√≥n del c√≥digo

El archivo `langc_v01.ipynb` es un **notebook de Jupyter** dise√±ado para mostrar paso a paso c√≥mo construir un **sistema de consulta de informaci√≥n basado en documentos PDF usando LangChain y modelos de lenguaje de OpenAI**. 

#### Prop√≥sito del archivo `langc_v01.ipynb`

Implementar un **chatbot inteligente** que pueda:

1. **Leer documentos PDF** institucionales.
2. **Convertirlos en embeddings sem√°nticos** usando OpenAI.
3. **Almacenarlos en una base vectorial persistente** (Chroma).
4. **Responder preguntas** formuladas en lenguaje natural usando LLMs.

#### Estructura del notebook

1. **Carga y lectura de documentos PDF**

   * Usa loaders como `PyPDFLoader`.
   * Fragmenta el contenido en chunks con metadatos.
   * Prepara los datos para el embedding.

2. **Generaci√≥n de embeddings y base vectorial**

   * Usa `OpenAIEmbeddings` (`text-embedding-3-small`).
   * Crea y guarda una base en Chroma (`chroma_db`).
   * Permite que la b√∫squeda de contexto sea sem√°ntica, no solo por palabras clave.

3. **Creaci√≥n del `retriever`**

   * Define cu√°ntos documentos relevantes recuperar (`k=3` o `k=5`).
   * Es el n√∫cleo del sistema RAG (Retrieval-Augmented Generation).

4. **Construcci√≥n de la cadena de QA (`RetrievalQA`)**

   * Conecta el `retriever` con un modelo de lenguaje (`ChatOpenAI`).
   * Puede configurarse para devolver solo la respuesta, o tambi√©n las fuentes.

5. **Ejecuci√≥n de consultas**

   * Env√≠a preguntas como `"¬øQu√© es CCPT?"` o `"¬øQu√© acciones tom√≥ el INV√çAS en El Tarrita?"`.
   * El sistema responde bas√°ndose en los documentos cargados.

> Este codigo viene de [langc_v01.ipynb](../../../Platzi_codes/langc/v01/langc_v01.ipynb). Este c√≥digo desarrollo tiene [Code Explanation](../../../AI_Queries/code_explanation/).  

### 7.2. Test del c√≥digo

- [QA_01.md](others/QA_01.md)
- [QA_02.md](others/QA_02.md)
- [QA_03.md](others/QA_03.md)

### 7.3. Hallazgos üö©

1. No cita las fuentes de donde extrae la informaci√≥n.
2. Solo para una pregunta. Si uso LangChain con un `ConversationalRetrievalChain`, se puede hacer varias preguntas en la misma sesi√≥n
3. Sin memoria ‚Äì Cada pregunta se responde de forma aislada