In [21]:
from dotenv import load_dotenv, find_dotenv, dotenv_values
import os

load_dotenv(find_dotenv())  # read local .env file

env_file_keys = list(dotenv_values(find_dotenv()).keys())
api_key = os.getenv('OPENAI_API_KEY')

print('Claves en .env: ', env_file_keys)
print('OPENAI_API_KEY:', api_key if api_key else 'No encontrada')

Claves en .env:  ['OPENAI_API_KEY', 'PINECONE_API_KEY', 'PINECONE_ENV']
OPENAI_API_KEY: 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


In [22]:
from langchain_community.chat_models import ChatOpenAI
from langchain_openai import OpenAIEmbeddings

llm = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    openai_api_key=os.getenv("OPENAI_API_KEY"),
    temperature=0.3,
)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

In [23]:
import os
from pinecone import Pinecone

from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv())  # read local .env file

# Verificamos que las variables de entorno est√©n definidas
api_key = os.getenv("PINECONE_API_KEY")

print("PINECONE_API_KEY:", api_key if api_key else "No encontrada")

# Con pinecone-client 6.x, usamos la nueva sintaxis
if api_key:
    try:
        # Inicializar con la nueva API
        pc = Pinecone(api_key=api_key)
        print("Pinecone inicializado correctamente con API 6.x")

    except Exception as e:
        print(f"Error al inicializar Pinecone: {e}")
else:
    print("Error: Falta la variable de entorno PINECONE_API_KEY")

PINECONE_API_KEY: pcsk_2wmgPR_CgVgRjpcMhmbbuXP6ptQcCFPm8ySFQ7XGNRChYNKmm4ePyvyiTEtg4qZ7FtsgNS
Pinecone inicializado correctamente con API 6.x


In [24]:
index_name = "efisys-wiki-knowledge"
try:
    # Lista los √≠ndices disponibles con la nueva API
    indexes = pc.list_indexes()
    print("√çndices disponibles:", indexes)
except Exception as e:
    print(f"Error al listar √≠ndices: {e}")
    print("Tipo de error:", type(e).__name__)

√çndices disponibles: [{
    "name": "efisys-wiki-knowledge",
    "metric": "cosine",
    "host": "efisys-wiki-knowledge-3se3hjl.svc.aped-4627-b74a.pinecone.io",
    "spec": {
        "serverless": {
            "cloud": "aws",
            "region": "us-east-1"
        }
    },
    "status": {
        "ready": true,
        "state": "Ready"
    },
    "vector_type": "dense",
    "dimension": 1536,
    "deletion_protection": "disabled",
    "tags": null
}]


In [25]:
from pinecone import ServerlessSpec

index_name = "efisys-wiki-knowledge"
try:
    # Lista √≠ndices existentes
    existing_indexes = [idx.name for idx in pc.list_indexes()]

    if index_name not in existing_indexes:
        print(f"√çndice '{index_name}' no existe. Creando con serverless...")
        # Crear √≠ndice serverless (gratuito)
        pc.create_index(
            name=index_name,
            dimension=1536,  # Dimensi√≥n para text-embedding-3-small
            metric='cosine',
            spec=ServerlessSpec(
                cloud='aws',
                region='us-east-1'
            )
        )
        print(f"√çndice '{index_name}' creado exitosamente.")
    else:
        print(f"√çndice '{index_name}' ya existe.")
except Exception as e:
    print(f"Error al verificar/crear √≠ndice: {e}")
    print(f"Tipo de error: {type(e).__name__}")

√çndice 'efisys-wiki-knowledge' ya existe.


In [None]:
import datetime

# Funci√≥n para consultar la base de datos vectorial de Pinecone
def consultar_pinecone(texto_consulta, pc, index_name, namespace="default", top_k=5, verbose=True):
    """
    Funci√≥n para buscar documentos similares en Pinecone basado en un texto de consulta.

    Par√°metros:
    - texto_consulta (str): El texto que quieres buscar
    - pc: Cliente de Pinecone inicializado
    - index_name (str): Nombre del √≠ndice en Pinecone
    - namespace (str): Namespace donde buscar (default: "default")
    - top_k (int): N√∫mero m√°ximo de resultados similares a devolver (default: 5)
    - verbose (bool): Si imprimir logs detallados (default: True)

    Retorna:
    - dict: Diccionario con los resultados de la b√∫squeda
    """

    try:
        if verbose:
            print(f"üîç Buscando: '{texto_consulta}'")
            print(f"üìä En √≠ndice: {index_name}, namespace: {namespace}")

        # 1. Generar embedding para el texto de consulta
        embeddings_model = OpenAIEmbeddings(
            model="text-embedding-3-small",
            openai_api_key=os.getenv("OPENAI_API_KEY")
        )

        if verbose:
            print("ü§ñ Generando embedding para la consulta...")
        query_embedding = embeddings_model.embed_query(texto_consulta)

        # 2. Conectar al √≠ndice
        index = pc.Index(index_name)

        # 3. Realizar la b√∫squeda vectorial
        if verbose:
            print(f"üéØ Buscando {top_k} documentos m√°s similares...")
        resultados = index.query(
            vector=query_embedding,
            top_k=top_k,
            include_values=False,  # No incluir los vectores completos (ahorra ancho de banda)
            include_metadata=True,  # Incluir metadatos con el texto
            namespace=namespace
            # filter={"source": {"$eq": "manual_pld_2025.pdf"}}   # üéØ solo busca en este PDF
        )

        # 4. Procesar resultados
        documentos_encontrados = []

        if verbose:
            print(f"‚ú® Encontrados {len(resultados.matches)} resultados:")
            print("-" * 60)

        for i, match in enumerate(resultados.matches, 1):
            # Extraer n√∫mero de p√°gina del chunk_id o metadata
            pagina = "N/A"
            if match.metadata:
                # Buscar p√°gina en diferentes campos posibles
                if 'page' in match.metadata:
                    pagina = match.metadata['page']
                elif 'page_number' in match.metadata:
                    pagina = match.metadata['page_number']
                else:
                    # Intentar extraer de chunk_id si contiene informaci√≥n de p√°gina
                    chunk_id = match.metadata.get('chunk_id', '')
                    if isinstance(chunk_id, (int, str)):
                        # Estimaci√≥n b√°sica: asumiendo ~2-3 chunks por p√°gina
                        try:
                            chunk_num = int(chunk_id)
                            pagina = f"~{(chunk_num // 2) + 1}"  # Estimaci√≥n
                        except (ValueError, TypeError):
                            pagina = "N/A"

            documento = {
                "posicion": i,
                "id": match.id,
                "score": round(match.score, 4),
                "texto": match.metadata.get("text", "No disponible"),
                "fuente": match.metadata.get("source", "Desconocida"),
                "pagina": pagina,
                "chunk_id": match.metadata.get("chunk_id", "N/A"),
                "metadata_completa": match.metadata
            }

            documentos_encontrados.append(documento)

            # Mostrar resultado solo si verbose est√° activado
            if verbose:
                print(f"üîπ Resultado {i}:")
                print(f"   üìÑ Fuente: {documento['fuente']}")
                print(f"   üìÑ P√°gina: {documento['pagina']}")
                print(f"   üÜî ID: {documento['id']}")
                print(f"   üìä Similitud: {documento['score']:.4f}")
                print(f"   üìù Texto: {documento['texto'][:200]}...")
                print()

        # 5. Preparar respuesta estructurada
        respuesta = {
            "consulta": texto_consulta,
            "total_resultados": len(documentos_encontrados),
            "documentos": documentos_encontrados,
            "mejor_resultado": documentos_encontrados[0] if documentos_encontrados else None,
            "index_usado": index_name,
            "namespace_usado": namespace
        }

        if verbose:
            print("üéâ B√∫squeda completada exitosamente!")
        return respuesta

    except Exception as e:
        print(f"‚ùå Error en la consulta: {e}")
        print(f"Tipo de error: {type(e).__name__}")
        return None

# Funci√≥n auxiliar para buscar y generar respuesta con LLM
def preguntar_con_contexto(pregunta, pc, index_name, llm, namespace="default", top_k=3, verbose=True):
    """
    Funci√≥n que combina la b√∫squeda vectorial con un LLM para generar respuestas contextualizadas.

    Par√°metros:
    - pregunta (str): La pregunta del usuario
    - pc: Cliente de Pinecone inicializado
    - index_name (str): Nombre del √≠ndice en Pinecone
    - llm: Modelo de lenguaje (ChatOpenAI)
    - namespace (str): Namespace donde buscar
    - top_k (int): N√∫mero de documentos a usar como contexto
    - verbose (bool): Si imprimir logs detallados (default: True)

    Retorna:
    - str: Respuesta generada por el LLM basada en el contexto encontrado
    """
    timestamp = datetime.datetime.now().strftime("%H:%M:%S.%f")[:-3]
    execution_id = f"[{timestamp}]"

    try:
        if verbose:
            print(f"{execution_id} ü§î Pregunta: '{pregunta}'")
            print(f"{execution_id} üîç Buscando {top_k} documentos relevantes...")

        # 1. Buscar documentos relevantes (SIN logs duplicados)
        resultados = consultar_pinecone(pregunta, pc, index_name, namespace, top_k, verbose=False)

        if not resultados or not resultados["documentos"]:
            return "‚ùå No se encontraron documentos relevantes para responder tu pregunta."

        if verbose:
            print(f"‚ú® Encontrados {len(resultados['documentos'])} documentos relevantes")
            print(f"{execution_id} üìã Fuentes encontradas:")
            for i, doc in enumerate(resultados['documentos'][:5], 1):  # Mostrar solo los primeros 5
                pagina_info = f" | P√°g. {doc['pagina']}" if doc['pagina'] != "N/A" else ""
                print(f"{execution_id} - {i}. {doc['fuente']}{pagina_info} (similitud: {doc['score']:.3f})  üìù Texto: {doc['texto'][:200]}...")

        # 2. Construir contexto con los mejores resultados (incluyendo p√°gina)
        contexto = "\n\n".join([
            f"Documento {i+1} (P√°gina {doc['pagina']}): {doc['texto']}"
            for i, doc in enumerate(resultados["documentos"])
        ])

        # 3. Crear prompt con contexto
        prompt_con_contexto = f"""
Bas√°ndote en la siguiente informaci√≥n de documentos, responde la pregunta del usuario de manera clara y precisa.

CONTEXTO:
{contexto}

PREGUNTA: {pregunta}

INSTRUCCIONES:
- Usa solo la informaci√≥n proporcionada en el contexto
- Si la informaci√≥n no es suficiente, ind√≠calo claramente
- S√© conciso pero completo en tu respuesta
- Si hay m√∫ltiples fuentes, puedes mencionarlas con sus p√°ginas correspondientes

RESPUESTA:"""

        # 4. Generar respuesta con el LLM
        if verbose:
            print("üß† Generando respuesta con IA...")
        respuesta = llm.invoke(prompt_con_contexto)

        if verbose:
            print("‚úÖ Respuesta generada:")
            print("-" * 50)
            print(respuesta.content)
            print("-" * 50)
            print("‚úÖ Contexto:")
            print(contexto)

        return {
            "pregunta": pregunta,
            "respuesta": respuesta.content,
            "contexto_usado": contexto,
            "documentos_fuente": resultados["documentos"],
            "total_documentos": len(resultados["documentos"])
        }

    except Exception as e:
        print(f"‚ùå Error al generar respuesta: {e}")
        return f"Error: {e}"

In [27]:

print("-" * 40)

respuesta_ai = preguntar_con_contexto(
    pregunta="¬øcuales son las obligaciones de un desarrollador?",
    pc=pc,
    index_name="efisys-wiki-knowledge",
    llm=llm,
    namespace="dev-pdf-docs",
    top_k=5,
    verbose=True  # Solo logs esenciales, sin duplicaci√≥n
)

----------------------------------------
[18:35:34.557] ü§î Pregunta: '¬øcuales son las obligaciones de un desarrollador?'
[18:35:34.557] üîç Buscando 5 documentos relevantes...
‚ú® Encontrados 5 documentos relevantes
[18:35:34.557] üìã Fuentes encontradas:
[18:35:34.557] - 1. Estandares_Fabrica.pdf | P√°g. 53.0 (similitud: 0.645)  üìù Texto: . Es el responsable de darle seguimiento a los desarrollos que va a recibir con el fin de que lleguen en tiempo y forma para su integraci√≥n. 10. Debe tener una constante comunicaci√≥n con los l√≠deres d...
[18:35:34.557] - 2. Estandares_Fabrica.pdf | P√°g. 53.0 (similitud: 0.632)  üìù Texto: . 5. Notificar a la f√°brica de desarrollo sobre cualquier modificaci√≥n que surja en cuanto a la manera en que se est√° trabajando. 6. Tiene la obligaci√≥n de que cualquier solicitud de mejora a los desa...
[18:35:34.557] - 3. Estandares_Fabrica.pdf | P√°g. 51.0 (similitud: 0.609)  üìù Texto: Responsabilidades y obligaciones   Por parte del Desarrollad