# Instituto Tecnol√≥gico y de Estudios Superiores de Monterrey

## TC5035.10 ‚Äì Proyecto Integrador  
### Equipo 14

---

### üë• Integrantes del equipo

- **Carlos Ricardo √Ålvarez P√©rez**  
  Matr√≠cula: A01796116

- **Rodrigo Edgardo Armenta Santiago**  
  Matr√≠cula: A01795983

- **Susana P√©rez Carranza**  
  Matr√≠cula: A01796151

# MueblesRD - Document Ingestion Notebook

Este notebook permite ejecutar la ingesta de documentos PDF al vector store de Pinecone para el chatbot de MueblesRD.

## Requisitos Previos
1. Cuenta de OpenAI con API key
2. Cuenta de Pinecone con API key e √≠ndice creado (`mueblesrd-index`)
3. (Opcional) Cuenta de LangSmith para tracing

## Configuraci√≥n de Secrets en Colab
1. Ir al icono üîë (Secrets) en el panel izquierdo
2. A√±adir los siguientes secrets:
   - `OPENAI_API_KEY` (requerido)
   - `PINECONE_API_KEY` (requerido)
   - `LANGSMITH_API_KEY` (opcional)
   - `LANGSMITH_PROJECT` (opcional)
3. Habilitar "Notebook access" para cada uno

## Celda 1: Instalaci√≥n de Dependencias

In [1]:
!pip install langchain langchain-openai langchain-pinecone langchain-community langchain-text-splitters pypdf pinecone-client python-dotenv -q

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
streamlit 1.37.1 requires protobuf<6,>=3.20, but you have protobuf 6.32.0 which is incompatible.


## Celda 2: Configuraci√≥n de Variables de Entorno

In [2]:
import os
from pathlib import Path

In [3]:
# --- Estrategia de carga de secretos ---
# 1) Si existe un archivo .env (ejecuci√≥n local / repo), cargarlo.
# 2) Usar variables ya presentes en el entorno (os.environ).
# 3) Si est√°s en Colab y faltan variables, intentar leerlas desde "Secrets" (üîë) v√≠a google.colab.userdata.

REQUIRED_VARS = ["OPENAI_API_KEY", "PINECONE_API_KEY"]
OPTIONAL_VARS = ["LANGSMITH_API_KEY", "LANGSMITH_PROJECT"]


def _find_env_file(start: Path) -> Path | None:
    """Busca un .env desde el cwd hacia arriba."""
    for p in [start, *start.parents]:
        candidate = p / ".env"
        if candidate.exists() and candidate.is_file():
            return candidate
    return None

In [4]:
# 1) Intentar cargar .env (si existe)
try:
    from dotenv import load_dotenv  # type: ignore

    env_path = _find_env_file(Path.cwd())
    if env_path:
        load_dotenv(env_path, override=False)
        print(f"‚úÖ .env cargado desde: {env_path}")
    else:
        print("‚ÑπÔ∏è No se encontr√≥ .env (ok si est√°s usando variables de entorno o Colab Secrets)")
except Exception as e:
    # Si no est√° instalado python-dotenv o hay alg√∫n problema, seguimos con os.environ
    print(f"‚ÑπÔ∏è No se pudo cargar .env (continuando con os.environ). Detalle: {type(e).__name__}")

‚úÖ .env cargado desde: d:\Apps\meublesRD_chatbot\.env


In [5]:
# 2) Leer desde os.environ
missing_required = [k for k in REQUIRED_VARS if not os.getenv(k)]


# 3) Fallback a Colab Secrets si aplica
if missing_required:
    try:
        from google.colab import userdata  # type: ignore

        for k in REQUIRED_VARS + OPTIONAL_VARS:
            if not os.getenv(k):
                v = userdata.get(k)
                if v:
                    os.environ[k] = v

        # Recalcular faltantes
        missing_required = [k for k in REQUIRED_VARS if not os.getenv(k)]
        if not missing_required:
            print("‚úÖ Variables requeridas configuradas desde Colab Secrets")
    except Exception:
        # No estamos en Colab o no hay acceso a userdata
        pass


In [6]:
# Mensajes finales
if missing_required:
    raise RuntimeError(
        "Faltan variables requeridas: "
        + ", ".join(missing_required)
        + ". Config√∫ralas en .env, en variables de entorno del sistema, o en Colab Secrets."
    )

print("‚úÖ Variables requeridas listas: OPENAI_API_KEY, PINECONE_API_KEY")

# LangSmith (opcional)
if os.getenv("LANGSMITH_API_KEY") and os.getenv("LANGSMITH_PROJECT"):
    os.environ["LANGSMITH_TRACING"] = os.getenv("LANGSMITH_TRACING", "true")
    print("‚úÖ LangSmith tracing habilitado")
else:
    print("‚ÑπÔ∏è LangSmith no configurado (opcional)")


‚úÖ Variables requeridas listas: OPENAI_API_KEY, PINECONE_API_KEY
‚úÖ LangSmith tracing habilitado


## Celda 3: Importaciones

In [None]:
import asyncio
import re
from typing import List

from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

print("‚úÖ Importaciones completadas")

‚úÖ Importaciones completadas


## Celda 4: Funciones Auxiliares

In [None]:
# Section patterns to identify policy sections in the document
SECTION_PATTERNS = [
    r"(\d+\.?\d*\.-[A-Za-z\s]+)",  # Matches "0.-Global Procedure", "5.1 Validation"
    r"(\d+\.\s*[A-Z][A-Za-z\s]+(?:of|and|the|in|to|for|with)?[A-Za-z\s]*)",  # Matches "1. Verify Law 25"
]

def extract_section_title(text: str) -> str:
    """Extract the section title from chunk content."""
    for pattern in SECTION_PATTERNS:
        match = re.search(pattern, text)
        if match:
            title = match.group(1).strip()
            # Clean up the title
            title = re.sub(r'\s+', ' ', title)
            if len(title) > 10:  # Ensure it's a meaningful title
                return title[:80]  # Limit length

    # Fallback: use first line if it looks like a header
    first_line = text.split('\n')[0].strip()
    if first_line and len(first_line) < 100 and not first_line.endswith('.'):
        return first_line[:80]

    return "MueblesRD Policy"

print("‚úÖ Funciones auxiliares definidas")

‚úÖ Funciones auxiliares definidas


## Celda 5: Configuraci√≥n de Embeddings y Pinecone

In [None]:
# Configuraci√≥n del √≠ndice de Pinecone / Selecciona el index que hayas creado en Pinecone
INDEX_NAME = "mueblesrd-index-coolab"

# Par√°metros de chunking optimizados para documentaci√≥n de procedimientos
CHUNK_SIZE = 800
CHUNK_OVERLAP = 100
BATCH_SIZE = 50

# Inicializar embeddings
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small",
    show_progress_bar=True,
    chunk_size=50,
    retry_min_seconds=10
)

# Inicializar Pinecone vector store
vectorstore = PineconeVectorStore(
    index_name=INDEX_NAME,
    embedding=embeddings
)

print(f"‚úÖ Embeddings y Pinecone configurados (√≠ndice: {INDEX_NAME})")

‚úÖ Embeddings y Pinecone configurados (√≠ndice: mueblesrd-index-coolab)


## Celda 6: Subir PDF

Ejecuta esta celda para subir tu archivo PDF desde tu computadora.

In [None]:
from google.colab import files

print("üìÅ Selecciona el archivo PDF a ingestar:")
uploaded = files.upload()

# Obtener el nombre del archivo subido
PDF_PATH = list(uploaded.keys())[0]
print(f"\n‚úÖ Archivo subido: {PDF_PATH}")
print(f"   Tama√±o: {len(uploaded[PDF_PATH]):,} bytes")

üìÅ Selecciona el archivo PDF a ingestar:


Saving RD_POLITICS.pdf to RD_POLITICS (1).pdf

‚úÖ Archivo subido: RD_POLITICS (1).pdf
   Tama√±o: 283,495 bytes


## Celda 7: Cargar y Procesar PDF

In [None]:
print("="*60)
print("üìÑ CARGA DE DOCUMENTO")
print("="*60)

# Cargar PDF
print(f"\nüîÑ Cargando PDF: {PDF_PATH}")
loader = PyPDFLoader(PDF_PATH)
pages = loader.load()
print(f"‚úÖ Cargadas {len(pages)} p√°ginas")

# Mostrar informaci√≥n de cada p√°gina
print("\nüìä Informaci√≥n por p√°gina:")
for i, page in enumerate(pages):
    print(f"   P√°gina {i + 1}: {len(page.page_content):,} caracteres")

print("\n" + "="*60)
print("‚úÇÔ∏è FASE DE CHUNKING")
print("="*60)

# Dividir en chunks
print(f"\nüîÑ Dividiendo en chunks (tama√±o={CHUNK_SIZE}, overlap={CHUNK_OVERLAP})...")

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    separators=["\n\n", "\n", ". ", " ", ""],
)

chunks = text_splitter.split_documents(pages)

# A√±adir metadatos a cada chunk
for chunk in chunks:
    section_title = extract_section_title(chunk.page_content)
    chunk.metadata["source"] = section_title
    chunk.metadata["file"] = PDF_PATH

# Estad√≠sticas
unique_sections = set(c.metadata["source"] for c in chunks)
avg_chunk_size = sum(len(c.page_content) for c in chunks) // len(chunks)

print(f"\n‚úÖ Creados {len(chunks)} chunks de {len(pages)} p√°ginas")
print(f"   Secciones √∫nicas identificadas: {len(unique_sections)}")
print(f"   Tama√±o promedio de chunk: {avg_chunk_size} caracteres")

# Mostrar preview de chunks
print("\nüìã Preview de los primeros 3 chunks:")
for i, chunk in enumerate(chunks[:3]):
    print(f"\n--- Chunk {i+1} ---")
    print(f"Secci√≥n: {chunk.metadata['source']}")
    print(f"P√°gina: {chunk.metadata.get('page', 'N/A')}")
    print(f"Contenido: {chunk.page_content[:150]}...")

üìÑ CARGA DE DOCUMENTO

üîÑ Cargando PDF: RD_POLITICS (1).pdf
‚úÖ Cargadas 9 p√°ginas

üìä Informaci√≥n por p√°gina:
   P√°gina 1: 2,851 caracteres
   P√°gina 2: 2,847 caracteres
   P√°gina 3: 2,445 caracteres
   P√°gina 4: 2,710 caracteres
   P√°gina 5: 2,907 caracteres
   P√°gina 6: 3,352 caracteres
   P√°gina 7: 2,735 caracteres
   P√°gina 8: 2,679 caracteres
   P√°gina 9: 2,088 caracteres

‚úÇÔ∏è FASE DE CHUNKING

üîÑ Dividiendo en chunks (tama√±o=800, overlap=100)...

‚úÖ Creados 37 chunks de 9 p√°ginas
   Secciones √∫nicas identificadas: 32
   Tama√±o promedio de chunk: 721 caracteres

üìã Preview de los primeros 3 chunks:

--- Chunk 1 ---
Secci√≥n: 0.-Global Procedure
P√°gina: 0
Contenido: 0.-Global Procedure - Admissibility of a Request 
 
Purpose: This is a global procedure intended to validate the admissibility of a request. The 
proc...

--- Chunk 2 ---
Secci√≥n: 3. Verification of Request Admissibility This section includes several sub
P√°gina: 0
Contenido: To ensure t

## Celda 8: Indexar en Pinecone

Esta celda indexa todos los chunks en Pinecone.

In [None]:
async def index_documents_async(documents: List[Document], batch_size: int = BATCH_SIZE):
    """Process documents in batches asynchronously"""
    print("="*60)
    print("üì§ FASE DE INDEXACI√ìN")
    print("="*60)
    print(f"\nüîÑ Indexando {len(documents)} documentos en Pinecone ({INDEX_NAME})...")
    print(f"   Tama√±o de batch: {batch_size}")

    # Crear batches
    batches = [
        documents[i:i + batch_size] for i in range(0, len(documents), batch_size)
    ]

    print(f"   Total de batches: {len(batches)}")
    print()

    async def aadd_batch(batch: List[Document], batch_number: int):
        try:
            await vectorstore.aadd_documents(batch)
            print(f"   ‚úÖ Batch {batch_number}/{len(batches)}: {len(batch)} documentos indexados")
            return True
        except Exception as e:
            print(f"   ‚ùå Batch {batch_number}: Error - {str(e)}")
            return False

    # Procesar batches concurrentemente
    tasks = [aadd_batch(batch, i + 1) for i, batch in enumerate(batches)]
    results = await asyncio.gather(*tasks, return_exceptions=True)

    # Contar batches exitosos
    success_count = sum(1 for result in results if result is True)

    print()
    if success_count == len(batches):
        print("‚úÖ Todos los batches indexados exitosamente.")
    else:
        print(f"‚ö†Ô∏è {success_count}/{len(batches)} batches indexados exitosamente.")

    return success_count == len(batches)

# Ejecutar la indexaci√≥n
await index_documents_async(chunks, batch_size=BATCH_SIZE)

# Resumen final
print("\n" + "="*60)
print("üìä RESUMEN DE INGESTA")
print("="*60)
print(f"   Archivo: {PDF_PATH}")
print(f"   P√°ginas procesadas: {len(pages)}")
print(f"   Chunks creados: {len(chunks)}")
print(f"   Tama√±o de chunk: {CHUNK_SIZE} caracteres")
print(f"   Overlap: {CHUNK_OVERLAP} caracteres")
print(f"   √çndice destino: {INDEX_NAME}")
print("\n‚úÖ Proceso de ingesta completado.")

üì§ FASE DE INDEXACI√ìN

üîÑ Indexando 37 documentos en Pinecone (mueblesrd-index-coolab)...
   Tama√±o de batch: 50
   Total de batches: 1



  0%|          | 0/1 [00:00<?, ?it/s]

   ‚úÖ Batch 1/1: 37 documentos indexados

‚úÖ Todos los batches indexados exitosamente.

üìä RESUMEN DE INGESTA
   Archivo: RD_POLITICS (1).pdf
   P√°ginas procesadas: 9
   Chunks creados: 37
   Tama√±o de chunk: 800 caracteres
   Overlap: 100 caracteres
   √çndice destino: mueblesrd-index-coolab

‚úÖ Proceso de ingesta completado.


## Celda 9: Prueba de B√∫squeda de Similitud

Usa esta celda para probar b√∫squedas en el vector store y verificar que la ingesta funcion√≥ correctamente.

In [None]:
# Texto de consulta para probar
query = input("üîç Ingresa tu consulta de prueba: ")

print(f"\n" + "="*60)
print("üîé RESULTADOS DE B√öSQUEDA")
print("="*60)
print(f"\nConsulta: \"{query}\"\n")

# Realizar b√∫squeda de similitud con scores
results = vectorstore.similarity_search_with_score(query, k=3)

if not results:
    print("‚ùå No se encontraron resultados.")
else:
    print(f"‚úÖ Se encontraron {len(results)} resultados:\n")

    for i, (doc, score) in enumerate(results, 1):
        print(f"--- Resultado {i} (Score: {score:.4f}) ---")
        print(f"üìå Secci√≥n: {doc.metadata.get('source', 'N/A')}")
        print(f"üìÑ P√°gina: {doc.metadata.get('page', 'N/A')}")
        print(f"üìÅ Archivo: {doc.metadata.get('file', 'N/A')}")
        print(f"\nüìù Contenido:")
        print(f"{doc.page_content[:500]}..." if len(doc.page_content) > 500 else doc.page_content)
        print("\n" + "-"*60 + "\n")

üîç Ingresa tu consulta de prueba: LG aesthetic 

üîé RESULTADOS DE B√öSQUEDA

Consulta: "LG aesthetic "



  0%|          | 0/1 [00:00<?, ?it/s]

‚úÖ Se encontraron 3 resultados:

--- Resultado 1 (Score: 0.4154) ---
üìå Secci√≥n: MueblesRD Policy
üìÑ P√°gina: 8.0
üìÅ Archivo: RD_POLITICS (1).pdf

üìù Contenido:
Meubles RD. 
Forno 
‚Ä¢ Aesthetic: 100% handled by Meubles RD. Offers compensation or repair; if impossible, an 
exchange is made. 
‚Ä¢ Mechanical (2 years): Use the Forno service tool (web form) to transmit the request. 
GE (Haier, Moffat, Profile, Caf√©) 
‚Ä¢ Aesthetic: Must be declared to the manufacturer within 7 days. 
‚Ä¢ Mechanical: Handled by the manufacturer; send via child request in Salesforce. 
LG 
‚Ä¢ Aesthetic: 100% handled by Meubles RD if declared within 48 hours. 
‚Ä¢ Mechanical: Submit via ...

------------------------------------------------------------

--- Resultado 2 (Score: 0.3692) ---
üìå Secci√≥n: 3. Small Appliances
üìÑ P√°gina: 6.0
üìÅ Archivo: RD_POLITICS (1).pdf

üìù Contenido:
‚ó¶ Mechanical: 1 year for parts and labor covered by the manufacturer. 
‚Ä¢ LG Studio, Midea: 2 years for pa

## Celda 10: B√∫squedas Adicionales (Opcional)

Ejecuta m√∫ltiples b√∫squedas sin necesidad de volver a ingresar cada vez.

In [None]:
def search_vectorstore(query: str, k: int = 3):
    """Funci√≥n auxiliar para b√∫squedas r√°pidas"""
    print(f"\nüîç Buscando: \"{query}\"\n")
    results = vectorstore.similarity_search_with_score(query, k=k)

    for i, (doc, score) in enumerate(results, 1):
        print(f"[{i}] Score: {score:.4f} | Secci√≥n: {doc.metadata.get('source', 'N/A')[:40]}")
        print(f"    {doc.page_content[:200]}...\n")

    return results

# Ejemplos de uso:
# search_vectorstore("duration")
# search_vectorstore("warranty")
# search_vectorstore("claim")