In [1]:
# Instalar dependencias espec√≠ficas para PDF si no est√°n instaladas
# !pip install pypdf langchain-community pymupdf4llm pdfplumber
# 
# Si hay problemas con pdfminer, intenta:
# !pip install pdfminer.six==20231228
# !pip install unstructured[pdf]
# 
# Para macOS, tambi√©n puedes necesitar:
# !brew install poppler


In [30]:
# Imports necesarios
import os
import warnings
from pathlib import Path
from dotenv import load_dotenv
import time

# Suprimir warnings
warnings.filterwarnings('ignore')

# Cargar variables de entorno
load_dotenv()

# Verificar credenciales
required_keys = ["OPENAI_API_KEY", "QDRANT_URL", "QDRANT_API_KEY"]
missing_keys = [key for key in required_keys if not os.getenv(key)]

if missing_keys:
    print(f"‚ö†Ô∏è  Faltan las siguientes variables de entorno: {missing_keys}")
    print("üìù Config√∫ralas en tu archivo .env")
else:
    print("‚úÖ Todas las credenciales est√°n configuradas correctamente")
    
# Verificar archivo PDF
pdf_path = "/Users/pablolastrabachmann/DiploGenAI/modulo 4/Contrato de arriendo departamento notariado - Pablo Lastra.PDF"
if Path(pdf_path).exists():
    print(f"‚úÖ Archivo PDF encontrado: {Path(pdf_path).name}")
else:
    print(f"‚ùå Archivo PDF no encontrado en: {pdf_path}")


‚úÖ Todas las credenciales est√°n configuradas correctamente
‚úÖ Archivo PDF encontrado: Contrato de arriendo departamento notariado - Pablo Lastra.PDF


In [2]:
# Instalar dependencias necesarias si hay problemas
import subprocess
import sys

def install_package(package):
    """Instala un paquete si no est√° disponible"""
    try:
        __import__(package)
        print(f"‚úÖ {package} ya est√° instalado")
        return True
    except ImportError:
        print(f"üì¶ Instalando {package}...")
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
            print(f"‚úÖ {package} instalado exitosamente")
            return True
        except Exception as e:
            print(f"‚ùå Error instalando {package}: {e}")
            return False

print("üîß Verificando e instalando dependencias para PDF...")

# Paquetes necesarios para PDF
pdf_packages = [
    "pymupdf",      # fitz
    "pdfplumber", 
    "pypdf"
]

# Instalar paquetes necesarios
for package in pdf_packages:
    install_package(package)

print("\n‚úÖ Verificaci√≥n de dependencias completada")


üîß Verificando e instalando dependencias para PDF...
‚úÖ pymupdf ya est√° instalado
‚úÖ pdfplumber ya est√° instalado
‚úÖ pypdf ya est√° instalado

‚úÖ Verificaci√≥n de dependencias completada


In [31]:
# Imports para procesamiento de PDF
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema import Document
from pydantic import BaseModel, Field
from typing import Optional
import fitz  # PyMuPDF

print("üìñ Cargando y procesamiento del contrato PDF...")

# Funci√≥n mejorada con m√∫ltiples m√©todos de carga
def load_pdf_with_fallback(pdf_path):
    """Carga PDF con m√∫ltiples m√©todos para mayor robustez"""
    
    # M√©todo 1: PyPDFLoader
    try:
        print("üîÑ Intentando con PyPDFLoader...")
        from langchain_community.document_loaders import PyPDFLoader
        loader = PyPDFLoader(pdf_path)
        pages = loader.load()
        
        if pages and len(pages[0].page_content.strip()) > 50:
            print(f"‚úÖ PyPDFLoader exitoso - {len(pages)} p√°ginas cargadas")
            return pages
        else:
            print("‚ö†Ô∏è PyPDFLoader: contenido insuficiente")
    except Exception as e:
        print(f"‚ö†Ô∏è PyPDFLoader fall√≥: {e}")
    
    # M√©todo 2: PyMuPDF (fitz) - m√°s robusto
    try:
        print("üîÑ Intentando con PyMuPDF...")
        doc = fitz.open(pdf_path)
        pages = []
        
        for page_num in range(len(doc)):
            page = doc.load_page(page_num)
            text = page.get_text()
            
            if text.strip():
                pages.append(Document(
                    page_content=text,
                    metadata={"page": page_num + 1, "source": pdf_path}
                ))
        
        doc.close()
        
        if pages:
            print(f"‚úÖ PyMuPDF exitoso - {len(pages)} p√°ginas cargadas")
            return pages
        else:
            print("‚ö†Ô∏è PyMuPDF: no se extrajo contenido")
            
    except Exception as e:
        print(f"‚ö†Ô∏è PyMuPDF fall√≥: {e}")
    
    # M√©todo 3: PDFPlumber (m√°s preciso)
    try:
        print("üîÑ Intentando con PDFPlumber...")
        import pdfplumber
        
        pages = []
        with pdfplumber.open(pdf_path) as pdf:
            for i, page in enumerate(pdf.pages):
                text = page.extract_text()
                
                if text and text.strip():
                    pages.append(Document(
                        page_content=text,
                        metadata={"page": i + 1, "source": pdf_path}
                    ))
        
        if pages:
            print(f"‚úÖ PDFPlumber exitoso - {len(pages)} p√°ginas cargadas")
            return pages
        else:
            print("‚ö†Ô∏è PDFPlumber: no se extrajo contenido")
            
    except Exception as e:
        print(f"‚ö†Ô∏è PDFPlumber fall√≥: {e}")
    
    # M√©todo 4: UnstructuredPDFLoader (si est√° disponible)
    try:
        print("üîÑ Intentando con UnstructuredPDFLoader...")
        from langchain_community.document_loaders import UnstructuredPDFLoader
        loader = UnstructuredPDFLoader(pdf_path)
        pages = loader.load()
        
        if pages:
            print(f"‚úÖ UnstructuredPDFLoader exitoso - {len(pages)} documentos cargados")
            return pages
    except Exception as e:
        print(f"‚ö†Ô∏è UnstructuredPDFLoader fall√≥: {e}")
    
    # M√©todo 5: Lectura b√°sica con pypdf
    try:
        print("üîÑ Intentando con pypdf b√°sico...")
        import pypdf
        
        pages = []
        with open(pdf_path, 'rb') as file:
            pdf_reader = pypdf.PdfReader(file)
            
            for i, page in enumerate(pdf_reader.pages):
                text = page.extract_text()
                
                if text and text.strip():
                    pages.append(Document(
                        page_content=text,
                        metadata={"page": i + 1, "source": pdf_path}
                    ))
        
        if pages:
            print(f"‚úÖ pypdf b√°sico exitoso - {len(pages)} p√°ginas cargadas")
            return pages
        else:
            print("‚ö†Ô∏è pypdf: no se extrajo contenido")
            
    except Exception as e:
        print(f"‚ö†Ô∏è pypdf fall√≥: {e}")
    
    raise Exception("‚ùå No se pudo cargar el PDF con ning√∫n m√©todo disponible")

# Cargar el PDF
try:
    raw_documents = load_pdf_with_fallback(pdf_path)
    
    # Estad√≠sticas b√°sicas
    total_chars = sum(len(doc.page_content) for doc in raw_documents)
    total_words = sum(len(doc.page_content.split()) for doc in raw_documents)
    
    print(f"\nüìä Estad√≠sticas del documento:")
    print(f"  ‚Ä¢ P√°ginas/Secciones: {len(raw_documents)}")
    print(f"  ‚Ä¢ Total caracteres: {total_chars:,}")
    print(f"  ‚Ä¢ Total palabras: {total_words:,}")
    print(f"  ‚Ä¢ Promedio palabras por p√°gina: {total_words//len(raw_documents):,}")
    
except Exception as e:
    print(f"‚ùå Error cargando PDF: {e}")
    print("\nüîß SOLUCIONES POSIBLES:")
    print("1. Instala las dependencias: pip install pymupdf pdfplumber pypdf")
    print("2. Si el PDF est√° corrupto, intenta abrirlo y exportarlo nuevamente")
    print("3. Verifica que el archivo existe y tienes permisos de lectura")
    print("4. Para PDFs complejos, convierte a texto manualmente")
    raw_documents = []


üìñ Cargando y procesamiento del contrato PDF...
üîÑ Intentando con PyPDFLoader...
‚ö†Ô∏è PyPDFLoader: contenido insuficiente
üîÑ Intentando con PyMuPDF...
‚ö†Ô∏è PyMuPDF: no se extrajo contenido
üîÑ Intentando con PDFPlumber...
‚ö†Ô∏è PDFPlumber: no se extrajo contenido
üîÑ Intentando con UnstructuredPDFLoader...
‚ö†Ô∏è UnstructuredPDFLoader fall√≥: No module named 'pi_heif'
üîÑ Intentando con pypdf b√°sico...
‚ö†Ô∏è pypdf: no se extrajo contenido
‚ùå Error cargando PDF: ‚ùå No se pudo cargar el PDF con ning√∫n m√©todo disponible

üîß SOLUCIONES POSIBLES:
1. Instala las dependencias: pip install pymupdf pdfplumber pypdf
2. Si el PDF est√° corrupto, intenta abrirlo y exportarlo nuevamente
3. Verifica que el archivo existe y tienes permisos de lectura
4. Para PDFs complejos, convierte a texto manualmente


In [4]:
# Diagn√≥stico completo del PDF
import fitz  # PyMuPDF
import os
from pathlib import Path

def diagnose_pdf(pdf_path):
    """Diagnostica las propiedades del PDF para entender por qu√© no se extrae texto"""
    
    print(f"üîç DIAGN√ìSTICO COMPLETO DEL PDF")
    print("=" * 50)
    
    # 1. Verificar existencia y propiedades del archivo
    if not os.path.exists(pdf_path):
        print(f"‚ùå El archivo no existe: {pdf_path}")
        return False
    
    file_size = os.path.getsize(pdf_path) / (1024 * 1024)  # MB
    print(f"üìÅ Archivo: {Path(pdf_path).name}")
    print(f"üìä Tama√±o: {file_size:.2f} MB")
    print(f"üîó Ruta: {pdf_path}")
    
    try:
        # 2. Abrir con PyMuPDF para diagn√≥stico detallado
        doc = fitz.open(pdf_path)
        
        print(f"\nüìÑ PROPIEDADES DEL PDF:")
        print(f"  ‚Ä¢ P√°ginas: {len(doc)}")
        print(f"  ‚Ä¢ Versi√≥n PDF: {doc.pdf_version()}")
        print(f"  ‚Ä¢ Encriptado: {'S√≠' if doc.needs_pass else 'No'}")
        print(f"  ‚Ä¢ Metadata: {doc.metadata}")
        
        # 3. Analizar cada p√°gina
        print(f"\nüìã AN√ÅLISIS POR P√ÅGINA:")
        
        text_found = False
        images_found = False
        
        for page_num in range(min(3, len(doc))):  # Analizar primeras 3 p√°ginas
            page = doc.load_page(page_num)
            
            # Intentar extraer texto
            text = page.get_text()
            text_blocks = page.get_text("dict")
            images = page.get_images()
            
            print(f"\n  üìÑ P√°gina {page_num + 1}:")
            print(f"    ‚Ä¢ Texto extra√≠do: {len(text)} caracteres")
            print(f"    ‚Ä¢ Bloques de texto: {len(text_blocks.get('blocks', []))}")
            print(f"    ‚Ä¢ Im√°genes: {len(images)}")
            
            if len(text.strip()) > 10:
                text_found = True
                print(f"    ‚Ä¢ Muestra de texto: '{text[:100].strip()}...'")
            
            if images:
                images_found = True
                print(f"    ‚Ä¢ Contiene im√°genes (posible PDF escaneado)")
        
        doc.close()
        
        # 4. Diagn√≥stico final
        print(f"\nüéØ DIAGN√ìSTICO:")
        if text_found:
            print("‚úÖ Se encontr√≥ texto extra√≠ble en el PDF")
            return True
        elif images_found:
            print("üì∏ PDF contiene principalmente im√°genes (documento escaneado)")
            print("üí° Soluci√≥n: Necesitas OCR para extraer texto de im√°genes")
            return False
        else:
            print("‚ùì PDF sin texto ni im√°genes detectables")
            print("üí° Puede estar corrupto o tener formato no est√°ndar")
            return False
            
    except Exception as e:
        print(f"‚ùå Error en diagn√≥stico: {e}")
        return False

# Ejecutar diagn√≥stico
has_text = diagnose_pdf(pdf_path)


üîç DIAGN√ìSTICO COMPLETO DEL PDF
üìÅ Archivo: Contrato de arriendo departamento notariado - Pablo Lastra.PDF
üìä Tama√±o: 0.69 MB
üîó Ruta: /Users/pablolastrabachmann/DiploGenAI/modulo 4/Contrato de arriendo departamento notariado - Pablo Lastra.PDF

üìÑ PROPIEDADES DEL PDF:
  ‚Ä¢ P√°ginas: 3
‚ùå Error en diagn√≥stico: 'Document' object has no attribute 'pdf_version'


In [32]:
# Extracci√≥n de texto con OCR para PDFs escaneados
# Ejecuta esta celda SOLO si el diagn√≥stico indica que el PDF contiene im√°genes

def extract_text_with_ocr(pdf_path):
    """Extrae texto usando OCR si el PDF est√° escaneado"""
    
    print("üì∏ Intentando extracci√≥n con OCR...")
    
    try:
        # Instalar easyocr si no est√° disponible
        try:
            import easyocr
        except ImportError:
            print("üì¶ Instalando EasyOCR...")
            import subprocess
            import sys
            subprocess.check_call([sys.executable, "-m", "pip", "install", "easyocr"])
            import easyocr
        
        # Convertir PDF a im√°genes
        doc = fitz.open(pdf_path)
        reader = easyocr.Reader(['es', 'en'])  # Espa√±ol e ingl√©s
        
        all_text = []
        
        for page_num in range(len(doc)):
            print(f"üîÑ Procesando p√°gina {page_num + 1}/{len(doc)} con OCR...")
            
            # Convertir p√°gina a imagen
            page = doc.load_page(page_num)
            pix = page.get_pixmap()
            img_data = pix.tobytes("png")
            
            # Extraer texto con OCR
            results = reader.readtext(img_data)
            
            # Concatenar texto extra√≠do
            page_text = ""
            for (bbox, text, confidence) in results:
                if confidence > 0.5:  # Solo texto con confianza > 50%
                    page_text += text + " "
            
            if page_text.strip():
                all_text.append(Document(
                    page_content=page_text.strip(),
                    metadata={
                        "page": page_num + 1,
                        "source": pdf_path,
                        "method": "OCR",
                        "confidence": "medium"
                    }
                ))
                
                print(f"   ‚úÖ Extra√≠dos {len(page_text)} caracteres")
            else:
                print(f"   ‚ö†Ô∏è No se extrajo texto de la p√°gina {page_num + 1}")
        
        doc.close()
        
        if all_text:
            print(f"\n‚úÖ OCR completado: {len(all_text)} p√°ginas procesadas")
            total_chars = sum(len(doc.page_content) for doc in all_text)
            print(f"üìä Total caracteres extra√≠dos: {total_chars:,}")
            return all_text
        else:
            print("‚ùå OCR no pudo extraer texto")
            return None
            
    except Exception as e:
        print(f"‚ùå Error en OCR: {e}")
        print("üí° Instala easyocr: pip install easyocr")
        return None

# Ejecutar OCR solo si el diagn√≥stico indica PDF escaneado
if 'has_text' in locals() and not has_text:
    print("üîÑ PDF parece ser escaneado, intentando OCR...")
    raw_documents = extract_text_with_ocr(pdf_path)
    
    if raw_documents:
        print("‚úÖ Texto extra√≠do exitosamente con OCR")
    else:
        print("‚ùå OCR fall√≥, necesitar√°s m√©todo manual")
        raw_documents = []
else:
    print("‚ÑπÔ∏è OCR no necesario - ejecuta diagn√≥stico primero")


üîÑ PDF parece ser escaneado, intentando OCR...
üì∏ Intentando extracci√≥n con OCR...
üîÑ Procesando p√°gina 1/3 con OCR...
   ‚úÖ Extra√≠dos 1464 caracteres
üîÑ Procesando p√°gina 2/3 con OCR...
   ‚úÖ Extra√≠dos 1597 caracteres
üîÑ Procesando p√°gina 3/3 con OCR...
   ‚úÖ Extra√≠dos 964 caracteres

‚úÖ OCR completado: 3 p√°ginas procesadas
üìä Total caracteres extra√≠dos: 4,022
‚úÖ Texto extra√≠do exitosamente con OCR


In [33]:
# Verificar estado actual y dar instrucciones
print("üìã ESTADO ACTUAL DE LA EXTRACCI√ìN DE TEXTO")
print("=" * 60)

# Verificar si tenemos documentos cargados
if 'raw_documents' in locals() and raw_documents:
    total_chars = sum(len(doc.page_content) for doc in raw_documents)
    total_words = sum(len(doc.page_content.split()) for doc in raw_documents)
    method = raw_documents[0].metadata.get('method', 'unknown')
    
    print("‚úÖ TEXTO EXTRA√çDO EXITOSAMENTE")
    print(f"üìä Estad√≠sticas finales:")
    print(f"  ‚Ä¢ Documentos/P√°ginas: {len(raw_documents)}")
    print(f"  ‚Ä¢ Total caracteres: {total_chars:,}")
    print(f"  ‚Ä¢ Total palabras: {total_words:,}")
    print(f"  ‚Ä¢ M√©todo usado: {method}")
    
    print(f"\nüîç Muestra del contenido:")
    print(f"'{raw_documents[0].page_content[:150]}...'")
    
    print(f"\nüöÄ PR√ìXIMOS PASOS:")
    print("‚úÖ Contin√∫a ejecutando las siguientes celdas del notebook")
    print("‚úÖ El sistema RAG se configurar√° autom√°ticamente")
    print("‚úÖ Podr√°s hacer preguntas sobre tu contrato")
    
else:
    print("‚ùå A√öN NO SE HA EXTRA√çDO TEXTO")
    print(f"\nüîß OPCIONES DISPONIBLES:")
    print("1. üìñ Ejecuta la celda de DIAGN√ìSTICO primero")
    print("2. üì∏ Si es PDF escaneado, usa la celda de OCR") 
    print("3. üìù Si todo falla, usa el M√âTODO MANUAL (copia/pega)")
    print("4. üîÑ Verifica que el archivo PDF no est√© corrupto")
    
    print(f"\nüí° RECOMENDACIONES:")
    print("‚Ä¢ El m√©todo manual (copia/pega) es el m√°s confiable")
    print("‚Ä¢ Abre tu PDF en Preview/Adobe y copia todo el texto")
    print("‚Ä¢ Pega el texto en la celda manual y ejec√∫tala")
    
    print(f"\n‚ö†Ô∏è Si el PDF no permite copiar texto:")
    print("‚Ä¢ Puede estar protegido o ser solo im√°genes")
    print("‚Ä¢ Usa el m√©todo OCR o convierte el PDF a texto primero")

print("\n" + "=" * 60)


üìã ESTADO ACTUAL DE LA EXTRACCI√ìN DE TEXTO
‚úÖ TEXTO EXTRA√çDO EXITOSAMENTE
üìä Estad√≠sticas finales:
  ‚Ä¢ Documentos/P√°ginas: 3
  ‚Ä¢ Total caracteres: 4,022
  ‚Ä¢ Total palabras: 556
  ‚Ä¢ M√©todo usado: OCR

üîç Muestra del contenido:
'NOTARiO CONTRATO DE ARRIENDO DEPARTAMENTO Santiagc (6 de meyo de 2024 Entre MARIANA OLATE VENTURELLI, Rut ARRENDADOR' PABLO ENRIQUE LASTRA BACHMANN aq...'

üöÄ PR√ìXIMOS PASOS:
‚úÖ Contin√∫a ejecutando las siguientes celdas del notebook
‚úÖ El sistema RAG se configurar√° autom√°ticamente
‚úÖ Podr√°s hacer preguntas sobre tu contrato



In [34]:
# Mostrar muestra del contenido
if raw_documents:
    print("üîç Muestra del contenido extra√≠do:")
    print("=" * 50)
    sample_content = raw_documents[0].page_content[:500]
    print(sample_content)
    print("=" * 50)
    
    if len(raw_documents) > 1:
        print(f"\nüìÑ El documento tiene {len(raw_documents)} p√°ginas/secciones")
        for i, doc in enumerate(raw_documents[:3]):
            print(f"  ‚Ä¢ P√°gina {i+1}: {len(doc.page_content)} caracteres")


üîç Muestra del contenido extra√≠do:
NOTARiO CONTRATO DE ARRIENDO DEPARTAMENTO Santiagc (6 de meyo de 2024 Entre MARIANA OLATE VENTURELLI, Rut ARRENDADOR' PABLO ENRIQUE LASTRA BACHMANN aqu/ adelante EL ARRENDATARIO' ce edad seha convenido en siguienie PRIMERO; arrendacor ca en amenjamienic arrendatario Avenida Viel 1616 Departamento 1107 ccmuna ce Santiago Centro SEGUNDO: desbnada para local arrendatano TERCERO contar del 06 de mayo 2024 misma fecha dla del lvego del pnmer ano arendajor presente contrato deoera enviar certihcaca Co

üìÑ El documento tiene 3 p√°ginas/secciones
  ‚Ä¢ P√°gina 1: 1463 caracteres
  ‚Ä¢ P√°gina 2: 1596 caracteres
  ‚Ä¢ P√°gina 3: 963 caracteres


In [61]:
# Configurar conexiones y chunking
from qdrant_client import QdrantClient
from langchain_qdrant import QdrantVectorStore
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from qdrant_client.models import Distance, VectorParams

print("üîß Configurando sistema RAG para contratos...")

# 1. Configurar text splitter optimizado para contratos
chunk_size = 800
chunk_overlap = int(chunk_size * 0.2)  # 20% overlap

contract_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=["\n\n", "\n", ". ", ", ", " ", ""],
    keep_separator=True
)

print(f"‚úÇÔ∏è Chunking configurado: {chunk_size} chars, {chunk_overlap} overlap")

# 2. Configurar OpenAI
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
    dimensions=512  # Dimensi√≥n reducida para eficiencia
)

llm = ChatOpenAI(model="gpt-4o", temperature=0.1)
print("‚úÖ OpenAI configurado")

# 3. Configurar Qdrant
try:
    qdrant_client = QdrantClient(
        url=os.getenv("QDRANT_URL"),
        api_key=os.getenv("QDRANT_API_KEY"),
    )
    
    collections = qdrant_client.get_collections()
    print(f"‚úÖ Conectado a Qdrant Cloud ({len(collections.collections)} colecciones)")
    
except Exception as e:
    print(f"‚ùå Error conectando con Qdrant: {e}")
    qdrant_client = None


üîß Configurando sistema RAG para contratos...
‚úÇÔ∏è Chunking configurado: 800 chars, 160 overlap
‚úÖ OpenAI configurado
‚úÖ Conectado a Qdrant Cloud (3 colecciones)


In [62]:
# Conectar a colecci√≥n existente o crear nueva
if qdrant_client:
    collection_name = "contrato_arriendo_pablo"
    
    try:
        # Verificar si la colecci√≥n ya existe
        existing_collections = [col.name for col in qdrant_client.get_collections().collections]
        
        if collection_name in existing_collections:
            print(f"üîó Conectando a colecci√≥n existente '{collection_name}'...")
            
            # Conectar a colecci√≥n existente
            vector_store = QdrantVectorStore(
                client=qdrant_client,
                collection_name=collection_name,
                embedding=embeddings
            )
            
            # Verificar contenido de la colecci√≥n
            collection_info = qdrant_client.get_collection(collection_name)
            vectors_count = collection_info.vectors_count
            
            print(f"‚úÖ Conectado a colecci√≥n existente!")
            print(f"üìä La colecci√≥n contiene {vectors_count} vectores/chunks")
            print(f"üöÄ Listo para usar el sistema RAG")
            
        else:
            print(f"üîÑ Colecci√≥n '{collection_name}' no existe, creando nueva...")
            
            if raw_documents:
                # 1. Crear chunks
                chunks = contract_splitter.split_documents(raw_documents)
                
                # 2. Enriquecer metadata para contratos
                for i, chunk in enumerate(chunks):
                    chunk.metadata.update({
                        "source": "Contrato de arriendo Pablo Lastra",
                        "chunk_id": i,
                        "tipo_documento": "contrato_arriendo",
                        "char_count": len(chunk.page_content),
                        "word_count": len(chunk.page_content.split())
                    })
                
                print(f"‚úÇÔ∏è Creados {len(chunks)} chunks")
                print(f"üìä Promedio: {len(chunks)/len(raw_documents):.1f} chunks por p√°gina")
                
                # 3. Crear nueva colecci√≥n
                start_time = time.time()
                
                vector_store = QdrantVectorStore.from_documents(
                    documents=chunks,
                    embedding=embeddings,
                    url=os.getenv("QDRANT_URL"),
                    api_key=os.getenv("QDRANT_API_KEY"),
                    collection_name=collection_name,
                    force_recreate=True
                )
                
                index_time = time.time() - start_time
                
                print(f"‚úÖ Vector store creado exitosamente!")
                print(f"‚è±Ô∏è Tiempo de indexaci√≥n: {index_time:.2f} segundos")
                print(f"üìä {len(chunks)} chunks indexados en Qdrant Cloud")
            else:
                print("‚ùå No hay documentos para crear la colecci√≥n")
                vector_store = None
        
    except Exception as e:
        print(f"‚ùå Error con vector store: {e}")
        vector_store = None
        
else:
    print("‚ùå No se puede procesar: falta conexi√≥n Qdrant")
    vector_store = None


üîó Conectando a colecci√≥n existente 'contrato_arriendo_pablo'...
‚úÖ Conectado a colecci√≥n existente!
üìä La colecci√≥n contiene None vectores/chunks
üöÄ Listo para usar el sistema RAG


In [63]:
# Configurar sistema RAG especializado para contratos
if vector_store:
    from langchain_core.prompts import ChatPromptTemplate
    from langchain_core.output_parsers import StrOutputParser
    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
    from langchain.callbacks import get_openai_callback
    
    print("ü§ñ Configurando sistema RAG especializado para contratos...")
    
    # Configurar retriever
    retriever = vector_store.as_retriever(
        search_type="similarity",
        search_kwargs={"k": 3, "score_threshold": 0.1}
    )
    
    # Funci√≥n para formatear documentos de contrato
    def format_contract_docs(docs):
        """Formatea los chunks recuperados con informaci√≥n espec√≠fica de contratos"""
        formatted_docs = []
        for i, doc in enumerate(docs, 1):
            doc_text = f"[Fragmento {i} - P√°gina {doc.metadata.get('page', 'N/A')}]\n"
            doc_text += f"Contenido: {doc.page_content}\n"
            formatted_docs.append(doc_text)
        return "\n" + "="*50 + "\n".join(formatted_docs)
    
    # Prompt especializado para contratos de arriendo
    contract_prompt = ChatPromptTemplate.from_template("""
## ROL
Eres un asistente legal especializado en contratos de arriendo en Chile.

## TAREA
Responde preguntas espec√≠ficas sobre el contrato de arriendo bas√°ndote √öNICAMENTE en la informaci√≥n proporcionada.

## INSTRUCCIONES:
1. **Analiza cuidadosamente** todos los fragmentos del contrato proporcionados
2. **Responde SOLO** con informaci√≥n que est√© expl√≠citamente en el contrato
3. **Cita espec√≠ficamente** la p√°gina o secci√≥n donde encontraste la informaci√≥n
4. **Si no encuentras informaci√≥n**, indica claramente "Esta informaci√≥n no est√° disponible en las secciones analizadas del contrato"
5. **Para temas legales complejos**, sugiere consultar con un abogado
6. **Estructura tu respuesta** de manera clara y profesional
7. **Incluye montos, fechas y datos espec√≠ficos** exactamente como aparecen en el contrato

## FORMATO DE RESPUESTA:
- Respuesta directa y concisa
- Cita la p√°gina/secci√≥n espec√≠fica
- Si aplica, menciona el contexto legal relevante

## FRAGMENTOS DEL CONTRATO:
{context}

## PREGUNTA:
{question}

## RESPUESTA:
Seg√∫n el contrato analizado:
""")
    
    # Chain RAG
    contract_rag_chain = (
        RunnableParallel({
            "context": retriever | format_contract_docs,
            "question": RunnablePassthrough()
        })
        | contract_prompt
        | llm
        | StrOutputParser()
    )
    
    print("‚úÖ Sistema RAG configurado exitosamente")
    
else:
    print("‚ùå No se puede configurar RAG: vector store no disponible")
    contract_rag_chain = None


ü§ñ Configurando sistema RAG especializado para contratos...
‚úÖ Sistema RAG configurado exitosamente


In [64]:
# Funci√≥n para consultas interactivas sobre el contrato
def consultar_contrato(pregunta, mostrar_contexto=False, mostrar_metricas=True):
    """
    Realiza una consulta al contrato de arriendo
    
    Args:
        pregunta (str): La pregunta sobre el contrato
        mostrar_contexto (bool): Si mostrar los fragmentos recuperados
        mostrar_metricas (bool): Si mostrar m√©tricas de performance
    
    Returns:
        str: La respuesta basada en el contrato
    """
    if not contract_rag_chain:
        return "‚ùå Sistema RAG no disponible"
    
    print(f"‚ùì Pregunta: {pregunta}")
    print("="*60)
    
    start_time = time.time()
    
    try:
        with get_openai_callback() as cb:
            # Mostrar contexto recuperado si se solicita
            if mostrar_contexto:
                retrieved_docs = retriever.invoke(pregunta)
                print("üìö FRAGMENTOS RECUPERADOS DEL CONTRATO:")
                for i, doc in enumerate(retrieved_docs, 1):
                    print(f"\n[Fragmento {i} - P√°gina {doc.metadata.get('page', 'N/A')}]")
                    print(f"Contenido: {doc.page_content[:300]}...")
                print("\n" + "="*60)
            
            # Generar respuesta
            respuesta = contract_rag_chain.invoke(pregunta)
            
            end_time = time.time()
            
            # Mostrar respuesta
            print("ü§ñ RESPUESTA:")
            print(respuesta)
            
            # Mostrar m√©tricas
            if mostrar_metricas:
                print(f"\nüìä M√âTRICAS:")
                print(f"‚è±Ô∏è Tiempo total: {end_time - start_time:.2f} segundos")
                print(f"üé´ Tokens usados: {cb.total_tokens}")
                print(f"üí∞ Costo aproximado: ${cb.total_cost:.4f}")
            
            return respuesta
            
    except Exception as e:
        print(f"‚ùå Error: {e}")
        return None

print("üí¨ Sistema de consultas interactivas configurado")
print("üìù Usa la funci√≥n: consultar_contrato('tu pregunta aqu√≠')")


üí¨ Sistema de consultas interactivas configurado
üìù Usa la funci√≥n: consultar_contrato('tu pregunta aqu√≠')


In [65]:
consultar_contrato('cada cuanto se reajusta el arriendo?')

‚ùì Pregunta: cada cuanto se reajusta el arriendo?
ü§ñ RESPUESTA:
Seg√∫n el contrato analizado, el arriendo se reajusta anualmente de acuerdo al √çndice de Precios al Consumidor (IPC) determinado por el Instituto Nacional de Estad√≠sticas. Esta informaci√≥n se encuentra en el Fragmento 1 - P√°gina 1.

üìä M√âTRICAS:
‚è±Ô∏è Tiempo total: 3.67 segundos
üé´ Tokens usados: 979
üí∞ Costo aproximado: $0.0028


'Seg√∫n el contrato analizado, el arriendo se reajusta anualmente de acuerdo al √çndice de Precios al Consumidor (IPC) determinado por el Instituto Nacional de Estad√≠sticas. Esta informaci√≥n se encuentra en el Fragmento 1 - P√°gina 1.'

In [66]:
# Pruebas del sistema con preguntas t√≠picas sobre contratos de arriendo
if contract_rag_chain:
    print("üß™ PRUEBAS DEL SISTEMA RAG PARA CONTRATO DE ARRIENDO")
    print("="*70)
    
    # Preguntas t√≠picas sobre contratos de arriendo
    preguntas_test = [
        "¬øCu√°l es el monto del arriendo mensual?",
        "¬øQui√©n es el arrendador y el arrendatario?",
        "¬øCu√°l es la direcci√≥n de la propiedad arrendada?",
        "¬øCu√°ndo inicia y cu√°ndo termina el contrato?",
        "¬øQu√© dice el contrato sobre mascotas?",
        "¬øCu√°les son las obligaciones del arrendatario?",
        "¬øQui√©n paga los gastos comunes?",
        "¬øHay garant√≠as o dep√≥sitos requeridos?"
    ]
    
    print(f"üìù Ejecutando {len(preguntas_test)} preguntas de prueba...")
    print("\n" + "="*70)
    
    # Ejecutar todas las preguntas de prueba
    for i, pregunta in enumerate(preguntas_test, 1):
        print(f"\nüîç PRUEBA {i}/{len(preguntas_test)}")
        print("-" * 50)
        
        try:
            consultar_contrato(pregunta, mostrar_contexto=False, mostrar_metricas=False)
        except Exception as e:
            print(f"‚ùå Error en prueba {i}: {e}")
        
        print("\n" + "="*70)
    
    print("\n‚úÖ Pruebas completadas")
    print("\nüìù Para hacer m√°s consultas personalizadas, usa:")
    print("   consultar_contrato('tu pregunta aqu√≠')")
    print("   consultar_contrato('pregunta', mostrar_contexto=True)  # Para ver fragmentos recuperados")
    
else:
    print("‚ùå Sistema no disponible para pruebas")
    print("\nüîß Verifica que:")
    print("  ‚Ä¢ El PDF se haya cargado correctamente")
    print("  ‚Ä¢ Las credenciales de OpenAI y Qdrant est√©n configuradas")
    print("  ‚Ä¢ El vector store se haya creado exitosamente")


üß™ PRUEBAS DEL SISTEMA RAG PARA CONTRATO DE ARRIENDO
üìù Ejecutando 8 preguntas de prueba...


üîç PRUEBA 1/8
--------------------------------------------------
‚ùì Pregunta: ¬øCu√°l es el monto del arriendo mensual?
ü§ñ RESPUESTA:
El monto del arriendo mensual es de 430,000 pesos chilenos. Esta informaci√≥n se encuentra en el Fragmento 1, P√°gina 1 del contrato.


üîç PRUEBA 2/8
--------------------------------------------------
‚ùì Pregunta: ¬øQui√©n es el arrendador y el arrendatario?
ü§ñ RESPUESTA:
- El arrendador es Pablo Enrique Lastra Bachmann.
- El arrendatario es Mariana Loreto Olate Venturelli.

Esta informaci√≥n se encuentra en el Fragmento 1 - P√°gina 1 y el Fragmento 2 - P√°gina 3 del contrato.


üîç PRUEBA 3/8
--------------------------------------------------
‚ùì Pregunta: ¬øCu√°l es la direcci√≥n de la propiedad arrendada?
ü§ñ RESPUESTA:
La direcci√≥n de la propiedad arrendada es Avenida Viel 1616, Departamento 1107, comuna de Santiago Centro. Esta informaci√≥n

In [72]:
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate
from fastapi import FastAPI
from langserve import add_routes
import uvicorn


app = FastAPI(
    title="rag_chain",
    version="1.0",
    description="rag_chain para contrato de arriendo",
)

add_routes(app, contract_rag_chain, path="/rag_chain")



#uvicorn.run(app, host="localhost", port=8000)
config = uvicorn.Config(app, host="127.0.0.1", port=8000, log_level="info")
server = uvicorn.Server(config)
await server.serve()


INFO:     Started server process [29607]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)



     __          ___      .__   __.   _______      _______. _______ .______     ____    ____  _______
    |  |        /   \     |  \ |  |  /  _____|    /       ||   ____||   _  \    \   \  /   / |   ____|
    |  |       /  ^  \    |   \|  | |  |  __     |   (----`|  |__   |  |_)  |    \   \/   /  |  |__
    |  |      /  /_\  \   |  . `  | |  | |_ |     \   \    |   __|  |      /      \      /   |   __|
    |  `----./  _____  \  |  |\   | |  |__| | .----)   |   |  |____ |  |\  \----.  \    /    |  |____
    |_______/__/     \__\ |__| \__|  \______| |_______/    |_______|| _| `._____|   \__/     |_______|
    
[1;32;40mLANGSERVE:[0m Playground for chain "/rag_chain/" is live at:
[1;32;40mLANGSERVE:[0m  ‚îÇ
[1;32;40mLANGSERVE:[0m  ‚îî‚îÄ‚îÄ> /rag_chain/playground/
[1;32;40mLANGSERVE:[0m
[1;32;40mLANGSERVE:[0m See all available routes at /docs/
INFO:     127.0.0.1:64125 - "GET / HTTP/1.1" 404 Not Found
INFO:     127.0.0.1:64125 - "GET /favicon.ico HTTP/1.1" 404 Not Found
INFO:  

ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/uvicorn/protocols/http/h11_impl.py", line 403, in run_asgi
    result = await app(  # type: ignore[func-returns-value]
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        self.scope, self.receive, self.send
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    )
    ^
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/uvicorn/middleware/proxy_headers.py", line 60, in __call__
    return await self.app(scope, receive, send)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/fastapi/applications.py", line 1054, in __call__
    await super().__call__(scope, receive, send)
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/starlette/applications.py", line 113, in __call__

INFO:     127.0.0.1:64239 - "GET /docs/ HTTP/1.1" 307 Temporary Redirect
INFO:     127.0.0.1:64239 - "GET /docs HTTP/1.1" 200 OK
INFO:     127.0.0.1:64239 - "GET /openapi.json HTTP/1.1" 500 Internal Server Error


ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/uvicorn/protocols/http/h11_impl.py", line 403, in run_asgi
    result = await app(  # type: ignore[func-returns-value]
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        self.scope, self.receive, self.send
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    )
    ^
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/uvicorn/middleware/proxy_headers.py", line 60, in __call__
    return await self.app(scope, receive, send)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/fastapi/applications.py", line 1054, in __call__
    await super().__call__(scope, receive, send)
  File "/Users/pablolastrabachmann/DiploGenAI/venv_diplo/lib/python3.13/site-packages/starlette/applications.py", line 113, in __call__

INFO:     127.0.0.1:64242 - "GET /rag_chain/playground/docs HTTP/1.1" 404 Not Found
INFO:     127.0.0.1:64242 - "GET /rag_chain/playground HTTP/1.1" 307 Temporary Redirect
INFO:     127.0.0.1:64242 - "GET /rag_chain/playground/ HTTP/1.1" 200 OK
INFO:     127.0.0.1:64242 - "GET /rag_chain/playground/assets/index-400979f0.js HTTP/1.1" 200 OK
INFO:     127.0.0.1:64243 - "GET /rag_chain/playground/assets/index-52e8ab2f.css HTTP/1.1" 200 OK


INFO:     Shutting down
INFO:     Waiting for application shutdown.
INFO:     Application shutdown complete.
INFO:     Finished server process [29607]


In [43]:
# Implementar Rewrite-Retrieve-Read para consultas complejas sobre contratos
if contract_rag_chain:
    print("‚ö° Configurando t√©cnica Rewrite-Retrieve-Read...")
    
    # Prompt para mejorar consultas sobre contratos
    rewrite_prompt = ChatPromptTemplate.from_template("""
    Mejora la siguiente consulta sobre un contrato de arriendo para que sea m√°s espec√≠fica y efectiva para la b√∫squeda.
    
    INSTRUCCIONES:
    - Mant√©n el idioma original
    - Haz la consulta m√°s espec√≠fica y detallada
    - Incluye t√©rminos legales relevantes si es apropiado
    - Enf√≥cate en aspectos espec√≠ficos del contrato
    
    Consulta original: {query}
    
    Consulta mejorada:""")
    
    rewrite_chain = rewrite_prompt | llm | StrOutputParser()
    
    def consultar_con_rewrite(pregunta_original):
        """Consulta usando t√©cnica Rewrite-Retrieve-Read"""
        print(f"‚ùì Pregunta original: {pregunta_original}")
        
        # Paso 1: Rewrite
        pregunta_mejorada = rewrite_chain.invoke({"query": pregunta_original})
        print(f"üîÑ Pregunta mejorada: {pregunta_mejorada}")
        print("-" * 60)
        
        # Paso 2: Retrieve & Read
        respuesta = contract_rag_chain.invoke(pregunta_mejorada)
        
        print("ü§ñ RESPUESTA:")
        print(respuesta)
        
        return respuesta
    
    print("‚úÖ Rewrite-Retrieve-Read configurado")
    print("üìù Usa: consultar_con_rewrite('pregunta b√°sica')")
    
    # Ejemplo de uso
    print("\n" + "="*60)
    print("üí° EJEMPLO DE USO:")
    print("="*60)
    
    try:
        consultar_con_rewrite("pagos arriendo")
    except Exception as e:
        print(f"‚ùå Error en ejemplo: {e}")
    
else:
    print("‚ùå No se puede configurar t√©cnicas avanzadas: sistema base no disponible")

print("\n" + "="*70)
print("üéâ SISTEMA RAG PARA CONTRATO DE ARRIENDO COMPLETADO")
print("="*70)
print("\nüìö FUNCIONES DISPONIBLES:")
print("  ‚Ä¢ consultar_contrato('pregunta') - Consulta b√°sica")
print("  ‚Ä¢ consultar_contrato('pregunta', mostrar_contexto=True) - Con fragmentos")
print("  ‚Ä¢ consultar_con_rewrite('pregunta') - Con mejora autom√°tica")
print("\nüîç EJEMPLOS DE PREGUNTAS:")
print("  ‚Ä¢ ¬øCu√°l es el monto del arriendo?")
print("  ‚Ä¢ ¬øQu√© obligaciones tengo como arrendatario?")
print("  ‚Ä¢ ¬øPuedo tener mascotas?")
print("  ‚Ä¢ ¬øCu√°ndo vence el contrato?")
print("  ‚Ä¢ ¬øQu√© pasa si termino antes el contrato?")
print("\n‚úÖ ¬°Listo para usar!")


‚ö° Configurando t√©cnica Rewrite-Retrieve-Read...
‚úÖ Rewrite-Retrieve-Read configurado
üìù Usa: consultar_con_rewrite('pregunta b√°sica')

üí° EJEMPLO DE USO:
‚ùì Pregunta original: pagos arriendo
üîÑ Pregunta mejorada: "detalles de los pagos mensuales en el contrato de arriendo, incluyendo fechas de vencimiento, m√©todos de pago aceptados, penalizaciones por retraso y ajustes anuales seg√∫n el √≠ndice de inflaci√≥n"
------------------------------------------------------------
ü§ñ RESPUESTA:
Seg√∫n el contrato analizado:

- **Renta Mensual**: La renta mensual corresponde a la suma de 430,000 pesos chilenos, la cual incluye el monto a pagar asociado a gastos comunes. (Fragmento 2 - P√°gina 1)

- **Fechas de Vencimiento**: La renta se debe pagar por mensualidades anticipadas. (Fragmento 1 - P√°gina 1)

- **M√©todos de Pago Aceptados**: Los pagos deben realizarse a trav√©s de dep√≥sitos en cuenta. (Fragmento 1 - P√°gina 1)

- **Penalizaciones por Retraso**: Si el retraso en el pago 

In [46]:
consultar_con_rewrite('¬øcorreos de arrendador?')

‚ùì Pregunta original: ¬øcorreos de arrendador?
üîÑ Pregunta mejorada: Consulta mejorada: "Solicito obtener los correos electr√≥nicos del arrendador especificados en el contrato de arrendamiento, incluyendo cualquier direcci√≥n de correo electr√≥nico utilizada para notificaciones oficiales, comunicaciones sobre el pago de la renta, y cualquier otra correspondencia relevante seg√∫n las cl√°usulas del contrato. Adem√°s, por favor indique si existe alguna disposici√≥n sobre la actualizaci√≥n o cambio de dichos correos electr√≥nicos durante la vigencia del contrato."
------------------------------------------------------------
ü§ñ RESPUESTA:
Esta informaci√≥n no est√° disponible en las secciones analizadas del contrato. No se mencionan correos electr√≥nicos del arrendador ni disposiciones sobre la actualizaci√≥n o cambio de dichos correos electr√≥nicos durante la vigencia del contrato. Para obtener esta informaci√≥n, se recomienda revisar el contrato completo o consultar con un abogado.


'Esta informaci√≥n no est√° disponible en las secciones analizadas del contrato. No se mencionan correos electr√≥nicos del arrendador ni disposiciones sobre la actualizaci√≥n o cambio de dichos correos electr√≥nicos durante la vigencia del contrato. Para obtener esta informaci√≥n, se recomienda revisar el contrato completo o consultar con un abogado.'