# üìä Comparador de Documentos PDF con LangChain y vLLM
 
Este notebook permite comparar dos archivos PDF usando:
- An√°lisis b√°sico con difflib
- An√°lisis sem√°ntico con sentence-transformers  
- **An√°lisis inteligente con LangChain + vLLM/OpenAI/Ollama**

## üì¶ Instalaci√≥n de dependencias:
```bash
pip install PyPDF2 sentence-transformers scikit-learn nltk pandas numpy matplotlib seaborn
pip install langchain langchain-community langchain-openai
pip install vllm  # Para servidor vLLM local
```

## üöÄ BLOQUE 1: Importaciones y Configuraci√≥n Inicial

In [None]:
import PyPDF2
import difflib
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import pandas as pd
import time
import warnings
from pathlib import Path
from IPython.display import display, Markdown, HTML
import matplotlib.pyplot as plt
import seaborn as sns
import json
import os


# LangChain imports
from langchain.llms import VLLMOpenAI
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.schema import HumanMessage, SystemMessage
from langchain_community.llms import Ollama
from langchain.callbacks import StdOutCallbackHandler

# Configurar warnings
warnings.filterwarnings('ignore')

print("‚úÖ BLOQUE 1 - Importaciones completadas")

## üìÑ BLOQUE 2: Configuraci√≥n de Paths y Modelos

In [None]:
# üîß CONFIGURA AQU√ç LAS RUTAS DE TUS PDFS
PDF1_PATH = "Red_Hat_OpenShift_AI_Self-Managed-2.19-Release_notes-en-US.pdf"
PDF2_PATH = "Red_Hat_OpenShift_AI_Self-Managed-2.21-Release_notes-en-US.pdf"

# Ejemplo de rutas (modifica seg√∫n tu caso):
# PDF1_PATH = "documentos/contrato_original.pdf"
# PDF2_PATH = "documentos/contrato_modificado.pdf"

print(f"üìÑ PDF 1: {PDF1_PATH}")
print(f"üìÑ PDF 2: {PDF2_PATH}")

# CONFIGURACI√ìN DE MODELOS LLM CON LANGCHAIN
# Opciones de configuraci√≥n de LLM
LLM_PROVIDER = "vllm"  # Opciones: "vllm", "openai", "ollama"

# Configuraci√≥n vLLM
VLLM_CONFIG = {
    "openai_api_base": "http://granite-31-8b-instruct-predictor.comparador-docs.svc.cluster.local:8080/v1",
    "openai_api_key": "EMPTY", 
    "model_name": "granite-31-8b-instruct",
    "temperature": 0.3,
    "max_tokens": 2048
}

# Configuraci√≥n OpenAI
# OPENAI_CONFIG = {
#     "api_key": "tu_openai_api_key_aqui",  # Reemplaza con tu API key
#     "model": "gpt-3.5-turbo",
#     "temperature": 0.3,
#     "max_tokens": 2048
# }

# Configuraci√≥n Ollama
# OLLAMA_CONFIG = {
#     "model": "llama2",  # O cualquier modelo que tengas en Ollama
#     "temperature": 0.3,
#     "base_url": "http://localhost:11434"  # URL por defecto de Ollama
# }

print(f"ü§ñ Proveedor LLM configurado: {LLM_PROVIDER}")

def verificar_archivos(path1, path2):
    """Verifica que ambos archivos PDF existan"""
    errores = []
    
    if not Path(path1).exists():
        errores.append(f"‚ùå No se encuentra: {path1}")
    
    if not Path(path2).exists():
        errores.append(f"‚ùå No se encuentra: {path2}")
    
    if errores:
        for error in errores:
            print(error)
        return False
    else:
        print("‚úÖ Ambos archivos encontrados")
        return True

# Verificar archivos
archivos_ok = verificar_archivos(PDF1_PATH, PDF2_PATH)
print("‚úÖ BLOQUE 2 - Configuraci√≥n completada")

## ü§ñ BLOQUE 3: Configuraci√≥n de LangChain LLM

In [None]:
def inicializar_llm(provider="vllm"):
    """
    Inicializa el modelo LLM usando LangChain seg√∫n el proveedor
    
    Args:
        provider: "vllm", "openai", o "ollama"
        
    Returns:
        Objeto LLM de LangChain
    """
    try:
        if provider == "vllm":
            print("üöÄ Inicializando vLLM con LangChain...")
            
            # Verificar conexi√≥n con vLLM
            import requests
            try:
                response = requests.get(f"{VLLM_CONFIG['openai_api_base'].replace('/v1', '')}/health", timeout=20)
                if response.status_code != 200:
                    raise Exception("vLLM no responde")
                print("‚úÖ vLLM servidor conectado")
            except:
                print("‚ùå Error conectando con vLLM. Aseg√∫rate de que est√© ejecut√°ndose:")
                print(f"   python -m vllm.entrypoints.openai.api_server --model {VLLM_CONFIG['model_name']} --port 8000")
                return None
            
            llm = VLLMOpenAI(
                openai_api_base=VLLM_CONFIG["openai_api_base"],
                openai_api_key=VLLM_CONFIG["openai_api_key"],
                model_name=VLLM_CONFIG["model_name"],
                temperature=VLLM_CONFIG["temperature"],
                max_tokens=VLLM_CONFIG["max_tokens"]
            )
            
        elif provider == "openai":
            print("üöÄ Inicializando OpenAI con LangChain...")
            
            if OPENAI_CONFIG["api_key"] == "tu_openai_api_key_aqui":
                print("‚ùå Por favor configura tu API key de OpenAI en OPENAI_CONFIG")
                return None
            
            llm = ChatOpenAI(
                api_key=OPENAI_CONFIG["api_key"],
                model=OPENAI_CONFIG["model"],
                temperature=OPENAI_CONFIG["temperature"],
                max_tokens=OPENAI_CONFIG["max_tokens"]
            )
            
        elif provider == "ollama":
            print("üöÄ Inicializando Ollama con LangChain...")
            
            # Verificar conexi√≥n con Ollama
            import requests
            try:
                response = requests.get(f"{OLLAMA_CONFIG['base_url']}/api/tags", timeout=5)
                if response.status_code != 200:
                    raise Exception("Ollama no responde")
                print("‚úÖ Ollama servidor conectado")
            except:
                print("‚ùå Error conectando con Ollama. Aseg√∫rate de que est√© ejecut√°ndose:")
                print("   ollama serve")
                return None
            
            llm = Ollama(
                model=OLLAMA_CONFIG["model"],
                temperature=OLLAMA_CONFIG["temperature"],
                base_url=OLLAMA_CONFIG["base_url"]
            )
            
        else:
            print(f"‚ùå Proveedor no soportado: {provider}")
            return None
        
        print(f"‚úÖ LLM inicializado exitosamente: {provider}")
        return llm
        
    except Exception as e:
        print(f"‚ùå Error inicializando LLM {provider}: {str(e)}")
        return None

# Inicializar el LLM
llm_model = inicializar_llm(LLM_PROVIDER)
llm_disponible = llm_model is not None
print("‚úÖ BLOQUE 3 - LangChain LLM configurado")

## üìù BLOQUE 4: Templates de Prompts con LangChain

In [None]:
def crear_templates_langchain():
    """Crea templates de prompts optimizados para LangChain"""
    
    # Template para an√°lisis comprehensivo
    template_comprehensive = PromptTemplate(
        input_variables=["documento1", "documento2"],
        template="""Eres un experto analista de documentos. Analiza y compara los siguientes dos documentos PDF de manera detallada y estructurada.

DOCUMENTO 1:
{documento1}

DOCUMENTO 2:
{documento2}

Proporciona tu an√°lisis en el siguiente formato estructurado:

**SIMILITUDES PRINCIPALES:**
- [Lista 3-5 similitudes clave entre los documentos]

**DIFERENCIAS PRINCIPALES:**
- [Lista 3-5 diferencias importantes entre los documentos]

**TEMAS COMUNES:**
- [Identifica temas que aparecen en ambos documentos]

**TIPO DE DOCUMENTOS:**
- [Describe qu√© tipo de documentos son y su prop√≥sito]

**AN√ÅLISIS DE ESTRUCTURA:**
- [Compara la organizaci√≥n y estructura de ambos documentos]

**PUNTUACI√ìN DE SIMILITUD:** [N√∫mero del 0 al 100]

**RECOMENDACIONES:**
- [Sugerencias basadas en la comparaci√≥n]

**RESUMEN EJECUTIVO:**
[Resumen conciso de 2-3 l√≠neas sobre la comparaci√≥n]"""
    )
    
    # Template para an√°lisis r√°pido
    template_quick = PromptTemplate(
        input_variables=["documento1", "documento2"],
        template="""Compara estos dos documentos y proporciona un an√°lisis r√°pido y conciso:

DOCUMENTO 1: {documento1}

DOCUMENTO 2: {documento2}

Responde en el siguiente formato:
1. Similitud general (0-100): [n√∫mero]
2. Tipo de documentos: [descripci√≥n breve]
3. Similitudes principales (m√°ximo 3):
   - [similitud 1]
   - [similitud 2]
   - [similitud 3]
4. Diferencias principales (m√°ximo 3):
   - [diferencia 1]
   - [diferencia 2]
   - [diferencia 3]
5. Recomendaci√≥n: [una l√≠nea de recomendaci√≥n]"""
    )
    
    # Template para an√°lisis espec√≠fico por dominio
    template_domain = PromptTemplate(
        input_variables=["documento1", "documento2", "dominio"],
        template="""Eres un experto en {dominio}. Analiza estos documentos desde la perspectiva de {dominio}:

DOCUMENTO 1:
{documento1}

DOCUMENTO 2:
{documento2}

Proporciona un an√°lisis especializado que incluya:
1. Elementos espec√≠ficos de {dominio} presentes en cada documento
2. Cumplimiento de est√°ndares o mejores pr√°cticas de {dominio}
3. Diferencias t√©cnicas relevantes para {dominio}
4. Recomendaciones espec√≠ficas para {dominio}
5. Puntuaci√≥n de similitud considerando aspectos de {dominio} (0-100)"""
    )
    
    return {
        "comprehensive": template_comprehensive,
        "quick": template_quick,
        "domain": template_domain
    }

# Crear templates
prompt_templates = crear_templates_langchain()
print("‚úÖ BLOQUE 4 - Templates de prompts creados")

## üõ†Ô∏è BLOQUE 5: Configuraci√≥n de NLTK y Modelos

In [None]:
def configurar_nltk():
    """Configura y descarga recursos necesarios de NLTK"""
    try:
        nltk.data.find('tokenizers/punkt')
        print("‚úÖ NLTK punkt ya disponible")
    except LookupError:
        print("üì¶ Descargando NLTK punkt...")
        nltk.download('punkt', quiet=True)
    
    try:
        nltk.data.find('tokenizers/punkt_tab')
        print("‚úÖ NLTK punkt_tab ya disponible")
    except LookupError:
        print("üì¶ Descargando NLTK punkt_tab...")
        nltk.download('punkt_tab', quiet=True)
    
    try:
        nltk.data.find('corpora/stopwords')
        print("‚úÖ NLTK stopwords ya disponible")
    except LookupError:
        print("üì¶ Descargando NLTK stopwords...")
        nltk.download('stopwords', quiet=True)
    
    return set(stopwords.words('spanish'))

def cargar_modelo_embeddings():
    """Carga el modelo de embeddings sem√°nticos"""
    print("üîÑ Cargando modelo de embeddings...")
    modelo = SentenceTransformer('all-MiniLM-L6-v2')
    print("‚úÖ Modelo de embeddings cargado")
    return modelo

# Configurar recursos
stop_words = configurar_nltk()
modelo_embeddings = cargar_modelo_embeddings()
print("‚úÖ BLOQUE 5 - NLTK y modelos configurados")

## üìö BLOQUE 6: Funciones de Extracci√≥n de PDF

In [None]:
def extraer_texto_pdf(ruta_pdf):
    """
    Extrae texto de un archivo PDF
    
    Args:
        ruta_pdf: Ruta al archivo PDF
        
    Returns:
        dict: Informaci√≥n extra√≠da del PDF
    """
    try:
        ruta = Path(ruta_pdf)
        
        if not ruta.exists():
            return {
                "error": f"El archivo {ruta} no existe",
                "texto": "",
                "paginas": 0,
                "exito": False
            }
        
        if ruta.suffix.lower() != '.pdf':
            return {
                "error": f"El archivo no es un PDF",
                "texto": "",
                "paginas": 0,
                "exito": False
            }
        
        texto_completo = ""
        with open(ruta, 'rb') as archivo:
            lector_pdf = PyPDF2.PdfReader(archivo)
            num_paginas = len(lector_pdf.pages)
            
            for num_pag, pagina in enumerate(lector_pdf.pages):
                try:
                    texto_pagina = pagina.extract_text()
                    if texto_pagina:
                        texto_completo += f"\n--- P√°gina {num_pag + 1} ---\n"
                        texto_completo += texto_pagina
                except Exception as e:
                    print(f"‚ö†Ô∏è Error extrayendo p√°gina {num_pag + 1}: {e}")
        
        return {
            "texto": texto_completo.strip(),
            "paginas": num_paginas,
            "tama√±o_archivo": ruta.stat().st_size,
            "nombre_archivo": ruta.name,
            "exito": True
        }
        
    except Exception as e:
        return {
            "error": f"Error procesando PDF: {str(e)}",
            "texto": "",
            "paginas": 0,
            "exito": False
        }

def extraer_metadatos_pdf(ruta_pdf):
    """Extrae metadatos del PDF"""
    try:
        with open(ruta_pdf, 'rb') as archivo:
            lector_pdf = PyPDF2.PdfReader(archivo)
            metadatos = lector_pdf.metadata
            
            return {
                "titulo": metadatos.get('/Title', 'N/A') if metadatos else 'N/A',
                "autor": metadatos.get('/Author', 'N/A') if metadatos else 'N/A',
                "creador": metadatos.get('/Creator', 'N/A') if metadatos else 'N/A',
                "fecha_creacion": str(metadatos.get('/CreationDate', 'N/A')) if metadatos else 'N/A',
                "paginas": len(lector_pdf.pages)
            }
    except Exception as e:
        return {"error": f"Error extrayendo metadatos: {str(e)}"}

print("‚úÖ BLOQUE 6 - Funciones de extracci√≥n PDF creadas")

## üßπ BLOQUE 7: Funciones de Preprocesamiento

In [None]:
def limpiar_texto(texto):
    """
    Limpia y preprocesa el texto extra√≠do del PDF
    
    Args:
        texto: Texto a limpiar
        
    Returns:
        str: Texto limpio
    """
    if not texto:
        return ""
    
    # Remover marcadores de p√°gina
    texto = re.sub(r'--- P√°gina \d+ ---', '', texto)
    
    # Limpiar espacios m√∫ltiples
    texto = re.sub(r'\s+', ' ', texto)
    
    # Limpiar saltos de l√≠nea m√∫ltiples
    texto = re.sub(r'\n+', '\n', texto)
    
    return texto.strip()

def obtener_estadisticas_texto(texto):
    """Obtiene estad√≠sticas b√°sicas del texto"""
    if not texto:
        return {
            "caracteres": 0,
            "palabras": 0,
            "oraciones": 0,
            "palabras_unicas": 0
        }
    
    palabras = word_tokenize(texto)
    oraciones = sent_tokenize(texto)
    palabras_unicas = set(palabras)
    
    return {
        "caracteres": len(texto),
        "palabras": len(palabras),
        "oraciones": len(oraciones),
        "palabras_unicas": len(palabras_unicas)
    }

def truncar_texto_para_llm(texto, max_chars=4000):
    """Trunca texto para no exceder l√≠mites del LLM"""
    if len(texto) <= max_chars:
        return texto
    
    # Truncar y agregar indicador
    return texto[:max_chars] + "\n\n[TEXTO TRUNCADO...]"

print("‚úÖ BLOQUE 7 - Funciones de preprocesamiento creadas")

## üìä BLOQUE 8: An√°lisis B√°sico y Sem√°ntico

In [None]:
def analisis_basico_difflib(texto1, texto2):
    """
    Realiza an√°lisis b√°sico de diferencias usando difflib
    
    Args:
        texto1, texto2: Textos a comparar
        
    Returns:
        dict: Resultados del an√°lisis b√°sico
    """
    if not texto1 or not texto2:
        return {
            "error": "Uno o ambos textos est√°n vac√≠os",
            "ratio_similitud": 0.0
        }
    
    # Dividir en l√≠neas
    lineas1 = texto1.splitlines()
    lineas2 = texto2.splitlines()
    
    # Calcular diferencias
    diferencias = list(difflib.unified_diff(
        lineas1, lineas2,
        fromfile='PDF 1',
        tofile='PDF 2',
        lineterm=''
    ))
    
    # Ratio de similitud
    ratio_similitud = difflib.SequenceMatcher(None, texto1, texto2).ratio()
    
    # Contar cambios
    adiciones = len([linea for linea in diferencias if linea.startswith('+')])
    eliminaciones = len([linea for linea in diferencias if linea.startswith('-')])
    
    return {
        "ratio_similitud": ratio_similitud,
        "total_lineas_diff": len(diferencias),
        "adiciones": adiciones,
        "eliminaciones": eliminaciones,
        "resumen_cambios": f"{adiciones} adiciones, {eliminaciones} eliminaciones",
        "porcentaje_similitud": ratio_similitud * 100
    }

def analisis_semantico(texto1, texto2, modelo_embeddings):
    """
    Realiza an√°lisis de similitud sem√°ntica usando embeddings
    
    Args:
        texto1, texto2: Textos a comparar
        modelo_embeddings: Modelo SentenceTransformer cargado
        
    Returns:
        dict: Resultados del an√°lisis sem√°ntico
    """
    if not texto1 or not texto2:
        return {
            "error": "Uno o ambos textos est√°n vac√≠os",
            "similitud_documento": 0.0
        }
    
    try:
        # Embeddings de documentos completos
        embeddings = modelo_embeddings.encode([texto1, texto2])
        similitud_documento = cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]
        
        # An√°lisis por oraciones (limitado para evitar sobrecarga de memoria)
        oraciones1 = sent_tokenize(texto1)[:50]  # M√°ximo 50 oraciones
        oraciones2 = sent_tokenize(texto2)[:50]
        
        if oraciones1 and oraciones2:
            embeddings_oraciones1 = modelo_embeddings.encode(oraciones1)
            embeddings_oraciones2 = modelo_embeddings.encode(oraciones2)
            
            matriz_similitud = cosine_similarity(embeddings_oraciones1, embeddings_oraciones2)
            similitud_promedio_oraciones = np.mean(matriz_similitud)
            similitud_maxima_oraciones = np.max(matriz_similitud)
        else:
            similitud_promedio_oraciones = 0.0
            similitud_maxima_oraciones = 0.0
        
        return {
            "similitud_documento": float(similitud_documento),
            "similitud_promedio_oraciones": float(similitud_promedio_oraciones),
            "similitud_maxima_oraciones": float(similitud_maxima_oraciones),
            "oraciones_analizadas": min(len(oraciones1), len(oraciones2)),
            "porcentaje_similitud": float(similitud_documento) * 100
        }
        
    except Exception as e:
        return {
            "error": f"Error en an√°lisis sem√°ntico: {str(e)}",
            "similitud_documento": 0.0
        }

print("‚úÖ BLOQUE 8 - Funciones de an√°lisis b√°sico y sem√°ntico creadas")

## üß† BLOQUE 9: An√°lisis con LangChain

In [None]:
def analisis_langchain(texto1, texto2, tipo_analisis="comprehensive", dominio=None):
    """
    Realiza an√°lisis usando LangChain con el LLM configurado
    
    Args:
        texto1, texto2: Textos a comparar
        tipo_analisis: "comprehensive", "quick", o "domain"
        dominio: Dominio espec√≠fico para an√°lisis especializado
        
    Returns:
        dict: Resultados del an√°lisis LangChain
    """
    if not llm_disponible:
        return {"error": "LLM no est√° disponible"}
    
    # Truncar textos para no exceder l√≠mites
    texto1_truncado = truncar_texto_para_llm(texto1)
    texto2_truncado = truncar_texto_para_llm(texto2)
    
    print(f"ü§ñ Ejecutando an√°lisis LangChain: {tipo_analisis}")
    tiempo_inicio = time.time()
    
    try:
        # Seleccionar template y crear chain
        if tipo_analisis == "domain" and dominio:
            template = prompt_templates["domain"]
            chain = LLMChain(
                llm=llm_model, 
                prompt=template,
                callbacks=[StdOutCallbackHandler()] if LLM_PROVIDER == "vllm" else []
            )
            inputs = {
                "documento1": texto1_truncado,
                "documento2": texto2_truncado,
                "dominio": dominio
            }
        else:
            template_key = "comprehensive" if tipo_analisis == "comprehensive" else "quick"
            template = prompt_templates[template_key]
            chain = LLMChain(
                llm=llm_model, 
                prompt=template,
                callbacks=[StdOutCallbackHandler()] if LLM_PROVIDER == "vllm" else []
            )
            inputs = {
                "documento1": texto1_truncado,
                "documento2": texto2_truncado
            }
        
        # Ejecutar chain
        resultado = chain.run(inputs)
        
        tiempo_procesamiento = time.time() - tiempo_inicio
        
        # Parsear resultado
        analisis_parseado = parsear_respuesta_langchain(resultado, tipo_analisis)
        
        return {
            "analisis": analisis_parseado,
            "respuesta_cruda": resultado,
            "tiempo_procesamiento": tiempo_procesamiento,
            "modelo_usado": f"{LLM_PROVIDER}",
            "tipo_analisis": tipo_analisis,
            "dominio": dominio,
            "exito": True
        }
        
    except Exception as e:
        return {
            "error": f"Error en an√°lisis LangChain: {str(e)}",
            "tiempo_procesamiento": time.time() - tiempo_inicio,
            "exito": False
        }

def parsear_respuesta_langchain(respuesta, tipo_analisis):
    """Parsea la respuesta de LangChain en estructura"""
    try:
        resultado = {}
        
        # Buscar puntuaci√≥n de similitud
        patrones_score = [
            r'(?:similitud|score|puntuaci√≥n).*?(\d+)',
            r'(\d+)(?:/100|\s*%)',
            r'PUNTUACI√ìN.*?(\d+)',
            r'Similitud general.*?(\d+)'
        ]
        
        for patron in patrones_score:
            match = re.search(patron, respuesta, re.IGNORECASE)
            if match:
                resultado['puntuacion_similitud'] = int(match.group(1))
                break
        
        if tipo_analisis == "comprehensive":
            # Extraer secciones estructuradas para an√°lisis comprehensivo
            secciones = {
                'similitudes': r'\*\*SIMILITUDES.*?\*\*(.*?)(?=\*\*|$)',
                'diferencias': r'\*\*DIFERENCIAS.*?\*\*(.*?)(?=\*\*|$)',
                'temas_comunes': r'\*\*TEMAS COMUNES.*?\*\*(.*?)(?=\*\*|$)',
                'tipo_documentos': r'\*\*TIPO DE DOCUMENTOS.*?\*\*(.*?)(?=\*\*|$)',
                'analisis_estructura': r'\*\*AN√ÅLISIS DE ESTRUCTURA.*?\*\*(.*?)(?=\*\*|$)',
                'recomendaciones': r'\*\*RECOMENDACIONES.*?\*\*(.*?)(?=\*\*|$)',
                'resumen': r'\*\*RESUMEN.*?\*\*(.*?)(?=\*\*|$)'
            }
            
            for seccion, patron in secciones.items():
                match = re.search(patron, respuesta, re.DOTALL | re.IGNORECASE)
                if match:
                    contenido = match.group(1).strip()
                    contenido = re.sub(r'^\s*-\s*', '‚Ä¢ ', contenido, flags=re.MULTILINE)
                    resultado[seccion] = contenido
        
        elif tipo_analisis == "quick":
            # Extraer informaci√≥n espec√≠fica para an√°lisis r√°pido
            resultado['analisis_rapido'] = respuesta
        
        # Si no se encontr√≥ estructura, usar respuesta completa
        if len(resultado) <= 1:
            resultado['analisis_completo'] = respuesta
        
        return resultado
        
    except Exception as e:
        return {
            'respuesta_cruda': respuesta,
            'error_parseo': str(e)
        }

print("‚úÖ BLOQUE 9 - Funciones de an√°lisis LangChain creadas")

## üìà BLOQUE 10: An√°lisis TF-IDF

In [None]:
def obtener_palabras_importantes(puntuaciones_tfidf, nombres_caracteristicas, n=10):
    """Obtiene las N palabras m√°s importantes por TF-IDF"""
    indices_top = np.argsort(puntuaciones_tfidf)[-n:][::-1]
    return [(nombres_caracteristicas[i], float(puntuaciones_tfidf[i])) 
            for i in indices_top if puntuaciones_tfidf[i] > 0]

def analisis_tfidf(texto1, texto2, stop_words):
    """
    Realiza an√°lisis usando TF-IDF
    
    Args:
        texto1, texto2: Textos a comparar
        stop_words: Set de palabras vac√≠as
        
    Returns:
        dict: Resultados del an√°lisis TF-IDF
    """
    if not texto1 or not texto2:
        return {
            "error": "Uno o ambos textos est√°n vac√≠os",
            "similitud_tfidf": 0.0
        }
    
    try:
        vectorizador = TfidfVectorizer(
            stop_words=list(stop_words),
            max_features=1000,
            ngram_range=(1, 2),
            min_df=1
        )
        
        matriz_tfidf = vectorizador.fit_transform([texto1, texto2])
        similitud = cosine_similarity(matriz_tfidf[0:1], matriz_tfidf[1:2])[0][0]
        
        # Obtener palabras clave m√°s importantes
        nombres_caracteristicas = vectorizador.get_feature_names_out()
        puntuaciones_tfidf = matriz_tfidf.toarray()
        
        palabras_top_doc1 = obtener_palabras_importantes(
            puntuaciones_tfidf[0], nombres_caracteristicas, 10
        )
        palabras_top_doc2 = obtener_palabras_importantes(
            puntuaciones_tfidf[1], nombres_caracteristicas, 10
        )
        
        return {
            "similitud_tfidf": float(similitud),
            "palabras_importantes_doc1": palabras_top_doc1,
            "palabras_importantes_doc2": palabras_top_doc2,
            "tama√±o_vocabulario": len(nombres_caracteristicas),
            "porcentaje_similitud": float(similitud) * 100
        }
        
    except Exception as e:
        return {
            "error": f"Error en an√°lisis TF-IDF: {str(e)}",
            "similitud_tfidf": 0.0
        }

print("‚úÖ BLOQUE 10 - Funciones de an√°lisis TF-IDF creadas")


## üéØ BLOQUE 11: Funci√≥n Principal de Comparaci√≥n

In [None]:
def comparar_pdfs_completo(ruta_pdf1, ruta_pdf2, usar_langchain=True, tipo_analisis="comprehensive", dominio=None):
    """
    Funci√≥n principal que ejecuta todos los an√°lisis de comparaci√≥n
    
    Args:
        ruta_pdf1: Ruta al primer PDF
        ruta_pdf2: Ruta al segundo PDF
        usar_langchain: Si usar an√°lisis con LangChain
        tipo_analisis: Tipo de an√°lisis LangChain ("comprehensive", "quick", "domain")
        dominio: Dominio espec√≠fico para an√°lisis especializado
        
    Returns:
        dict: Resultados completos del an√°lisis
    """
    print("üöÄ Iniciando comparaci√≥n completa de PDFs con LangChain...")
    tiempo_inicio = time.time()
    
    # Extraer texto de PDFs
    print("üìÑ Extrayendo texto del primer PDF...")
    datos_pdf1 = extraer_texto_pdf(ruta_pdf1)
    
    print("üìÑ Extrayendo texto del segundo PDF...")
    datos_pdf2 = extraer_texto_pdf(ruta_pdf2)
    
    # Verificar extracci√≥n exitosa
    if not datos_pdf1.get("exito") or not datos_pdf2.get("exito"):
        return {
            "error": "Error extrayendo texto de uno o ambos PDFs",
            "error_pdf1": datos_pdf1.get("error"),
            "error_pdf2": datos_pdf2.get("error")
        }
    
    # Limpiar textos
    texto1 = limpiar_texto(datos_pdf1["texto"])
    texto2 = limpiar_texto(datos_pdf2["texto"])
    
    if not texto1 or not texto2:
        return {
            "error": "Uno o ambos PDFs no contienen texto extra√≠ble",
            "longitud_texto1": len(texto1),
            "longitud_texto2": len(texto2)
        }
    
    # Inicializar resultados
    resultados = {
        "informacion_pdfs": {
            "pdf1": {
                "nombre_archivo": datos_pdf1["nombre_archivo"],
                "paginas": datos_pdf1["paginas"],
                "tama√±o_archivo": datos_pdf1["tama√±o_archivo"],
                "estadisticas_texto": obtener_estadisticas_texto(texto1),
                "metadatos": extraer_metadatos_pdf(ruta_pdf1)
            },
            "pdf2": {
                "nombre_archivo": datos_pdf2["nombre_archivo"],
                "paginas": datos_pdf2["paginas"],
                "tama√±o_archivo": datos_pdf2["tama√±o_archivo"],
                "estadisticas_texto": obtener_estadisticas_texto(texto2),
                "metadatos": extraer_metadatos_pdf(ruta_pdf2)
            }
        },
        "configuracion": {
            "llm_provider": LLM_PROVIDER,
            "tipo_analisis": tipo_analisis,
            "dominio": dominio,
            "langchain_disponible": llm_disponible
        },
        "timestamp_analisis": time.strftime("%Y-%m-%d %H:%M:%S")
    }
    
    # Realizar an√°lisis tradicionales
    print("üìä Ejecutando an√°lisis b√°sico...")
    resultados["analisis_basico"] = analisis_basico_difflib(texto1, texto2)
    
    print("üß† Ejecutando an√°lisis sem√°ntico...")
    resultados["analisis_semantico"] = analisis_semantico(texto1, texto2, modelo_embeddings)
    
    print("üìà Ejecutando an√°lisis TF-IDF...")
    resultados["analisis_tfidf"] = analisis_tfidf(texto1, texto2, stop_words)
    
    # An√°lisis con LangChain si est√° disponible
    if usar_langchain and llm_disponible:
        print("ü§ñ Ejecutando an√°lisis con LangChain...")
        resultados["analisis_langchain"] = analisis_langchain(texto1, texto2, tipo_analisis, dominio)
    
    # Calcular puntuaci√≥n combinada
    puntuaciones = []
    
    if "analisis_basico" in resultados:
        puntuaciones.append(resultados["analisis_basico"]["ratio_similitud"])
    
    if "analisis_semantico" in resultados:
        puntuaciones.append(resultados["analisis_semantico"]["similitud_documento"])
    
    if "analisis_tfidf" in resultados:
        puntuaciones.append(resultados["analisis_tfidf"]["similitud_tfidf"])
    
    # Agregar puntuaci√≥n LangChain si est√° disponible
    if usar_langchain and "analisis_langchain" in resultados and resultados["analisis_langchain"].get("exito"):
        puntuacion_langchain = resultados["analisis_langchain"]["analisis"].get("puntuacion_similitud")
        if puntuacion_langchain:
            puntuaciones.append(puntuacion_langchain / 100)
    
    resultados["puntuacion_similitud_combinada"] = np.mean(puntuaciones) if puntuaciones else 0.0
    resultados["tiempo_total_procesamiento"] = time.time() - tiempo_inicio
    
    print(f"‚úÖ An√°lisis completado en {resultados['tiempo_total_procesamiento']:.2f} segundos")
    return resultados

print("‚úÖ BLOQUE 11 - Funci√≥n principal de comparaci√≥n creada")

## üìä BLOQUE 12: Funciones de Visualizaci√≥n Actualizadas

In [None]:
def mostrar_informacion_pdfs(resultados):
    """Muestra informaci√≥n b√°sica de los PDFs"""
    if "error" in resultados:
        display(HTML(f"""
        <div style="background-color: #ffebee; border-left: 5px solid #f44336; padding: 10px; margin: 10px 0;">
            <h3 style="color: #d32f2f;">‚ùå Error en el an√°lisis</h3>
            <p><strong>Error:</strong> {resultados['error']}</p>
        </div>
        """))
        return
    
    info_pdfs = resultados.get("informacion_pdfs", {})
    pdf1 = info_pdfs.get("pdf1", {})
    pdf2 = info_pdfs.get("pdf2", {})
    config = resultados.get("configuracion", {})
    
    display(HTML(f"""
    <div style="background-color: #e3f2fd; border-left: 5px solid #2196f3; padding: 15px; margin: 10px 0;">
        <h2 style="color: #1565c0; margin-top: 0;">üìä Informaci√≥n de los Documentos</h2>
        <p style="color: #1565c0;"><strong>ü§ñ LLM Provider:</strong> {config.get('llm_provider', 'N/A').upper()}</p>
        <p style="color: #1565c0;"><strong>üîß Tipo de an√°lisis:</strong> {config.get('tipo_analisis', 'N/A')}</p>
    </div>
    
    <table style="border-collapse: collapse; width: 100%; border: 1px solid #ddd; margin: 20px 0;">
        <thead style="background-color: #f5f5f5;">
            <tr>
                <th style="border: 1px solid #ddd; padding: 12px; text-align: left;">Atributo</th>
                <th style="border: 1px solid #ddd; padding: 12px; text-align: left;">PDF 1</th>
                <th style="border: 1px solid #ddd; padding: 12px; text-align: left;">PDF 2</th>
            </tr>
        </thead>
        <tbody>
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;"><strong>Archivo</strong></td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf1.get('nombre_archivo', 'N/A')}</td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf2.get('nombre_archivo', 'N/A')}</td>
            </tr>
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;"><strong>P√°ginas</strong></td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf1.get('paginas', 'N/A')}</td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf2.get('paginas', 'N/A')}</td>
            </tr>
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;"><strong>Palabras</strong></td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf1.get('estadisticas_texto', {}).get('palabras', 'N/A')}</td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf2.get('estadisticas_texto', {}).get('palabras', 'N/A')}</td>
            </tr>
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;"><strong>Oraciones</strong></td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf1.get('estadisticas_texto', {}).get('oraciones', 'N/A')}</td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf2.get('estadisticas_texto', {}).get('oraciones', 'N/A')}</td>
            </tr>
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;"><strong>Tama√±o archivo</strong></td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf1.get('tama√±o_archivo', 0) / 1024:.1f} KB</td>
                <td style="border: 1px solid #ddd; padding: 8px;">{pdf2.get('tama√±o_archivo', 0) / 1024:.1f} KB</td>
            </tr>
        </tbody>
    </table>
    """))

def mostrar_resultados_similitud(resultados):
    """Muestra los resultados de similitud de todos los an√°lisis"""
    if "error" in resultados:
        return
    
    # Extraer puntuaciones
    puntuacion_combinada = resultados.get("puntuacion_similitud_combinada", 0)
    basico = resultados.get("analisis_basico", {}).get("porcentaje_similitud", 0)
    semantico = resultados.get("analisis_semantico", {}).get("porcentaje_similitud", 0)
    tfidf = resultados.get("analisis_tfidf", {}).get("porcentaje_similitud", 0)
    
    # LangChain si est√° disponible
    langchain_score = 0
    if "analisis_langchain" in resultados and resultados["analisis_langchain"].get("exito"):
        langchain_score = resultados["analisis_langchain"]["analisis"].get("puntuacion_similitud", 0)
    
    provider = resultados.get("configuracion", {}).get("llm_provider", "N/A").upper()
    
    display(HTML(f"""
    <div style="background-color: #f3e5f5; border-left: 5px solid #9c27b0; padding: 15px; margin: 20px 0;">
        <h2 style="color: #7b1fa2; margin-top: 0;">üéØ Puntuaciones de Similitud</h2>
        
        <div style="background-color: #ffffff; padding: 20px; border-radius: 8px; margin: 15px 0;">
            <h3 style="color: #4a148c;">üìä Puntuaci√≥n Combinada: {puntuacion_combinada*100:.1f}%</h3>
            <div style="background-color: #e0e0e0; border-radius: 10px; overflow: hidden; margin: 10px 0;">
                <div style="background-color: #9c27b0; height: 20px; width: {puntuacion_combinada*100:.1f}%; border-radius: 10px;"></div>
            </div>
        </div>
        
        <div style="display: grid; grid-template-columns: 1fr 1fr; gap: 15px; margin-top: 20px;">
            <div style="background-color: #ffffff; padding: 15px; border-radius: 8px;">
                <h4 style="color: #1976d2; margin-top: 0;">üìã An√°lisis B√°sico</h4>
                <p style="font-size: 24px; font-weight: bold; color: #1976d2; margin: 10px 0;">{basico:.1f}%</p>
                <div style="background-color: #e3f2fd; height: 8px; border-radius: 4px;">
                    <div style="background-color: #2196f3; height: 8px; width: {basico:.1f}%; border-radius: 4px;"></div>
                </div>
            </div>
            
            <div style="background-color: #ffffff; padding: 15px; border-radius: 8px;">
                <h4 style="color: #388e3c; margin-top: 0;">üß† An√°lisis Sem√°ntico</h4>
                <p style="font-size: 24px; font-weight: bold; color: #388e3c; margin: 10px 0;">{semantico:.1f}%</p>
                <div style="background-color: #e8f5e8; height: 8px; border-radius: 4px;">
                    <div style="background-color: #4caf50; height: 8px; width: {semantico:.1f}%; border-radius: 4px;"></div>
                </div>
            </div>
            
            <div style="background-color: #ffffff; padding: 15px; border-radius: 8px;">
                <h4 style="color: #f57c00; margin-top: 0;">üìà An√°lisis TF-IDF</h4>
                <p style="font-size: 24px; font-weight: bold; color: #f57c00; margin: 10px 0;">{tfidf:.1f}%</p>
                <div style="background-color: #fff3e0; height: 8px; border-radius: 4px;">
                    <div style="background-color: #ff9800; height: 8px; width: {tfidf:.1f}%; border-radius: 4px;"></div>
                </div>
            </div>
            
            <div style="background-color: #ffffff; padding: 15px; border-radius: 8px;">
                <h4 style="color: #d32f2f; margin-top: 0;">ü§ñ {provider} LangChain</h4>
                <p style="font-size: 24px; font-weight: bold; color: #d32f2f; margin: 10px 0;">{langchain_score:.1f}%</p>
                <div style="background-color: #ffebee; height: 8px; border-radius: 4px;">
                    <div style="background-color: #f44336; height: 8px; width: {langchain_score:.1f}%; border-radius: 4px;"></div>
                </div>
            </div>
        </div>
    </div>
    """))

def mostrar_analisis_langchain(resultados):
    """Muestra los resultados del an√°lisis LangChain de forma estructurada"""
    if "analisis_langchain" not in resultados or not resultados["analisis_langchain"].get("exito"):
        return
    
    analisis_data = resultados["analisis_langchain"]
    analisis = analisis_data["analisis"]
    tiempo = analisis_data["tiempo_procesamiento"]
    provider = resultados.get("configuracion", {}).get("llm_provider", "Unknown").upper()
    tipo = analisis_data.get("tipo_analisis", "comprehensive")
    dominio = analisis_data.get("dominio")
    
    display(HTML(f"""
    <div style="background-color: #fce4ec; border-left: 5px solid #e91e63; padding: 15px; margin: 20px 0;">
        <h2 style="color: #c2185b; margin-top: 0;">ü§ñ An√°lisis Inteligente con LangChain</h2>
        <p style="color: #880e4f; margin: 5px 0;"><strong>Provider:</strong> {provider}</p>
        <p style="color: #880e4f; margin: 5px 0;"><strong>Tipo de an√°lisis:</strong> {tipo}</p>
        {f'<p style="color: #880e4f; margin: 5px 0;"><strong>Dominio:</strong> {dominio}</p>' if dominio else ''}
        <p style="color: #880e4f; margin: 5px 0;"><strong>Tiempo de procesamiento:</strong> {tiempo:.2f} segundos</p>
    </div>
    """))
    
    # Mostrar secciones del an√°lisis seg√∫n el tipo
    if tipo == "comprehensive":
        # Mostrar an√°lisis comprehensivo estructurado
        if "similitudes" in analisis:
            display(HTML(f"""
            <div style="background-color: #e8f5e8; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #2e7d32; margin-top: 0;">‚úÖ Similitudes Principales</h3>
                <div style="white-space: pre-line; line-height: 1.6;">{analisis['similitudes']}</div>
            </div>
            """))
        
        if "diferencias" in analisis:
            display(HTML(f"""
            <div style="background-color: #fff3e0; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #ef6c00; margin-top: 0;">‚ùó Diferencias Principales</h3>
                <div style="white-space: pre-line; line-height: 1.6;">{analisis['diferencias']}</div>
            </div>
            """))
        
        if "temas_comunes" in analisis:
            display(HTML(f"""
            <div style="background-color: #e3f2fd; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #1565c0; margin-top: 0;">üéØ Temas Comunes</h3>
                <div style="white-space: pre-line; line-height: 1.6;">{analisis['temas_comunes']}</div>
            </div>
            """))
        
        if "recomendaciones" in analisis:
            display(HTML(f"""
            <div style="background-color: #f1f8e9; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #33691e; margin-top: 0;">üí° Recomendaciones</h3>
                <div style="white-space: pre-line; line-height: 1.6;">{analisis['recomendaciones']}</div>
            </div>
            """))
        
        if "resumen" in analisis:
            display(HTML(f"""
            <div style="background-color: #f3e5f5; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #7b1fa2; margin-top: 0;">üìù Resumen Ejecutivo</h3>
                <div style="white-space: pre-line; line-height: 1.6; font-style: italic;">{analisis['resumen']}</div>
            </div>
            """))
    
    else:
        # Mostrar an√°lisis r√°pido o de dominio
        content_key = "analisis_rapido" if "analisis_rapido" in analisis else "analisis_completo"
        if content_key in analisis:
            display(HTML(f"""
            <div style="background-color: #f5f5f5; padding: 15px; margin: 10px 0; border-radius: 8px;">
                <h3 style="color: #424242; margin-top: 0;">üìÑ An√°lisis {tipo.title()}</h3>
                <div style="white-space: pre-line; line-height: 1.6;">{analisis[content_key]}</div>
            </div>
            """))

def crear_grafico_comparacion(resultados):
    """Crea un gr√°fico de barras con las puntuaciones de similitud incluyendo LangChain"""
    if "error" in resultados:
        return
    
    # Extraer datos
    metodos = []
    puntuaciones = []
    
    if "analisis_basico" in resultados:
        metodos.append("An√°lisis\nB√°sico")
        puntuaciones.append(resultados["analisis_basico"]["porcentaje_similitud"])
    
    if "analisis_semantico" in resultados:
        metodos.append("An√°lisis\nSem√°ntico") 
        puntuaciones.append(resultados["analisis_semantico"]["porcentaje_similitud"])
    
    if "analisis_tfidf" in resultados:
        metodos.append("TF-IDF")
        puntuaciones.append(resultados["analisis_tfidf"]["porcentaje_similitud"])
    
    if "analisis_langchain" in resultados and resultados["analisis_langchain"].get("exito"):
        provider = resultados.get("configuracion", {}).get("llm_provider", "LLM").upper()
        metodos.append(f"{provider}\nLangChain")
        puntuaciones.append(resultados["analisis_langchain"]["analisis"].get("puntuacion_similitud", 0))
    
    # Agregar puntuaci√≥n combinada
    metodos.append("Combinada")
    puntuaciones.append(resultados["puntuacion_similitud_combinada"] * 100)
    
    # Crear gr√°fico
    plt.figure(figsize=(12, 6))
    colores = ['#2196f3', '#4caf50', '#ff9800', '#f44336', '#9c27b0']
    
    barras = plt.bar(metodos, puntuaciones, color=colores[:len(metodos)], alpha=0.8)
    
    # Agregar valores en las barras
    for barra, puntuacion in zip(barras, puntuaciones):
        plt.text(barra.get_x() + barra.get_width()/2, barra.get_height() + 1, 
                f'{puntuacion:.1f}%', ha='center', va='bottom', fontweight='bold')
    
    plt.title('Comparaci√≥n de Puntuaciones de Similitud (con LangChain)', fontsize=16, fontweight='bold', pad=20)
    plt.ylabel('Similitud (%)', fontsize=12)
    plt.xlabel('M√©todo de An√°lisis', fontsize=12)
    plt.ylim(0, 105)
    plt.grid(axis='y', alpha=0.3)
    
    # L√≠nea de referencia en 50%
    plt.axhline(y=50, color='red', linestyle='--', alpha=0.5, label='50% (referencia)')
    plt.legend()
    
    plt.tight_layout()
    plt.show()

def mostrar_palabras_importantes(resultados):
    """Muestra las palabras m√°s importantes de cada documento seg√∫n TF-IDF"""
    if "analisis_tfidf" not in resultados or "error" in resultados["analisis_tfidf"]:
        return
    
    tfidf_data = resultados["analisis_tfidf"]
    palabras_doc1 = tfidf_data.get("palabras_importantes_doc1", [])
    palabras_doc2 = tfidf_data.get("palabras_importantes_doc2", [])
    
    display(HTML("""
    <div style="background-color: #fff8e1; border-left: 5px solid #ffc107; padding: 15px; margin: 20px 0;">
        <h2 style="color: #f57c00; margin-top: 0;">üìù Palabras M√°s Importantes (TF-IDF)</h2>
    </div>
    """))
    
    # Crear tabla comparativa
    html_table = """
    <table style="border-collapse: collapse; width: 100%; margin: 20px 0;">
        <thead style="background-color: #f5f5f5;">
            <tr>
                <th style="border: 1px solid #ddd; padding: 12px; text-align: left;">PDF 1 - Palabras Clave</th>
                <th style="border: 1px solid #ddd; padding: 12px; text-align: left;">PDF 2 - Palabras Clave</th>
            </tr>
        </thead>
        <tbody>
    """
    
    max_len = max(len(palabras_doc1), len(palabras_doc2))
    
    for i in range(max_len):
        palabra1 = palabras_doc1[i] if i < len(palabras_doc1) else ("", 0)
        palabra2 = palabras_doc2[i] if i < len(palabras_doc2) else ("", 0)
        
        html_table += f"""
            <tr>
                <td style="border: 1px solid #ddd; padding: 8px;">
                    {palabra1[0]} <span style="color: #666; font-size: 0.9em;">({palabra1[1]:.3f})</span>
                </td>
                <td style="border: 1px solid #ddd; padding: 8px;">
                    {palabra2[0]} <span style="color: #666; font-size: 0.9em;">({palabra2[1]:.3f})</span>
                </td>
            </tr>
        """
    
    html_table += "</tbody></table>"
    display(HTML(html_table))

print("‚úÖ BLOQUE 12 - Funciones de visualizaci√≥n creadas")


## üöÄ BLOQUE 13: Funciones de Ejecuci√≥n Principales

In [None]:

def ejecutar_comparacion_completa():
    """Ejecuta todo el proceso de comparaci√≥n con LangChain y muestra resultados"""
    
    # Verificar que los archivos est√©n configurados y existan
    if not archivos_ok:
        print("‚ùå Por favor, configura las rutas de los PDFs en el BLOQUE 2")
        return None
    
    print("üöÄ Iniciando comparaci√≥n completa con LangChain...")
    print(f"üìÑ PDF 1: {PDF1_PATH}")
    print(f"üìÑ PDF 2: {PDF2_PATH}")
    print(f"ü§ñ Provider LLM: {LLM_PROVIDER}")
    print("-" * 60)
    
    # Ejecutar comparaci√≥n
    resultados = comparar_pdfs_completo(
        PDF1_PATH, 
        PDF2_PATH, 
        usar_langchain=llm_disponible,
        tipo_analisis="comprehensive"
    )
    
    # Mostrar resultados
    if "error" not in resultados:
        print("\nüéâ ¬°Comparaci√≥n completada exitosamente!")
        print(f"‚è±Ô∏è Tiempo total: {resultados['tiempo_total_procesamiento']:.2f} segundos")
        print(f"üéØ Similitud combinada: {resultados['puntuacion_similitud_combinada']*100:.1f}%")
        
        # Mostrar visualizaciones
        mostrar_informacion_pdfs(resultados)
        mostrar_resultados_similitud(resultados)
        crear_grafico_comparacion(resultados)
        mostrar_palabras_importantes(resultados)
        mostrar_analisis_langchain(resultados)
        
    else:
        print(f"‚ùå Error en la comparaci√≥n: {resultados['error']}")
    
    return resultados

def comparacion_rapida_langchain():
    """Ejecuta comparaci√≥n r√°pida usando LangChain"""
    if not archivos_ok or not llm_disponible:
        print("‚ùå Verifica PDFs y conexi√≥n LLM")
        return None
    
    print("‚ö° Ejecutando comparaci√≥n r√°pida con LangChain...")
    
    resultados = comparar_pdfs_completo(
        PDF1_PATH, 
        PDF2_PATH, 
        usar_langchain=True,
        tipo_analisis="quick"
    )
    
    if "error" not in resultados:
        combinada = resultados["puntuacion_similitud_combinada"] * 100
        langchain_data = resultados.get("analisis_langchain", {})
        
        print(f"""
üìä RESULTADOS R√ÅPIDOS:
   ‚Ä¢ Similitud combinada: {combinada:.1f}%
   ‚Ä¢ Tiempo total: {resultados['tiempo_total_procesamiento']:.2f}s
   ‚Ä¢ Provider LLM: {LLM_PROVIDER.upper()}
   ‚Ä¢ Tiempo LangChain: {langchain_data.get('tiempo_procesamiento', 0):.2f}s
        """)
        
        # Mostrar an√°lisis r√°pido de LangChain
        if langchain_data.get("exito"):
            print("\nü§ñ AN√ÅLISIS R√ÅPIDO LANGCHAIN:")
            respuesta = langchain_data.get("respuesta_cruda", "")
            print(respuesta[:500] + "..." if len(respuesta) > 500 else respuesta)
    
    return resultados

def analisis_por_dominio(dominio):
    """Ejecuta an√°lisis especializado por dominio espec√≠fico"""
    if not archivos_ok or not llm_disponible:
        print("‚ùå Verifica PDFs y conexi√≥n LLM")
        return None
    
    print(f"üéØ Ejecutando an√°lisis especializado en: {dominio}")
    
    resultados = comparar_pdfs_completo(
        PDF1_PATH, 
        PDF2_PATH, 
        usar_langchain=True,
        tipo_analisis="domain",
        dominio=dominio
    )
    
    if "error" not in resultados:
        print("‚úÖ An√°lisis por dominio completado")
        mostrar_analisis_langchain(resultados)
    
    return resultados

print("‚úÖ BLOQUE 13 - Funciones de ejecuci√≥n principales creadas")

## üõ†Ô∏è BLOQUE 14: Funciones de Utilidad Adicionales

In [None]:
def cambiar_proveedor_llm(nuevo_proveedor):
    """
    Cambia el proveedor LLM y reinicializa el modelo
    
    Args:
        nuevo_proveedor: "vllm", "openai", o "ollama"
    """
    global LLM_PROVIDER, llm_model, llm_disponible
    
    print(f"üîÑ Cambiando proveedor LLM de {LLM_PROVIDER} a {nuevo_proveedor}")
    
    LLM_PROVIDER = nuevo_proveedor
    llm_model = inicializar_llm(nuevo_proveedor)
    llm_disponible = llm_model is not None
    
    if llm_disponible:
        print(f"‚úÖ Proveedor cambiado exitosamente a {nuevo_proveedor}")
    else:
        print(f"‚ùå Error cambiando a {nuevo_proveedor}")

def probar_conexion_llm():
    """Prueba la conexi√≥n con el LLM actual"""
    if not llm_disponible:
        print("‚ùå No hay LLM disponible")
        return False
    
    print(f"üß™ Probando conexi√≥n con {LLM_PROVIDER}...")
    
    try:
        # Crear una prueba simple
        test_chain = LLMChain(
            llm=llm_model,
            prompt=PromptTemplate(
                input_variables=["test"],
                template="Responde brevemente: {test}"
            )
        )
        resultado = test_chain.run({"test": "¬øFunciona la conexi√≥n?"})
        
        print(f"‚úÖ Conexi√≥n exitosa. Respuesta: {resultado[:100]}...")
        return True
        
    except Exception as e:
        print(f"‚ùå Error probando conexi√≥n: {str(e)}")
        return False

def exportar_resultados(resultados, nombre_archivo="comparacion_resultados.json"):
    """Exporta los resultados a un archivo JSON"""
    try:
        with open(nombre_archivo, 'w', encoding='utf-8') as f:
            json.dump(resultados, f, indent=2, ensure_ascii=False, default=str)
        print(f"‚úÖ Resultados exportados a {nombre_archivo}")
    except Exception as e:
        print(f"‚ùå Error exportando resultados: {str(e)}")

def obtener_estadisticas_comparacion(resultados):
    """Obtiene estad√≠sticas resumidas de la comparaci√≥n"""
    if "error" in resultados:
        return {"error": "No se pueden obtener estad√≠sticas de resultados con error"}
    
    stats = {
        "resumen_general": {
            "similitud_combinada": f"{resultados.get('puntuacion_similitud_combinada', 0)*100:.1f}%",
            "tiempo_total": f"{resultados.get('tiempo_total_procesamiento', 0):.2f}s",
            "proveedor_llm": resultados.get("configuracion", {}).get("llm_provider", "N/A"),
            "analisis_exitosos": 0
        },
        "puntuaciones_individuales": {},
        "informacion_documentos": {}
    }
    
    # Contar an√°lisis exitosos y recopilar puntuaciones
    if "analisis_basico" in resultados and "error" not in resultados["analisis_basico"]:
        stats["resumen_general"]["analisis_exitosos"] += 1
        stats["puntuaciones_individuales"]["basico"] = f"{resultados['analisis_basico']['porcentaje_similitud']:.1f}%"
    
    if "analisis_semantico" in resultados and "error" not in resultados["analisis_semantico"]:
        stats["resumen_general"]["analisis_exitosos"] += 1
        stats["puntuaciones_individuales"]["semantico"] = f"{resultados['analisis_semantico']['porcentaje_similitud']:.1f}%"
    
    if "analisis_tfidf" in resultados and "error" not in resultados["analisis_tfidf"]:
        stats["resumen_general"]["analisis_exitosos"] += 1
        stats["puntuaciones_individuales"]["tfidf"] = f"{resultados['analisis_tfidf']['porcentaje_similitud']:.1f}%"
    
    if "analisis_langchain" in resultados and resultados["analisis_langchain"].get("exito"):
        stats["resumen_general"]["analisis_exitosos"] += 1
        langchain_score = resultados["analisis_langchain"]["analisis"].get("puntuacion_similitud", 0)
        stats["puntuaciones_individuales"]["langchain"] = f"{langchain_score:.1f}%"
    
    # Informaci√≥n de documentos
    info_pdfs = resultados.get("informacion_pdfs", {})
    if info_pdfs:
        pdf1 = info_pdfs.get("pdf1", {})
        pdf2 = info_pdfs.get("pdf2", {})
        
        stats["informacion_documentos"] = {
            "pdf1": {
                "nombre": pdf1.get("nombre_archivo", "N/A"),
                "paginas": pdf1.get("paginas", 0),
                "palabras": pdf1.get("estadisticas_texto", {}).get("palabras", 0)
            },
            "pdf2": {
                "nombre": pdf2.get("nombre_archivo", "N/A"),
                "paginas": pdf2.get("paginas", 0),
                "palabras": pdf2.get("estadisticas_texto", {}).get("palabras", 0)
            }
        }
    
    return stats

def generar_reporte_texto(resultados):
    """Genera un reporte en texto plano de los resultados"""
    if "error" in resultados:
        return f"ERROR: {resultados['error']}"
    
    stats = obtener_estadisticas_comparacion(resultados)
    
    reporte = []
    reporte.append("=" * 60)
    reporte.append("REPORTE DE COMPARACI√ìN DE DOCUMENTOS PDF")
    reporte.append("=" * 60)
    
    # Informaci√≥n general
    reporte.append(f"\nüìä RESUMEN GENERAL:")
    reporte.append(f"   ‚Ä¢ Similitud combinada: {stats['resumen_general']['similitud_combinada']}")
    reporte.append(f"   ‚Ä¢ Tiempo total: {stats['resumen_general']['tiempo_total']}")
    reporte.append(f"   ‚Ä¢ Proveedor LLM: {stats['resumen_general']['proveedor_llm']}")
    reporte.append(f"   ‚Ä¢ An√°lisis exitosos: {stats['resumen_general']['analisis_exitosos']}/4")
    
    # Informaci√≥n de documentos
    reporte.append(f"\nüìÑ DOCUMENTOS ANALIZADOS:")
    doc_info = stats["informacion_documentos"]
    reporte.append(f"   ‚Ä¢ PDF 1: {doc_info['pdf1']['nombre']} ({doc_info['pdf1']['paginas']} p√°ginas, {doc_info['pdf1']['palabras']} palabras)")
    reporte.append(f"   ‚Ä¢ PDF 2: {doc_info['pdf2']['nombre']} ({doc_info['pdf2']['paginas']} p√°ginas, {doc_info['pdf2']['palabras']} palabras)")
    
    # Puntuaciones individuales
    reporte.append(f"\nüéØ PUNTUACIONES POR M√âTODO:")
    puntuaciones = stats["puntuaciones_individuales"]
    if "basico" in puntuaciones:
        reporte.append(f"   ‚Ä¢ An√°lisis b√°sico (difflib): {puntuaciones['basico']}")
    if "semantico" in puntuaciones:
        reporte.append(f"   ‚Ä¢ An√°lisis sem√°ntico: {puntuaciones['semantico']}")
    if "tfidf" in puntuaciones:
        reporte.append(f"   ‚Ä¢ An√°lisis TF-IDF: {puntuaciones['tfidf']}")
    if "langchain" in puntuaciones:
        reporte.append(f"   ‚Ä¢ An√°lisis LangChain: {puntuaciones['langchain']}")
    
    # An√°lisis LangChain detallado si est√° disponible
    if "analisis_langchain" in resultados and resultados["analisis_langchain"].get("exito"):
        langchain_data = resultados["analisis_langchain"]
        reporte.append(f"\nü§ñ AN√ÅLISIS LANGCHAIN DETALLADO:")
        reporte.append(f"   ‚Ä¢ Tiempo de procesamiento: {langchain_data['tiempo_procesamiento']:.2f}s")
        reporte.append(f"   ‚Ä¢ Tipo de an√°lisis: {langchain_data.get('tipo_analisis', 'N/A')}")
        
        analisis = langchain_data.get("analisis", {})
        if "similitudes" in analisis:
            reporte.append(f"   ‚Ä¢ Similitudes principales:")
            similitudes = analisis["similitudes"].replace("‚Ä¢", "     -")
            reporte.append(f"     {similitudes[:200]}...")
        
        if "diferencias" in analisis:
            reporte.append(f"   ‚Ä¢ Diferencias principales:")
            diferencias = analisis["diferencias"].replace("‚Ä¢", "     -")
            reporte.append(f"     {diferencias[:200]}...")
    
    reporte.append("\n" + "=" * 60)
    reporte.append(f"Generado: {time.strftime('%Y-%m-%d %H:%M:%S')}")
    
    return "\n".join(reporte)

print("‚úÖ BLOQUE 14 - Funciones de utilidad adicionales creadas")

## üìã BLOQUE 15: Instrucciones de Uso

In [None]:
def mostrar_instrucciones():
    """Muestra las instrucciones completas de uso"""
    print("""
üéØ INSTRUCCIONES DE USO CON LANGCHAIN:

1Ô∏è‚É£ CONFIGURAR PATHS (BLOQUE 2):
   Modifica las variables PDF1_PATH y PDF2_PATH con las rutas a tus documentos
   
   Configura el proveedor LLM deseado:
   - LLM_PROVIDER = "vllm"     # Para vLLM local
   - LLM_PROVIDER = "openai"   # Para OpenAI API
   - LLM_PROVIDER = "ollama"   # Para Ollama local

2Ô∏è‚É£ CONFIGURAR LLM:
   
   üîπ Para vLLM:
   python -m vllm.entrypoints.openai.api_server \\
     --model meta-llama/Llama-2-7b-chat-hf \\
     --host localhost \\
     --port 8000

   üîπ Para OpenAI:
   Configura tu API key en OPENAI_CONFIG["api_key"]

   üîπ Para Ollama:
   ollama serve
   ollama pull llama2

3Ô∏è‚É£ EJECUTAR COMPARACI√ìN:
   ‚Ä¢ Comparaci√≥n completa: 
     resultados = ejecutar_comparacion_completa()
   
   ‚Ä¢ Comparaci√≥n r√°pida: 
     resultados = comparacion_rapida_langchain()
   
   ‚Ä¢ An√°lisis por dominio: 
     resultados = analisis_por_dominio("legal")

4Ô∏è‚É£ CAMBIAR PROVEEDOR EN TIEMPO REAL:
   cambiar_proveedor_llm("openai")  # Cambia a OpenAI
   cambiar_proveedor_llm("ollama")  # Cambia a Ollama

5Ô∏è‚É£ PROBAR CONEXI√ìN:
   probar_conexion_llm()

6Ô∏è‚É£ UTILIDADES ADICIONALES:
   # Exportar resultados
   exportar_resultados(resultados, "mi_comparacion.json")
   
   # Obtener estad√≠sticas
   stats = obtener_estadisticas_comparacion(resultados)
   
   # Generar reporte en texto
   reporte = generar_reporte_texto(resultados)
   print(reporte)
""")

def mostrar_modelos_recomendados():
    """Muestra los modelos recomendados para cada proveedor"""
    print("""
üîß MODELOS RECOMENDADOS:

üìå vLLM:
   ‚Ä¢ meta-llama/Llama-2-7b-chat-hf (General, espa√±ol/ingl√©s)
   ‚Ä¢ mistralai/Mistral-7B-Instruct-v0.1 (R√°pido, multiling√ºe)
   ‚Ä¢ clibrain/lince-zero-spanish-7b (Especializado en espa√±ol)
   ‚Ä¢ microsoft/DialoGPT-medium-spanish (Conversacional en espa√±ol)

üìå Ollama:
   ‚Ä¢ llama2, llama2:13b (General purpose)
   ‚Ä¢ mistral, mistral:7b (Eficiente y r√°pido)
   ‚Ä¢ codellama:7b (Especializado en c√≥digo)
   ‚Ä¢ neural-chat:7b (Conversacional)

üìå OpenAI:
   ‚Ä¢ gpt-3.5-turbo (R√°pido y econ√≥mico)
   ‚Ä¢ gpt-4 (M√°xima calidad y razonamiento)
   ‚Ä¢ gpt-4-turbo (Balance calidad/velocidad)

üí° VENTAJAS DE LANGCHAIN:
   ‚úÖ F√°cil cambio entre proveedores
   ‚úÖ Templates de prompts reutilizables
   ‚úÖ Manejo autom√°tico de errores
   ‚úÖ Callbacks para debugging
   ‚úÖ Chains para an√°lisis complejos
   ‚úÖ An√°lisis especializados por dominio
""")

# Mostrar instrucciones al cargar
mostrar_instrucciones()
mostrar_modelos_recomendados()
print("‚úÖ BLOQUE 15 - Instrucciones mostradas")

## üéÆ BLOQUE 16: Ejemplos de Casos de Uso

In [None]:
def ejemplos_casos_uso():
    """Muestra ejemplos pr√°cticos de casos de uso"""
    
    print("""
üéÆ EJEMPLOS DE CASOS DE USO:

1Ô∏è‚É£ COMPARACI√ìN B√ÅSICA:
   # Configura rutas y ejecuta
   resultados = ejecutar_comparacion_completa()

2Ô∏è‚É£ AN√ÅLISIS R√ÅPIDO PARA DECISI√ìN URGENTE:
   # Solo an√°lisis esenciales
   resultados = comparacion_rapida_langchain()

3Ô∏è‚É£ AN√ÅLISIS ESPECIALIZADO POR DOMINIO:
   # Para documentos legales
   resultados_legal = analisis_por_dominio("documentos legales y contratos")
   
   # Para documentaci√≥n t√©cnica
   resultados_tech = analisis_por_dominio("documentaci√≥n t√©cnica de software")
   
   # Para papers acad√©micos
   resultados_academic = analisis_por_dominio("papers cient√≠ficos y acad√©micos")

4Ô∏è‚É£ COMPARACI√ìN CON M√öLTIPLES MODELOS:
   # Probar con vLLM
   cambiar_proveedor_llm("vllm")
   resultados_vllm = ejecutar_comparacion_completa()
   
   # Probar con OpenAI
   cambiar_proveedor_llm("openai")
   resultados_openai = ejecutar_comparacion_completa()
   
   # Comparar resultados
   print("vLLM:", resultados_vllm["puntuacion_similitud_combinada"])
   print("OpenAI:", resultados_openai["puntuacion_similitud_combinada"])

5Ô∏è‚É£ AN√ÅLISIS BATCH DE M√öLTIPLES DOCUMENTOS:
   documentos = [
       ("doc1.pdf", "doc2.pdf"),
       ("doc3.pdf", "doc4.pdf"),
       ("doc5.pdf", "doc6.pdf")
   ]
   
   resultados_batch = []
   for pdf1, pdf2 in documentos:
       resultado = comparar_pdfs_completo(pdf1, pdf2)
       resultados_batch.append(resultado)

6Ô∏è‚É£ EXPORTACI√ìN Y REPORTING:
   # Ejecutar an√°lisis
   resultados = ejecutar_comparacion_completa()
   
   # Exportar datos completos
   exportar_resultados(resultados, "analisis_completo.json")
   
   # Generar reporte ejecutivo
   reporte = generar_reporte_texto(resultados)
   with open("reporte_ejecutivo.txt", "w", encoding="utf-8") as f:
       f.write(reporte)
   
   # Obtener estad√≠sticas clave
   stats = obtener_estadisticas_comparacion(resultados)
   print("Estad√≠sticas:", stats)

7Ô∏è‚É£ DEBUGGING Y TROUBLESHOOTING:
   # Verificar conexiones
   probar_conexion_llm()
   
   # Cambiar modelo si hay problemas
   cambiar_proveedor_llm("ollama")
   
   # An√°lisis paso a paso
   datos1 = extraer_texto_pdf(PDF1_PATH)
   datos2 = extraer_texto_pdf(PDF2_PATH)
   print("Extracci√≥n exitosa:", datos1["exito"], datos2["exito"])
    """)

def configuracion_avanzada():
    """Muestra opciones de configuraci√≥n avanzada"""
    
    print("""
‚öôÔ∏è CONFIGURACI√ìN AVANZADA:

1Ô∏è‚É£ PERSONALIZAR TEMPLATES DE PROMPTS:
   # Modificar templates existentes
   prompt_templates["comprehensive"].template = "Tu prompt personalizado..."
   
   # Crear template espec√≠fico
   template_personalizado = PromptTemplate(
       input_variables=["documento1", "documento2"],
       template="Analiza desde perspectiva de: {perspectiva}..."
   )

2Ô∏è‚É£ AJUSTAR PAR√ÅMETROS DE MODELOS:
   # Para vLLM
   VLLM_CONFIG["temperature"] = 0.1  # M√°s determin√≠stico
   VLLM_CONFIG["max_tokens"] = 4096  # Respuestas m√°s largas
   
   # Para OpenAI
   OPENAI_CONFIG["temperature"] = 0.7  # M√°s creativo
   OPENAI_CONFIG["model"] = "gpt-4"    # Modelo m√°s potente

3Ô∏è‚É£ CONFIGURAR L√çMITES DE TEXTO:
   # Ajustar truncamiento para LLM
   texto_truncado = truncar_texto_para_llm(texto, max_chars=6000)

4Ô∏è‚É£ PERSONALIZAR AN√ÅLISIS SEM√ÅNTICO:
   # Usar modelo de embeddings diferente
   modelo_embeddings = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

5Ô∏è‚É£ CONFIGURAR PALABRAS VAC√çAS PERSONALIZADAS:
   # Agregar palabras espec√≠ficas del dominio
   stop_words_custom = stop_words.union({'palabra1', 'palabra2'})
    """)

# Mostrar ejemplos
ejemplos_casos_uso()
configuracion_avanzada()
print("‚úÖ BLOQUE 16 - Ejemplos de casos de uso mostrados")

## üöÄ BLOQUE 17: Ejecuci√≥n Final y Estado del Sistema

In [None]:
def verificar_estado_sistema():
    """Verifica el estado completo del sistema"""
    print("üîç VERIFICANDO ESTADO DEL SISTEMA:")
    print("=" * 50)
    
    # 1. Verificar archivos PDF
    print(f"üìÑ Archivos PDF configurados: {'‚úÖ' if archivos_ok else '‚ùå'}")
    if archivos_ok:
        print(f"   ‚Ä¢ PDF 1: {PDF1_PATH}")
        print(f"   ‚Ä¢ PDF 2: {PDF2_PATH}")
    else:
        print("   ‚Ä¢ Configura PDF1_PATH y PDF2_PATH en BLOQUE 2")
    
    # 2. Verificar LLM
    print(f"ü§ñ LLM configurado: {'‚úÖ' if llm_disponible else '‚ùå'}")
    print(f"   ‚Ä¢ Proveedor: {LLM_PROVIDER}")
    if llm_disponible:
        print("   ‚Ä¢ Estado: Conectado y listo")
    else:
        print("   ‚Ä¢ Estado: No disponible - verifica configuraci√≥n")
    
    # 3. Verificar modelos de ML
    print(f"üß† Modelo embeddings: {'‚úÖ' if 'modelo_embeddings' in globals() else '‚ùå'}")
    print(f"üìö NLTK configurado: {'‚úÖ' if 'stop_words' in globals() else '‚ùå'}")
    
    # 4. Estado general
    sistema_listo = archivos_ok and llm_disponible
    print(f"\nüéØ SISTEMA LISTO: {'‚úÖ S√ç' if sistema_listo else '‚ùå NO'}")
    
    if sistema_listo:
        print("\nüöÄ ¬°Puedes ejecutar la comparaci√≥n!")
        print("   Ejecuta: resultados = ejecutar_comparacion_completa()")
    else:
        print("\n‚ö†Ô∏è Configura los elementos faltantes antes de continuar")
    
    return sistema_listo

def mostrar_comandos_principales():
    """Muestra los comandos principales para usar"""
    print("""
üéØ COMANDOS PRINCIPALES:

üîß CONFIGURACI√ìN:
   verificar_estado_sistema()           # Verifica todo el sistema
   probar_conexion_llm()               # Prueba el LLM actual
   cambiar_proveedor_llm("openai")     # Cambia el proveedor

üìä EJECUCI√ìN:
   resultados = ejecutar_comparacion_completa()      # An√°lisis completo
   resultados = comparacion_rapida_langchain()       # An√°lisis r√°pido
   resultados = analisis_por_dominio("legal")        # An√°lisis especializado

üìà UTILIDADES:
   stats = obtener_estadisticas_comparacion(resultados)  # Estad√≠sticas
   reporte = generar_reporte_texto(resultados)           # Reporte texto
   exportar_resultados(resultados, "archivo.json")       # Exportar

üé® VISUALIZACI√ìN:
   mostrar_informacion_pdfs(resultados)      # Info de PDFs
   mostrar_resultados_similitud(resultados)  # Puntuaciones
   crear_grafico_comparacion(resultados)     # Gr√°fico de barras
   mostrar_palabras_importantes(resultados)  # Palabras clave TF-IDF
   mostrar_analisis_langchain(resultados)    # An√°lisis IA estructurado
""")

# Verificar estado del sistema al cargar
print("üöÄ INICIALIZANDO SISTEMA...")
sistema_listo = verificar_estado_sistema()

# Mostrar comandos principales
mostrar_comandos_principales()

print("\n" + "=" * 60)
print("üìö COMPARADOR DE PDFs CON LANGCHAIN - LISTO PARA USAR")
print("=" * 60)

if sistema_listo:
    print("‚úÖ Todo configurado correctamente")
    print("üéØ Siguiente paso: resultados = ejecutar_comparacion_completa()")
else:
    print("‚ö†Ô∏è Completa la configuraci√≥n antes de usar")

print("‚úÖ BLOQUE 17 - Sistema inicializado")

## üé¨ EJEMPLO DE EJECUCI√ìN COMPLETA

In [None]:
# Paso 1: Verificar sistema
print("üîç Verificando sistema...")
if verificar_estado_sistema():
    
    # Paso 2: Ejecutar comparaci√≥n completa
    print("üöÄ Ejecutando comparaci√≥n...")
    resultados = ejecutar_comparacion_completa()
    #resultados = comparacion_rapida_langchain()
    
    # Paso 3: Generar reporte
    if resultados and "error" not in resultados:
        print("üìù Generando reporte...")
        reporte = generar_reporte_texto(resultados)
        
        # Paso 4: Exportar resultados
        exportar_resultados(resultados, "comparacion_final.json")
        
        # Paso 5: Mostrar resumen
        stats = obtener_estadisticas_comparacion(resultados)
        print(f"üéØ Similitud final: {stats['resumen_general']['similitud_combinada']}")
        
        print("‚úÖ ¬°Comparaci√≥n completada exitosamente!")
    else:
        print("‚ùå Error en la comparaci√≥n")
else:
    print("‚ö†Ô∏è Configura el sistema antes de ejecutar")


print("üé¨ Ejemplo de ejecuci√≥n preparado (comentado)")
print("üìù Descomenta el c√≥digo anterior para ejecutar autom√°ticamente")

# FIN DEL C√ìDIGO
print("\nüéâ ¬°C√ìDIGO COMPLETO CARGADO EXITOSAMENTE!")
print("üìñ Total de bloques: 17")
print("üîß Funciones creadas: 25+")
print("üéØ ¬°Listo para comparar documentos PDF con IA!")