In [1]:
import spacy
from sqlalchemy import create_engine, Column, Integer, Text, inspect
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector
from sqlalchemy import Column, Integer, Text, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from langchain_aws import BedrockLLM
from langchain.prompts import PromptTemplate
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import re
from langchain.chains import LLMChain
import pymupdf4llm
from typing import List, Dict
from sqlalchemy import create_engine, Table, MetaData, Column, Integer, String, Text
from sqlalchemy.orm import sessionmaker
import boto3
import pandas as pd
import json
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.sql import text
import xml.etree.ElementTree as ET
from typing import Dict, List

In [30]:
texto1 = pymupdf4llm.to_markdown("tdr_v4.pdf")
texto2 = pymupdf4llm.to_markdown("tdr_v6.pdf")

Processing tdr_v4.pdf...
Processing tdr_v6.pdf...


In [2]:
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })
def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))

In [3]:
def limpiar_texto(texto: str) -> str:
    return re.sub(r'\s+', ' ', texto).strip()
def detectar_y_dividir_secciones(texto: str) -> List[Dict[str, str]]:
    patron_principal = r'(?m)^\*\*(\d+(\.\d+)*\.)\s*(.+)$'
    matches = list(re.finditer(patron_principal, texto))
    
    secciones = []
    for i, match in enumerate(matches):
        numero = match.group(1).strip()
        titulo = f"El título de esta sección es: {match.group(3).strip()}"
        
        start = match.end()
        end = matches[i + 1].start() if i + 1 < len(matches) else len(texto)
        contenido = limpiar_texto(texto[start:end])
        contenido_limpio = re.sub(patron_principal, '', contenido).strip()
        
        secciones.append({
            "numero": numero,
            "titulo": titulo,
            "contenido": contenido_limpio
        })
    return secciones
def dividir_en_fragmentos(secciones: List[Dict[str, str]], max_chars: int = 100) -> List[Dict[str, str]]:
    fragmentos = []
    for seccion in secciones:
        numero = seccion["numero"]
        titulo = seccion["titulo"]
        contenido = seccion["contenido"]
        
        while contenido:
            if len(contenido) <= max_chars:
                fragmento = contenido
                contenido = ""
            else:
                corte = contenido[:max_chars].rfind(' ')
                if corte == -1:
                    corte = max_chars
                fragmento = contenido[:corte]
                contenido = contenido[corte:].strip()
            
            fragmentos.append({
                "numero": numero,
                "titulo": titulo,
                "fragmento": limpiar_texto(fragmento)
            })
    return fragmentos
def almacenar_fragmentos(fragmentos: List[Dict[str, str]], tabla: str, database_url: str):
    engine = create_engine(database_url)
    metadata = MetaData()
    inspector = inspect(engine)
    Session = sessionmaker(bind=engine)
    session = Session()

    if not inspector.has_table(tabla):
        Table(
            tabla,
            metadata,
            Column('id', Integer, primary_key=True, autoincrement=True),
            Column('numero', String, nullable=False),
            Column('titulo', Text, nullable=False),
            Column('fragmento', Text, nullable=False),
            Column('embedding', Vector(1024), nullable=False)
        )
        metadata.create_all(engine)
    
    insert_query = text(f"""
        INSERT INTO {tabla} (numero, titulo, fragmento, embedding) 
        VALUES (:numero, :titulo, :fragmento, :embedding)
    """)
    for fragmento in fragmentos:
        embedding = embed_call(fragmento["fragmento"])['embedding']
        session.execute(
            insert_query,
            {
                "numero": fragmento["numero"],
                "titulo": fragmento["titulo"],
                "fragmento": fragmento["fragmento"],
                "embedding": embedding
            }
        )
    session.commit()
    session.close()
    print(f"Fragmentos almacenados exitosamente en la tabla '{tabla}'.")
def exportar_a_json(secciones: List[Dict[str, str]], output_file: str) -> None:
    estructura = {
        "secciones": secciones
    }
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(estructura, f, indent=4, ensure_ascii=False)
    print(f"El archivo JSON se ha guardado en '{output_file}'.")
def procesar_documento_y_almacenar(texto: str, tabla: str, database_url: str, max_chars: int = 100):
    output_file = f"{tabla}.json"
    secciones = detectar_y_dividir_secciones(texto)
    exportar_a_json(secciones, output_file)
    fragmentos = dividir_en_fragmentos(secciones, max_chars=max_chars)
    almacenar_fragmentos(fragmentos, tabla, database_url)

In [4]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"

In [23]:
procesar_documento_y_almacenar(texto1, "tdr_v4", DATABASE_URL)
procesar_documento_y_almacenar(texto2, "tdr_v6", DATABASE_URL)

El archivo JSON se ha guardado en 'tdr_v4.json'.
Fragmentos almacenados exitosamente en la tabla 'tdr_v4'.
El archivo JSON se ha guardado en 'tdr_v6.json'.
Fragmentos almacenados exitosamente en la tabla 'tdr_v6'.


In [6]:
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
session = boto3.Session()
AWS_REGION = session.region_name
MODEL_NAME = "anthropic.claude-3-haiku-20240307-v1:0"

def get_completion(prompt, system=''):
    bedrock = boto3.client(service_name='bedrock-runtime', region_name=AWS_REGION)

    request_body = {
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 2000,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.0
    }

    if system:
        request_body["system"] = system

    response = bedrock.invoke_model(modelId=MODEL_NAME, body=json.dumps(request_body))
    response_body = json.loads(response['body'].read())
    return response_body['content'][0]['text']
def search_similar_fragments(query_text, top_k):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"

    query = text(f"""
        SELECT 
            id, 
            numero_seccion, 
            fragmento, 
            cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM frag
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    df = pd.DataFrame(results, columns=["id", "numero_seccion", "fragmento", "similarity"])
    return df
def obtener_contenido_por_indices(json_data, indices_relevantes):
    contenidos = []
    for seccion in json_data.get("secciones", []):
        if seccion["numero"] in indices_relevantes:
            contenidos.append(seccion["contenido"])
    return contenidos
def cargar_json(filepath: str):
    with open(filepath, "r", encoding="utf-8") as f:
        return json.load(f)
def generate_research(search_results, indices_relevantes):
    research = '<search_results>\n'
    for idx, result in zip(indices_relevantes, search_results):
        research += f'    <search_result id="{idx}">\n'
        research += f'        {result}\n'
        research += f'    </search_result>\n'
    research += '</search_results>'
    return research

In [7]:
def realizar_consulta(query: str, top_k: int, json_file: str):
    resultados = search_similar_fragments(query, top_k)
    resultados = resultados.drop_duplicates(subset="fragmento", keep="first")
    indices_relevantes = resultados["numero_seccion"].unique().tolist()
    print(indices_relevantes)
    json_data = cargar_json(json_file)
    contenido_completo = obtener_contenido_por_indices(json_data, indices_relevantes)
    return contenido_completo, indices_relevantes

In [8]:
def clasificar_pregunta(pregunta):
    system_prompt = """
    
    Eres un clasificador inteligente que determina la categoría de una pregunta basada en su contenido. Clasifica la pregunta en una de las siguientes categorías:
    
    1. Diferencias en todo el documento: Preguntas generales que piden comparar todo el documento sin referirse a partes específicas.
    
    2. Diferencias en una sección específica: Preguntas que mencionan una sección, parte o capítulo del documento (ejemplo: sección 4, 5.3, capítulo específico).
    
    3. Diferencias en certificaciones técnicas o unidades lógicas: Preguntas relacionadas con requisitos técnicos, certificaciones (como ISO), arquitectura o especificaciones técnicas.
    
    IMPORTANTE: Devuelve únicamente el número de la categoría.
    
    Ejemplos:
    Pregunta: "¿Cuáles son las diferencias entre las versiones del documento?"  
    Respuesta: 1
    
    Pregunta: "¿Qué cambios hay en la sección 4 sobre objetivos de contratación?"  
    Respuesta: 2
    
    Pregunta: "¿Cuáles son las diferencias en los requisitos de certificación de arquitectura?"  
    Respuesta: 3

    """

    user_prompt = f"""Clasifica la siguiente pregunta: <pregunta>{pregunta}</pregunta> """
    
    response = get_completion(user_prompt, system=system_prompt)
    return response.strip()

In [9]:
def procesar_tipo3(question: str, json_file1: str, json_file2: str, tone_context: str = None) -> str:

    contenido_completo1, indices_relevantes1 = realizar_consulta(question, top_k=3, json_file=json_file1)
    contenido_completo2, indices_relevantes2 = realizar_consulta(question, top_k=3, json_file=json_file2)
    
    research1 = generate_research(contenido_completo1, indices_relevantes1)
    research2 = generate_research(contenido_completo2, indices_relevantes2)
    
    SYSTEM_PROMPT = """
    Eres un asistente inteligente especializado en ayudar a los usuarios a gestionar documentos de Términos de Referencia (TDRs) para licitaciones estatales. 
    Tu objetivo es facilitar la búsqueda, comparación y análisis de información clave dentro de los TDRs.
    """
    
    prompt = ""
    if tone_context:
        prompt += f"\n\n{tone_context}"
    
    prompt += f"""
    Hola, necesito que me ayudes a responder una **pregunta específica** utilizando la información de las secciones que te proporcionaré. Estas secciones pertenecen a **dos versiones distintas** de un mismo documento.

    Por favor, realiza las siguientes tareas:
    1. **Analiza ambas versiones de texto** y extrae las citas más relevantes de la investigación en base a la pregunta.
    2. **Identifica cómo cambia la respuesta a la pregunta entre ambas versiones.**

    **Pregunta específica**: {question}

    **Versión antigua**:
    <bloque>{research1}</bloque>

    **Versión nueva**:
    <bloque>{research2}</bloque>
    
    Instrucciones:
    - Evita el uso de saltos de línea dobles. Usa un único salto de línea entre párrafos o elementos.
    - Mantén una respuesta clara, DIRECTA y organizada.
    """
    return prompt, SYSTEM_PROMPT

In [11]:
def procesar_tipo2(question: str, json_file1: str, json_file2: str):
    numero_seccion = extraer_numero_seccion(question)
    print(numero_seccion)
    if not numero_seccion:
        return "No se pudo detectar el número de sección en la pregunta."

    contenido_v4 = extraer_seccion(json_file1, f"{numero_seccion}.")
    contenido_v6 = extraer_seccion(json_file2, f"{numero_seccion}.")
    if not contenido_v4 or not contenido_v6:
        return "No se encontró contenido para la sección especificada en una de las versiones."

    SYSTEM_PROMPT = """Eres un asistente inteligente especializado en ayudar a los usuarios a gestionar documentos de Términos de Referencia (TDRs) para licitaciones estatales. Tu objetivo es facilitar la búsqueda y comparación de información clave dentro de los TDRs."""
    TONE_CONTEXT = "Debes mantener un tono amigable de servicio al cliente.."

    prompt = f"""
    {TONE_CONTEXT}

    Hola, necesito que me ayudes a comparar secciones pertenecientes a **dos versiones distintas** de un mismo documento.  
    A continuación, te proporcionaré el contenido de la sección en ambas versiones.  

    **Tu tarea es**:  
    1. **Identificar y enumerar** Diferencias entre ambas versiones.  
    2. Analizar bien adiciones y eliminaciones

    **Pregunta**: {question}

    **Versión antigua**:  
    <versión_antigua>  
    {contenido_v4}  
    </versión_antigua>  

    **Versión nueva**:  
    <versión_nueva>  
    {contenido_v6}  
    </versión_nueva>  

    ### Instrucciones para la respuesta:
    - Sé claro, directo y organizado
    - Separar adiciones de elimnaciones en una lista
    - IMPORTANTE: OMITE "**Gerencia Central de Tecnologías de Información y Comunicaciones** Servicio de Infraestructura, Plataforma y Microservicios en Nube Pública para el despliegue de las Aplicaciones y Nuevos Servicios de la Gerencia Central de Tecnologías de Información y Comunicaciones de Essalud"
    """
    respuesta = get_completion(prompt, SYSTEM_PROMPT)
    return respuesta

In [12]:
def extraer_seccion(json_file, numero_seccion):
    with open(json_file, "r", encoding="utf-8") as f:
        data = json.load(f)
        
    for seccion in data.get("secciones", []):
        if seccion["numero"] == numero_seccion:
            return seccion["contenido"]
    return None
def reemplazar_numeros_escritos(texto: str) -> str:
    numeros_escritos = {
        "uno": "1", "dos": "2", "tres": "3", "cuatro": "4", "cinco": "5",
        "seis": "6", "siete": "7", "ocho": "8", "nueve": "9", "diez": "10"
    }
    for palabra, numero in numeros_escritos.items():
        texto = re.sub(rf'\b{palabra}\b', numero, texto, flags=re.IGNORECASE)    
    return texto
def extraer_numero_seccion(pregunta: str) -> str:
    texto_limpio = reemplazar_numeros_escritos(pregunta)
    match1 = re.search(r"secci[oó]n\s+(\d+(\.\d+)*)", texto_limpio, re.IGNORECASE)
    match2 = re.search(r"secci[oó]n\s+(\d+(\.\d+)*\.)", texto_limpio, re.IGNORECASE)
    if match1:
        return match1.group(1)
    if match2:
        return match2.group(1)
    return None

In [15]:
QUESTION = """ ¿Cuales son las diferencias entre la seccion  5. ? """
first_answer = clasificar_pregunta(QUESTION)

if first_answer == '2':
    print(procesar_tipo2(QUESTION, "tdr_v4.json", "tdr_v6.json"))
        
elif first_answer == '3':
    prompt, SYSTEM_PROMPT = procesar_tipo3(question=QUESTION, json_file1="tdr_v4.json", json_file2="tdr_v6.json", 
        tone_context="Debes mantener un tono amigable de servicio al cliente.")
    print(get_completion(prompt, SYSTEM_PROMPT))
else:
    print("Aún no trabajamos en eso :(")


5
Hola, con gusto puedo ayudarte a comparar las secciones de los dos documentos que me has proporcionado.

Analizando la sección 5. "Alcance de la adquisición" entre la versión antigua y la versión nueva, he identificado las siguientes diferencias:

Adiciones en la versión nueva:
1. Se especifica que el servicio de infraestructura puede ser en Nube Pública.
2. Se cambia la denominación de "Servicio de infraestructura, soporte de la marca" a "Servicio de infraestructura Pública o Nube Pública".

Eliminaciones en la versión nueva:
1. Se elimina la mención a "Prestación Principal" y "Prestación Accesoria" en la tabla de productos.

Cabe resaltar que, tal como indicaste en las instrucciones, he omitido la información relacionada con la "Gerencia Central de Tecnologías de Información y Comunicaciones" ya que no forma parte del alcance de esta comparación.

Por favor, déjame saber si necesitas que profundice o aclare algún aspecto de las diferencias encontradas.
