In [1]:
import spacy
from sqlalchemy import create_engine, Column, Integer, Text, inspect
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector
from sqlalchemy import Column, Integer, Text, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from langchain_aws import BedrockLLM
from langchain.prompts import PromptTemplate
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import re
from langchain.chains import LLMChain
import pymupdf4llm
from typing import List, Dict
from sqlalchemy import create_engine, Table, MetaData, Column, Integer, String, Text
from sqlalchemy.orm import sessionmaker
import boto3
import pandas as pd
import json
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.sql import text
import xml.etree.ElementTree as ET
from typing import Dict, List



In [4]:
texto1 = pymupdf4llm.to_markdown("tdr_v4.pdf")
texto2 = pymupdf4llm.to_markdown("tdr_v6.pdf")

Processing tdr_v4.pdf...
Processing tdr_v6.pdf...


In [2]:
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })
def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))

In [3]:
def limpiar_texto(texto: str) -> str:
    return re.sub(r'\s+', ' ', texto).strip()
def detectar_y_dividir_secciones(texto: str) -> List[Dict[str, str]]:
    patron_principal = r'(?m)^\*\*(\d+(\.\d+)*\.)\s*(.+)$'
    matches = list(re.finditer(patron_principal, texto))
    
    secciones = []
    for i, match in enumerate(matches):
        numero = match.group(1).strip()
        titulo = f"El título de esta sección es: {match.group(3).strip()}"
        
        start = match.end()
        end = matches[i + 1].start() if i + 1 < len(matches) else len(texto)
        contenido = limpiar_texto(texto[start:end])
        contenido_limpio = re.sub(patron_principal, '', contenido).strip()
        
        secciones.append({
            "numero": numero,
            "titulo": titulo,
            "contenido": contenido_limpio
        })
    return secciones
def dividir_en_fragmentos(secciones: List[Dict[str, str]], max_chars: int = 100) -> List[Dict[str, str]]:
    fragmentos = []
    for seccion in secciones:
        numero = seccion["numero"]
        titulo = seccion["titulo"]
        contenido = seccion["contenido"]
        
        while contenido:
            if len(contenido) <= max_chars:
                fragmento = contenido
                contenido = ""
            else:
                corte = contenido[:max_chars].rfind(' ')
                if corte == -1:
                    corte = max_chars
                fragmento = contenido[:corte]
                contenido = contenido[corte:].strip()
            
            fragmentos.append({
                "numero": numero,
                "titulo": titulo,
                "fragmento": limpiar_texto(fragmento)
            })
    return fragmentos
def almacenar_fragmentos(fragmentos: List[Dict[str, str]], tabla: str, database_url: str):
    engine = create_engine(database_url)
    metadata = MetaData()
    inspector = inspect(engine)
    Session = sessionmaker(bind=engine)
    session = Session()

    if not inspector.has_table(tabla):
        Table(
            tabla,
            metadata,
            Column('id', Integer, primary_key=True, autoincrement=True),
            Column('numero', String, nullable=False),
            Column('titulo', Text, nullable=False),
            Column('fragmento', Text, nullable=False),
            Column('embedding', Vector(1024), nullable=False)
        )
        metadata.create_all(engine)
    
    insert_query = text(f"""
        INSERT INTO {tabla} (numero, titulo, fragmento, embedding) 
        VALUES (:numero, :titulo, :fragmento, :embedding)
    """)
    for fragmento in fragmentos:
        embedding = embed_call(fragmento["fragmento"])['embedding']
        session.execute(
            insert_query,
            {
                "numero": fragmento["numero"],
                "titulo": fragmento["titulo"],
                "fragmento": fragmento["fragmento"],
                "embedding": embedding
            }
        )
    session.commit()
    session.close()
    print(f"Fragmentos almacenados exitosamente en la tabla '{tabla}'.")
def exportar_a_json(secciones: List[Dict[str, str]], output_file: str) -> None:
    estructura = {
        "secciones": secciones
    }
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(estructura, f, indent=4, ensure_ascii=False)
    print(f"El archivo JSON se ha guardado en '{output_file}'.")
def procesar_documento_y_almacenar(texto: str, tabla: str, database_url: str, max_chars: int = 100):
    output_file = f"{tabla}.json"
    secciones = detectar_y_dividir_secciones(texto)
    exportar_a_json(secciones, output_file)
    fragmentos = dividir_en_fragmentos(secciones, max_chars=max_chars)
    almacenar_fragmentos(fragmentos, tabla, database_url)

In [4]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"

In [23]:
procesar_documento_y_almacenar(texto1, "tdr_v4", DATABASE_URL)
procesar_documento_y_almacenar(texto2, "tdr_v6", DATABASE_URL)

El archivo JSON se ha guardado en 'tdr_v4.json'.
Fragmentos almacenados exitosamente en la tabla 'tdr_v4'.
El archivo JSON se ha guardado en 'tdr_v6.json'.
Fragmentos almacenados exitosamente en la tabla 'tdr_v6'.


In [5]:
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
session = boto3.Session()
AWS_REGION = session.region_name
MODEL_NAME = "anthropic.claude-3-haiku-20240307-v1:0"

def get_completion(prompt, system=''):
    bedrock = boto3.client(service_name='bedrock-runtime', region_name=AWS_REGION)

    request_body = {
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 2000,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.0
    }

    if system:
        request_body["system"] = system

    response = bedrock.invoke_model(modelId=MODEL_NAME, body=json.dumps(request_body))
    response_body = json.loads(response['body'].read())
    return response_body['content'][0]['text']
def search_similar_fragments(query_text, top_k):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"

    query = text(f"""
        SELECT 
            id, 
            numero_seccion, 
            fragmento, 
            cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM frag
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    df = pd.DataFrame(results, columns=["id", "numero_seccion", "fragmento", "similarity"])
    return df
def obtener_contenido_por_indices(json_data, indices_relevantes):
    contenidos = []
    for seccion in json_data.get("secciones", []):
        if seccion["numero"] in indices_relevantes:
            contenidos.append(seccion["contenido"])
    return contenidos
def cargar_json(filepath: str):
    with open(filepath, "r", encoding="utf-8") as f:
        return json.load(f)
def generate_research(search_results):
    research = '<search_results>\n'
    for i, result in enumerate(search_results, start=1):
        research += f'    <search_result id={i}>\n'
        research += f'    {result}\n'
        research += f'    </search_result>\n'
    research += '</search_results>'
    return research

In [6]:
def realizar_consulta(query: str, top_k: int, json_file: str):
    resultados = search_similar_fragments(query, top_k)
    resultados = resultados.drop_duplicates(subset="fragmento", keep="first")
    indices_relevantes = resultados["numero_seccion"].unique().tolist()
    print(indices_relevantes)
    json_data = cargar_json(json_file)
    contenido_completo = obtener_contenido_por_indices(json_data, indices_relevantes)
    return contenido_completo

In [12]:
QUESTION = """ ¿Qué tipo de seguro deben tener todos los trabajadores? """
research1 = realizar_consulta(QUESTION, top_k=3, json_file="tdr_v4.json")
print("-----")
research2 = realizar_consulta(QUESTION, top_k=3, json_file="tdr_v6.json")

['5.3.', '8.', '7.1.1.']
-----
['5.3.', '8.', '7.1.1.']


In [16]:
def g_research(search_results):
    research = '<search_results>\n'
    research += f'    <search_result>\n'
    research += f'    {search_results}\n'
    research += f'    </search_result>\n'
    research += '</search_results>'
    return research

new_research1 = g_research(research1[1])
new_research2 = g_research(research2[1])

print(new_research1)
print("----")
print(new_research2)

<search_results>
    <search_result>
    El Proveedor de la solución que debe considerar los Lineamientos para el Uso de Servicios de nube pública para entidades de la Administración Pública del Estado Peruano, para efectos de disponibilidad, integridad, confidencialidad, autenticidad y trazabilidad, por lo cual queda obligado a cumplir y demostrar que, como mínimo, cumple con todas las medidas de seguridad de la NTP ISO/IEC 27001:2014 Tecnología de la Información, pertinentes para el Página 30 de 50 ----- **Gerencia Central de Tecnologías de Información y Comunicaciones** Servicio de Infraestructura, Plataforma y Microservicios en Nube Pública para el despliegue de las Aplicaciones y Nuevos Servicios de la Gerencia Central de Tecnologías de Información y Comunicaciones de Essalud nivel de disponibilidad requerido. Esto incluye instalaciones y personal. En su defecto podrá presentar la certificación global para nubes públicas ISO/IEC 27001:2013 de la nube ofertada. El proveedor deberá 

In [27]:
SYSTEM_PROMPT = "Eres un asistente inteligente especializado en ayudar a los usuarios a gestionar documentos de Términos de Referencia (TDRs) para licitaciones estatales. Tu objetivo es facilitar la búsqueda y comparación de información clave dentro de los TDRs"

TONE_CONTEXT = "Debes mantener un tono amigable de servicio al cliente.."

prompt = ""
if TONE_CONTEXT:
    prompt += f"""\n\n{TONE_CONTEXT}"""

prompt += f"""
    Hola, necesito que me ayudes a comparar estos dos fragmentos correspondientes a la misma sección
    de distintas versiones de un documento. Por favor, identifica las diferencias o confirma si son iguales:

    Fragmento 1:
    {new_research1}

    Fragmento 2:
    {new_research2}
    
    Instrucciones:
    - Estructura la respuesta con números o viñetas si encuentras diferencias.
    - Evita el uso de saltos de línea dobles. Usa un único salto de línea entre párrafos o elementos.
    - Mantén una respuesta clara, directa y organizada.
    
    Estructura la respuesta de esta forma:
    1. Diferencia: [explicación clara].
    2. Diferencia: [explicación clara].
"""

In [28]:
get_completion(prompt, SYSTEM_PROMPT)

'¡Hola! Claro, con gusto voy a comparar los dos fragmentos que me has proporcionado y te indicaré las diferencias que encuentre.\n\nDespués de revisar cuidadosamente ambos fragmentos, he identificado las siguientes diferencias:\n\n1. Diferencia: En el Fragmento 1, se menciona que "El proveedor deberá ser un partner avanzado acreditado de la nube pública a ofertar", mientras que en el Fragmento 2 se indica que "El proveedor deberá ser un partner acreditado de la nube pública a ofertar". La diferencia radica en que en el Fragmento 1 se especifica que el proveedor debe ser un "partner avanzado", mientras que en el Fragmento 2 solo se indica que debe ser un "partner acreditado".\n\n2. Diferencia: En el Fragmento 1, se incluye el siguiente párrafo adicional: "Las medidas de seguridad podrán ser reemplazadas por otras siempre y cuando se acredite con las certificaciones respectivas que protegen igual o mejor el riesgo sobre los activos y se satisfacen los principios básicos en materia de seg