In [1]:
import boto3
import spacy
from sqlalchemy import create_engine, Column, Integer, Text
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector
from sqlalchemy import Column, Integer, Text, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from langchain_aws import BedrockLLM
from langchain.prompts import PromptTemplate
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import json
from sqlalchemy.sql import text
import pandas as pd
import re
from langchain.chains import LLMChain

In [2]:
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)

In [3]:
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })

def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))


In [4]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
Base = declarative_base()

  Base = declarative_base()


In [5]:
class Sections(Base):
    __tablename__ = 'sections'
    id = Column(Integer, primary_key=True)           
    title = Column(Text, nullable=False)             
    full_text = Column(Text, nullable=False)         
    embedding = Column(Vector(1024), nullable=False) 


In [6]:
class Chunks(Base):
    __tablename__ = 'chunks_v1'
    id = Column(Integer, primary_key=True)
    text_content = Column(Text, nullable=False)
    embedding = Column(Vector(1024), nullable=False)
    section_id = Column(Integer, ForeignKey('sections.id'))
    keywords = Column(Text, nullable=True)  

Base.metadata.create_all(engine)


In [7]:
nlp = spacy.load("es_core_news_sm")
def extract_entities_spacy(text):
    doc = nlp(text)
    entities = [ent.text for ent in doc.ents]
    return ", ".join(entities)

In [8]:
indice = [
    ('1', 'DENOMINACIÓN DE LA CONTRATACIÓN'),
    ('2', 'FINALIDAD PÚBLICA'),
    ('3', 'ANTECEDENTES'),
    ('4', 'OBJETIVOS DE LA CONTRATACIÓN'),
    ('4.1', 'Objetivo General'),
    ('4.2', 'Objetivo Especifico'),
    ('5', 'CARACTERISTICAS Y CONDICIONES DEL SERVICIO A CONTRATAR'),
    ('5.1', 'Descripción y cantidad del servicio a contratar'),
    ('5.2', 'Del procedimiento'),
    ('5.3', 'Seguros'),
    ('5.4', 'Prestaciones accesorias a la prestación principal'),
    ('5.4.1', 'Soporte'),
    ('5.4.2', 'Capacitación'),
    ('5.5', 'Lugar y plazo de prestación del servicio'),
    ('5.5.1', 'Lugar'),
    ('5.5.2', 'Plazo'),
    ('6', 'REQUISITOS Y RECURSOS DEL PROVEEDOR'),
    ('6.1', 'Requisitos de calificación del proveedor'),
    ('6.2', 'Recursos a ser provistos por el proveedor'),
    ('6.2.1', 'Entregables del servicio'),
    ('6.2.2', 'Personal clave'),
    ('7', 'OTRAS CONSIDERACIONES PARA LA EJECUCIÓN DE LA PRESTACIÓN'),
    ('7.1', 'Otras obligaciones'),
    ('7.1.1', 'Medidas de seguridad'),
    ('7.2', 'Confiabilidad'),
    ('7.3', 'Medidas de control durante la ejecución contractual'),
    ('7.4', 'Conformidad de la prestación'),
    ('7.5', 'Forma de pago'),
    ('7.6', 'Penalidades'),
    ('7.7', 'Responsabilidad de vicios ocultos'),
    ('8', 'ANEXOS')
]


In [9]:
def segmentar_por_secciones(indice, texto):
    fragmentos = {}
    texto = texto[4900:]
    texto = texto.upper()

    pila_titulos = []
    
    for i in range(len(indice)):
        num, titulo = indice[i]
        titulo = titulo.upper()  
        start_pos = texto.find(titulo)

        if start_pos != -1:
            if i == len(indice) - 1:
                next_start_pos = len(texto)  
            else:
                next_start_pos = texto.find(indice[i + 1][1].upper())  
            fragmento = texto[start_pos + len(titulo):next_start_pos].strip()

            if '.' in num:
                main_title = pila_titulos[-1] if pila_titulos else ''
                full_title = f"{main_title} de {titulo}"
            else:
                full_title = titulo
                pila_titulos.append(titulo)

            if fragmento and len(fragmento) > 30 and '......' not in fragmento:
                if full_title not in fragmentos:
                    fragmentos[full_title] = []
                fragmentos[full_title].append(fragmento)

    return fragmentos


In [10]:
def insert_section(diccionario):
    session = Session() 
    embedding = embed_call(diccionario['title'])['embedding']
    section = Sections(
        title=diccionario['title'],
        full_text=diccionario['full_text'],
        embedding=embedding
    )
    
    session.add(section)
    session.commit()
    session.close()


In [11]:
import fitz

def extraer_texto_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    texto = ""
    for pagina in doc:
        texto += pagina.get_text()  
    return texto

In [12]:
pdf_path = "tdr_v4.pdf" 
texto = extraer_texto_pdf(pdf_path)
diccionario = segmentar_por_secciones(indice, texto)
#for title, fragment in diccionario.items():
    #insert_section({'title': title, 'full_text': fragment}) 

In [13]:
def search_similar_sections(query_text, top_k=3):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"
    query = text(f"""
        SELECT id, title, cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM sections
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    df = pd.DataFrame(results, columns=["id", "title", "similarity"])
    filtered_df = df.drop_duplicates(subset='title', keep='first')
    filtered_results = filtered_df.to_records(index=False)
    return filtered_results


In [14]:
def get_fragments_by_section_ids(section_ids):
    session = Session()
    section_ids_str = ", ".join(map(str, section_ids))
    
    query = text(f"""
        SELECT id, text_content, section_id
        FROM chunks_v1
        WHERE section_id IN ({section_ids_str})
    """)

    results = session.execute(query).fetchall()
    session.close()

    fragments = [{'id': res[0], 'text_content': res[1], 'section_id': res[2]} for res in results]

    return fragments


In [15]:
def get_full_text_by_id(section_id):
    session = Session()
    try:
        query = text("SELECT full_text FROM sections WHERE id = :id")
        result = session.execute(query, {"id": section_id}).fetchone()
        if result:
            full_text = result[0]
            try:
                full_text = json.loads(full_text)
            except json.JSONDecodeError:
                pass 

            full_text_cleaned = full_text.replace("\n", " ").replace("●", "").strip()
            return [{section_id: full_text_cleaned}]
        else:
            print(f"No se encontró ninguna sección con el id {section_id}")
            return []  
    except Exception as e:
        print(f"Error al recuperar el full_text: {e}")
        return []  
    finally:
        session.close()


In [16]:
def clean_keywords(keywords):
    keywords = keywords.replace(",", "").split()
    return keywords

In [17]:
def insert_fragments_in_chunks(fragmentos):
    session = Session()
    for fragment in fragmentos:
        for section in fragment:
            section_id = list(section.keys())[0]
            full_text = section[section_id]
            full_text_cleaned = full_text.replace("\n", " ").replace("●", "").strip()
            splitter = RecursiveCharacterTextSplitter(
                chunk_size=300,
                chunk_overlap=200
            )
            chunks = splitter.split_text(full_text_cleaned)
            for chunk in chunks:
                embedding = embed_call(chunk)['embedding']
                raw_keywords = extract_entities_spacy(chunk)
                keywords = clean_keywords(', '.join(raw_keywords))
                fragment_entry = Chunks(
                    text_content=chunk,      
                    embedding=embedding,     
                    section_id=section_id,  
                    keywords=','.join(keywords)  
                )
                session.add(fragment_entry)
        session.commit()
    session.close()

In [18]:
def search_similar_fragments(query_text, top_k=8):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"

    query = text(f"""
        SELECT id, text_content, section_id, cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM chunks_v1
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    df = pd.DataFrame(results, columns=["id", "text_content", "section_id", "similarity"])
    filtered_df = df.drop_duplicates(subset='text_content', keep='first')
    filtered_results = filtered_df.to_records(index=False)

    return filtered_results


In [19]:
embedding = BedrockEmbeddings(model_id = "amazon.titan-embed-text-v2:0")
connection_string = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})


  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)


In [20]:
prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template=""" Eres un bot de ayuda asi que saludame y respondeme amigablemente 
    Usando el siguiente contexto como referencia, responde a la pregunta de manera detallada, explicativa y bien elaborada. Si es necesario, organiza la información para que sea fácil de entender.
    
    Usando el siguiente contexto como referencia, responde a la pregunta en el siguiente formato:

    1. Respuesta directa:
    2. Explicación detallada:
    3. Conclusión (si aplica):

    Contexto:
    {context}

    Pregunta:
    {question}

    Respuesta:
    """
)

In [21]:
llm = BedrockLLM(model_id="amazon.titan-tg1-large")

In [22]:
chain = LLMChain(llm=llm, prompt=prompt_template)

  chain = LLMChain(llm=llm, prompt=prompt_template)


In [30]:
query = "cuales son los objetivos especificos?"
results = search_similar_sections(query, top_k=5)
ids_results = [int(res['id']) for res in results]
fragmentos = []
for section_id in ids_results:
    fragmentos.append(get_full_text_by_id(section_id))
insert_fragments_in_chunks(fragmentos)

In [31]:
print(fragmentos)

[[{5: '{" CONTAR CON UN SERVICIO QUE PERMITA UN ALTO RENDIMIENTO EN CAPACIDADES DE PROCESAMIENTO, MEMORIA, ALMACENAMIENTO, COMUNICACIONES, SEGURIDAD Y REDES A TRAVÉS DE UNA INFRAESTRUCTURA PÚBLICA O NUBE PÚBLICA. PÁGINA 3 DE 50 GERENCIA CENTRAL DE TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIONES SERVICIO DE INFRAESTRUCTURA, PLATAFORMA Y MICROSERVICIOS EN NUBE PÚBLICA PARA EL DESPLIEGUE DE LAS APLICACIONES Y NUEVOS SERVICIOS DE LA GERENCIA CENTRAL DE TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIONES DE ESSALUD  GARANTIZAR UN ALTO NIVEL DE SEGURIDAD EN EL DESPLIEGUE DE LAS APLICACIONES DE ESSALUD.  PROPORCIONAR UN SERVICIO GARANTIZANDO EL SOPORTE TÉCNICO BRINDADO POR EL FABRICANTE. ASIMISMO, EL SERVICIO DEBE TENER COMO ALTA PRIORIDAD LA SEGURIDAD DE LA INFORMACIÓN, A TRAVÉS DE DIVERSOS CONTROLES TANTO LÓGICOS COMO FÍSICOS. 5."}'}], [{4: '{"CONTRATAR EL SERVICIO DE INFRAESTRUCTURA, PLATAFORMA Y MICROSERVICIOS EN NUBE PÚBLICA PARA EL DESPLIEGUE DE LAS APLICACIONES Y NUEVOS SERVICIOS DE LA GERENCIA CE

In [32]:
chunks_r = search_similar_fragments(query)
ojito = [f"Fragmento {idx + 1}: {resul[1]}" for idx, resul in enumerate(chunks_r)]
print(ojito)

['Fragmento 1: DE NUESTRA PLATAFORMA TECNOLÓGICA, BUSCANDO ELEVAR LOS NIVELES DE EFICIENCIA Y SATISFACCIÓN DEL PERSONAL ADMINISTRATIVO, PROFESIONALES DE LA SALUD, USUARIOS INTERNOS Y EXTERNOS DE ESSALUD. POR LA NATURALEZA DEL VALOR DE LOS ACTIVOS DE INFORMACIÓN, POR LAS MEJORES PRÁCTICAS DE SEGURIDAD Y', 'Fragmento 2: DE LA GERENCIA CENTRAL DE TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIONES DE ESSALUD  GARANTIZAR UN ALTO NIVEL DE SEGURIDAD EN EL DESPLIEGUE DE LAS APLICACIONES DE ESSALUD.  PROPORCIONAR UN SERVICIO GARANTIZANDO EL SOPORTE TÉCNICO BRINDADO POR EL FABRICANTE. ASIMISMO, EL SERVICIO DEBE TENER COMO ALTA', 'Fragmento 3: {"LA PRESENTE CONTRATACIÓN PÚBLICA TIENE COMO FINALIDAD MANTENER LA OPERATIVIDAD Y MODERNIZACIÓN DE NUESTRA PLATAFORMA TECNOLÓGICA, BUSCANDO ELEVAR LOS NIVELES DE EFICIENCIA Y SATISFACCIÓN DEL PERSONAL ADMINISTRATIVO, PROFESIONALES DE LA SALUD, USUARIOS INTERNOS Y EXTERNOS DE ESSALUD. POR LA', 'Fragmento 4: EL SOPORTE TÉCNICO BRINDADO POR EL FABRICANTE. ASIMISMO, 

In [33]:
context = "\n".join(ojito)

In [34]:
response = chain.run(context=context, question=query)
print("Respuesta generada:", response)

Respuesta generada: 1. Mantener la operatividad y modernización de nuestra plataforma tecnologica.
    2. Elevar los niveles de eficiencia y satisfaccion del personal administrativo, profesionales de la salud, usuarios internos y externos de ESSALUD.
    3. Garantizar un alto nivel de seguridad en el despliegue de las aplicaciones de ESSALUD.
    4. Proporcionar un servicio garantizando el soporte tecnico brindado por el fabricante.
    5. Tener como alta prioridad la seguridad de la informacion, a traves de diversos controles tanto logicos como fisicos. 

    Explicación detallada
