In [1]:
import boto3
import json
from sqlalchemy import create_engine, Column, Integer, Text
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector


In [2]:
import boto3
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)

In [3]:
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })

def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))


In [4]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
Base = declarative_base()

In [None]:
class Fragmented(Base):
    __tablename__ = 'fragmented'
    id = Column(Integer, primary_key=True)
    text_content = Column(Text, nullable=False)
    embedding = Column(Vector(1024), nullable=False)  

Base.metadata.create_all(engine)

In [23]:
def insert_fragment(text):
    session = Session()
    embedding = embed_call(text)['embedding']  
    fragment = Fragmented(text_content=text, embedding=embedding)
    session.add(fragment)
    session.commit()
    session.close()

In [5]:
from sqlalchemy.sql import text

def search_similar_fragments(query_text, top_k=3):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"
    query = text(f"""
        SELECT id, text_content, cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM fragmented
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    return results

In [25]:
import fitz

def extraer_texto_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    texto = ""
    for pagina in doc:
        texto += pagina.get_text()  
    return texto


In [26]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
def dividir_texto_con_logica(texto, chunk_size=80, chunk_overlap=20):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    return splitter.split_text(texto)


In [27]:
import re

def limpiar_y_unir_lineas(texto):
    texto = re.sub(r'-\n', '', texto)
    texto = re.sub(r'\s*\n\s*', '\n', texto)
    texto = re.sub(r'\s+', ' ', texto)
    texto = re.sub(r'\n+', '\n', texto)
    texto = texto.strip()
    return texto


In [30]:
pdf_path = "tdr_v4.pdf"  
texto = extraer_texto_pdf(pdf_path)
fragmentos = dividir_texto_con_logica(texto, chunk_size=80, chunk_overlap=20)
cleaned_fragments = [fragment.replace("\n", " ").strip() for fragment in fragmentos]
filtered_fragments = [frag for frag in cleaned_fragments if "........." not in frag [:100]]

for chunk in filtered_fragments:
    insert_fragment(chunk)

In [6]:
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings

embedding = BedrockEmbeddings(model_id = "amazon.titan-embed-text-v2:0")
connection_string = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})


  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)


In [7]:
query_text = "Debe ser compatible con una variedad de motores de bases de datos, como MySQL, PostgreSQL, Oracle y otros."
results = search_similar_fragments(query_text, top_k=10)

if results:
    for idx, result in enumerate(results, 1):
        print(f"Resultado {idx}:")
        print(f"ID: {result.id}")
        print(f"Contenido: {result.text_content}")
        print(f"Similitud: {result.similarity:.4f}")
        print("-" * 50)
else:
    print("No se encontraron fragmentos relevantes.")


Resultado 1:
ID: 826
Contenido: d. Debe ser compatible con una variedad de motores de bases de datos, como
Similitud: 0.8761
--------------------------------------------------
Resultado 2:
ID: 3237
Contenido: d. Debe ser compatible con una variedad de motores de bases de datos, como
Similitud: 0.8761
--------------------------------------------------
Resultado 3:
ID: 3238
Contenido: MySQL, PostgreSQL, Oracle y otros. e.
Similitud: 0.6633
--------------------------------------------------
Resultado 4:
ID: 827
Contenido: MySQL, PostgreSQL, Oracle y otros. e.
Similitud: 0.6633
--------------------------------------------------
Resultado 5:
ID: 348
Contenido: motores de bases de datos
Similitud: 0.6219
--------------------------------------------------
Resultado 6:
ID: 2759
Contenido: motores de bases de datos
Similitud: 0.6219
--------------------------------------------------
Resultado 7:
ID: 2760
Contenido: PostgreSQL, MSSQL y MySQL d.
Similitud: 0.5376
---------------------------------

In [8]:
def preprocess_context(results):
    unique_fragments = list(set([result.text_content.strip() for result in results]))
    return "\n".join(unique_fragments)

In [13]:
def clean_response(response_text):
    lines = response_text.split("\n")
    cleaned_lines = []
    seen_lines = set()

    for line in lines:
        line = line.strip()
        if line and line not in seen_lines:
            cleaned_lines.append(line)
            seen_lines.add(line)

    return "\n".join(cleaned_lines)


In [14]:
def generate_response_with_bedrock(context, question):
    model_id = "amazon.titan-tg1-large"  
    payload = {
        "inputText": f"Contexto: {context}\nPregunta: {question}\nRespuesta:"
    }

    try:
        response = bedrock_runtime.invoke_model(
            body=json.dumps(payload),
            modelId=model_id,
            contentType='application/json',
            accept='application/json'
        )
        response_body = json.loads(response['body'].read().decode('utf-8'))

        if 'results' in response_body and response_body['results']:
            raw_response = response_body['results'][0].get('outputText', "No se generó una respuesta válida.")
            return clean_response(raw_response)
        else:
            return "El modelo no devolvió resultados válidos."
    except KeyError as e:
        return f"Error: La respuesta no contiene la clave esperada {str(e)}."
    except Exception as e:
        return f"Error al invocar el modelo: {str(e)}"


In [15]:
def split_context(context, max_tokens=300):
    context_lines = context.split("\n")
    chunks = []
    current_chunk = []

    for line in context_lines:
        current_chunk.append(line)
        if len(" ".join(current_chunk)) > max_tokens:
            chunks.append("\n".join(current_chunk))
            current_chunk = []
    if current_chunk:
        chunks.append("\n".join(current_chunk))

    return chunks

In [16]:
def answer_question(question):
    results = search_similar_fragments(question, top_k=10)
    if not results:
        return "No se encontraron fragmentos relevantes para responder a la pregunta."

    context = "\n".join([result.text_content for result in results])

    context_chunks = split_context(context)

    full_response = []
    for chunk in context_chunks:
        response = generate_response_with_bedrock(chunk, question)
        full_response.append(response)

    final_response = clean_response("\n".join(full_response))
    return final_response

In [17]:
question = "¿Cuáles son las características mínimas requeridas para el servicio de nube pública que se contratará?"
response = answer_question(question)
print("Respuesta generada:")
print(response)

Respuesta generada:
El servicio de nube pública que ofrecerá el Proveedor deberá contar con las siguientes características mínimas:
a) Contar con un centro de datos de nivel 3 o superior.
b) Contar con una certificación de nivel 3 o superior en el centro de datos.
c) Contar con una certificación de nivel 3 o superior en la red de comunicaciones.
d) Contar con una certificación de nivel 3 o superior en la seguridad.
e) Contar con una certificación de nivel 3 o superior en la gestión de datos.
f) Contar con
nube pública y debe figurar dentro del Cuadrante Mágico de Gartner de Servicios
Debe tener catálogo de servicios.
