In [1]:
import boto3
import json
from sqlalchemy import create_engine, Column, Integer, Text
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector


In [2]:
import boto3
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)

In [4]:
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })

def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))


In [5]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
Base = declarative_base()

In [None]:
class Fragmented(Base):
    __tablename__ = 'fragmented'
    id = Column(Integer, primary_key=True)
    text_content = Column(Text, nullable=False)
    embedding = Column(Vector(1024), nullable=False)  

Base.metadata.create_all(engine)

In [23]:
def insert_fragment(text):
    session = Session()
    embedding = embed_call(text)['embedding']  
    fragment = Fragmented(text_content=text, embedding=embedding)
    session.add(fragment)
    session.commit()
    session.close()

In [6]:
from sqlalchemy.sql import text
import pandas as pd

def search_similar_fragments(query_text, top_k=10):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"
    query = text(f"""
        SELECT id, text_content, cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM fragmented
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()

    
    df = pd.DataFrame(results, columns=["id", "text_content", "similarity"])
    filtered_df = df.drop_duplicates(subset='text_content', keep='first')
    filtered_results = filtered_df.to_records(index=False)
    
    return filtered_results


In [25]:
import fitz

def extraer_texto_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    texto = ""
    for pagina in doc:
        texto += pagina.get_text()  
    return texto


In [26]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
def dividir_texto_con_logica(texto, chunk_size=80, chunk_overlap=20):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    return splitter.split_text(texto)


In [27]:
import re

def limpiar_y_unir_lineas(texto):
    texto = re.sub(r'-\n', '', texto)
    texto = re.sub(r'\s*\n\s*', '\n', texto)
    texto = re.sub(r'\s+', ' ', texto)
    texto = re.sub(r'\n+', '\n', texto)
    texto = texto.strip()
    return texto


In [30]:
pdf_path = "tdr_v4.pdf"  
texto = extraer_texto_pdf(pdf_path)
fragmentos = dividir_texto_con_logica(texto, chunk_size=80, chunk_overlap=20)
cleaned_fragments = [fragment.replace("\n", " ").strip() for fragment in fragmentos]
filtered_fragments = [frag for frag in cleaned_fragments if "........." not in frag [:100]]

for chunk in filtered_fragments:
    insert_fragment(chunk)

In [7]:
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings

embedding = BedrockEmbeddings(model_id = "amazon.titan-embed-text-v2:0")
connection_string = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})


  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)


In [23]:
from langchain.prompts import PromptTemplate

prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template="""
    Usando el siguiente contexto como referencia, responde a la pregunta de manera detallada, explicativa y bien elaborada. Si es necesario, organiza la información para que sea fácil de entender.
    
    Usando el siguiente contexto como referencia, responde a la pregunta en el siguiente formato:

    1. Respuesta directa:
    2. Explicación detallada:
    3. Conclusión (si aplica):

    Contexto:
    {context}

    Pregunta:
    {question}

    Respuesta:
    """
)



In [24]:
from langchain_aws import BedrockLLM
llm = BedrockLLM(model_id="amazon.titan-tg1-large")

In [25]:
from langchain.chains import LLMChain
chain = LLMChain(llm=llm, prompt=prompt_template)

In [26]:
question = "¿que motores de bases de datos se utilizan?"
results = search_similar_fragments(question, top_k=20)

In [27]:
for re in results:
    print(re)


(348, 'motores de bases de datos', 0.87476728)
(826, 'd. Debe ser compatible con una variedad de motores de bases de datos, como', 0.70874116)
(3238, 'MySQL, PostgreSQL, Oracle y otros. e.', 0.55504288)
(2539, 'y bases de datos con niveles de alta disponibilidad y rendimiento, alto nivel', 0.51136037)
(349, 'PostgreSQL, MSSQL y MySQL d.', 0.48995608)
(1345, 'Implementación de mejoras a nivel de base de datos (NoSQL / PostgreSQL / Redis)', 0.45336763)
(2758, 'El servicio debe permitir escoger entre los siguientes motores de bases de', 0.45114235)
(317, 'ejecutar una base de datos o darles cualquier otro uso que le daría al', 0.45040996)
(801, 'bases de datos, almacenes de datos y sistemas en la nube. b.', 0.44814301)
(3224, 'utilizados. Servicio de migración de bases de datos en la nube a.', 0.41452302)


In [28]:
relevant_chunks = [f"Fragmento {idx + 1}: {resul[1]}" for idx, resul in enumerate(results[:20])]
context = "\n".join(relevant_chunks)

In [29]:
response = chain.run(context=context, question=question)
print("Respuesta generada:", response)

Respuesta generada: 1. MySQL
    2. PostgreSQL
    3. Oracle

    Explicación detallada:
    El fragmento 2 menciona que el servicio debe ser compatible con una variedad de motores de bases de datos, como MySQL, PostgreSQL, Oracle y otros. El fragmento 5 menciona que el servicio debe permitir escoger entre los siguientes motores de bases de datos para ejecutar una base de datos o darles cualquier otro uso que le daría al bases de datos, almacenes de datos y sistemas en la nube. El fragmento 9 menciona que el servicio debe permitir escoger entre los siguientes motores de bases
