In [1]:
import boto3
import spacy
from sqlalchemy import create_engine, Column, Integer, Text
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector
from sqlalchemy import Column, Integer, Text, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from langchain_aws import BedrockLLM
from langchain.prompts import PromptTemplate
from langchain.vectorstores import PGVector
from langchain_aws import BedrockEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import json
from sqlalchemy.sql import text
import pandas as pd
import re
from langchain.chains import LLMChain

In [2]:
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'
)

In [3]:
def embed_body(chunk_message: str):
    return json.dumps({
        'inputText': chunk_message,
    })

def embed_call(chunk_message: str):
    model_id = "amazon.titan-embed-text-v2:0"
    body = embed_body(chunk_message)

    response = bedrock_runtime.invoke_model(
        body=body,
        modelId=model_id,
        contentType='application/json',
        accept='application/json'
    )
    return json.loads(response['body'].read().decode('utf-8'))


In [4]:
DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
engine = create_engine(DATABASE_URL, connect_args={"connect_timeout": 1200})
Session = sessionmaker(bind=engine)
Base = declarative_base()

  Base = declarative_base()


In [5]:
class Seccion(Base):
    __tablename__ = 'secciones'
    id = Column(Integer, primary_key=True)
    numero_seccion = Column(Text, nullable=False)
    fragmento = Column(Text, nullable=False)
    embedding = Column(Vector(1024), nullable=False)

Base.metadata.create_all(engine)

In [6]:
import re
from typing import List, Dict

def limpiar_texto(texto: str) -> str:
    return re.sub(r'\s+', ' ', texto).strip()

def detectar_y_dividir_secciones(texto: str) -> List[Dict[str, str]]:
    patron_principal = r'(\d+(\.\d+)*\.\s+[A-ZÁÉÍÓÚÑ][^\n]*)'
    matches = list(re.finditer(patron_principal, texto))
    
    secciones = []
    for i, match in enumerate(matches):
        header = limpiar_texto(match.group(1))  
        start = match.end()  
        end = matches[i + 1].start() if i + 1 < len(matches) else len(texto)  
        content = limpiar_texto(texto[start:end]) 
        cadena = header+ " " + content
        secciones.append(cadena)  
    
    return secciones

In [7]:
nlp = spacy.load("es_core_news_sm")
def extract_entities_spacy(text):
    doc = nlp(text)
    entities = [ent.text for ent in doc.ents]
    return ", ".join(entities)

In [8]:
import fitz

def extraer_texto_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    texto = ""
    for pagina in doc:
        texto += pagina.get_text()  
    return texto

In [9]:
pdf_path = "tdr_v4.pdf" 
texto = extraer_texto_pdf(pdf_path)
nuevo_fragmento = detectar_y_dividir_secciones(texto)
nuevo_fragmento = nuevo_fragmento[31:]
for fr in nuevo_fragmento:
    fr = fr.strip()      

In [10]:
dicc = {}
pagina_pattern = r'Página \d+ de \d+'
num_pattern = r'(\d+(\.\d+)*\.)'
fragment_pattern = r'(●|➔|-|\b[a-z]\.)'  

for fr in nuevo_fragmento:
    fr = re.sub(pagina_pattern, '', fr)
    match = re.match(num_pattern, fr)
    if match:
        numero = match.group(1)  
        contenido = fr[len(numero):].strip()  
        contenido_fragmentado = re.split(fragment_pattern, contenido)
        sub_fragmentos = []
        for fragment in contenido_fragmentado:
            fragment = fragment.strip()
            if fragment:  
                puntos = re.split(r'\.\s*', fragment, maxsplit=1)  
                sub_fragmentos.append(puntos[0].strip())  
        dicc[numero] = sub_fragmentos

In [11]:
def eliminar_coincidencias(lista, pattern):
    return [item for item in lista if not re.match(pattern, item.strip())]

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,  
    chunk_overlap=20  
)

In [12]:
key_fragmentos = {}
for key, value in dicc.items():
    contenido_filtrado = eliminar_coincidencias(value, fragment_pattern)
    fragmentos_por_clave = []
    for v in contenido_filtrado:
        fragmentos = text_splitter.split_text(v)  
        fragmentos_por_clave.extend(fragmentos)  
    key_fragmentos[key] = fragmentos_por_clave

In [13]:
def insert_section(numero_seccion, fragmento):
    session = Session() 
    embedding = embed_call(fragmento)['embedding']
    section = Seccion(
        numero_seccion=numero_seccion,
        fragmento=fragmento,
        embedding=embedding
    )
    session.add(section)
    session.commit()
    session.close()

In [14]:
for it,vl in key_fragmentos.items():
    for v in vl:
        insert_section(it, v)
    

In [26]:
def search_similar_fragments(query_text, top_k=8):
    session = Session()
    query_embedding = embed_call(query_text)['embedding']
    embedding_str = "ARRAY[" + ", ".join(map(str, query_embedding)) + "]::vector"

    query = text(f"""
        SELECT 
            id, 
            numero_seccion, 
            fragmento, 
            cosine_similarity(embedding, {embedding_str}) AS similarity
        FROM secciones
        ORDER BY similarity DESC
        LIMIT :top_k
    """)

    results = session.execute(query, {"top_k": top_k}).fetchall()
    session.close()
    df = pd.DataFrame(results, columns=["id", "numero_seccion", "fragmento", "similarity"])
    filtered_df = df.drop_duplicates(subset="fragmento", keep="first")  
    filtered_results = filtered_df.to_records(index=False)
    return filtered_results


In [27]:
embedding = BedrockEmbeddings(model_id = "amazon.titan-embed-text-v2:0")
connection_string = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})


  vectorstore = PGVector(connection_string=connection_string, embedding_function=embedding)


In [28]:
prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template=""" Eres un bot de ayuda asi que saludame y respondeme amigablemente 
    Usando el siguiente contexto como referencia, responde a la pregunta de manera detallada, explicativa y bien elaborada. Si es necesario, organiza la información para que sea fácil de entender.
    
    Usando el siguiente contexto como referencia, responde a la pregunta en el siguiente formato:

    1. Respuesta directa:
    2. Explicación detallada:
    3. Conclusión (si aplica):

    Contexto:
    {context}

    Pregunta:
    {question}

    Respuesta:
    """
)

In [29]:
llm = BedrockLLM(model_id="amazon.titan-tg1-large")

In [30]:
chain = LLMChain(llm=llm, prompt=prompt_template)

In [33]:
query = "cuales son los motores bases de datos?"
results = search_similar_fragments(query, top_k=10)

In [34]:
print(results)

[( 227, '5.1.', 'El servicio debe permitir escoger entre los siguientes motores de bases de datos PostgreSQL, MSSQL y', 0.63314678)
 ( 719, '5.1.', 'Debe ser compatible con una variedad de motores de bases de datos, como MySQL, PostgreSQL, Oracle y', 0.63133184)
 ( 228, '5.1.', 'PostgreSQL, MSSQL y MySQL', 0.40672911)
 ( 690, '5.1.', 'bases de datos, almacenes de datos y sistemas en la nube', 0.39390274)
 ( 218, '5.1.', 'de instantáneas Servicios de Base de datos relacional', 0.39366624)
 ( 197, '5.1.', 'transaccionales como bases de datos y volúmenes de arranque (el rendimiento depende principalmente', 0.39215956)
 ( 292, '5.1.', 'de la instancia de base de datos, incluidos grupos de parámetros, grupos de subred, instantáneas,', 0.38943525)
 ( 194, '5.1.', 'una base de datos o darles cualquier otro uso que le daría al almacenamiento en bloques', 0.38183982)
 ( 306, '5.1.', 'y herramientas de MongoDB para ejecutar, administrar y escalar cargas de trabajo o equivalente', 0.37663348)
 (1

In [37]:
ojito = [ f"<Fragmento {idx + 1}: indice en el documento: {resul[1]} - chunk: {resul[2]}>" for idx, resul in enumerate(results)]

print(ojito)


['<Fragmento 1: indice en el documento: 5.1. - chunk: El servicio debe permitir escoger entre los siguientes motores de bases de datos PostgreSQL, MSSQL y>', '<Fragmento 2: indice en el documento: 5.1. - chunk: Debe ser compatible con una variedad de motores de bases de datos, como MySQL, PostgreSQL, Oracle y>', '<Fragmento 3: indice en el documento: 5.1. - chunk: PostgreSQL, MSSQL y MySQL>', '<Fragmento 4: indice en el documento: 5.1. - chunk: bases de datos, almacenes de datos y sistemas en la nube>', '<Fragmento 5: indice en el documento: 5.1. - chunk: de instantáneas Servicios de Base de datos relacional>', '<Fragmento 6: indice en el documento: 5.1. - chunk: transaccionales como bases de datos y volúmenes de arranque (el rendimiento depende principalmente>', '<Fragmento 7: indice en el documento: 5.1. - chunk: de la instancia de base de datos, incluidos grupos de parámetros, grupos de subred, instantáneas,>', '<Fragmento 8: indice en el documento: 5.1. - chunk: una base de datos o

In [38]:
context = "\n".join(ojito)

In [39]:
response = chain.run(context=context, question=query)
print("Respuesta generada:", response)

  response = chain.run(context=context, question=query)


Respuesta generada: 1. PostgreSQL
    2. MSSQL
    3. MySQL

    Explicación detallada:
    1. PostgreSQL: Es un sistema de gestión de bases de datos relacionales que ofrece funciones avanzadas de administración de datos y compatibilidad con una amplia gama de lenguajes de programación.
    2. MSSQL: Es un sistema de gestión de bases de datos relacionales desarrollado por Microsoft. Ofrece funciones de administración de bases de datos y compatibilidad con diversos lenguajes de programación.
    3. MySQL: Es un sistema de gestión de bases de datos relacionales desarrollado por Oracle. Ofrece funciones de administración
