In [2]:
import openai   
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker, declarative_base
from sqlalchemy import Column, Integer, Text
from pgvector.sqlalchemy import Vector  

In [1]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

def generate_embedding(text):
    return model.encode(text).tolist()  #


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
from sqlalchemy import create_engine, Column, Integer, Text
from sqlalchemy.orm import sessionmaker, declarative_base
from pgvector.sqlalchemy import Vector

DATABASE_URL = "postgresql://postgres:postgres72861001@sandbox-ia.ccnrq57mco3x.us-east-1.rds.amazonaws.com:5432/clau"
engine = create_engine(DATABASE_URL)
Session = sessionmaker(bind=engine)
Base = declarative_base()


In [3]:
class Fragment(Base):
    __tablename__ = 'fragment'
    id = Column(Integer, primary_key=True)
    text_content = Column(Text, nullable=False)
    embedding = Column(Vector(384), nullable=False)  
    
Base.metadata.create_all(engine)


In [4]:
def insert_fragment(text):
    session = Session()
    embedding = generate_embedding(text)
    fragment = Fragment(text_content=text, embedding=embedding)
    session.add(fragment)
    session.commit()
    session.close()


In [13]:
def search_by_l2_distance(query_text, top_k=3):
    session = Session()
    query_embedding = generate_embedding(query_text)
    results = (
        session.query(Fragment)
        .order_by(Fragment.embedding.l2_distance(query_embedding))
        .limit(top_k)
        .all()
    )
    session.close()
    return results  

In [15]:
def search_by_cosine_similarity(query_text, top_k=3):
    session = Session()
    query_embedding = generate_embedding(query_text)
    results = (
        session.query(Fragment)
        .order_by(Fragment.embedding.cosine_distance(query_embedding))
        .limit(top_k)
        .all()
    )
    session.close()
    return results

In [17]:
sentences = [
    "El sol brilla en el cielo.",
    "El gato está sobre la mesa.",
    "La luna es blanca y brillante.",
    "La computadora está encendida.",
    "Hoy es un gran día para aprender.",
    "Las aves vuelan alto en el cielo.",
    "El río fluye hacia el mar.",
    "El café es mi bebida favorita.",
    "El perro duerme bajo el árbol.",
    "Ayer llovió mucho en la ciudad."
]

for sentence in sentences:
    insert_fragment(sentence)

In [None]:
query = "¿Dónde está el gato?"

In [19]:
print("Resultados con L2 Distance:")
results_l2 = search_by_l2_distance(query)   
for result in results_l2:
    print(f"ID: {result.id}, Texto: {result.text_content}")


Resultados con L2 Distance:
ID: 2, Texto: El gato está sobre la mesa.
ID: 12, Texto: El gato está sobre la mesa.
ID: 8, Texto: El café es mi bebida favorita.


In [18]:
print("\nResultados con Cosine Similarity:")
results_cosine = search_by_cosine_similarity(query)
for result in results_cosine:
    print(f"ID: {result.id}, Texto: {result.text_content}")


Resultados con Cosine Similarity:
ID: 2, Texto: El gato está sobre la mesa.
ID: 12, Texto: El gato está sobre la mesa.
ID: 8, Texto: El café es mi bebida favorita.
