In [None]:
from pgvector.psycopg import register_vector
import psycopg
from sentence_transformers import SentenceTransformer
import os


conn_params = {
    'host': os.getenv("RDS_DB_URL"),
    'port': '5432',
    'dbname': 'db_name',
    'user': 'postgres',
    'password': os.getenv("RDS_CVM_RAG_DB_PW")
}

conninfo = f"postgresql://{conn_params['user']}:{conn_params['password']}@{conn_params['host']}:{conn_params['port']}/{conn_params['dbname']}"
print(conninfo)

  from tqdm.autonotebook import tqdm, trange
2025-01-13 14:32:12.276419: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-01-13 14:32:12.284831: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2025-01-13 14:32:12.294445: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2025-01-13 14:32:12.297198: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-01-13 14:32:12.305387

postgresql://postgres:P6JcjPWBoutUy9PC68Er@database-1.cz4ckwoaypve.us-east-2.rds.amazonaws.com:5432/db_name


In [53]:
conn = psycopg.connect(conninfo, autocommit=True)
conn.execute('CREATE EXTENSION IF NOT EXISTS vector')
register_vector(conn)

In [None]:
conn.execute('DROP TABLE IF EXISTS test_doc')
conn.execute('CREATE TABLE test_doc (id bigserial PRIMARY KEY, content text, embedding vector(384))')
conn.execute("CREATE INDEX ON test_doc USING GIN (to_tsvector('english', content))")

sentences = [
    'The dog is barking',
    'The cat is purring',
    'The bear is growling'
]
#model = SentenceTransformer('multi-qa-MiniLM-L6-cos-v1')
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
for content, embedding in zip(sentences, embeddings):
    conn.execute('INSERT INTO test_doc (content, embedding) VALUES (%s, %s)', (content, embedding))

sql = """
WITH semantic_search AS (
    SELECT id, RANK () OVER (ORDER BY embedding <=> %(embedding)s) AS rank
    FROM test_doc
    ORDER BY embedding <=> %(embedding)s
    LIMIT 20
),
keyword_search AS (
    SELECT id, RANK () OVER (ORDER BY ts_rank_cd(to_tsvector('english', content), query) DESC)
    FROM test_doc, plainto_tsquery('english', %(query)s) query
    WHERE to_tsvector('english', content) @@ query
    ORDER BY ts_rank_cd(to_tsvector('english', content), query) DESC
    LIMIT 20
)
SELECT
    COALESCE(semantic_search.id, keyword_search.id) AS id,
    COALESCE(1.0 / (%(k)s + semantic_search.rank), 0.0) +
    COALESCE(1.0 / (%(k)s + keyword_search.rank), 0.0) AS score
FROM semantic_search
FULL OUTER JOIN keyword_search ON semantic_search.id = keyword_search.id
ORDER BY score DESC
LIMIT 5
"""
query = 'growling bear'
embedding = model.encode(query)
k = 60
results = conn.execute(sql, {'query': query, 'embedding': embedding, 'k': k}).fetchall()
for row in results:
    print('document:', row[0], 'RRF score:', row[1])

document: 3 RRF score: 0.03278688524590163934
document: 1 RRF score: 0.01612903225806451613
document: 2 RRF score: 0.01587301587301587302


In [73]:
conn = psycopg.connect(conninfo, autocommit=True)
conn.execute('CREATE EXTENSION IF NOT EXISTS vector')
register_vector(conn)

sql = """
WITH semantic_search AS (
    SELECT id, RANK () OVER (ORDER BY doc_embeddings <=> %(embedding)s) AS rank,
    doc_text
    FROM documents
    ORDER BY doc_embeddings <=> %(embedding)s
    LIMIT 20
),
keyword_search AS (
    SELECT id, RANK () OVER (ORDER BY ts_rank_cd(to_tsvector('portuguese', doc_text), query) DESC), 
    doc_text
    FROM documents, plainto_tsquery('portuguese', %(query)s) query
    WHERE to_tsvector('portuguese', doc_text) @@ query
    ORDER BY ts_rank_cd(to_tsvector('portuguese', doc_text), query) DESC
    LIMIT 20
)
SELECT
    COALESCE(semantic_search.id, keyword_search.id) AS id,
    COALESCE(1.0 / (%(k)s + semantic_search.rank), 0.0) +
    COALESCE(1.0 / (%(k)s + keyword_search.rank), 0.0) AS score,
    COALESCE(semantic_search.doc_text, keyword_search.doc_text) AS doc_text
FROM semantic_search
FULL OUTER JOIN keyword_search ON semantic_search.id = keyword_search.id
ORDER BY score DESC
LIMIT 5
"""
query = 'Quais empresas do ramo imobiliário e de construção você conhece?'
embedding = model.encode(query)
k = 60
results = conn.execute(sql, {'query': query, 'embedding': embedding, 'k': k}).fetchall()
for row in results:
    print('document:', row[0], 'RRF score:', row[1])

document: 554836 RRF score: 0.01639344262295081967
document: 597122 RRF score: 0.01612903225806451613
document: 525404 RRF score: 0.01587301587301587302
document: 538925 RRF score: 0.01562500000000000000
document: 517441 RRF score: 0.01538461538461538462


In [74]:
results

[(554836,
  Decimal('0.01639344262295081967'),
  'slação \ntrabalhista brasileira, as investidas da Companhia com atividades no Brasil e/ou a Companhia podem ser \nconsideradas como responsáveis subsidiárias ou solidárias pelas obrigações trabalhistas e previdenciárias \n\nreferentes aos colaboradores terceirizados, pelo período da prestação de serviços do colaborador \nterceirizado para as investidas da Companhia com atividades no Brasil.  \nAdicionalmente, caso seja verificada a existência de elementos da relação de emprego, sobretudo de \npessoalidade e subordinação, entre os colaboradores terceirizados e as respectivas investidas da Companhia \ncom atividades no Brasil, a justiça do trabalho pode declarar referidas sociedades como empregadoras \ndiretas dos colaboradores terceirizados e reconhecer a responsabilidade solidária entre as investidas da \nCompanhia e a empresa prestadora de serviços pelo pagamento de obrigações trabalhistas e previdenciárias \nreferentes ao período no q

In [70]:
conn = psycopg.connect(conninfo, autocommit=True)
conn.execute('CREATE EXTENSION IF NOT EXISTS vector')
register_vector(conn)

sql = """
WITH semantic_search AS (
    SELECT id, RANK () OVER (ORDER BY doc_embeddings <=> %(embedding)s) AS rank,
    doc_text
    FROM documents
    ORDER BY doc_embeddings <=> %(embedding)s
    LIMIT 20
)
SELECT
    *
FROM semantic_search
LIMIT 5
"""
query = 'Quais os principais destaques das empresas do grupo SIMPAR no ano de 2023?'
embedding = model.encode(query)
k = 60
results = conn.execute(sql, {'query': query, 'embedding': embedding, 'k': k}).fetchall()
for row in results:
    print('document:', row[0], 'RRF score:', row[1])

document: 476989 RRF score: 1
document: 464378 RRF score: 2
document: 367652 RRF score: 3
document: 448112 RRF score: 4
document: 366562 RRF score: 5


In [71]:
results

[(476989,
  1,
  'e das Empresas \nEletrobras no exercício social findo em 2023 foi de aproximadamente 13,67%. \n \n \n\n \nEm 2023, a Companhia lançou um novo Programa de Demissão Voluntária (“PDV 2023”), tendo duas \njanelas de inscrição (junho a julho de 2023 e dezembro de 2023), totalizando 1573 inscrições.  \nApós a inscrição e validação das inscrições, a Companhia iniciou os desligamentos ao longo de 2023 \ncom uma parcela das saídas que ainda serão realizadas em 2024. \nQuantitativo de adesões ao PDV 2023  \n  \nInscrições  \n% por empresa  \nEmpresa  \n2023  \nTotal  \nEletrobras CGT Eletrosul  \n213 \n13,54 \nEletrobras Chesf  \n352 \n22,38 \nEletrobras  \n140 \n8,90 \nEletrobras Eletronorte  \n449 \n28,54 \nEletrobras Furnas  \n419 \n26,64 \nTotal  \n1573 \n100,00 \n \n \n \n\n \na \npolítica de salários e remuneração variável  \nA Política de Gestão de Pessoas das Empresas Eletrobras reconhece o comprometimento com a \ntransparência, execução dos objetivos empresariais, sust